https://frosthead.com

Cómo Google mantiene su spam fuera de su bandeja de entrada

Detrás de todo el procesamiento de información de Google, desde descubrir qué resultados de búsqueda son los más importantes, hasta leer y mantener pestañas en su correo electrónico, hay algunas matemáticas interesantes. Y recientemente, Javier Tordable, un ingeniero de software, hizo una presentación al respecto, abriendo una ventana al geek mundo de Google solo un poco.

Comencemos con Gmail. A veces recibes correo no deseado, pero Gmail es bastante bueno para darse cuenta de que, cuando un corresponsal intenta que inviertas en un príncipe nigeriano, es probable que no quieras ese correo en tu bandeja de entrada. Como lo sabe Paso uno: entrena la máquina. Paso dos: ponlo a trabajar.

Se llama aprendizaje automático, y Google está haciendo mucho. En el primer paso, debe hacer lo que los informáticos llaman "caracterizar una instancia". En matemáticas, eso significa:

En general, las características de una instancia pueden considerarse como elementos en un vector de un espacio euclidiano ndimensional para un n grande (100-1000 dimensiones es normal, 1M-10M no es desconocido)

Pero aquí le mostramos cómo pensar si detiene las matemáticas después de Calc 1. Gmail puede extraer algunas piezas clave de información de cualquier correo electrónico en particular. Cuanto tiempo es ¿Cuántas letras mayúsculas hay? ¿Es de alguien de quien has recibido un correo electrónico? No desea que la información requerida para tomar la decisión sea demasiado difícil de obtener o tratar, ya que eso reducirá la velocidad y disminuirá la precisión de su máquina. Entonces Google dibuja una línea, basada en lo que sabe sobre el spam. Los correos electrónicos que pasan caen a un lado de la línea, y los spam, por el otro.

Más matemáticas hablan:

Un modelo de clasificación simple es un hiperplano en el espacio de características. Las instancias de datos en un lado del hiperplano se clasifican como correos electrónicos válidos y las instancias en el otro lado se clasifican como spam.

¿Qué pasa con la búsqueda por voz, también llamada reconocimiento de voz automatizado o ASR? Al igual que el aprendizaje automático, ASR ocurre en dos partes: procesando el sonido que entra y descubriendo lo que estás diciendo. La primera parte involucra transformadas de Fourier, que aíslan los bits importantes que la computadora puede traducir. La segunda parte es modelar el discurso usando lo que se llama un "modelo oculto de Markov". Tordable explica:

En este modelo, los estados son las letras del mensaje y la secuencia de eventos es la señal de sonido. El algoritmo de Viterbi se puede utilizar para obtener la secuencia de estados de máxima probabilidad.

A Google le encantaría hacer que el reconocimiento de voz sea mejor y más fácil. En este estudio de caso, un grupo de genios de Google escribe:

Un objetivo en Google es hacer que el acceso hablado esté disponible de forma ubicua. Nos gustaría permitir que el usuario elija: deberían poder dar por sentado que la interacción oral siempre es una opción. Lograr la ubicuidad requiere dos cosas: disponibilidad (es decir, integrada en cada interacción posible donde la entrada o salida de voz puede tener sentido) y rendimiento (es decir, funciona tan bien que la modalidad no agrega fricción a la interacción).

Otra área donde Google usa las matemáticas está en sus mapas, en el centro de atención recientemente después de que Apple presentó su sistema de mapeo con críticas considerables. En el corazón de Google Maps está la teoría básica de gráficos: la matemática de ir de un lugar a otro mientras se viaja la distancia más corta. Pero, por supuesto, es más complejo que eso. Tordable escribe: "Un problema único es que los gráficos utilizados en Google Maps contienen millones de nodos, pero los algoritmos deben ejecutarse en milisegundos".

Google no nos dirá cómo lo hacen. De lo contrario, Apple no se habría encontrado con su problema, pero los conceptos básicos implican el desbaratamiento del algoritmo de Dijsktra (probablemente el algoritmo de búsqueda de gráficos más utilizado). Hace unos años, los científicos informáticos de la Universidad de Karlsruhe describieron una nueva forma de clasificar las consultas de ruta para obtener resultados mucho más rápidos. Ellos escribieron:

Nuestro algoritmo procesa previamente el número de ocho dígitos de nodos necesarios para mapas de los EE. UU. O Europa occidental en unas pocas horas utilizando espacio lineal. Las consultas de ruta más cortas (es decir, las más rápidas) tardan alrededor de ocho milisegundos para producir rutas más cortas exactas. Esto es aproximadamente 2.000 veces más rápido que usar el algoritmo de Dijkstra.

Tordable pasa por una serie de otras herramientas matemáticas utilizadas por Google, incluidas las relacionadas con Google Books, Image Searches, Analytics, YouTube, Google Translate, Google Earth y Picasa. Puedes ver el conjunto completo de diapositivas aquí.

Más de Smithsonian.com:

El Smithsonian se mapea en Google
Seguimiento de tendencias de alimentos con Google Books

Cómo Google mantiene su spam fuera de su bandeja de entrada