En 2008, Google anunció un nuevo servicio intrigante llamado Google Flu Trends. Los ingenieros de la compañía habían observado que ciertas consultas de búsqueda (como las que incluían las palabras "fiebre" o tos ") parecían aumentar cada temporada de gripe. Su idea era utilizar la frecuencia de estas búsquedas para calcular las tasas de gripe a nivel nacional más rápido de lo que podría ser hecho con datos convencionales (que generalmente demoran algunas semanas en recopilarse y analizarse), lo que les permite a las personas saber cuándo tomar precauciones adicionales para evitar contraer el virus.
contenido relacionado
- Cómo los modelos meteorológicos y Google podrían ayudar a pronosticar la temporada de gripe
- ¿Big Data o demasiada información?
Los medios de comunicación (incluido este reportero) se apresuraron a felicitar a Google por un uso tan perspicaz, innovador y disruptivo de los grandes datos. ¿El único problema? Google Flu Trends no ha funcionado muy bien.
El servicio ha sobreestimado constantemente las tasas de gripe, en comparación con los datos convencionales recopilados posteriormente por los CDC, estimando que la incidencia de la gripe es mayor de lo que realmente fue durante 100 de 108 semanas entre agosto de 2011 y septiembre de 2013. En enero de 2013, cuando nacional las tasas de gripe alcanzaron su punto máximo, pero las estimaciones de Google Flu Trends fueron dos veces más altas que los datos reales, su inexactitud finalmente comenzó a obtener cobertura de prensa.
La explicación más común de la discrepancia ha sido que Google no ha tenido en cuenta el aumento en las consultas relacionadas con la gripe que se producen como resultado de la histeria de la gripe impulsada por los medios que ocurre cada invierno. Pero esta semana en Science, un grupo de científicos sociales liderados por David Lazer propone una explicación alternativa: que los ajustes de Google a su algoritmo de búsqueda son los culpables.
Es ciertamente difícil para los extraños analizar Google Flu Trends, porque la compañía no hace públicos los términos de búsqueda específicos que utiliza como datos en bruto, o el algoritmo particular que utiliza para convertir la frecuencia de estos términos en evaluaciones de gripe. Pero los investigadores hicieron todo lo posible para inferir los términos mediante el uso de Google Correlate, un servicio que le permite observar las tasas de términos de búsqueda particulares a lo largo del tiempo.
Cuando los investigadores hicieron esto para una variedad de consultas relacionadas con la gripe en los últimos años, encontraron que un par de búsquedas clave (aquellas para tratamientos contra la gripe y aquellas que preguntaban cómo diferenciar la gripe del resfriado) se rastrearon más de cerca con Google Flu Estimaciones de las tendencias que con las tasas reales de gripe, especialmente cuando Google sobrestimó la prevalencia de la enfermedad. Parece que estas búsquedas particulares podrían ser una gran parte del problema de inexactitud.
Hay otra buena razón para sospechar que este podría ser el caso. En 2011, como parte de uno de sus ajustes regulares de algoritmos de búsqueda, Google comenzó a recomendar términos de búsqueda relacionados para muchas consultas (incluida la búsqueda de tratamientos para la gripe después de que alguien buscó en Google muchos términos relacionados con la gripe) y en 2012, la compañía comenzó a proporcionar diagnósticos potenciales en respuesta a los síntomas en las búsquedas (incluida la inclusión de "gripe" y "resfriado" después de una búsqueda que incluyó la frase "dolor de garganta", por ejemplo, tal vez haciendo que un usuario busque cómo distinguir entre los dos). Estos ajustes, argumentan los investigadores, probablemente aumentaron artificialmente las tasas de las búsquedas que identificaron como responsables de las sobreestimaciones de Google.
Por supuesto, si esta hipótesis fuera cierta, no significaría que Google Flu Trends esté inevitablemente condenada a la inexactitud, solo que necesita actualizarse para tener en cuenta los cambios constantes del motor de búsqueda. Pero Lazer y los otros investigadores argumentan que rastrear la gripe a partir de grandes datos es un problema particularmente difícil.
Resulta que una gran proporción de los términos de búsqueda que se correlacionan con los datos de los CDC sobre las tasas de gripe no son causados por personas que contraen la gripe, sino por un tercer factor que afecta tanto los patrones de búsqueda como la transmisión de la gripe: el invierno. De hecho, los desarrolladores de Google Flu Trends informaron que se encontraron términos particulares, aquellos relacionados con el baloncesto de la escuela secundaria, por ejemplo, que se correlacionaron con las tasas de gripe a lo largo del tiempo pero que claramente no tenían nada que ver con el virus.
Con el tiempo, los ingenieros de Google eliminaron manualmente muchos términos que se correlacionan con las búsquedas de gripe, pero que no tienen nada que ver con la gripe, pero su modelo era claramente demasiado dependiente de las tendencias de búsqueda estacionales que no son de gripe, parte de la razón por la cual Google Flu Trends no pudo reflejar el Epidemia de H1N1 2009, que ocurrió durante el verano. Especialmente en sus versiones anteriores, Google Flu Trends era "parte detector de gripe, parte detector de invierno", escriben los autores del artículo de Science .
Pero todo esto puede ser una lección para el uso de big data en proyectos como Google Flu Trends, en lugar de una acusación general, dicen los investigadores. Si se actualiza adecuadamente para tener en cuenta los ajustes al algoritmo de Google y se analiza rigurosamente para eliminar factores puramente estacionales, podría ser útil para documentar las tasas de gripe a nivel nacional, especialmente cuando se combina con datos convencionales.
Como prueba, los investigadores crearon un modelo que combinaba datos de Google Flu Trends (que es esencialmente en tiempo real, pero potencialmente inexacto) con datos de CDC de dos semanas (que está fechado, porque lleva tiempo recopilar, pero aún podría ser algo indicativo de las tasas actuales de gripe). Su híbrido coincidía con los datos de gripe actuales y actuales mucho más de cerca que Google Flu Trends solo, y presentaba una forma de obtener esta información mucho más rápido que esperar dos semanas para obtener los datos convencionales.
"Nuestro análisis de Google Flu demuestra que los mejores resultados provienen de la combinación de información y técnicas de ambas fuentes", dijo Ryan Kennedy, profesor de ciencias políticas y coautor de la Universidad de Houston, en un comunicado de prensa. "En lugar de hablar de una 'revolución de los grandes datos', deberíamos discutir una 'revolución de todos los datos'".