Si alguien le pidiera que prediga la cantidad de medallas que ganará cada país en los Juegos Olímpicos de este año, probablemente intente identificar a los atletas favoritos en cada evento, luego sume las ganancias esperadas de cada país para llegar a un resultado.
Tim y Dan Graettinger, los hermanos detrás de la compañía de minería de datos Discovery Corps, Inc., tienen un enfoque bastante diferente. Ignoran por completo a los atletas.
En cambio, su modelo para los juegos de Sochi analiza el área geográfica de cada país, el PIB per cápita, el valor total de las exportaciones y la latitud para determinar cuántas medallas ganará cada país. En caso de que se lo pregunte, predice que EE. UU. Saldrá a la cabeza, con 29 medallas en total.
Los Graettingers no son los primeros en emplear este tipo de enfoque de arriba hacia abajo basado en datos para predecir el recuento de medallas. Daniel Johnson, profesor de economía del Colorado College, construyó modelos similares para las cinco Olimpiadas entre 2000 y 2008, logrando un 94 por ciento de precisión general en la predicción del número de medallas de cada país, pero no creó un modelo para Sochi.
Dan y Tim son nuevos en el juego. Dan, que normalmente trabaja en proyectos de minería de datos más convencionales, por ejemplo, prediciendo clientes potenciales de una empresa, se interesó por primera vez en usar modelos para predecir competencias hace cuatro años, durante los Juegos Olímpicos de Invierno de Vancouver. "Uso datos sobre el pasado para predecir el futuro todo el tiempo", dice. "Todas las noches mostraban el recuento de medallas en la televisión, y comencé a preguntarme si podíamos predecirlo".
Aunque el rendimiento de los atletas individuales puede variar de manera impredecible, razonó, podría haber una relación general entre las características fundamentales de un país (su tamaño, clima y cantidad de riqueza, por ejemplo) y la cantidad de medallas que probablemente se llevaría a casa. Este tipo de enfoque no podría decir qué competidor podría ganar un evento determinado, pero con suficientes datos, podría predecir con precisión los recuentos de medallas agregados para cada país.
Inicialmente, él y su hermano se pusieron a trabajar para desarrollar un modelo preliminar para los juegos de Londres 2012. Para comenzar, recopilaron una amplia gama de diferentes tipos de conjuntos de datos, sobre todo, desde la geografía de un país hasta su historia, religión, riqueza y estructura política. Luego, utilizaron análisis de regresión y otros métodos de análisis de datos para ver qué variables tenían la relación más cercana con los datos históricos sobre medallas olímpicas.
Descubrieron que, para los juegos de verano, un modelo que incorporaba el producto interno bruto, la población, la latitud y la libertad económica general de un país (medido por el índice de la Fundación Heritage) se correlacionaba mejor con los recuentos de medallas de cada país en los dos Juegos Olímpicos de verano anteriores (2004) y 2008). Pero en ese momento, su modelo preliminar solo podía predecir qué países ganarían dos o más medallas, no el número de medallas por país.
Decidieron mejorarlo para los juegos de Sochi, pero no pudieron confiar en su modelo anterior, porque los países que tienen éxito en el invierno difieren mucho del verano. Su nuevo modelo de Sochi aborda el problema de predecir el conteo de medallas en dos pasos. Debido a que aproximadamente el 90 por ciento de los países nunca ha ganado una sola medalla de los Juegos Olímpicos de Invierno (ningún atleta de Medio Oriente, Sudamérica, África o el Caribe ha ganado alguna vez), primero separa el diez por ciento que probablemente gane al menos una, luego predice cuántos cada uno ganará
"Algunas tendencias son más o menos lo que cabría esperar: a medida que la población de un país aumenta, es más probable que gane una medalla", dice Tim. "Eventualmente, sin embargo, necesita una maquinaria estadística más poderosa que pueda analizar muchas variables y clasificarlas en términos de cuáles son las más predictivas".
Finalmente, encontraron algunas variables que separan con precisión el noventa por ciento de los países no ganadores de medallas del diez por ciento que probablemente ganarán: estos incluyen la tasa de migración, el número de médicos per cápita, la latitud, el producto interno bruto y si el país tenía ganó una medalla en los juegos de verano anteriores (ningún país había ganado una medalla de invierno sin ganar una el verano anterior, en parte porque el grupo de ganadores de verano es mucho más grande que el de invierno). Al ejecutar este modelo en los últimos dos Juegos Olímpicos de Invierno, este modelo determinó qué naciones se llevaron a casa una medalla con una precisión del 96.5 por ciento.
Con el 90 por ciento de los países eliminados, los Graettingers utilizaron análisis de regresión similares para crear un modelo que predijera, retroactivamente, cuántas medallas ganó cada país restante. Su análisis encontró que una lista ligeramente diferente de variables se ajusta mejor a los datos históricos de medallas. Estas variables junto con las predicciones para los juegos de Sochi están a continuación:
Las predicciones del modelo para los juegos de Sochi (Gráfico cortesía de Discovery Corps, Inc.)Algunas de las variables que resultaron ser correlativas no son un gran shock, tiene sentido que los países de mayor latitud tengan un mejor desempeño en los eventos que se juegan durante los juegos de invierno, pero algunas fueron más sorprendentes.
"Pensamos que la población, no el área terrestre, sería importante", dice Dan. No están seguros de por qué el área geográfica termina ajustando los datos históricos más de cerca, pero podría deberse a que algunos países de alta población que no ganan medallas de invierno (como India y Brasil) descartan los datos. Al utilizar el área de tierra, el modelo evita la influencia descomunal de estos países, pero aún conserva una asociación aproximada con la población, porque en general, los países con áreas más grandes tienen poblaciones más grandes.
Por supuesto, el modelo no es perfecto, incluso en la coincidencia de datos históricos. "Nuestro enfoque es el enfoque de 30, 000 pies. Hay variables que no podemos explicar", dice Tim. Algunos países han superado en repetidas ocasiones las predicciones del modelo (incluida Corea del Sur, que gana una cantidad desproporcionada de eventos de patinaje de velocidad en pistas cortas), mientras que otros constantemente tienen un rendimiento inferior (como el Reino Unido, que parece ser mucho mejor en los eventos de verano que se esperarían, quizás porque, a pesar de su latitud, llueve mucho más que la nieve).
Además, una excepción consistente que han encontrado en las predicciones del modelo es que el país anfitrión tiene más medallas de lo que lo haría de otra manera, simplemente por los datos. Tanto Italia (durante los juegos de Turín de 2006) como Canadá (durante los juegos de Vancouver de 2010) superaron al modelo, y Canadá estableció su récord histórico en ganar 14 oros.
Aún así, en base a su enfoque estadísticamente riguroso, los Graettingers confían en que, en general, su modelo predecirá el recuento final de medallas con un grado relativamente alto de precisión.
¿Cómo se comparan sus predicciones con las de los expertos que usan estrategias más convencionales? Los expertos no difieren dramáticamente, pero tienen algunos países tradicionalmente exitosos (Noruega, Canadá, Rusia) que ganan un mayor número de medallas, junto con algunos otros (China, los Países Bajos, Australia) cada uno ganando unos pocos menos.
Hasta la fecha, los Graettingers no han apostado por sus predicciones, pero sí planean comparar la producción de su modelo con las probabilidades de apuesta justo antes de que comiencen los juegos. Si ven alguna discrepancia que les gustaría explotar, podrían terminar poniendo su dinero donde está su boca.