¿PUEDE UN MODELO DE COMPUTADORA PREDECIR LA PRIMERA RONDA DE LA LOCURA DE MARZO DE ESTE AÑO? EL | INNOVACIÓN | SMITHSONIAN - ARTICULOS, INNOVACION, TECNOLOGIA

"Cuidado con los idus de marzo". Sí, finalmente es esa época del año otra vez: cuando los emperadores del baloncesto universitario deben vigilar sus espaldas, para que no se derramen las semillas del torneo.

Antes del 15 de marzo, millones de personas en todo el mundo completarán sus corchetes de March Madness. En 2017, ESPN recibió un récord de 18.8 millones de brackets.

El primer paso para un soporte perfecto es elegir correctamente la primera ronda. Desafortunadamente, la mayoría de nosotros no podemos predecir el futuro. El año pasado, solo 164 de los corchetes presentados fueron perfectos durante la primera ronda, menos del 0.001 por ciento.

18, 8 millones de corchetes presentados.

164 son perfectos después de la Ronda 1.

Aquí está para sobrepasar. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
- ESPN Fantasy Sports (@ESPNFantasy) 18 de marzo de 2017

Muchos corchetes se rompen cuando un equipo de baja semilla altera la semilla más alta favorita. Dado que el campo se expandió a 64 equipos en 1985, se producen al menos ocho trastornos en promedio cada año. Si desea ganar su grupo de brackets, es mejor que elija al menos algunas sorpresas.

Somos dos doctores en matemáticas. candidatos en la Universidad Estatal de Ohio que sienten pasión por la ciencia de datos y el baloncesto. Este año, decidimos que sería divertido crear un programa de computadora que utilice un enfoque matemático para predecir los trastornos de primera ronda. Si estamos en lo cierto, un soporte elegido con nuestro programa debería funcionar mejor durante la primera ronda que el soporte promedio.

Humanos falibles

No es fácil identificar cuál de los juegos de la primera ronda resultará molesto.

Digamos que tiene que decidir entre la semilla No. 10 y la semilla No. 7. La semilla número 10 ha logrado sorpresas en sus últimas tres apariciones en torneos, una vez que llegó a la Final Four. La semilla número 7 es un equipo que recibió poca o ninguna cobertura nacional; El fanático casual probablemente nunca ha oído hablar de ellos. ¿Cuál escogerías?

Si eligió la semilla número 10 en 2017, habría ido con la Virginia Commonwealth University a Saint Mary's of California, y se habría equivocado. Gracias a una falacia en la toma de decisiones llamada sesgo reciente, se puede engañar a los humanos para que usen sus observaciones más recientes para tomar una decisión.

El sesgo de actualidad es solo un tipo de sesgo que puede infiltrarse en el proceso de selección de alguien, pero hay muchos otros. Tal vez estés predispuesto hacia tu equipo local, o tal vez te identifiques con un jugador y desees desesperadamente que tenga éxito. Todo esto influye en su soporte de una manera potencialmente negativa. Incluso los profesionales experimentados caen en estas trampas.

Molestias de modelado

El aprendizaje automático puede defenderse contra estos escollos.

En el aprendizaje automático, los estadísticos, matemáticos y científicos de la computación entrenan una máquina para hacer predicciones dejándola "aprender" de datos pasados. Este enfoque se ha utilizado en muchos campos diversos, incluidos el marketing, la medicina y el deporte.

Las técnicas de aprendizaje automático se pueden comparar con una caja negra. Primero, alimenta el algoritmo con datos pasados, esencialmente configurando los diales en el cuadro negro. Una vez que la configuración está calibrada, el algoritmo puede leer datos nuevos, compararlos con datos anteriores y luego escupir sus predicciones.

Una vista de recuadro negro de algoritmos de aprendizaje automático. (Matthew Osborne, CC BY-SA)

En el aprendizaje automático, hay una variedad de cajas negras disponibles. Para nuestro proyecto March Madness, los que queríamos se conocen como algoritmos de clasificación. Estos nos ayudan a determinar si un juego debe clasificarse o no como un trastorno, ya sea proporcionando la probabilidad de un trastorno o clasificando explícitamente un juego como uno.

Nuestro programa utiliza una serie de algoritmos de clasificación populares, que incluyen regresión logística, modelos forestales aleatorios y vecinos más cercanos. Cada método es como una "marca" diferente de la misma máquina; funcionan de manera tan diferente bajo el capó como Ford y Toyotas, pero realizan el mismo trabajo de clasificación. Cada algoritmo, o cuadro, tiene sus propias predicciones sobre la probabilidad de un trastorno.

Utilizamos las estadísticas de todos los equipos de primera ronda de 2001 a 2017 para establecer los diales en nuestras cajas negras. Cuando probamos uno de nuestros algoritmos con los datos de primera ronda de 2017, tenía una tasa de éxito de aproximadamente el 75 por ciento. Esto nos da la confianza de que el análisis de datos pasados, en lugar de solo confiar en nuestro instinto, puede conducir a predicciones más precisas de las perturbaciones y, por lo tanto, a mejores corchetes generales.

¿Qué ventajas tienen estas cajas sobre la intuición humana? Por un lado, las máquinas pueden identificar patrones en todos los datos de 2001-2017 en cuestión de segundos. Además, dado que las máquinas solo dependen de los datos, es menos probable que caigan en sesgos psicológicos humanos.

Eso no quiere decir que el aprendizaje automático nos dé los soportes perfectos. Aunque la caja evita el sesgo humano, no es inmune al error. Los resultados dependen de datos pasados. Por ejemplo, si una semilla No. 1 perdiera en la primera ronda, nuestro modelo probablemente no lo predeciría, porque eso nunca ha sucedido antes.

Además, los algoritmos de aprendizaje automático funcionan mejor con miles o incluso millones de ejemplos. Solo se han jugado 544 juegos de la primera ronda de March Madness desde 2001, por lo que nuestros algoritmos no llamarán correctamente a todos los disgustos. Haciéndose eco de la experta en baloncesto Jalen Rose, nuestro resultado debe usarse como una herramienta junto con su conocimiento experto, ¡y suerte! - para elegir los juegos correctos.

Máquina de aprendizaje de la locura?

No somos las primeras personas en aplicar el aprendizaje automático a March Madness y no seremos los últimos. De hecho, las técnicas de aprendizaje automático pueden ser pronto necesarias para que su soporte sea competitivo.

No necesitas un título en matemáticas para usar el aprendizaje automático, aunque nos ayuda. Pronto, el aprendizaje automático puede ser más accesible que nunca. Los interesados pueden ver nuestros modelos en línea. Siéntase libre de explorar nuestros algoritmos e incluso idear un mejor enfoque usted mismo.

Este artículo fue publicado originalmente en The Conversation.

Matthew Osborne, Ph.D Candidato en Matemáticas, The Ohio State University

Kevin Nowland, Candidato a Doctor en Matemáticas, Universidad Estatal de Ohio