Los algoritmos de Facebook pueden distinguir su rostro de una multitud (o intentarlo al menos), pero aún no puede decir si está posando en un retrato familiar o bebiendo con amigos; no puede decirle cómo interactúa con los demás . Sin embargo, en el futuro, las computadoras pueden hacer exactamente eso. Ahora los investigadores han propuesto una forma de descubrir qué tan inteligentes son las computadoras en la identificación visual. Ellos llaman a su prueba una prueba visual de Turing, después de la prueba del científico informático Alan Turing de si una computadora puede mostrar inteligencia similar a la humana.
La percepción popular de la prueba es que se usa para distinguir a los humanos de las computadoras, y se usa una versión para ese efecto, cuando hace un CAPTCHA para suscribirse a un nuevo correo electrónico. Pero los investigadores de inteligencia artificial realmente piensan en la prueba como una forma de medir qué tan avanzada es la inteligencia informática hasta ahora.
"Ha habido algunos avances impresionantes en la visión por computadora en los últimos años", dice Stuart Geman, profesor de matemáticas en la Universidad de Brown y uno de los investigadores que proponen la nueva evaluación, en un comunicado de prensa. "Sentimos que podría ser hora de elevar el nivel en términos de cómo se evalúan y comparan estos sistemas".
En lugar de simplemente reconocer que una imagen muestra a dos personas, la prueba ve si las computadoras pueden descubrir que las dos personas están teniendo una conversación o incluso una discusión. Actualmente, los investigadores usan conjuntos de datos disponibles públicamente para probar sus programas: el MIT tiene LableMe, que utiliza el crowdsourcing para identificar el "automóvil", el "árbol" y el "edificio" en las imágenes, por ejemplo. Para mejorar esto y ofrecer un desafío mayor, los investigadores de Brown idearon un marco para una prueba de Turing visual estandarizada.
Lee Gomes para IEEE Spectrum informa:
Su método propuesto requiere que los diseñadores de pruebas humanos desarrollen una lista de ciertos atributos que podría tener una imagen, como si una escena de la calle tiene gente, o si las personas llevan algo o hablan entre sí. Las fotografías primero serían puntuadas a mano por humanos con estos criterios; un sistema de visión por computadora se vería en la misma imagen, sin las "respuestas", para determinar si fue capaz de detectar lo que los humanos habían visto.
Inicialmente, las preguntas serían rudimentarias, preguntando si hay una persona en una región designada de la imagen, por ejemplo. Pero las preguntas crecerían en complejidad a medida que los programas se volvieran más sofisticados; Una pregunta más complicada podría implicar la naturaleza de una interacción entre diferentes personas en la imagen.
El equipo describió la prueba en Actas de la Academia Nacional de Ciencias . A partir de ahora, German dice que ningún sistema informático podría pasar incluso las versiones simples de la nueva prueba. Pero lo harán en el futuro. Dado que hay muchas características posibles para cualquier foto, los investigadores tendrían que encontrar formas innovadoras para que sus computadoras aprendan a evaluar las fotos.
"Como investigadores, tendemos a 'enseñar a la prueba'", dice Geman en el comunicado. “Si hay ciertos concursos en los que todos participan y esas son las medidas del éxito, entonces eso es en lo que nos enfocamos. Por lo tanto, sería aconsejable cambiar la prueba, ponerla fuera del alcance de los sistemas de visión actuales ".