https://frosthead.com

La prueba de Turing mide algo, pero no es "inteligencia"

Alan Turing, uno de los padres de la era de la informática, era un hombre extraordinariamente inteligente. Tan inteligente, de hecho, que entendió que el término "inteligencia artificial" carecía de sentido. Mejor, razonó, hablar sobre lo que una máquina realmente puede hacer: ¿puede hablar? ¿Puede mantener presionada una conversación? Al menos eso es algo que podemos intentar estudiar. Turing finalmente propuso lo que se conoce como la "prueba de Turing": si un juez no puede determinar cuál de las dos entidades ocultas es humana y cuál es artificial, la máquina ha "pasado" la prueba, que es exactamente lo que Se dice que sucedió el sábado pasado en Londres.

contenido relacionado

  • Silicon Valley debe su éxito a este genio tecnológico del que nunca has oído hablar
  • La predicción de 60 años de Alan Turing sobre patrones en la naturaleza ha demostrado ser cierta

"Estamos ... orgullosos de declarar que la prueba de Alan Turing fue aprobada por primera vez", dijo uno de los organizadores, Kevin Warwick, de la Universidad de Reading, cuando se anunciaron los resultados. El chatbot ganador se llama "Eugene Goostman", un programa de computadora que emula la personalidad de un niño ucraniano de 13 años. "Eugene" logró convencer al 33 por ciento de los jueces de que era humano en el evento del sábado, celebrado en las oficinas de la Royal Society en Londres en el 60 aniversario de la muerte de Turing. (Turing, un homosexual, fue condenado por indecencia grave en 1952 y se le ordenó someterse a un "tratamiento" hormonal como parte de un acuerdo de culpabilidad. Dos años más tarde murió de envenenamiento por cianuro en un aparente suicidio).

Pero una palabra de precaución está en orden. La "inteligencia" siempre ha sido un tema resbaladizo, y la prueba de Turing en particular ha estado llena de controversia durante mucho tiempo. Turing describió cómo funcionaría en un artículo de 1950 titulado "Maquinaria de computación e inteligencia". Tomó la idea de un juego de salón victoriano tradicional, en el que intenta averiguar si la persona escondida detrás de una cortina es un hombre o una mujer, solo haciendo preguntas (Las respuestas a las preguntas tenían que ser escritas, porque la voz sería un regalo.) Así es como funcionaría la versión de Turing: tendrías un juez, sentado frente a dos cortinas, sin forma de saber qué hay detrás de ellas. . Detrás de una cortina hay un humano; Detrás del otro hay una computadora. El juez puede hacer preguntas a cualquiera de las dos entidades ocultas. Con base en las respuestas, el juez intenta determinar si la entidad oculta es un humano o una máquina. (Turing imaginó la conversación como mediada por máquinas de teletipo; hoy en día, podemos usar cualquier tipo de interfaz electrónica basada en texto, como la que se usa en las salas de chat de Internet o la mensajería instantánea).

Turing especuló que para el año 2000 "un interrogador promedio no tendrá más del 70 por ciento de posibilidades de hacer la identificación correcta", es decir, los programas informáticos obstaculizarían a los jueces el 30 por ciento del tiempo, después de cinco minutos de interrogatorio. Los "cinco minutos" son importantes. Turing no habló sobre un límite de tiempo como parte inherente de la prueba, y uno podría argumentar que para que una máquina realmente pase la prueba, debería ser capaz de manejar cualquier cantidad de preguntas. Presumiblemente, el criterio de cinco minutos era un límite arbitrario pero necesario. El año 2000 vino y se fue, con los chatbots que solo frenaron el progreso. (En un momento más sobrio, respondiendo a una pregunta de un entrevistador de la BBC en 1952, Turing dijo que pasarían 100 años antes de que una máquina pasara la prueba).

En 2012, fui juez en un "maratón de prueba de Turing", el conjunto de pruebas de Turing más grande jamás realizado; se llevó a cabo en Bletchley Park, en Inglaterra, el sitio del trabajo vital de descifrado de códigos de Turing durante los últimos años de la Segunda Guerra Mundial. (Fue organizado por el mismo equipo que organizó el evento del sábado, y una versión anterior de Eugene también fue el ganador esa vez). La configuración para el evento del sábado fue la misma que en 2012: los jueces escribieron sus preguntas en una computadora, luego esperó a que aparecieran las respuestas en sus pantallas; los chatbots, junto con los "humanos ocultos", estaban en otra habitación, fuera de la vista.

Lo primero de lo que me hice hiperconsciente es que cuando eres juez en una prueba de Turing, pasan cinco minutos bastante rápido. Y cuanto más corta sea la conversación, mayor será la ventaja de la computadora; cuanto más largo sea el interrogatorio, mayor será la probabilidad de que la computadora se entregue. Me gusta llamar a esto el efecto maniquí: ¿Alguna vez te disculpaste con un maniquí de una tienda por departamentos, asumiendo que te habías topado con un ser humano vivo? Si el encuentro dura solo una fracción de segundo, con usted mirando hacia el otro lado, puede imaginar que acaba de rozar contra un humano. Cuanto más largo es el encuentro, más obvio es el maniquí del maniquí.

Es lo mismo con los chatbots. Un intercambio de saludos no revela nada, pero cuanto más te involucras, más problemas surgen. Los chatbots, descubrí, parecen propensos a cambiar de tema sin ningún motivo. A menudo, no pueden responder preguntas simples. A riesgo de parecer vagos, simplemente no suenan humanos . En una de mis conversaciones en 2012, escribí una broma simple, y la entidad con la que estaba conversando cambió instantáneamente el tema a hamburguesas. (El informático Scott Aaronson recientemente tuvo una experiencia similar cuando conversó con Eugene a través del sitio web del robot. Aaronson le preguntó a Eugene cuántas patas tiene un camello; respondió: "Algo entre 2 y 4. ¿Quizás, tres? :-)))" Más tarde, cuando Aaronson preguntó cuántas patas tenía una hormiga, Eugene tosió exactamente la misma respuesta, triple sonrisa y todo).

Tenga en cuenta también que Eugene no emula a un adulto nativo de habla inglesa; finge ser un adolescente ucraniano joven y algo impertinente, conversando en un inglés razonablemente bueno (pero lejos de ser perfecto). Como Vladimir Veselov, uno de los desarrolladores del programa, le dijo a Mashable.com : "Pasamos mucho tiempo desarrollando un personaje con una personalidad creíble". Aunque Eugene involucrará a cualquier persona en cualquier tema, su edad "hace que sea perfectamente razonable que no lo haga". no lo sabes todo. Eugene no sale y anuncia su edad y nacionalidad; pero lo revelará si se le solicita, y el resultado final puede ser una cierta indulgencia de los jueces, especialmente con respecto a la gramática inglesa y el uso de palabras. (Supongo que la mayoría de los jueces del sábado eran hablantes nativos de inglés, aunque no lo sé con certeza). Las cosas probablemente habrían cambiado si Eugene alguna vez se encontrara con un hablante nativo de Ucrania como juez.

La lucha por construir una máquina parlante resalta cuán complejo es el lenguaje. No es solo una cuestión de hablar, tienes que hablar sobre algo, y lo que dices tiene que tener sentido, y tiene que tener sentido en el contexto de lo que la otra persona acaba de decir. Para nosotros es fácil; para computadoras, no tanto. Y los chatbots se basan en una variedad de trucos: memorizar megabytes de respuestas enlatadas o buscar en Internet un diálogo que pueda aproximarse a la conversación en la que se encuentran actualmente. En otras palabras, lo que carece de inteligencia en una máquina puede compensarlo con la potencia informática en bruto. Esta es la razón por la cual Google o Siri (el asistente personal del iPhone) pueden parecernos tan inteligentes: Siri puede no tener una "mente", pero tiene acceso a una base de datos de información tan vasta que puede actuar como si lo fuera. ¡Fue el mismo tipo de enfoque de fuerza bruta que permitió que el "Watson" de IBM ganara en Jeopardy! en 2011.

Todo esto plantea una pregunta crucial: ¿qué es exactamente lo que mide la prueba de Turing? Algunos críticos han sugerido que es un truco de recompensas en lugar de inteligencia. El psicólogo de la NYU Gary Marcus, escribiendo en NewYorker.com, dice que Eugene tiene éxito "al ejecutar una serie de 'tácticas' diseñadas para enmascarar las limitaciones del programa". Steven Harnad, psicólogo e informático de la Universidad de Quebec en Montreal, fue aún más escéptico, diciéndole a The Guardian que era "un completo disparate" afirmar que Eugene había pasado la prueba de Turing. (Para su crédito, Turing era muy consciente de este problema; llamó a su idea "el juego de imitación", y habló de la inteligencia solo con moderación). Aún más torpemente, la computadora, a diferencia del humano, se ve obligada a engañar. "La prueba de Turing es realmente una prueba de ser un mentiroso exitoso", me dijo Pat Hayes, un científico informático del Instituto de Cognición Humana y de Máquinas en Pensacola, Florida, después de la maratón de la prueba de Turing de 2012. "Si tuvieras algo que realmente pudiera pasar el juego de imitación de Turing, sería una 'mímica humana' muy exitosa".

Y "humano" es el otro punto clave: ¿no es posible que haya otros tipos de inteligencia en el mundo, más allá del tipo que muestra nuestra especie? Una máquina verdaderamente inteligente tendría innumerables aplicaciones prácticas, pero ¿por qué centrarse en crear más "personas"? Después de todo, ya tenemos mucha gente. Como ha señalado el lingüista Noam Chomsky, cuando nos esforzamos por construir una máquina que se mueva bajo el agua, no requerimos que "nade", y un submarino no es menos que un logro por su incapacidad para realizar el golpe de espalda.

Sí, Eugene es impresionante, al menos en pequeñas explosiones. Y, sin embargo, incluso los mejores chatbots tropiezan con preguntas que un niño de la mitad de la edad fingida de Eugene podría manejar con tranquilidad. Quizás no sea sorprendente, la mayoría de los investigadores de IA pasan poco tiempo obsesionándose con la prueba de Turing. La inteligencia artificial es, de hecho, avanzar y con bastante rapidez. El software de traducción de voz a texto, que fue bastante patético hace solo unos años, está mejorando rápidamente, al igual que los programas de traducción de idiomas. Amazon a menudo tiene una idea bastante buena de lo que desea comprar incluso antes de hacerlo. Y el automóvil autónomo de Google habría sido una mera fantasía hace una década. Pero la conversación, a medida que seguimos descubriendo, es realmente difícil, y no es probable que sea la frontera en la que la IA brille más. Por ahora, si buscas a alguien con quien chatear, te recomiendo un humano real.

Dan Falk es periodista científico con sede en Toronto.

La prueba de Turing mide algo, pero no es "inteligencia"