https://frosthead.com

Hablando con máquinas

El software de reconocimiento de voz, la mayoría de nosotros probablemente estaría de acuerdo, es algo muy bueno. Pero la parte de hablar con las máquinas, ya sea teléfono inteligente, pantalla de TV o tablero, bueno, no tanto. ¿Pedir consejo de un dispositivo? Apesta a geek. ¿Enuncia cada palabra para que pueda ser entendido? ¿Qué tan genial puedes ser realmente?

Pero Apple, fiel a su forma, se ha puesto de cabeza al contratar a tres íconos geniales para protagonizar su última campaña publicitaria para Siri, la voz del iPhone 4S. Están Zooey Deschanel (Adorable Cool) y John Malkovich (Cerebral Cool) y Samuel L. Jackson (Ultimate Cool), y todos hacen que participar en juegos de palabras con un teléfono parezca el deporte de los dioses.

Los críticos, sin embargo, señalan que en la vida real, Siri no responde ni sabe todo lo que retrata en los comerciales. Usted, también, estoy seguro, se sorprende al escuchar esto. Otros consideran que todo está listo para la parodia: vea al hermano de Zooey, Jooey, haciendo una versión divertida o muerta del día lluvioso de Zooey y Siri juntos.

No importa. Siri se ha convertido en una cantante principal en el coro de robots, la voz "You Got Mail" de una nueva generación.

Está de moda en algunos círculos sugerir que Siri no es digno de Steve Jobs, que si todavía estuviera vivo, Jobs lo habría sacado del mercado o, al menos, nunca habría aprobado un anuncio de tan alto perfil. campaña para un producto tan defectuoso.

Pero como dijo el sucesor de Jobs, Tim Cook, a principios de esta semana, a los propietarios de iPhone 4S les gusta Siri. Según una encuesta publicada en marzo, casi el 90 por ciento dice que la usa al menos una vez al mes. Y tenga en cuenta que Siri, uno de los pocos productos de Apple que se dice que está en versión beta cuando se lanzó, no celebrará su primer cumpleaños hasta octubre. Todavía está aprendiendo idiomas y, lo que es más importante, apenas comienza a aprovechar el potencial de la inteligencia artificial.

Siri probablemente será una pieza central de Apple TV, se espera que haga su debut en diciembre. Pero lo más probable es que el lugar donde hablar con las máquinas se generalice sea en nuestros autos.

Conduce, dijo ella

Claro, eso ya está sucediendo, pero aún tienes que cambiar a hablar de robot si quieres que te entiendan. E incluso entonces no hay garantía. ¡Eso comenzará a cambiar este verano cuando algunos modelos nuevos vengan equipados con algo llamado Dragon Drive!

Es la invención de Nuance Communications, una compañía con sede en Massachusetts que se ha convertido en una potencia en el negocio del reconocimiento de voz. (Se cree ampliamente que es el cerebro detrás de Siri.) El matiz y el reconocimiento de voz en los automóviles dieron un gran salto la semana pasada cuando la empresa anunció que Dragon Drive! podrá aprovechar la nube.

Lo que esto significa es que el sistema aumentará drásticamente su capacidad informática y su capacidad de memoria. Y eso significa que la voz en su tablero de instrumentos se parecerá más a Siri y le permitirá conversar con ella. No más gritos monosilábicos. Llegará el día en que podrás mencionar casualmente que te sientes como algunos hermanos Allman y segundos más tarde "Whipping Post" saldrá por los altavoces.

La clave es qué tan bien podemos enseñar a las máquinas el contexto y la pragmática, cómo se usa el lenguaje en situaciones sociales. Y eso es un asunto complicado. Para empezar, incluso el dispositivo de reconocimiento de voz más sofisticado debe esperar a que un humano termine de hablar para poder analizar e interpretar toda la oración. Luego está la "teoría de la mente", la capacidad de comprender que otras personas pueden tener creencias e intenciones diferentes a las nuestras. Hasta donde sabemos, solo los humanos pueden hacer esto.

Un estudio reciente realizado por dos psicólogos de Stanford puede darle una idea de lo que implica ayudar a las máquinas a intuir. Los investigadores Michael Frank y Noah Goodman organizaron un experimento en línea en el que se les pidió a los participantes que miraran un conjunto de objetos y luego seleccionaran cuál se refería como una palabra en particular. Por ejemplo, un grupo de participantes vio un cuadrado azul, un círculo azul y un cuadrado rojo. La pregunta para ese grupo fue: Imagina que estás hablando con alguien y quieres referirte al objeto del medio. ¿Qué palabra usarías, "azul" o "círculo"?

Se le preguntó al otro grupo: imagine que alguien le está hablando y usa la palabra "azul" para referirse a uno de estos objetos. ¿De qué objeto están hablando?

Las respuestas ayudaron a los investigadores a obtener una imagen más clara de cómo un oyente entiende a un hablante y cómo un orador decide qué decir. A partir de eso, desarrollaron el tipo de modelo matemático que puede expandir y refinar el proceso de pensamiento de una computadora.

Frank dijo: "Tomará años de trabajo, pero el sueño es tener una computadora que realmente piense en lo que quiere y lo que quiere decir en lugar de solo lo que dijo".

Una forma de hablar

Aquí hay algunos desarrollos más recientes en reconocimiento de voz:

  • Siri se queda en silencio: IBM tiende a estar realmente nervioso por la divulgación de secretos corporativos, por lo que ahora prohíbe a sus empleados usar sitios públicos de transferencia de archivos, como Dropbox. Pero también tiene una prohibición sobre el uso de Siri en la oficina porque los ejecutivos de seguridad temen que alguien, mientras habla con su teléfono, pueda revelar información confidencial que termina en los servidores de Apple.
  • ¡Toma eso, Apple !: Samsung lanzó su nuevo teléfono inteligente Galaxy X III en Londres esta semana, y aunque su gran pantalla táctil está recibiendo mucha atención, también presenta un nuevo software de reconocimiento de voz y rostro.
  • Haz lo que digo, no lo que hago: y Samsung no se detiene allí. Recientemente presentó una solicitud de patente para un robot que entiende el habla humana. El robot podría ajustar sus capacidades de "escucha" para tener en cuenta el ruido ambiental que podría interrumpir o interrumpir los comandos que se le han dado. También podría reconocer quién le está hablando, incluso si el ruido de fondo es muy fuerte.

Bono de infografía: cree que su automóvil está computarizado ahora. Espere hasta que esté completamente conectado a Internet. Obtenga información sobre lo que puede hacer un automóvil conectado.

Hablando con máquinas