La misma tecnología que impulsa a su hablador asistente móvil podría algún día dar voz a aquellos que han perdido la capacidad de hablar. Como Renae Reints informa para Fortune, los neurocientíficos de la Universidad de Columbia recientemente hicieron un gran avance hacia este objetivo futurista, traduciendo con éxito las ondas cerebrales en un discurso inteligible por primera vez.
La investigación del equipo, publicada en Scientific Reports, involucra un enfoque poco convencional. En lugar de seguir directamente los pensamientos para producir el habla, los investigadores registraron los patrones neurológicos generados por los sujetos de prueba que escuchaban a otros hablar. Estas ondas cerebrales se introdujeron en un codificador de voz, un algoritmo de inteligencia artificial que sintetiza el habla, y luego se convirtieron en un lenguaje comprensible, aunque de sonido robótico, que refleja las frases escuchadas por los participantes.
"Nuestras voces ayudan a conectarnos con nuestros amigos, familiares y el mundo que nos rodea, por lo que perder el poder de la voz debido a una lesión o enfermedad es tan devastador", dice la autora del estudio Nima Mesgarani, ingeniera del programa de neurobiología de Columbia. una declaración. “Con el estudio de hoy, tenemos una forma potencial de restaurar ese poder. Hemos demostrado que, con la tecnología adecuada, los pensamientos de estas personas podrían ser decodificados y entendidos por cualquier oyente ".
Vale la pena señalar, según George Dvorsky de Gizmodo, que los científicos aún no han descubierto cómo traducir directamente los pensamientos internos, también conocidos como discurso imaginado, en palabras. En este escenario ideal, las personas que utilizan la tecnología del habla simplemente imaginarían lo que querían decir y luego esperarían a que un sistema de voz artificial verbalizara estos pensamientos.
El fallecido físico británico Stephen Hawking utilizó una versión rudimentaria de la tecnología de síntesis de voz para comunicarse con otros. Como Nina Godlewski escribe para Newsweek, Hawking fue diagnosticado con esclerosis lateral amiotrófica (ELA) a los 21 años. La enfermedad de la neurona motora finalmente reclamó sus habilidades de habla, obligándolo a usar un clicker manual para activar el habla.
Cuando Hawking perdió el uso de sus manos, cambió a un sistema basado en movimientos faciales; Dvorsky de Gizmodo explica además que el científico usó un interruptor de mejilla conectado a sus lentes para elegir las palabras pronunciadas por un sintetizador de voz.
Una iteración avanzada de esta tecnología omitiría al intermediario, permitiendo a los usuarios producir voz sin la ayuda de una computadora o sistema sensible al movimiento.
Comparativamente, señala Avery Thompson para Popular Mechanics, el estudio del equipo de Columbia se enfoca en traducir el "discurso escuchado". Los investigadores reclutaron a cinco pacientes con epilepsia que se someterán a una cirugía cerebral y les pidieron que escucharan una variedad de palabras habladas, por ejemplo, la grabación de alguien contando de cero a nueve, mientras está conectado a dispositivos de monitorización neural.
Las ondas cerebrales capturadas por estas herramientas se pusieron en el codificador de voz, que sintetizó el habla con la ayuda de una red neuronal capacitada, en palabras de Kristin Houser, del Futurismo, para "limpiar" la salida y hacer que los sonidos sean inteligibles.
Luego, los científicos pidieron a otros 11 participantes que escucharan el discurso habilitado para IA. Significativamente, el coautor del estudio, Mesgarani, señala en la declaración de Columbia que estos individuos pudieron "comprender y repetir" los sonidos alrededor del 75 por ciento de las veces, "bien y más allá" de las tasas observadas en cualquier experimento anterior. (Puedes juzgar las grabaciones por ti mismo aquí).
En una entrevista con Dvorsky de Gizmodo, Mesgarani dice que él y sus colegas esperan sintetizar frases más complejas en el futuro cercano. Los investigadores también desean registrar las señales cerebrales generadas por los sujetos de prueba que piensan o imaginan el acto de hablar en lugar de simplemente escuchar a otros hablar. Finalmente, agrega Mesgarani en el comunicado, el equipo tiene como objetivo transformar un día la tecnología en un implante capaz de traducir los pensamientos de un usuario directamente en palabras.
Las posibles limitaciones de la nueva investigación incluyen su pequeño tamaño de muestra y, según el neurocientífico de la Universidad de Newcastle Andrew Jackson, que no participó en el estudio, el hecho de que las redes neuronales tendrían que introducirse en una gran cantidad de señales cerebrales de cada nuevo participante para sintetizar el habla más allá de los números del cero al nueve.
"Será interesante en el futuro ver qué tan bien los decodificadores entrenados para una persona generalizan a otras personas", Jackson le dice a Gizmodo . "Es un poco como los primeros sistemas de reconocimiento de voz que debían ser entrenados individualmente por el usuario, a diferencia de la tecnología actual, como Siri y Alexa, que pueden dar sentido a la voz de cualquier persona, nuevamente utilizando redes neuronales. Solo el tiempo dirá si algún día estas tecnologías podrían hacer lo mismo con las señales cerebrales ".