Una nueva red neuronal desarrollada por investigadores del Instituto de Tecnología de Massachusetts es capaz de construir una aproximación aproximada de la cara de un individuo basada únicamente en un fragmento de su discurso, un artículo publicado en informes de servidor de impresión previa arXiv .
El equipo entrenó la herramienta de inteligencia artificial, un algoritmo de aprendizaje automático programado para "pensar" muy parecido al cerebro humano, con la ayuda de millones de clips en línea que capturan más de 100, 000 hablantes diferentes. Apodada Speech2Face, la red neuronal utilizó este conjunto de datos para determinar los vínculos entre las señales vocales y las características faciales específicas; A medida que los científicos escriben en el estudio, la edad, el sexo, la forma de la boca, el tamaño de los labios, la estructura ósea, el lenguaje, el acento, la velocidad y la pronunciación son factores que influyen en la mecánica del habla.
Según Melanie Ehrenkranz de Gizmodo, Speech2Face se basa en asociaciones entre la apariencia y el habla para generar representaciones fotorrealistas de individuos de frente con expresiones neutrales. Aunque estas imágenes son demasiado genéricas para identificarse como una persona específica, la mayoría de ellas identifica con precisión el género, la raza y la edad de los hablantes.
Curiosamente, Jackie Snow explica para Fast Company, la nueva investigación no solo se basa en investigaciones previas sobre predicciones de edad y género a partir del habla, sino que también destaca los vínculos entre la voz y las "características craneofaciales" como la estructura de la nariz.
Los autores agregan: "Esto se logra sin información previa o la existencia de clasificadores precisos para este tipo de características geométricas finas".
Aún así, el algoritmo tiene sus defectos. Como señala Mindy Weisberger de Live Science, el modelo tiene problemas para analizar las variaciones del lenguaje. Cuando se reproduce un clip de audio de un hombre asiático que habla chino, por ejemplo, Speech2Face produjo una cara de la etnia correcta, pero cuando se grabó al mismo individuo hablando inglés, la IA generó una imagen de un hombre blanco.
En otros casos, los hombres de tono alto, incluidos los niños, fueron identificados erróneamente como mujeres, revelando el sesgo de género del modelo al asociar las voces de tono bajo con los hombres y las de tono alto con las mujeres. Dado que los datos de capacitación se derivaron en gran medida de videos educativos publicados en YouTube, los investigadores señalan además que el algoritmo no "representa por igual a toda la población mundial".
Según Jane C. Hu, de Slate, la legalidad del uso de videos de YouTube para investigación científica es bastante clara. Dichos clips se consideran información disponible públicamente; incluso si un usuario tiene derechos de autor de sus videos, los científicos pueden incluir los materiales en sus experimentos bajo una cláusula de "uso justo".
Pero la ética de esta práctica es menos directa. Hablando con Hu, Nick Sullivan, jefe de criptografía en Cloudflare, dijo que estaba sorprendido de ver una foto de sí mismo en el estudio del equipo del MIT, ya que nunca había firmado una renuncia ni escuchado directamente de los investigadores. Aunque Sullivan le dice a Hu que hubiera sido "bueno" que se le notificara su inclusión en la base de datos, reconoce que dado el gran tamaño del grupo de datos, sería difícil para los científicos comunicarse con todos los representados.
Al mismo tiempo, Sullivan concluye: “Dado que mi imagen y mi voz fueron señaladas como un ejemplo en el artículo de Speech2Face, en lugar de solo usarse como un punto de datos en un estudio estadístico, hubiera sido cortés contactarme para informarme o pide mi permiso ".
Una posible aplicación del mundo real para Speech2Face es utilizar el modelo para "adjuntar una cara representativa" a las llamadas telefónicas en función de la voz de un orador. Snow agrega que la tecnología de reconocimiento de voz ya se usa en varios campos, a menudo sin el conocimiento o consentimiento expreso de las personas. El año pasado, Chase lanzó un programa de "Identificación de voz" que aprende a reconocer a los clientes de tarjetas de crédito que llaman al banco, mientras que las instituciones correccionales de todo el país están creando bases de datos de "huellas de voz" de personas encarceladas.