Hace unas semanas, estaba en un centro comercial cuando noté a una mujer que llevaba un gran bolso con una correa tipo cuerda. Como estoy buscando un nuevo bolso, contemplé preguntarle dónde lo consiguió. Pero antes de que pudiera hacer mi movimiento, ella desapareció en una esquina. Cuando llegué a casa, intenté buscar en Google la bolsa. Pero no soy fashionista, y descubrí que no tenía el vocabulario para describir lo que había visto. "Bolso de cuero con correa de cordón" no estaba bien. Tampoco era "bolso con asa de cuerda" o "bolsa con correa de cordón". Finalmente, me di por vencido.
Ahora, una nueva tecnología tiene como objetivo ayudar a las personas a buscar cosas que no necesariamente pueden describir con palabras.
James Hays, un científico informático del Instituto de Tecnología de Georgia, ha creado un programa informático capaz de combinar imágenes dibujadas a mano con fotografías. Esto podría conducir a un programa que pueda combinar servicios de búsqueda de imágenes en Internet, como Google Images, y encontrar fotografías que coincidan con precisión con los dibujos de los usuarios.
"El objetivo es poder relacionar o combinar fotos y bocetos en cualquier dirección, al igual que una lata humana", dice Hays. “Un humano puede ver un boceto mal dibujado y descubrir con qué foto parece coincidir. Queremos tener la misma capacidad computacionalmente ”.
Para crear el programa, Hays contrató a casi 700 trabajadores de Amazon Mechanical Turk, un mercado de crowdsourcing que une a los trabajadores con personas que necesitan realizar tareas. Su equipo mostró a los trabajadores fotos de objetos y animales comunes, como ardillas, teteras y plátanos, permitiéndoles mirar la imagen durante dos segundos. El trabajador entonces dibujaría el objeto de la memoria. El equipo finalmente reunió más de 75, 000 bocetos de 12, 500 objetos. Llamaron a esto la "base de datos incompleta".
Luego, el programa analizó los bocetos y los comparó con la fotografía que más se parecían. La tecnología identificó la foto correcta el 37 por ciento de las veces. Los humanos, en comparación, tenían razón aproximadamente el 54 por ciento de las veces. Si bien el 37 por ciento puede no parecer impresionante, en realidad es un gran salto para las computadoras.
"Los humanos ya son tan asombrosamente buenos en la visión que reconocemos las imágenes sin esfuerzo", dice Hays. "En realidad es sorprendentemente difícil computacionalmente".
Uno de los principales desafíos para mejorar el programa es que la mayoría de las personas son artistas bastante malos. Como Hays y su equipo escribieron en un artículo sobre el tema, “Las formas y escalas están distorsionadas. Las partes de los objetos son caricaturescas (orejas grandes en un elefante), antropomorfizadas (boca sonriente en una araña) o simplificadas (extremidades en forma de palo) ".
Históricamente, la investigación sobre cómo hacer que las computadoras reconozcan bocetos se ha centrado en cosas como la distribución de líneas en un dibujo, la dirección en la que van las líneas o dónde están los límites del dibujo. Pero dado que los humanos solo dibujan lo que es relevante para los humanos (los ojos, por ejemplo, siempre se incluyen en los bocetos, aunque sean relativamente pequeños), es importante que una computadora "aprenda" cómo los bocetos tienden a ser similares y cómo tienden a Ser diferente de las fotografías. Para esto, el programa utiliza dos redes separadas, una que evalúa los bocetos y otra que evalúa las fotografías. Mediante el análisis constante de un gran conjunto de datos, el programa puede "aprender" continuamente.
Hays y su equipo planean continuar mejorando el programa agregando datos. Los avances en el aprendizaje informático también deberían ayudar a mejorar las tasas de coincidencia. A partir de ahora, el programa tiene una tasa de coincidencia bastante alta al comparar bocetos con bases de datos de fotos en Internet, incluido Flickr, aunque es difícil de cuantificar, dice Hays.
Además de la búsqueda de imágenes de bolsos que tanto necesito, el programa tiene varios usos potenciales menos frívolos. La policía podría escanear bocetos sospechosos y compararlos con una base de datos de fotografías criminales. El programa podría ser utilizado por personas que hablan y escriben en cualquier idioma, o que no pueden escribir en absoluto.
"Un objetivo de comprender los bocetos es que son un lenguaje algo universal", dice Hays. “No está vinculado a un idioma escrito en particular y ni siquiera está vinculado a la alfabetización en absoluto. [Un programa como este podría traer] acceso a la información sin lenguaje escrito ".
El programa también podría usarse artísticamente para crear escenas fotorrealistas a partir de bocetos. ¿Siempre imaginaste vivir en un castillo en la luna? Dibújalo, y el programa algún día podría crear una imagen fotográfica para ti uniendo piezas de otras imágenes.
La información recopilada por Hays y su equipo también podría ayudar a abordar algunas preguntas de neurociencia y psicología, dice Hays.
"Estos pares de bocetos de fotos dicen algo sobre la percepción humana, sobre lo que creemos que es relevante, qué partes de las imágenes captan nuestra atención", dice Hays. “De alguna manera, esta base de datos codifica esto bastante bien. Podría haber algo que sacar de eso si quieres decir algo sobre los humanos mismos ".