https://frosthead.com

El software crea una imagen que lo dice todo

Todos los días, los usuarios suben más de 350 millones de fotos a Facebook. Esta afluencia de imágenes ha llevado a los analistas a estimar que el 10 por ciento de los 3, 5 billones de fotos del mundo se tomaron en el último año. Todos esos datos que inundan la Web significan que si está buscando una imagen u objeto en particular, como se ve un gato atigrado naranja, por ejemplo, está positivamente inundado de resultados de búsqueda.

El mes pasado, investigadores de la Universidad de California, Berkeley, presentaron un nuevo software, AverageExplorer, que permitirá a los usuarios ver la imagen "promedio" que representa lo que están buscando. En lugar de una imagen que vale más que mil palabras, es una imagen que vale más que mil imágenes o más.

"Cuando ingresas a una búsqueda de imágenes de Google, estarás revisando páginas y páginas de imágenes", explica Jun-Yan Zhu, estudiante graduado de UC Berkeley y autor principal del artículo, presentado en la Conferencia y Exposición Internacional de Gráficos por Computadora de este año. y técnicas interactivas en Vancouver. “Es enorme y difícil de resumir; no puedes tener una idea de lo que está sucediendo ".

Para su oferta inicial, Zhu y su equipo recopilaron fotografías a través de búsquedas de imágenes de Flickr, Google y Bing. El software es lo suficientemente bajo como para ejecutarse en un escritorio promedio y puede procesar unas 10, 000 imágenes simultáneamente.

Los usuarios refinan sus búsquedas de dos maneras diferentes. Pueden dibujar y colorear una forma, similar al dibujo en Adobe Photoshop o Illustrator, para agudizar el resultado promedio de la imagen. Por ejemplo, colorear el fondo de una imagen promedio de la Torre Eiffel auto-seleccionará la imagen promedio para tomar solo fotos tomadas por la noche. O bien, puede dibujar líneas en ángulo para controlar la orientación de una mariposa en el compuesto.

Puente de los suspiros, del día a la noche Al refinar los colores en una imagen del Explorador promedio del Puente de los Suspiros, puede cambiar la escena del día al anochecer a la noche. (Cortesía de UC Berkeley)

Una vez que se crea una imagen promedio, un proceso que puede tomar hasta un minuto, los usuarios pueden refinar aún más el resultado usando lo que el equipo llama Modo Explorador. En este modo, al hacer clic en cierta parte de una imagen, por ejemplo, la nariz de un gato, se revelarán otras opciones o refinamientos comunes para ese punto, tal vez narices azules o negras o redondeadas en lugar de angulares. En un video de demostración, por ejemplo, el equipo refinó una imagen de niños en el regazo de Santa seleccionando solo imágenes en las que Santa tiene un niño en cada brazo.

El sistema se volverá especialmente poderoso, dice Zhu, como una herramienta para entrenar algoritmos de visión por computadora, como los empleados por Google Goggles o las aplicaciones Amazon Firefly, que pueden identificar a qué apunta una cámara. "En el campo de la visión por computadora, las personas gastan mucho dinero para anotar objetos", explica. “Ahora puede aplicar la anotación a la imagen promedio. La idea es que solo necesita trabajar en una imagen para propagar todas las imágenes en un conjunto de datos ".

Encontrar razas de gatos Al refinar los modos de un resultado de búsqueda, los investigadores pueden encontrar razas específicas de gatos, incluidos (de izquierda a derecha) Ragdoll, Siamese, Maine Coon y Sphinx. (Cortesía de UC Berkeley)

La creación de obras de arte es la fruta de bajo perfil para AverageExplorer. El equipo se inspiró en artistas de los nuevos medios como Jason Salavon, quien ha creado minuciosamente fotografías promediadas a mano. También podría usarse para crear un complemento de Facebook que permita a los usuarios jugar con la imagen promedio de sí mismos.

Las aspiraciones de los investigadores son aún más amplias e impactantes. Los sociólogos podrían usar el sistema para detectar e investigar tendencias sociales; Por ejemplo, una imagen promediada podría demostrar que las novias suelen estar a la derecha del novio en los retratos de bodas. AverageExplorer también podría ser una herramienta útil para los analistas de medios que intentan diseccionar la cobertura televisiva: ¿cambia la postura de Stephen Colbert cuando habla de George W. Bush contra Barack Obama?

Al permitir que los usuarios interactúen intuitivamente con los datos visuales en lugar de luchar por ingresar la cadena correcta de palabras clave, los usuarios podrán salvar lo que el asesor de Zhu y cocreador de AverageExplorer, Alexei Efros, llama el "cuello de botella del idioma".

El equipo imagina un conjunto de herramientas personalizadas diseñadas para tareas específicas y difíciles de articular. Una aplicación de compras, por ejemplo, permitiría a un usuario arañar la web por un par de tacones con el color exacto, la forma del tacón y la altura que busca. Zhu visualiza una herramienta que se integra con el flujo de trabajo de los artistas de bocetos policiales, lo que permite a un testigo buscar en las bases de datos faciales características que coincidan con las del autor y construir un retrato compuesto.

Una versión básica de AverageExplorer se lanzará este otoño.

El software crea una imagen que lo dice todo