https://frosthead.com

Cómo la inteligencia artificial podría revolucionar la investigación del museo de archivos

Cuando piensas en la inteligencia artificial, el campo de la botánica probablemente no sea lo más importante en tu mente. Cuando visualiza configuraciones para la investigación computacional de vanguardia, los museos centenarios pueden no encabezar la lista. Y, sin embargo, un artículo recién publicado en el Biodiversity Data Journal muestra que algunas de las innovaciones más emocionantes y portentosas en el aprendizaje automático se están llevando a cabo en el Herbario Nacional del Museo Nacional de Historia Natural en Washington, DC

El documento, que demuestra que las redes neuronales digitales son capaces de distinguir entre dos familias similares de plantas con tasas de precisión superiores al 90 por ciento, implica todo tipo de posibilidades deliciosas para los científicos y académicos en el futuro. El estudio se basa en software basado en algoritmos de "aprendizaje profundo", que permiten que los programas informáticos acumulen experiencia de la misma manera que lo hacen los expertos humanos, mejorando su juego cada vez que se ejecutan. Pronto, esta tecnología podría permitir análisis comparativos de millones de especímenes distintos de todos los rincones del mundo, una propuesta que anteriormente habría exigido una cantidad insostenible de trabajo humano.

"Esta dirección de investigación muestra una gran promesa", dice el profesor de Stanford Mark Algee-Hewitt, una voz prominente en el movimiento de humanidades digitales y asistente del director de la facultad en el Centro de Análisis Espacial y Textual de la universidad. "Estos métodos tienen la capacidad de brindarnos grandes cantidades de información sobre lo que contienen las colecciones", dice, y "al hacerlo, hacen que estos datos sean accesibles".

Estos nuevos hallazgos se basan en años de trabajo emprendido en la Institución Smithsonian para digitalizar sistemáticamente sus colecciones para el acceso académico y público en línea, y representan una notable reunión interdisciplinaria de mentes: los botánicos, los expertos en digitalización y los científicos de datos tuvieron un papel que desempeñar para llevar estos resultados a la luz.

La historia comienza en octubre de 2015, cuando la instalación de un aparato de cámara y cinta transportadora debajo del Museo de Historia Natural simplificó enormemente los esfuerzos para digitalizar la colección botánica del Smithsonian. En lugar de tener que escanear manualmente cada flor prensada y grupo de hierba en su repositorio, los trabajadores ahora pueden poner en fila conjuntos completos de muestras, dejar que el cinturón haga su magia y recuperarlos y catalogarlos al final de la cola. Un equipo de tres personas ha supervisado el cinturón desde su debut, y pasan por unos 750, 000 especímenes cada año. En poco tiempo, el inventario de herbario del Smithsonian, cinco millones de especímenes fuertes, estará completamente en línea.

Cada muestra está etiquetada con una tarjeta de identificación exhaustiva, que proporciona información sobre su procedencia, así como datos estadísticos esenciales. El contenido de estas tarjetas se ha transcrito y cargado junto con las imágenes digitales, lo que proporciona una vista completa de cada elemento de la colección para aquellos que tienen la inclinación de buscar.

En el archivo botánico digitalizado del Smithsonian, las imágenes de alta resolución de los especímenes se combinan con transcripciones de las prácticas etiquetas de identificación que tienen adheridas. En el archivo botánico digitalizado del Smithsonian, las imágenes de alta resolución de los especímenes se combinan con transcripciones de las prácticas etiquetas de identificación que tienen adheridas. (Museo Nacional de Historia Natural)

"Hace que nuestra colección sea accesible para cualquier persona que tenga una computadora y una conexión a Internet", dice la presidenta de botánica del museo Laurence Dorr, "lo cual es excelente para responder ciertas preguntas". Aun así, Dorr descubrió que no podía sacudir una sensación de potencial sin explotar . Claro, grandes cantidades de datos de muestras ahora estaban disponibles para la comunidad en línea, pero analizarlos en conjunto seguía siendo una fantasía. Buscar especímenes particulares y pequeñas categorías de especímenes fue bastante fácil, pero Dorr se preguntó si existía una forma de aprovechar los datos para sacar conclusiones sobre miles de especímenes. "¿Qué puedes hacer con estos datos?", Recuerda preguntándose. Un hombre llamado Adam Metallo pronto dio una respuesta convincente.

Metallo, un funcionario de la Oficina del Programa de Digitalización del Smithsonian, asistió a una conferencia en la que el gigante tecnológico NVIDIA, querido de los jugadores de PC en todas partes, exhibía unidades de procesamiento de gráficos o GPU de próxima generación. Metallo estaba allí buscando formas de mejorar las capacidades de renderizado digital 3D del Smithsonian, pero fue una pepita de información en gran medida no relacionada lo que llamó su atención y se quedó con él. Además de generar imágenes 3D dinámicas y de alta fidelidad, le dijeron, las GPU de NVIDIA eran adecuadas para el análisis de big data. En particular, las GPU reforzadas eran justo lo que se necesitaba para el reconocimiento intensivo de patrones digitales; muchos algoritmos de aprendizaje automático habían sido optimizados para la plataforma NVIDIA.

Metallo quedó instantáneamente intrigado. Esta tecnología de "aprendizaje profundo", ya implementada en sectores especializados como el desarrollo de automóviles autónomos y la radiología médica, tenía un gran potencial para el mundo de los museos, que, como señala Metallo, constituye "el conjunto de datos más grande y antiguo al que ahora tenemos acceso a."

"¿Qué significa para los grandes conjuntos de datos que estamos creando en el Smithsonian a través de la digitalización?", Quería saber Metallo. Su pregunta reflejaba perfectamente la de Laurence Dorr, y una vez que los dos se conectaron, comenzaron a volar chispas. "La colección de botánica era una de las colecciones más grandes en las que habíamos estado trabajando más recientemente", recuerda Metallo. Se sugirió una colaboración.

Mientras que muchas formas de aprendizaje automático exigen que los investigadores marquen marcadores matemáticos clave en las imágenes que se analizarán, un proceso minucioso que equivale a tomar la mano de la computadora, los algoritmos modernos de aprendizaje profundo pueden aprender por sí mismos qué marcadores buscar en el trabajo, ahorrando tiempo y abriendo la puerta a consultas a gran escala. Sin embargo, escribir un programa de aprendizaje profundo específico del Smithsonian y calibrarlo para preguntas discretas de investigación botánica fue un asunto complicado: Dorr y Metallo necesitaban la ayuda de científicos de datos para hacer realidad su visión.

Los científicos de datos compilan especímenes de entrenamiento para la red neuronal durante lo que Paul Frandsen recuerda como Los científicos de datos compilan especímenes de entrenamiento para la red neuronal durante lo que Paul Frandsen recuerda como "un frío día de enero". (Museo Nacional de Historia Natural)

Uno de los especialistas que trajeron a bordo fue el científico de datos de investigación del Smithsonian Paul Frandsen, quien reconoció de inmediato el potencial de crear una red neuronal impulsada por GPU NVIDIA para influir en la colección de botánica. Para Frandsen, este proyecto simbolizó un primer paso clave en un camino maravilloso e inexplorado. Pronto, dice, "vamos a comenzar a buscar patrones morfológicos a escala global, y podremos responder a estas preguntas realmente grandes que tradicionalmente habrían tomado miles o millones de horas humanas buscando en la literatura y clasificando cosas. Vamos a poder utilizar algoritmos para ayudarnos a encontrar esos patrones y aprender más sobre el mundo ".

Los hallazgos recién publicados son una sorprendente prueba de concepto. Generado por un equipo de nueve personas dirigido por el botánico de investigación Eric Schuettpelz y los científicos de datos Paul Frandsen y Rebecca Dikow, el estudio tiene como objetivo responder dos preguntas a gran escala sobre el aprendizaje automático y el herbario. El primero es qué tan efectiva puede ser una red neuronal entrenada para clasificar las muestras teñidas con mercurio de las no contaminadas. El segundo, lo más destacado del artículo, es cuán eficaz puede ser una red de este tipo para diferenciar miembros de dos familias de plantas superficialmente similares, a saber, las familias de helechos Lycopodiaceae y Selaginellaceae .

La primera prueba requirió que el equipo revisara miles de especímenes por adelantado, señalando definitivamente cuáles estaban visiblemente contaminados con mercurio (un vestigio de técnicas anticuadas de preservación botánica). Querían estar seguros de saber con 100 por ciento de certeza cuáles estaban manchados y cuáles no; de lo contrario, no sería posible evaluar la precisión del programa. El equipo seleccionó casi 8, 000 imágenes de muestras limpias y 8, 000 más de muestras teñidas con las que entrenar y probar la computadora. Cuando terminaron de ajustar los parámetros de la red neuronal y retiraron toda la ayuda humana, el algoritmo estaba categorizando especímenes que nunca antes había visto con una precisión del 90 por ciento. Si se arrojaron los especímenes más ambiguos, por ejemplo, aquellos en los que la tinción fue mínima y / o muy débil, esa cifra aumentó al 94 por ciento.

Este resultado implica que el software de aprendizaje profundo pronto podría ayudar a los botánicos y otros científicos a evitar perder el tiempo en tediosas tareas de clasificación. "El problema no es que un ser humano no pueda determinar si un espécimen está manchado o no con mercurio", aclara Metallo, sino que "es difícil clasificarlo y descubrir dónde existe la contaminación", y no es sensible a hacerlo desde el punto de vista de la gestión del tiempo. Afortunadamente, el aprendizaje automático podría convertir un importante sumidero de tiempo en, como máximo, unos pocos días de análisis automatizado rápido.

Estudiar especímenes uno a la vez exige mucha energía y dificulta la obtención de conclusiones a gran escala. Ahora, el análisis de Big Data ofrece a los museos nuevas formas de acercarse a sus colecciones. Estudiar especímenes uno a la vez exige mucha energía y dificulta la obtención de conclusiones a gran escala. Ahora, el análisis de Big Data ofrece a los museos nuevas formas de acercarse a sus colecciones. (Arboreto de Arnold)

La parte de discriminación de especies del estudio es aún más emocionante. Los investigadores entrenaron y probaron la red neuronal con aproximadamente 9, 300 muestras de clubmoss y 9, 100 spikemoss. Al igual que con el experimento de tinción, aproximadamente el 70 por ciento de estas muestras se usaron para la calibración inicial, el 20 por ciento se usó para el refinamiento y el 10 por ciento final se usó para evaluar formalmente la precisión. Una vez que se optimizó el código, la tasa de éxito de la computadora para distinguir entre las dos familias fue del 96 por ciento, y un 99 por ciento casi perfecto si se omitieran las muestras más difíciles.

Un día, especula Frandsen, programas como este podrían manejar la categorización preliminar de muestras en museos de todo el mundo. "De ninguna manera creo que estos algoritmos harán algo para reemplazar a los curadores", señala rápidamente, "pero en cambio, creo que pueden ayudar a los curadores y a las personas involucradas en la sistemática a ser más productivos, para que puedan hacer su trabajo mucho". mas rapido."

El éxito de la red neuronal en este estudio también allana el camino para la prueba rápida de hipótesis científicas en colecciones masivas. Dorr ve en los hallazgos del equipo la posibilidad de realizar extensas comparaciones morfológicas de muestras digitalizadas, comparaciones que podrían conducir a importantes avances científicos.

Esto no quiere decir que el aprendizaje profundo sea una bala de plata en la investigación en todos los ámbitos. Mark Algee-Hewitt de Stanford señala que "es casi imposible reconstruir por qué y cómo una red neuronal toma sus decisiones" una vez que ha sido condicionado; Las determinaciones que se dejan a los programas de computadora siempre deben ser sencillas y verificables en la naturaleza si se debe confiar.

"Obviamente", dice Dorr, un programa de computadora autónomo "no va a probar las relaciones genéticas, cosas así", al menos en cualquier momento en el futuro cercano. “Pero podemos comenzar a aprender sobre la distribución de características por región geográfica o por unidad taxonómica. Y eso va a ser realmente poderoso ".

Más que nada, esta investigación es un punto de partida. Ahora está claro que la tecnología de aprendizaje profundo es muy prometedora para los científicos y otros académicos de todo el mundo, así como para el público curioso para el que producen conocimiento. Lo que queda es un riguroso trabajo de seguimiento.

"Este es un pequeño paso", dice Frandsen, "pero es un paso que realmente nos dice que estas técnicas pueden funcionar en especímenes de museo digitalizados". Estamos entusiasmados por establecer varios proyectos más en los próximos meses, para tratar de probar sus límites un poco más ".

Cómo la inteligencia artificial podría revolucionar la investigación del museo de archivos