https://frosthead.com

Big Data se hizo más grande a medida que Watson de IBM se encuentra con la Enciclopedia de la Vida

Después de 2.000 años, la última enciclopedia de la vida está en la cúspide de una nueva era basada en datos. Se ha otorgado una subvención de la National Science Foundation a The Encyclopedia of Life (EOL), IBM y Georgia Institute of Technology. La subvención permitirá que grandes cantidades de datos se procesen e indexen de forma cruzada de manera que permita realizar una ciencia innovadora.

contenido relacionado

  • El nuevo sistema de reserva marina propuesto ofrece perspectivas prometedoras tanto para la langosta como para el pescador de langosta

En el año 77 dC, Plinio el Viejo comenzó a escribir la primera enciclopedia del mundo, Historia Natural. Incluía todo, desde astronomía hasta botánica, zoología, antropología y más. Plinio intentó poner todo lo que podía reunir personalmente sobre el mundo natural en una sola obra escrita. Durante los últimos 2.000 años, una larga sucesión de científicos inspirados por Plinio ha perseguido la misma visión.

Plinio incluyó 20, 000 temas en 36 volúmenes, pero se topó con las limitaciones de lo que una sola persona puede descubrir, registrar y procesar dentro de una vida humana. Murió durante la erupción del Monte Vesubio antes de que pudiera terminar una edición final de su obra maestra. Incluso en su propia era, no era posible que una persona leyera todos los libros, aprendiera todas las cosas y explicara todo al mundo.

Como descubrieron científicos, editores y bibliotecarios posteriores en un mundo que agrega más conocimiento escrito con cada año que pasa, incluso si pudiera almacenar todos los libros e investigaciones del mundo en un edificio, es un desafío poner toda la información relevante a disposición de investigadores durante las limitaciones de sus breves vidas humanas.

EOL podría cambiar eso aplicando el poder computacional de última generación a colecciones dispares de datos biológicos. El proyecto es una colección digital gratuita y abierta de datos, artículos y multimedia sobre biodiversidad, uno de los más grandes del mundo. Con sede en la Institución Smithsonian y con sus 357 socios y proveedores de contenido, incluida la Universidad de Harvard y la Nueva Biblioteca de Alejandría en Egipto, EOL ha crecido de 30, 000 páginas cuando se lanzó en 2008 a más de 2 millones, con 1.3 millones de páginas de texto, mapas, video, audio y fotografías, y admite 20 idiomas.

"Vine a Smithsonian en 2010 de la industria del software", dice el director de EOL, Bob Corrigan. “Uno de los descubrimientos que hice al venir aquí es que, si bien la TI está en todas partes, no ha penetrado en el mundo de los museos de la misma manera que lo ha hecho en el mundo comercial. Especialmente en biología, los datos más importantes han sido enterrados en libros de texto y hojas de cálculo ”.

¿Cómo se pueden combinar y extraer datos biológicos en diversas formas para obtener nuevas ideas sobre la vida en la Tierra? ¿Qué pasaría si los datos sobre, por ejemplo, la biodiversidad de las mariposas en África durante una década se combinaran con datos sobre prácticas agrícolas y precipitaciones? ¿Se podría aprender algo nuevo? Se necesita algo más grande que un cerebro humano para hacer esto. Algo así como la supercomputadora Watson de IBM.

"IBM está contribuyendo con esfuerzo y acceso a una versión [de Watson] que no está disponible públicamente", dice Jennifer Hammock, directora de programa de EOL. “También van a tener personas trabajando en ello. IBM está haciendo esto como una contribución en especie ".

Watson es una supercomputadora que no solo reduce números en grandes volúmenes. Utiliza inteligencia artificial para permitir a los usuarios hacer preguntas en lenguaje sencillo.

"Diría que desde el punto de vista del usuario, significa que la base de datos es algo a lo que se puede llegar y hacer una pregunta como si fuera un humano", dice Hammock. "Como, ¿puedes decirme si esta mariposa púrpura ocurre en África?"

"Responder una pregunta simple en cualquier idioma supone la existencia de mucho conocimiento detrás de escena", dice Corrigan. “Incluso [la palabra] púrpura, supone que sabemos lo que es púrpura. O una mariposa, [la computadora] tiene que entender la diferencia entre una mariposa y una polilla. Además de esto, los conjuntos de datos tienen diferentes formas de pensar acerca de estos términos diferentes. Todos estos datos han sido difíciles de extraer sin una piedra de términos de Rosetta. Y eso es parte de la magia de lo que está haciendo la EOL ".

Una pregunta científica que la asociación entre EOL, IBM y Georgia Tech espera resolver es la paradoja del plancton.

Según Hammock, los científicos que trabajan con simulaciones por computadora “intentan modelar lo que sucede en el océano diciendo que el sol brilla y las algas crecen. . . tiene una aproximación aproximada pero no pueden lograr que [el modelo informático del ecosistema] sea estable. Van por un tiempo y luego se estrellan. Porque son muy simples. Esperan que si pueden mostrar un poco más de diversidad en su biosfera modelada, se volverán más estables. . . .la paradoja: ¿cómo existe la biosfera oceánica? ¿Por qué no se estrella?

"La gente está sentada en los datos", dice Corrigan. “Hay depósitos increíbles de mediciones de biodiversidad en todo el planeta. Recibo muchas llamadas telefónicas de personas que utilizan estos datos y quieren ayuda para ponerlos en un contexto más amplio. Es importante porque estamos en una carrera para estudiar este planeta y aprender cómo nuestro desarrollo está estresando nuestros recursos muy finitos. . . El Smithsonian puede desempeñar un papel en el aumento del conocimiento de todas estas fuentes y ser un verdadero poder para difundirlo ”.

Una cuarta parte de la subvención de $ 1 millón se otorgará a Smithsonian por su parte del trabajo, pero EOL incluye a muchos otros jugadores. Algunos desarrolladores están en Egipto; un equipo educativo se basa en Harvard; y la unidad de idioma español está en la Ciudad de México.

Todos los datos de EOL continuarán siendo de dominio público o con licencia de Creative Commons. La investigación y los datos están destinados a ser de acceso público y no ocultos detrás de un muro de pago.

"Es un sueño muy antiguo", dice Hammock. “Un humano probablemente no puede aprenderlo todo. Es difícil poner todo en un lugar donde se pueda verificar conscientemente contra sí mismo. Pero ahora tenemos computadoras ".

Plinio estaría muy contento o muy celoso.

Big Data se hizo más grande a medida que Watson de IBM se encuentra con la Enciclopedia de la Vida