En 1984, la National Biomedical Research Foundation lanzó una base de datos en línea gratuita que contiene más de 283, 000 secuencias de proteínas. Hoy, el Recurso de Información de Proteínas permite a los científicos de todo el mundo tomar una proteína desconocida, compararla con las miles de proteínas conocidas en la base de datos y determinar las formas en que es similar y diferente. A partir de esos datos, pueden deducir de manera rápida y precisa la historia evolutiva de una proteína y su relación con diversas formas de vida.
Los orígenes humildes de esta enorme base de datos en línea comienzan mucho antes que Internet. Todo comenzó con el Atlas de secuencia y estructura de proteínas, un libro impreso en 1965 que contenía las 65 secuencias de proteínas conocidas en ese momento, compilado por una mujer llamada Margaret Dayhoff. Para crear su Atlas, Dayhoff aplicó tecnologías informáticas de vanguardia para encontrar soluciones a preguntas biológicas, lo que ayudó a marcar el comienzo de un nuevo campo que ahora llamamos bioinformática. Originalmente químico, Dayhoff aprovechó las nuevas y evolutivas tecnologías de la era de la computación posterior a la Segunda Guerra Mundial para ser pionero en herramientas que químicos, biólogos y astrónomos podrían utilizar en el estudio interdisciplinario de los orígenes de la vida en la Tierra.
Dayhoff (entonces Margaret Oakley) nació en Filadelfia el 11 de marzo de 1925 de Ruth Clark, una maestra de matemáticas de secundaria, y Kenneth Oakley, propietario de una pequeña empresa. A la edad de diez años, su familia se mudó a la ciudad de Nueva York. Allí, asistió a escuelas públicas, llegando a ser la mejor estudiante de Bayside High en 1942. Asistió al Washington Square College de la Universidad de Nueva York con una beca, graduándose magna cum laude en matemáticas solo tres años después, en 1945.
Ese mismo año, Dayhoff ingresó a la Universidad de Columbia para obtener su doctorado en química cuántica bajo la tutoría del destacado químico e investigador de operaciones de la Segunda Guerra Mundial George Kimball. Su aceptación fue una rareza por el momento. Después de la Segunda Guerra Mundial, más hombres ingresaron a las ciencias, y la química se volvió aún más dominada por los hombres que en la década anterior, con solo el cinco por ciento de los doctorados en química dirigidos a mujeres, en comparación con el ocho por ciento.
Durante el tiempo de Dayhoff en la universidad, Columbia fue un semillero de tecnología informática. Se jactó de algunos de los primeros laboratorios de computación en los Estados Unidos, y en 1945 se convirtió en el hogar del Laboratorio Científico IBM Watson dirigido por el astrónomo WJ Eckert. El laboratorio de Watson había servido por primera vez como centro de cómputo para los Aliados en los últimos meses de la Segunda Guerra Mundial. Después de la guerra, se convirtió en un sitio para desarrollar algunas de las primeras supercomputadoras, incluida la Calculadora electrónica de secuencia selectiva (SSEC), que luego Eckert usó para calcular las órbitas lunares para las misiones Apolo.
Con esta tecnología a su alcance, Dayhoff combinó su interés en la química con la informática a través de máquinas de tarjetas perforadas, esencialmente computadoras digitales tempranas. Las máquinas permitieron a Dayhoff automatizar sus cálculos, almacenando un algoritmo en un conjunto de tarjetas y datos en otro. Usando la máquina, pudo procesar cálculos mucho más rápido y con mayor precisión que a mano.
El tema de interés particular de Dayhoff fueron los compuestos orgánicos policíclicos, que son moléculas que consisten en tres o más átomos unidos en un anillo cerrado. Ella utilizó las máquinas de tarjetas perforadas para realizar una gran cantidad de cálculos sobre las energías resonantes de las moléculas (la diferencia entre la energía potencial de una molécula de un estado específico y un estado promedio) para determinar la probabilidad de enlace molecular y las distancias de enlace.
Dayhoff se graduó con su doctorado en química cuántica en solo tres años. La investigación que realizó como estudiante de posgrado fue publicada, con Kimball como coautora, en 1949 en el Journal of Chemical Physics con el simple título de Cálculo de tarjetas de energía de resonancia.
También en 1948, Dayhoff se casó con Edward Dayhoff, un estudiante de física experimental que había conocido en Columbia. En 1952, la pareja se mudó a Washington, DC, donde Edward tomó un puesto en la Oficina Nacional de Normas y Dayhoff dio a luz a su primera de dos hijas, Ruth. Dayhoff pronto abandonó la investigación para convertirse en una madre ama de casa de Ruth y su hija menor Judith, a excepción de un puesto posdoctoral de dos años en la Universidad de Maryland.
Cuando regresó a la investigación y comenzó a solicitar subvenciones para financiar su trabajo en 1962, se encontró con una conmoción. Los Institutos Nacionales de Salud rechazaron una solicitud de subvención que incluía a Dayhoff como investigador principal, con la explicación de que "[Dayhoff] ha estado fuera de contacto realmente íntimo durante algún tiempo ... con esta área complicada y que avanza rápidamente", como escribe el historiador Bruno Strasser en su próximo libro Recopilando Experimentos: Making Big Data Biology . Este tipo de subida cuesta arriba para las mujeres que se han tomado un tiempo libre para criar hijos es solo una de las formas en que las instituciones científicas obstaculizaron, y continúan obstaculizando, el avance de las mujeres.
A pesar de la falta de apoyo de los NIH, Dayhoff estaba a punto de entrar en la década más importante de su carrera. En 1960, aceptó una fatídica invitación de Robert Ledley, un biofísico pionero a quien conoció a través de su esposo, para unirse a él en la National Biomedical Research Foundation en Silver Spring, Maryland. Ledley sabía que las habilidades informáticas de Dayhoff serían cruciales para el objetivo de la fundación de combinar los campos de la informática, la biología y la medicina. Ella serviría como su directora asociada durante 21 años.
Una vez en Maryland, Dayhoff tenía rienda suelta para usar en el nuevo mainframe IBM 7090 de la Universidad de Georgetown. El sistema IBM fue diseñado para manejar aplicaciones complejas, con velocidades informáticas seis veces más rápidas que los modelos anteriores. Esta velocidad se logró al reemplazar la tecnología de tubos de vacío más lenta y voluminosa por transistores más rápidos y eficientes (los componentes que producen los 1 y 0 de las computadoras). Usando el mainframe, Dayhoff y Ledley comenzaron a buscar y comparar secuencias de péptidos con programas FORTRAN que habían escrito ellos mismos en un intento de ensamblar secuencias parciales en una proteína completa.
Consola de operador IBM 7090 en el Centro de Investigación Ames de la NASA en 1961, con dos bancos de unidades de cinta magnética IBM 729. (NASA)El compromiso de Dayhoff y Ledley de aplicar el análisis informático a la biología y la química fue inusual. "La cultura del análisis estadístico, y mucho menos de la informática digital, era completamente ajena a la mayoría de los [bioquímicos]", explica Strasser en una entrevista con Smithsonian.com . "Algunos incluso se enorgullecían de no ser 'teóricos', y así es como entendieron el análisis de datos utilizando modelos matemáticos".
Sin embargo, una disciplina científica en la que los expertos en informática de Dayhoff eran más apreciados fue la astronomía. Este interés en la informática se debió en parte a WJ Eckhart, quien en 1940 había utilizado máquinas de tarjetas perforadas de IBM para predecir órbitas planetarias. Y en la década de 1960, el interés estadounidense en la exploración espacial estaba en pleno apogeo, lo que significaba financiación para la NASA. En la Universidad de Maryland, Dayhoff conoció al espectroscopista Ellis Lippincott, quien la llevó a una colaboración de seis años con Carl Sagan en Harvard en 1961. Los tres desarrollaron modelos termodinámicos de la composición química de la materia, y Dayhoff ideó un programa informático que podría calcular las concentraciones de equilibrio de gases en atmósferas planetarias.
Con el programa de Dayhoff, ella, Lippincott y Sagan pudieron elegir un elemento para analizar, lo que les permitió investigar muchas composiciones atmosféricas diferentes. Finalmente, desarrollaron modelos atmosféricos para Venus, Júpiter, Marte e incluso una atmósfera primordial de la Tierra.
Mientras exploraba los cielos, Dayhoff también hizo una pregunta que los investigadores habían estado explorando desde al menos la década de 1950: ¿cuál es la función de las proteínas? La secuenciación de proteínas fue un medio para llegar a la respuesta, pero la secuenciación de proteínas individuales fue altamente ineficiente. Dayhoff y Ledley adoptaron un enfoque diferente. En lugar de analizar proteínas de forma aislada, compararon proteínas derivadas de diferentes especies de plantas y animales. "Al comparar las secuencias de la misma proteína en diferentes especies, se puede observar qué partes de la secuencia siempre fueron idénticas en todas las especies, una buena indicación de que esta parte de la secuencia fue crucial para el bien de la proteína", dice Strasser.
Dayhoff investigó más profundamente, mirando la historia compartida de las proteínas. Analizó no solo las partes que eran iguales en todas las especies, sino también sus variaciones. "Tomaron estas diferencias como una medida de distancias evolutivas entre especies, lo que les permitió reconstruir árboles filogenéticos", explica Strasser.
Dayhoff, siempre listo para aprovechar el poder de las nuevas tecnologías, desarrolló métodos computarizados para determinar las secuencias de proteínas. Ella realizó un análisis informático de proteínas en una amplia variedad de especies, desde el hongo candida hasta la ballena. Luego usó sus diferencias para determinar sus relaciones ancestrales. En 1966, con la ayuda de Richard Eck, Dayhoff creó la primera reconstrucción de un árbol filogenético.
En un artículo de la revista Scientific American de 1969, "Análisis informático de la evolución de las proteínas", Dayhoff presentó al público uno de estos árboles junto con su investigación utilizando computadoras para secuenciar proteínas. "Cada secuencia de proteína que se establece, cada mecanismo evolutivo que se ilumina, cada innovación importante en la historia filogenética que se revela mejorará nuestra comprensión de la historia de la vida", escribió. Ella estaba tratando de mostrar a la comunidad de ciencias de la vida el potencial de los modelos computarizados.
Su siguiente objetivo era recolectar todas las proteínas conocidas en un lugar donde los investigadores pudieran encontrar secuencias y compararlas con otras. A diferencia de hoy, cuando es fácil invocar fuentes en una base de datos electrónica con solo una palabra clave, Dayhoff tuvo que buscar en revistas físicas para encontrar las proteínas que estaba buscando. En muchos casos, eso significaba verificar el trabajo del compañero investigador en busca de errores. Incluso con la ayuda de una computadora, el trabajo de recopilar y catalogar las secuencias requería una gran cantidad de tiempo y un ojo científico exigente.
No todos vieron valor en lo que estaba haciendo. Para otros investigadores, el trabajo de Dayhoff se parecía al trabajo de recolección y catalogación de la historia natural del siglo XIX en lugar del trabajo experimental del científico del siglo XX. "Recolectar, comparar y clasificar cosas de la naturaleza parecía anticuado para muchos biólogos experimentales en la segunda mitad del siglo XX", dice Stasser. Se refiere a Dayhoff como un "extraño". "Ella contribuyó a un campo que no existía y, por lo tanto, no tenía reconocimiento profesional", dice.
En 1965, Dayhoff publicó por primera vez su colección de las 65 proteínas conocidas en Atlas of Protein Sequence and Structure, una versión impresa de su base de datos. Finalmente, los datos se trasladaron a una cinta magnética, y ahora vive en línea, donde los investigadores continúan usando sus datos para encontrar miles de proteínas más. Otras bases de datos biomédicas se han unido a la refriega, incluido el Protein Data Bank, una colección colaborativa de proteínas y ácidos nucleicos lanzada en 1971, y GenBank, la base de datos de secuencias genéticas lanzada en 1982. Dayhoff comenzó una revolución científica.
"Hoy, cada publicación en biología experimental contiene una combinación de nuevos datos experimentales e inferencias extraídas de comparaciones con otros datos disponibles en una base de datos pública, un enfoque que Dayhoff comenzó hace medio siglo", dice Strasser.
A medida que la bioinformática creció, las tareas de recolección y computación recayeron en gran medida en las mujeres. Las colaboradoras de Dayhoff en el Atlas eran todas mujeres, excepto Ledley. Al igual que las "computadoras" femeninas de la NASA en la década de 1960 y las descifradoras de códigos de la Segunda Guerra Mundial, estas mujeres pronto fueron empujadas al margen de la práctica científica. Al referirse a las "chicas ENIAC" que programaron la primera computadora digital de uso general, la historiadora de la informática Jennifer Light escribe que "está dentro de los límites de precisamente esas clasificaciones ocupacionales de bajo estatus que las mujeres se dedicaron a un trabajo sin precedentes".
En su bosquejo biográfico de Dayhoff, Lois T. Hunt, quien trabajó en el Atlas con ella, escribió que Dayhoff creía que su investigación sobre la atmósfera primordial de la Tierra podría darle "los compuestos necesarios para la formación de la vida". Esto, quizás incluso más que informática, es lo que une las partes dispares de la investigación científica de Dayhoff. Desde la pequeña proteína hasta la vasta atmósfera, Dayhoff estaba buscando los secretos del surgimiento de la vida en este planeta. Aunque no los desbloqueó a todos, le dio a la ciencia moderna las herramientas y métodos para continuar la búsqueda.