Contáctenos

De Evo 1 a Evo 2: cómo NVIDIA está redefiniendo la investigación genómica y las innovaciones biológicas impulsadas por IA

Inteligencia Artificial

De Evo 1 a Evo 2: cómo NVIDIA está redefiniendo la investigación genómica y las innovaciones biológicas impulsadas por IA

mm

Publicado

 on

Imagine un mundo donde pudiéramos predecir el comportamiento de la vida con solo analizar una secuencia de letras. No se trata de ciencia ficción ni de un mundo mágico, sino de un mundo real donde los científicos llevan años esforzándose por lograr este objetivo. Estas secuencias, compuestas por cuatro nucleótidos (A, T, C y G), contienen las instrucciones fundamentales para la vida en la Tierra, desde el microbio más pequeño hasta el mamífero más grande. Descifrar estas secuencias tiene el potencial de descifrar procesos biológicos complejos, transformando campos como la medicina personalizada y la sostenibilidad ambiental.

Sin embargo, a pesar de este inmenso potencial, decodificar incluso los genomas microbianos más simples es una tarea sumamente compleja. Estos genomas constan de millones de pares de bases de ADN que regulan las interacciones entre el ADN, el ARN y las proteínas, los tres elementos clave del dogma central de la biología molecular. Esta complejidad existe en múltiples niveles, desde moléculas individuales hasta genomas completos, creando un vasto campo de información genética que evolucionó a lo largo de miles de millones de años.

Las herramientas computacionales tradicionales han tenido dificultades para gestionar la complejidad de las secuencias biológicas. Pero con el auge de la IA generativa, ahora es posible escalar billones de secuencias y comprender relaciones complejas entre secuencias de tokens. Basándose en este avance, investigadores del Instituto Arc, la Universidad de Stanford y NVIDIA han estado trabajando en la creación de un sistema de IA capaz de comprender secuencias biológicas como los grandes modelos lingüísticos comprenden el texto humano. Ahora, han logrado un avance revolucionario al crear un modelo que captura tanto la naturaleza multimodal del dogma central como las complejidades de la evolución. Esta innovación podría permitir la predicción y el diseño de nuevas secuencias biológicas, desde moléculas individuales hasta genomas completos. En este artículo, exploraremos el funcionamiento de esta tecnología, sus posibles aplicaciones, los desafíos a los que se enfrenta y el futuro del modelado genómico.

EVO 1: Un modelo pionero en modelado genómico

Esta investigación ganó atención a fines de 2024 cuando NVIDIA y sus colaboradores presentaron Evo 1Un modelo innovador para el análisis y la generación de secuencias biológicas de ADN, ARN y proteínas. Entrenado con 2.7 millones de genomas procariotas y fágicos, con un total de 300 131,072 millones de tokens de nucleótidos, el modelo se centró en integrar el dogma fundamental de la biología molecular, modelando el flujo de información genética del ADN al ARN y a las proteínas. Su arquitectura StripedHyena, un modelo híbrido que utiliza filtros y puertas convolucionales, gestionó eficientemente contextos largos de hasta 1 XNUMX tokens. Este diseño permitió a Evo XNUMX vincular pequeños cambios en la secuencia con efectos más amplios a nivel de sistema y organismo, acortando la distancia entre la biología molecular y la genómica evolutiva.

Evo 1 fue el primer paso en el modelado computacional de la evolución biológica. Predijo con éxito interacciones moleculares y variaciones genéticas mediante el análisis de patrones evolutivos en secuencias genéticas. Sin embargo, a medida que los científicos buscaban aplicarlo a genomas eucariotas más complejos, sus limitaciones se hicieron evidentes. Evo 1 presentaba dificultades para la resolución de un solo nucleótido en secuencias largas de ADN y resultaba computacionalmente costoso para genomas más grandes. Estos desafíos llevaron a la necesidad de un modelo más avanzado capaz de integrar datos biológicos a múltiples escalas.

EVO 2: Un modelo fundamental para el modelado genómico

Basándose en las lecciones aprendidas de Evo-1, los investigadores lanzaron Evo 2 en febrero de 2025, avanzando en el campo del modelado de secuencias biológicas. Entrenado Con la asombrosa cantidad de 9.3 billones de pares de bases de ADN, el modelo ha aprendido a comprender y predecir las consecuencias funcionales de la variación genética en todos los ámbitos de la vida, incluyendo bacterias, arqueas, plantas, hongos y animales. Con más de 40 2 millones de parámetros, el modelo de Evo-1 puede gestionar una longitud de secuencia sin precedentes de hasta un millón de pares de bases, algo que los modelos anteriores, incluido Evo-1, no podían gestionar.

Lo que distingue a Evo 2 de sus predecesores es su capacidad para modelar no solo las secuencias de ADN, sino también las interacciones entre ADN, ARN y proteínas, el dogma central de la biología molecular. Esto le permite a Evo 2 predecir con precisión el impacto de las mutaciones genéticas, desde los cambios más pequeños en nucleótidos hasta variaciones estructurales más grandes, de maneras que antes eran imposibles.

Una característica clave de Evo 2 es su potente capacidad de predicción de cero disparos, que le permite predecir los efectos funcionales de las mutaciones sin necesidad de ajustes específicos de la tarea. Por ejemplo, clasifica con precisión las variantes clínicamente significativas del gen BRCA1, un factor crucial en la investigación del cáncer de mama, analizando únicamente las secuencias de ADN.

 Aplicaciones potenciales en ciencias biomoleculares

Las capacidades de Evo 2 abren nuevas fronteras en genómica, biología molecular y biotecnología. Algunas de las aplicaciones más prometedoras incluyen:

  • Atención sanitaria y descubrimiento de fármacos: Evo 2 puede predecir qué variantes genéticas están asociadas con enfermedades específicas, lo que facilita el desarrollo de terapias dirigidas. Por ejemplo, en pruebas Con variantes del gen BRCA1, asociado al cáncer de mama, Evo 2 logró una precisión superior al 90 % al predecir qué mutaciones son benignas y cuáles potencialmente patógenas. Estos hallazgos podrían acelerar el desarrollo de nuevos medicamentos y tratamientos personalizados.
  • Biología sintética e ingeniería genética: La capacidad de Evo 2 para generar genomas completos abre nuevas vías para el diseño de organismos sintéticos con las características deseadas. Los investigadores pueden utilizar Evo 2 para diseñar genes con funciones específicas, impulsando el desarrollo de biocombustibles, productos químicos ecológicos y nuevas terapias.
  • Biotecnología agrícola:Puede utilizarse para diseñar cultivos genéticamente modificados con características mejoradas, como resistencia a la sequía o a las plagas, contribuyendo a la seguridad alimentaria mundial y a la sostenibilidad agrícola.
  • Ciencia medioambiental: Evo 2 se puede aplicar para diseñar biocombustibles o diseñar proteínas que descompongan contaminantes ambientales como el petróleo o el plástico, contribuyendo a los esfuerzos de sostenibilidad.

Desafíos y direcciones futuras

A pesar de sus impresionantes capacidades, Evo 2 enfrenta desafíos. Un obstáculo clave es la complejidad computacional que implica el entrenamiento y la ejecución del modelo. Con una ventana de contexto de un millón de pares de bases y 1 mil millones de parámetros, Evo 40 requiere importantes recursos computacionales para funcionar eficazmente. Esto dificulta que los equipos de investigación más pequeños aprovechen al máximo su potencial sin acceso a una infraestructura informática de alto rendimiento.

Además, si bien Evo 2 destaca en la predicción de los efectos de las mutaciones genéticas, aún queda mucho por aprender sobre cómo utilizarlo para diseñar nuevos sistemas biológicos desde cero. Generar secuencias biológicas realistas es solo el primer paso; el verdadero reto reside en comprender cómo utilizar este potencial para crear sistemas biológicos funcionales y sostenibles.

Accesibilidad y democratización de la IA en genómica

Uno de los aspectos más emocionantes de Evo 2 es su De código abierto Disponibilidad. Para democratizar el acceso a herramientas avanzadas de modelado genómico, NVIDIA ha puesto a disposición del público los parámetros del modelo, el código de entrenamiento y los conjuntos de datos. Este enfoque de acceso abierto permite a investigadores de todo el mundo explorar y ampliar las capacidades de Evo 2, impulsando la innovación en la comunidad científica.

Lo más importante es...

Evo 2 representa un avance significativo en el modelado genómico, utilizando IA para decodificar el complejo lenguaje genético de la vida. Su capacidad para modelar secuencias de ADN y sus interacciones con ARN y proteínas abre nuevas posibilidades en la atención médica, el descubrimiento de fármacos, la biología sintética y las ciencias ambientales. Evo 2 puede predecir mutaciones genéticas y diseñar nuevas secuencias biológicas, ofreciendo un potencial transformador para la medicina personalizada y soluciones sostenibles. Sin embargo, su complejidad computacional presenta desafíos, especialmente para equipos de investigación más pequeños. Al hacer que Evo 2 sea de código abierto, NVIDIA permite a investigadores de todo el mundo explorar y expandir sus capacidades, impulsando la innovación en genómica y biotecnología. A medida que la tecnología continúa evolucionando, tiene el potencial de transformar el futuro de las ciencias biológicas y la sostenibilidad ambiental.

El Dr. Tehseen Zia es profesor asociado titular en la Universidad COMSATS de Islamabad y tiene un doctorado en IA de la Universidad Tecnológica de Viena (Austria). Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computador, ha realizado importantes contribuciones con publicaciones en revistas científicas de renombre. El Dr. Tehseen también dirigió varios proyectos industriales como investigador principal y se desempeñó como consultor de IA.