Inteligencia artificial
Desde Evo 1 a Evo 2: Cómo NVIDIA está redefiniendo la investigación genómica y las innovaciones biológicas impulsadas por IA
Imagina un mundo donde pudiéramos predecir el comportamiento de la vida solo analizando una secuencia de letras. Esto no es ciencia ficción ni un mundo mágico, sino un mundo real donde los científicos han estado luchando por alcanzar este objetivo durante años. Estas secuencias, compuestas por cuatro nucleótidos (A, T, C y G), contienen las instrucciones fundamentales para la vida en la Tierra, desde el microbio más pequeño hasta el mamífero más grande. Descifrar estas secuencias tiene el potencial de desbloquear procesos biológicos complejos, transformando campos como la medicina personalizada y la sostenibilidad ambiental.
Sin embargo, a pesar de este inmenso potencial, descifrar incluso los genomas microbianos más simples es una tarea altamente compleja. Estos genomas consisten en millones de pares de bases de ADN que regulan las interacciones entre el ADN, el ARN y las proteínas, los tres elementos clave en el dogma central de la biología molecular. Esta complejidad existe en múltiples niveles, desde moléculas individuales hasta genomas completos, creando un vasto campo de información genética que evolucionó a lo largo de miles de millones de años.
Las herramientas computacionales tradicionales han luchado por manejar la complejidad de las secuencias biológicas. Pero con el surgimiento de la IA generativa, ahora es posible escalar sobre billones de secuencias y comprender relaciones complejas a lo largo de secuencias de tokens. Basándose en este avance, los investigadores del Instituto Arc, la Universidad de Stanford y NVIDIA han estado trabajando en la construcción de un sistema de IA que pueda entender secuencias biológicas como los grandes modelos de lenguaje entienden el texto humano. Ahora, han hecho un desarrollo innovador al crear un modelo que captura tanto la naturaleza multimodal del dogma central como las complejidades de la evolución. Esta innovación podría conducir a predecir y diseñar nuevas secuencias biológicas, desde moléculas individuales hasta genomas completos. En este artículo, exploraremos cómo funciona esta tecnología, sus posibles aplicaciones, los desafíos que enfrenta y el futuro de la modelización genómica.
EVO 1: Un modelo pionero en la modelización genómica
Esta investigación ganó atención a fines de 2024 cuando NVIDIA y sus colaboradores presentaron Evo 1, un modelo innovador para analizar y generar secuencias biológicas a través del ADN, el ARN y las proteínas. Entrenado en 2,7 millones de genomas procariotas y fagos, que totalizan 300 mil millones de tokens de nucleótidos, el modelo se centró en integrar el dogma central de la biología molecular, modelando el flujo de información genética desde el ADN hasta el ARN y las proteínas. Su arquitectura StripedHyena, un modelo híbrido que utiliza filtros convolucionales y compuertas, manejó eficientemente contextos largos de hasta 131.072 tokens. Este diseño permitió que Evo 1 vincule pequeños cambios en la secuencia con efectos más amplios a nivel de sistema y organismo, cerrando la brecha entre la biología molecular y la genómica evolutiva.
Evo 1 fue el primer paso en la modelización computacional de la evolución biológica. Predijo con éxito interacciones moleculares y variaciones genéticas analizando patrones evolutivos en secuencias genéticas. Sin embargo, cuando los científicos intentaron aplicarlo a genomas eucariotas más complejos, se hicieron evidentes las limitaciones del modelo. Evo 1 luchó con la resolución de un solo nucleótido sobre secuencias de ADN largas y fue computacionalmente costoso para genomas más grandes. Estos desafíos llevaron a la necesidad de un modelo más avanzado capaz de integrar datos biológicos en múltiples escalas.
EVO 2: Un modelo fundamental para la modelización genómica
Basándose en las lecciones aprendidas de Evo-1, los investigadores lanzaron Evo 2 en febrero de 2025, avanzando en el campo de la modelización de secuencias biológicas. Entrenado en un asombroso 9,3 billones de pares de bases de ADN, el modelo ha aprendido a entender y predecir las consecuencias funcionales de la variación genética en todos los dominios de la vida, incluyendo bacterias, arqueas, plantas, hongos y animales. Con más de 40 mil millones de parámetros, el modelo de Evo-2 puede manejar una longitud de secuencia sin precedentes de hasta 1 millón de pares de bases, algo que los modelos anteriores, incluido Evo-1, no podían manejar.
Lo que distingue a Evo 2 de sus predecesores es su capacidad para modelar no solo las secuencias de ADN, sino también las interacciones entre el ADN, el ARN y las proteínas, el dogma central completo de la biología molecular. Esto permite que Evo 2 prediga con precisión el impacto de las mutaciones genéticas, desde los cambios más pequeños de nucleótidos hasta variaciones estructurales más grandes, de maneras que anteriormente eran imposibles.
Una característica clave de Evo 2 es su fuerte capacidad de predicción zero-shot, que le permite predecir los efectos funcionales de las mutaciones sin requerir un ajuste fino específico de la tarea. Por ejemplo, clasifica con precisión las variantes clínicamente significativas de BRCA1, un factor crucial en la investigación del cáncer de mama, analizando solo las secuencias de ADN.
Posibles aplicaciones en ciencias biomoleculares
Las capacidades de Evo 2 abren nuevos frentes en genómica, biología molecular y biotecnología. Algunas de las aplicaciones más prometedoras incluyen:
- Atención médica y descubrimiento de fármacos: Evo 2 puede predecir qué variantes genéticas están asociadas con enfermedades específicas, ayudando en el desarrollo de terapias dirigidas. Por ejemplo, en pruebas con variantes del gen asociado al cáncer de mama BRCA1, Evo 2 logró más del 90% de precisión en predecir qué mutaciones son benignas versus potencialmente patogénicas. Estas perspectivas podrían acelerar el desarrollo de nuevos medicamentos y tratamientos personalizados.
- Biología sintética e ingeniería genética: La capacidad de Evo 2 para generar genomas completos abre nuevas avenidas en el diseño de organismos sintéticos con rasgos deseables. Los investigadores pueden utilizar Evo 2 para ingenierizar genes con funciones específicas, avanzando en el desarrollo de biocombustibles, productos químicos respetuosos con el medio ambiente y terapias novedosas.
- Biotecnología agrícola: Puede ser utilizado para diseñar cultivos genéticamente modificados con rasgos mejorados como resistencia a la sequía o a plagas, contribuyendo a la seguridad alimentaria global y la sostenibilidad agrícola.
- Ciencia ambiental: Evo 2 se puede aplicar para diseñar biocombustibles o ingenierizar proteínas que descompongan contaminantes ambientales como el petróleo o el plástico, contribuyendo a los esfuerzos de sostenibilidad.
Desafíos y direcciones futuras
A pesar de sus impresionantes capacidades, Evo 2 enfrenta desafíos. Uno de los principales obstáculos es la complejidad computacional involucrada en el entrenamiento y la ejecución del modelo. Con una ventana de contexto de 1 millón de pares de bases y 40 mil millones de parámetros, Evo 2 requiere recursos computacionales significativos para funcionar de manera efectiva. Esto hace que sea difícil para los equipos de investigación más pequeños utilizar completamente su potencial sin acceso a infraestructura de computación de alto rendimiento.
Además, aunque Evo 2 sobresale en la predicción de los efectos de las mutaciones genéticas, todavía hay mucho que aprender sobre cómo utilizarlo para diseñar sistemas biológicos novedosos desde cero. Generar secuencias biológicas realistas es solo el primer paso; el verdadero desafío yace en entender cómo utilizar este poder para crear sistemas biológicos funcionales y sostenibles.
Accesibilidad y democratización de la IA en genómica
Uno de los aspectos más emocionantes de Evo 2 es su disponibilidad de código abierto. Para democratizar el acceso a herramientas avanzadas de modelización genómica, NVIDIA ha hecho que los parámetros del modelo, el código de entrenamiento y los conjuntos de datos estén disponibles públicamente. Este enfoque de código abierto permite a los investigadores de todo el mundo explorar y expandir las capacidades de Evo 2, acelerando la innovación en toda la comunidad científica.
En resumen
Evo 2 es un avance significativo en la modelización genómica, utilizando la IA para descifrar el lenguaje genético complejo de la vida. Su capacidad para modelar secuencias de ADN y sus interacciones con el ARN y las proteínas abre nuevas posibilidades en atención médica, descubrimiento de fármacos, biología sintética y ciencia ambiental. Evo 2 puede predecir mutaciones genéticas y diseñar nuevas secuencias biológicas, ofreciendo un potencial transformador para la medicina personalizada y las soluciones sostenibles. Sin embargo, su complejidad computacional presenta desafíos, especialmente para los equipos de investigación más pequeños. Al hacer que Evo 2 sea de código abierto, NVIDIA está permitiendo que los investigadores de todo el mundo exploren y expandan sus capacidades, impulsando la innovación en genómica y biotecnología. A medida que la tecnología continúa evolucionando, tiene el potencial de redefinir el futuro de las ciencias biológicas y la sostenibilidad ambiental.










