Inteligência artificial
De Evo 1 para Evo 2: Como a NVIDIA está Redefinindo a Pesquisa Genômica e as Inovações Biológicas Impulsionadas por IA
Imagine um mundo onde podemos prever o comportamento da vida apenas analisando uma sequência de letras. Isso não é ficção científica ou um mundo mágico, mas um mundo real onde os cientistas têm se esforçado para alcançar esse objetivo por anos. Essas sequências, compostas por quatro nucleotídeos (A, T, C e G), contêm as instruções fundamentais para a vida na Terra, desde o menor micróbio até o maior mamífero. Decodificar essas sequências tem o potencial de desbloquear processos biológicos complexos, transformando campos como medicina personalizada e sustentabilidade ambiental.
No entanto, apesar desse imenso potencial, decodificar mesmo os genomas microbianos mais simples é uma tarefa altamente complexa. Esses genomas consistem em milhões de pares de bases de DNA que regulam as interações entre DNA, RNA e proteínas – os três elementos-chave no dogma central da biologia molecular. Essa complexidade existe em vários níveis, desde moléculas individuais até genomas inteiros, criando um vasto campo de informações genéticas que evoluiu ao longo de bilhões de anos.
Ferramentas computacionais tradicionais têm lutado para lidar com a complexidade das sequências biológicas. Mas com o surgimento da IA gerativa, agora é possível escalar sobre trilhões de sequências e entender relações complexas entre sequências de tokens. Com base nesse avanço, pesquisadores do Instituto Arc, Universidade de Stanford e NVIDIA têm trabalhado em um sistema de IA que pode entender sequências biológicas como modelos de linguagem grande entendem texto humano. Agora, eles fizeram um desenvolvimento inovador, criando um modelo que captura tanto a natureza multimodal do dogma central quanto as complexidades da evolução. Essa inovação pode levar à previsão e design de novas sequências biológicas, desde moléculas individuais até genomas inteiros. Neste artigo, exploraremos como essa tecnologia funciona, suas aplicações potenciais, os desafios que enfrenta e o futuro da modelagem genômica.
EVO 1: Um Modelo Pioneiro em Modelagem Genômica
Essa pesquisa ganhou atenção no final de 2024, quando a NVIDIA e seus colaboradores introduziram Evo 1, um modelo inovador para analisar e gerar sequências biológicas em DNA, RNA e proteínas. Treinado em 2,7 milhões de genomas procariontes e fagos, totalizando 300 bilhões de tokens de nucleotídeos, o modelo se concentrou em integrar o dogma central da biologia molecular, modelando o fluxo de informações genéticas de DNA para RNA para proteínas. Sua arquitetura StripedHyena, um modelo híbrido que usa filtros convolucionais e portas, lidou eficientemente com contextos longos de até 131.072 tokens. Esse design permitiu que o Evo 1 ligasse pequenas mudanças de sequência a efeitos mais amplos em nível de sistema e organismo, pontuando a lacuna entre biologia molecular e genômica evolutiva.
O Evo 1 foi o primeiro passo na modelagem computacional da evolução biológica. Ele previu com sucesso interações moleculares e variações genéticas, analisando padrões evolutivos em sequências genéticas. No entanto, à medida que os cientistas visavam aplicá-lo a genomas eucarióticos mais complexos, as limitações do modelo se tornaram claras. O Evo 1 lutou com resolução de nucleotídeo único em sequências de DNA longas e foi computacionalmente caro para genomas maiores. Esses desafios levaram à necessidade de um modelo mais avançado capaz de integrar dados biológicos em várias escalas.
EVO 2: Um Modelo Fundamental para Modelagem Genômica
Com base nas lições aprendidas com o Evo-1, os pesquisadores lançaram Evo 2 em fevereiro de 2025, avançando no campo da modelagem de sequências biológicas. Treinado em um impressionante 9,3 trilhões de pares de bases de DNA, o modelo aprendeu a entender e prever as consequências funcionais da variação genética em todos os domínios da vida, incluindo bactérias, arqueas, plantas, fungos e animais. Com mais de 40 bilhões de parâmetros, o modelo do Evo-2 pode lidar com uma longitude de sequência sem precedentes de até 1 milhão de pares de bases, algo que os modelos anteriores, incluindo o Evo-1, não podiam gerenciar.
O que distingue o Evo 2 de seus antecessores é sua capacidade de modelar não apenas as sequências de DNA, mas também as interações entre DNA, RNA e proteínas – o dogma central da biologia molecular inteiro. Isso permite que o Evo 2 previa com precisão o impacto de mutações genéticas, desde as menores mudanças de nucleotídeo até variações estruturais maiores, de maneiras que eram anteriormente impossíveis.
Uma característica-chave do Evo 2 é sua forte capacidade de previsão zero-shot, que permite prever os efeitos funcionais de mutações sem necessidade de ajuste fino específico da tarefa. Por exemplo, ele classifica com precisão variantes clinicamente significativas do gene BRCA1, um fator crucial na pesquisa do câncer de mama, analisando apenas sequências de DNA.
Aplicações Potenciais em Ciências Biomoleculares
As capacidades do Evo 2 abrem novas fronteiras em genômica, biologia molecular e biotecnologia. Algumas das aplicações mais promissoras incluem:
- Atenção à Saúde e Descoberta de Medicamentos: O Evo 2 pode prever quais variantes genéticas estão associadas a doenças específicas, auxiliando no desenvolvimento de terapias direcionadas. Por exemplo, em testes com variantes do gene associado ao câncer de mama BRCA1, o Evo 2 alcançou mais de 90% de precisão em prever quais mutações são benignas versus potencialmente patogênicas. Tais insights poderiam acelerar o desenvolvimento de novos medicamentos e tratamentos personalizados.
- Biologia Sintética e Engenharia Genética: A capacidade do Evo 2 de gerar genomas inteiros abre novas vias no design de organismos sintéticos com características desejadas. Os pesquisadores podem utilizar o Evo 2 para engenhar genes com funções específicas, avançando o desenvolvimento de biocombustíveis, produtos químicos ambientalmente amigáveis e terapias novas.
- Biotecnologia Agrícola: Pode ser usado para projetar culturas geneticamente modificadas com características melhoradas, como resistência à seca ou resiliência a pragas, contribuindo para a segurança alimentar global e a sustentabilidade agrícola.
- Ciência Ambiental: O Evo 2 pode ser aplicado para projetar biocombustíveis ou engenhar proteínas que degradam poluentes ambientais como óleo ou plástico, contribuindo para esforços de sustentabilidade.
Desafios e Direções Futuras
Apesar de suas capacidades impressionantes, o Evo 2 enfrenta desafios. Um dos principais obstáculos é a complexidade computacional envolvida no treinamento e execução do modelo. Com uma janela de contexto de 1 milhão de pares de bases e 40 bilhões de parâmetros, o Evo 2 requer recursos computacionais significativos para funcionar efetivamente. Isso torna difícil para equipes de pesquisa menores utilizar completamente seu potencial sem acesso a infraestrutura de computação de alto desempenho.
Além disso, embora o Evo 2 seja excelente em prever os efeitos de mutações genéticas, ainda há muito a aprender sobre como usá-lo para projetar sistemas biológicos novos do zero. Gerar sequências biológicas realistas é apenas o primeiro passo; o desafio real está em entender como usar esse poder para criar sistemas biológicos funcionais e sustentáveis.
Acessibilidade e Democratização da IA em Genômica
Um dos aspectos mais emocionais do Evo 2 é sua disponibilidade de código aberto. Para democratizar o acesso a ferramentas avançadas de modelagem genômica, a NVIDIA tornou os parâmetros do modelo, o código de treinamento e os conjuntos de dados publicamente disponíveis. Essa abordagem de acesso aberto permite que pesquisadores de todo o mundo explorem e expandam as capacidades do Evo 2, acelerando a inovação em toda a comunidade científica.
O Resumo
O Evo 2 é um avanço significativo na modelagem genômica, usando IA para decodificar a linguagem genética complexa da vida. Sua capacidade de modelar sequências de DNA e suas interações com RNA e proteínas abre novas possibilidades em saúde, descoberta de medicamentos, biologia sintética e ciência ambiental. O Evo 2 pode prever mutações genéticas e projetar novas sequências biológicas, oferecendo um potencial transformador para medicina personalizada e soluções sustentáveis. No entanto, sua complexidade computacional apresenta desafios, especialmente para equipes de pesquisa menores. Ao tornar o Evo 2 de código aberto, a NVIDIA está permitindo que pesquisadores em todo o mundo explorem e expandam suas capacidades, impulsionando a inovação em genômica e biotecnologia. À medida que a tecnologia continua a evoluir, ela tem o potencial de redefinir o futuro das ciências biológicas e da sustentabilidade ambiental.












