Inteligência artificial

A DeepMind está prestes a transformar as ciências biológicas ao resolver o problema do dobramento de proteínas

mm

A divisão de IA do Google, DeepMind, recentemente fez um progresso significativo no sentido de resolver um dos desafios mais antigos da biologia, calculando a forma de uma proteína a partir de uma sequência de aminoácidos. De acordo com a Nature, o avanço tem o potencial de transformar os campos da biologia e da química, permitindo que os cientistas determinem a função de muitas proteínas que atualmente são misteriosas.

A forma de uma proteína define sua função, e a maioria das funções biológicas depende de proteínas. “Dobramento de proteínas” é o nome dado ao processo que converte cadeias de aminoácidos em estruturas tridimensionais que as proteínas necessitam para realizar suas funções. Se os cientistas puderem determinar a relação entre sequências de aminoácidos e a forma das proteínas que elas geram, eles podem determinar quais proteínas afetam diferentes processos biológicos.

Os cientistas hipotetizam que existem pelo menos 80.000 proteínas no proteoma humano, mas apenas uma pequena fração dessas proteínas tem estruturas conhecidas. O método tradicional de determinar a forma de uma proteína pode levar anos de experimentos de laboratório, mesmo com o poder de algoritmos e modelos de ciência da computação. O trabalho realizado pela DeepMind pode acelerar dramaticamente o processo de descoberta de estruturas de proteínas, determinando a estrutura de proteínas de forma confiável em uma fração do tempo normal.

Os pesquisadores da DeepMind treinaram seus algoritmos em um banco de dados composto por aproximadamente 170.000 sequências de proteínas e as formas correspondentes a essas sequências. Os algoritmos desenvolvidos pelos pesquisadores foram treinados em cerca de 100 a 200 GPUs, e o processo de treinamento levou algumas semanas para ser concluído. O modelo desenvolvido pelos pesquisadores foi apelidado de “AlphaFold”.

O AlphaFold opera por meio de um “algoritmo de tensão”, começando por conectar pequenos pedaços da proteína e, em seguida, escalando para conectar seções maiores e maiores. Pequenos clusters de aminoácidos foram ligados inicialmente, e, em seguida, o algoritmo procurou encontrar maneiras de ligar esses clusters.

Os pesquisadores do AlphaFold inicialmente tentaram usar algoritmos de aprendizado profundo convencionais em dados genéticos e estruturais para prever a relação entre aminoácidos e proteínas. O AlphaFold, em seguida, criou modelos de consenso para o estilo das proteínas. Quando essa técnica se provou ter muitas limitações, os pesquisadores tentaram uma nova estratégia. A equipe de pesquisa do AlphaFold criou modelos treinados em mais recursos, e desta vez eles fizeram com que o modelo retornasse previsões para a estrutura final das sequências de proteínas.

A equipe de engenharia testou o AlphaFold entrando com ele em uma competição onde algoritmos de computador competem para avaliar a estrutura de uma proteína a partir de sequências de aminoácidos. A competição foi a “Avaliação Crítica da Previsão de Estrutura de Proteína” ou CASP. Os participantes da competição recebem 100 sequências de aminoácidos e seus modelos devem trabalhar a estrutura das proteínas. Não apenas o AlphaFold superou os outros modelos de computador em termos de precisão, mas também performou de forma comparável às técnicas de modelagem baseadas em laboratório tradicionais. A pontuação média final do AlphaFold foi de aproximadamente 92 em 100, com métodos experimentais baseados em laboratório recebendo uma pontuação de 90. A pontuação média do AlphaFold caiu para 87% nas proteínas mais difíceis.

De acordo com o CEO e co-fundador da DeepMind, Demis Hassabis, a empresa já está planejando dar acesso ao AlphaFold aos pesquisadores, com cientistas do Instituto Max Planck de Biologia do Desenvolvimento já utilizando o modelo para descobrir estruturas de proteínas que eles vinham trabalhando há mais de uma década.

Janet Thornton, diretora emérita do Instituto Europeu de Bioinformática, foi citada via ScienceMag como tendo dito que os feitos da DeepMind “vão mudar o futuro da biologia estrutural e da pesquisa de proteínas”. Enquanto isso, o biólogo da Universidade de Maryland, Shady Grove, John Moult diz que ele nunca pensou que o problema do dobramento de proteínas seria resolvido nesta vida.

Embora o AlphaFold seja muito improvável que substitua completamente os métodos experimentais tradicionais de descoberta de estruturas de proteínas, ele pode aumentar dramaticamente a velocidade com que as estruturas de proteínas são descobertas. Os pesquisadores podem precisar de menos dados experimentais de alta qualidade para determinar a estrutura de uma proteína, e os pesquisadores já têm acesso a um grande volume de dados genômicos que poderiam ser traduzidos em estruturas usando as soluções do AlphaFold.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.