Inteligencia artificial

DeepMind está a punto de transformar las ciencias biológicas resolviendo el problema del plegamiento de proteínas

mm

La división de inteligencia artificial de Google, DeepMind, ha hecho recientemente progresos significativos hacia la resolución de uno de los desafíos más antiguos de la biología, calcular la forma de una proteína a partir de una secuencia de aminoácidos. Según Nature, el avance tiene el potencial de transformar los campos de la biología y la química, permitiendo a los científicos determinar la función de muchas proteínas que actualmente son misteriosas.

La forma de una proteína define su función, y la mayoría de las funciones biológicas dependen de las proteínas. “Plegamiento de proteínas” es el nombre dado al proceso que convierte cadenas de aminoácidos en estructuras tridimensionales que las proteínas requieren para realizar sus funciones. Si los científicos pueden determinar la relación entre las secuencias de aminoácidos y la forma de las proteínas que generan, pueden determinar qué proteínas impactan diferentes procesos biológicos.

Los científicos hipotetizan que hay al menos 80,000 proteínas dentro del proteoma humano, pero solo una pequeña fracción de estas proteínas tienen estructuras conocidas. El método tradicional de determinar la forma de una proteína puede tomar años de experimentos de laboratorio, incluso utilizando el poder de los algoritmos y modelos de ciencia de la computación. El trabajo realizado por DeepMind puede acelerar dramáticamente el proceso de descubrimiento de estructuras de proteínas, determinando de manera fiable la estructura de las proteínas en una fracción del tiempo normal.

Los investigadores de DeepMind entrenaron sus algoritmos en una base de datos que comprende aproximadamente 170,000 secuencias de proteínas y las formas correspondientes a esas secuencias. Los algoritmos desarrollados por los investigadores se entrenaron en entre 100 y 200 GPU, y el proceso de entrenamiento tomó unas pocas semanas para completarse. El modelo desarrollado por los investigadores se denominó “AlphaFold”.

AlphaFold opera a través de un “algoritmo de tensión”, comenzando por conectar pequeñas piezas de la proteína y luego escalando para conectar secciones más grandes. Los clusters de aminoácidos pequeños se unieron al principio, y luego el algoritmo buscó formas de unir estos clusters.

Los investigadores de AlphaFold inicialmente intentaron utilizar algoritmos de aprendizaje profundo convencionales en datos genéticos y estructurales para predecir la relación entre los aminoácidos y las proteínas. AlphaFold luego creó modelos de consenso para el estilo de las proteínas. Cuando esta técnica resultó tener demasiadas limitaciones, los investigadores intentaron una nueva estrategia. El equipo de investigación de AlphaFold creó modelos entrenados en más características, y esta vez los modelos devolvieron predicciones para la estructura final de las secuencias de proteínas.

El equipo de ingeniería sometió a prueba a AlphaFold inscribiéndolo en una competencia donde los algoritmos de computadora compiten para evaluar la estructura de una proteína a partir de secuencias de aminoácidos. La competencia fue la “Evaluación crítica de la predicción de la estructura de proteínas” o CASP. Los participantes en la competencia reciben 100 secuencias de aminoácidos y sus modelos deben determinar la estructura de las proteínas. No solo AlphaFold superó a los otros modelos de computadora en términos de precisión, sino que también se desempeñó de manera comparable a las técnicas de modelado tradicionales basadas en laboratorio. La puntuación media final de AlphaFold fue de aproximadamente 92 sobre 100, con métodos experimentales basados en laboratorio que obtuvieron una puntuación de 90. La puntuación media de AlphaFold cayó a 87 por ciento en las proteínas más difíciles.

Según el director ejecutivo y cofundador de DeepMind, Demis Hassabis, la empresa ya está haciendo planes para dar a los investigadores acceso a AlphaFold, con científicos del Instituto Max Planck de Biología del Desarrollo que ya están utilizando el modelo para descubrir estructuras de proteínas en las que han estado trabajando durante más de una década.

Janet Thornton, directora emérita del Instituto Europeo de Bioinformática, fue citada en ScienceMag diciendo que los logros de DeepMind “cambiarán el futuro de la biología estructural y la investigación de proteínas”. Mientras tanto, el biólogo de la Universidad de Maryland, Shady Grove, John Moult dice que nunca pensó que el problema del plegamiento de proteínas se resolvería en esta vida.

Aunque AlphaFold es muy improbable que reemplace completamente los métodos experimentales tradicionales para descubrir estructuras de proteínas, podría aumentar dramáticamente la velocidad a la que se descubren las estructuras de proteínas. Los investigadores pueden requerir menos datos experimentales de alta calidad para determinar una estructura de proteína, y los investigadores ya tienen acceso a una gran cantidad de datos genómicos que podrían traducirse en estructuras utilizando las soluciones de AlphaFold.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.