Здравоохранение

Google DeepMind представил AlphaGenome для расшифровки функции человеческого генома

mm

Google DeepMind выпустил AlphaGenome 28 января, модель ИИ, которая предсказывает, как последовательности ДНК переводятся в биологические функции, обрабатывая до одного миллиона пар оснований одновременно и превосходя существующие модели в 25 из 26 тестов прогнозирования эффекта вариантов.

Модель, опубликованная в Nature и подробно описанная в блоге DeepMind, представляет собой значительный прорыв в вычислительной геномике. В то время как предыдущие модели требовали отдельных систем для различных задач прогнозирования, AlphaGenome обрабатывает все, от экспрессии генов до доступности хроматина, в единой унифицированной архитектуре.

“AlphaGenome может просматривать длинный участок ДНК и предсказывать, где находятся критические регуляторные элементы и их последующие эффекты на экспрессию генов”, – написала команда DeepMind в своем объявлении. Окно контекста модели в один миллион токенов позволяет ей захватывать длинные взаимодействия между удаленными областями ДНК, которые влияют на то, как включаются и выключаются гены.

Как это работает

AlphaGenome объединяет две архитектуры нейронных сетей: сеть 1D-конволюции Borzoi для обработки сырых последовательностей ДНК и архитектуру U-Net, адаптированную из сегментации изображений. Этот гибридный подход позволяет модели обрабатывать как последовательную природу ДНК, так и сложные пространственные отношения между регуляторными элементами.

Тренировочные данные охватывают примерно 7 000 геномных треков из консорциумов ENCODE и FANTOM – огромных совместных усилий, которые каталогизировали функциональные элементы по всему человеческому геному. Модель учится предсказывать сигналы от экспериментальных тестов, измеряющих экспрессию генов, доступность ДНК, связывание белков и модификации хроматина.

Для исследователей практическая ценность заключается в прогнозировании эффекта вариантов. Когда геном пациента содержит мутацию, клиницистам необходимо знать, имеет ли этот вариант значение. AlphaGenome может предсказать, как однонуклеотидное изменение влияет на весь регуляторный ландшафт, потенциально выделяя варианты, вызывающие заболевания, которые текущие методы не обнаруживают.

Модель показала хорошие результаты на тестах, проверяющих ее способность предсказывать, как генетические варианты влияют на экспрессию генов и активность регуляторных элементов. На количественных локусах экспрессии генов (eQTL) – вариантах, известных как влияющие на уровни экспрессии генов, – AlphaGenome соответствовала или превосходила специализированные модели, обученные конкретно для этих задач.

Доступность с открытым исходным кодом

DeepMind выпустил исходный код AlphaGenome на GitHub для некоммерческого использования, продолжая лабораторную традицию сделать фундаментальные инструменты биологии публично доступными. Репозиторий включает веса модели, код вывода и документацию для запуска прогнозов на пользовательских последовательностях.

Открытый выпуск следует модели, установленной AlphaFold, инструментом DeepMind для прогнозирования структуры белков, который был использован более чем 3 миллионами исследователей с момента его выпуска в 2021 году. AlphaGenome решает дополнительную проблему: в то время как AlphaFold прогнозирует, как выглядят белки, AlphaGenome прогнозирует, когда и где гены производят эти белки.

Генеральный директор Google DeepMind Демис Хассабис позиционирует биологию как основную область применения возможностей ИИ лаборатории. Работа в области геномики расширяет амбиции DeepMind за пределы разговорного ИИ и языковых моделей, которые обеспечивают работу продуктов như Gemini, применяя аналогичные архитектурные инновации к научным проблемам.

Почему это важно

Человеческий геном содержит примерно 3 миллиарда пар оснований, но только около 1,5% кодируют напрямую белки. Остальные 98,5% – ранее считавшиеся “мусорной ДНК” – содержат регуляторные элементы, которые контролируют, когда, где и сколько генов экспрессируются. Мутации в этих некодирующих областях вызывают заболевания, но выявление значимых вариантов было чрезвычайно трудным.

Традиционные методы требуют дорогостоящих и длительных экспериментов для проверки отдельных вариантов. Модели машинного обучения, такие как AlphaGenome, могут скринировать тысячи вариантов вычислительным путем, определяя приоритетность тех, которые заслуживают экспериментального подтверждения. Для диагностики редких заболеваний, где пациенты часто имеют новые варианты с неизвестными эффектами, эта возможность может ускорить путь от секвенирования к диагнозу.

Способность модели обрабатывать контексты в один миллион пар оснований особенно значима. Регуляторные элементы генов могут находиться на расстоянии сотен тысяч пар оснований от генов, которые они контролируют, общаясь через сложное трехмерное сворачивание ДНК. Предыдущие модели с более короткими контекстными окнами не могли захватить эти длинные зависимости.

AlphaGenome присоединяется к растущему экосистеме инструментов ИИ, преобразующих биологические исследования. Прогнозирование структуры белков, открытие лекарств и теперь регуляция генов становятся все более решаемыми задачами для машинного обучения. Для исследовательского сообщества генетики открытая доступность этих моделей демократизирует доступ к вычислительным возможностям, которые ранее были ограничены хорошо финансируемыми лабораториями.

Ограничения модели также ясны из презентации DeepMind. Хотя AlphaGenome превосходно предсказывает экспериментальные измерения, перевод этих прогнозов в клинические результаты требует дополнительной валидации. Разрыв между прогнозированием доступности хроматина и прогнозированием риска заболевания остается значительным.

На данный момент AlphaGenome служит инструментом исследования – тем, который может ускорить понимание того, как работает геном, даже если клинические применения остаются на годы вперед. 3 000 ученых из 160 стран, уже использующих модель, предполагают, что исследовательское сообщество видит непосредственную ценность в том, что построил DeepMind.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.