Охорона здоров’я
Google DeepMind представляє AlphaGenome для розшифрування функції людського геному

Google DeepMind випустив AlphaGenome 28 січня, модель штучного інтелекту, яка передбачає, як послідовності ДНК перекладаються у біологічні функції, обробляючи до одного мільйона пар основ одночасно та перевершуючи існуючі моделі у 25 із 26 бенчмарків прогнозування ефектів варіантів.
Модель, опублікована в Nature та описана на блоґу DeepMind, представляє суттєвий крок вперед у комп’ютерній геноміці. Якщо попередні моделі вимагали окремих систем для різних завдань прогнозування, AlphaGenome обробляє все, від експресії генів до доступності хроматину, у єдиній уніфікованій архітектурі.
“AlphaGenome може оглянути довгу ділянку ДНК та передбачити, де розташовані критичні регуляторні елементи та їхні подальші ефекти на експресію генів”, – написала команда DeepMind у своєму оголошенні. Вікно контексту моделі у мільйон токенів дозволяє їй захоплювати довгострокові взаємодії між віддаленими ділянками ДНК, які впливають на те, як гени включаються та виключаються.
Як це працює
AlphaGenome поєднує дві архітектури нейронних мереж: Borzoi-стиль 1D-конвольної мережі для обробки сирої послідовності ДНК та архітектуру U-Net, адаптовану з(image segmentation). Цей гібридний підхід дозволяє моделі обробляти як послідовну природу ДНК, так і складні просторові взаємодії між регуляторними елементами.
Тренувальні дані охоплюють приблизно 7 000 геномних треків з консорціумів ENCODE та FANTOM – масштабних колективних зусиль, які каталогізували функціональні елементи по всьому людському геному. Модель вчиться передбачати сигнали від експериментальних аналізів, які вимірюють експресію генів, доступність ДНК, зв’язування білків та модифікації хроматину.
Для дослідників практична цінність полягає у передбаченні ефектів варіантів. Коли геном пацієнта містить мутацію, клініцистам потрібно знати, чи має значення той варіант. AlphaGenome може передбачити, як одна зміна нуклеотиду впливає на весь регуляторний ландшафт, потенційно виділяючи варіанти, які спричиняють захворювання, яких не виявляють сучасні методи.
Модель показала сильні результати на бенчмарках, які тестують її здатність передбачати, як генетичні варіанти впливають на експресію генів та активність регуляторних елементів. На експресійних квантильних локусах (eQTLs) – варіантах, відомих тим, що вони впливають на рівні експресії генів, – AlphaGenome дорівнює або перевершує спеціалізовані моделі, які були навчені конкретно для цих завдань.
Відкрита джерельна доступність
DeepMind випустив джерельний код AlphaGenome на GitHub для некомерційного використання, продовжуючи лабораторний шаблон надання відкритого доступу до основних інструментів біології. Репозиторій включає ваги моделі, код інференції та документацію для виконання прогнозів на користувальницьких послідовностях.
Відкритий реліз слідує моделі, встановленій AlphaFold, інструментом DeepMind для прогнозування структури білків, який використовували понад 3 мільйони дослідників з моменту його випуску у 2021 році. AlphaGenome вирішує доповнювальну проблему: тоді як AlphaFold передбачає, яким є білки, AlphaGenome передбачає, коли та де гени виробляють ці білки.
Головний виконавчий директор Google DeepMind Деміс Хассабіс позиціонував біологію як основну сферу застосування можливостей штучного інтелекту лабораторії. Робота у галузі геноміки розширює амбіції DeepMind за межі конверсаційного штучного інтелекту та мовних моделей, які живлять продукти, такі як Gemini, застосовуючи подібні архітектурні інновації до наукових проблем.
Чому це важливо
Лудський геном містить приблизно 3 мільярди пар основ, але лише близько 1,5% безпосередньо кодують білки. Решта 98,5% – довгий час вважалися “сміттям ДНК” – містять регуляторні елементи, які контролюють, коли, де та скільки генів експресуються. Мутації в цих некодуючих регіонах спричиняють захворювання, але визначення тих варіантів, які мають значення, було надзвичайно складним.
Традиційні методи вимагають дорогих та тривалих експериментів для тестування окремих варіантів. Моделі машинного навчання, такі як AlphaGenome, можуть скринінгувати тисячі варіантів обчислювально, пріоритизуючи ті, які заслуговують на експериментальне продовження. Для діагностики рідкісних захворювань, де пацієнти часто несуть нові варіанти з невідомими ефектами, ця можливість могла б прискорити шлях від секвенування до діагностики.
Спроможність моделі обробляти контексти у мільйон пар основ особливо значима. Регуляторні елементи генів можуть розташовуватися сотнями тисяч пар основ від генів, які вони контролюють, спілкуючись через складне 3D-звивання ДНК. Попередні моделі з коротшими вікнами контексту не могли захоплювати ці довгострокові залежності.
AlphaGenome приєднується до зростаючої екосистеми інструментів штучного інтелекту, які трансформують дослідження біології. Прогнозування структури білків, відкриття ліків та тепер регуляція генів стають все більш вирішуваними проблемами для машинного навчання. Для спільноти генетичних досліджень відкрита доступність цих моделей демократизує доступ до обчислювальних можливостей, які раніше були обмежені добре фінансованими лабораторіями.
Обмеження моделі також очевидні з презентації DeepMind. Хоча AlphaGenome добре працює з прогнозуванням експериментальних вимірювань, переклад цих прогнозів у клінічні результати вимагає додаткової валідации. Пропуск між прогнозуванням доступності хроматину та прогнозуванням ризику захворювання залишається суттєвим.
Наразі AlphaGenome служить інструментом для досліджень – тим, який міг би прискорити розуміння того, як працює геном, навіть якщо клінічні застосування залишаються на роки вперед. 3 000 науковців з 160 країн, які вже використовують модель, свідчать про те, що дослідницька спільнота бачить негайну цінність того, що побудував DeepMind.












