ヘルスケア
Google DeepMind、AlphaGenomeを発表してヒトゲノムの機能を解読する

Google DeepMindは1月28日、AlphaGenomeをリリースしました。これは、DNAシーケンスが生物学的機能にどのように翻訳されるかを予測するAIモデルで、1回に最大100万の塩基対を処理し、26のバリアント効果予測ベンチマークのうち25で既存のモデルを上回る性能を発揮しています。
このモデルは、Natureに掲載され、DeepMindブログに詳細が記載されています。AlphaGenomeは、計算ゲノミクスにおける重要な進歩を表しています。以前のモデルでは、さまざまな予測タスクごとに別々のシステムが必要でしたが、AlphaGenomeは、遺伝子発現からクロマチン可溶化まで、すべてを単一の統一されたアーキテクチャで処理します。
「AlphaGenomeは、長いDNAのストレッチを見て、重要な調節要素がどこにあるかと、それらの遺伝子発現への下流効果を予測できます」と、DeepMindチームは発表で述べています。モデルの100万トークンのコンテキストウィンドウにより、遺伝子をオン/オフにする影響を与える遠隔のDNA領域間の長距離相互作用を捉えることができます。
動作の仕組み
AlphaGenomeは、2つのニューラルネットワークアーキテクチャを組み合わせています。1つは、生のDNAシーケンスを処理するBorzoiスタイルの1D畳み込みネットワークで、もう1つは、画像セグメンテーションから適応されたU-Netアーキテクチャです。このハイブリッドアプローチにより、モデルは、DNAの順序性と調節要素間の複雑な空間関係の両方を処理できます。
トレーニングデータは、ENCODEとFANTOMコンソーシアムからの約7,000のゲノムトラックで構成されています。これらは、ヒトゲノム全体にわたる機能要素をカタログ化した大規模な共同研究です。モデルは、遺伝子発現、DNA可溶化、タンパク質結合、クロマチン修飾を測定する実験アッセイからの信号を予測することを学習します。
研究者にとって、実用的な価値はバリアント効果予測にあります。患者のゲノムに変異が存在する場合、臨床医はその変異が重要かどうかを判断する必要があります。AlphaGenomeは、単一の核酸塩基変化が全体の調節ランドスケープに与える影響を予測できます。現在の方法では見逃される可能性のある疾患原因変異を潜在的に特定できます。
モデルは、遺伝子発現と調節要素の活性に影響を与える遺伝子変異を予測する能力をテストするベンチマークで強力な結果を達成しました。遺伝子発現レベルに影響を与えることが知られているeQTL(発現量的特性遺伝子ロキ)では、AlphaGenomeは、専用にトレーニングされたモデルと同等以上の性能を発揮しました。
オープンソースの利用可能性
DeepMindは、AlphaGenomeのソースコードをGitHubで非商用利用のために公開しました。これは、基礎生物学ツールを一般に公開するという研究所の慣行を続けています。リポジトリには、モデル重み、推論コード、およびカスタムシーケンスの予測を実行するためのドキュメントが含まれています。
オープンリリースは、AlphaFoldに続くものです。AlphaFoldは、DeepMindのタンパク質構造予測ツールで、2021年のリリース以来300万人以上の研究者によって使用されています。AlphaGenomeは、補完的な問題に取り組んでいます。AlphaFoldがタンパク質の構造を予測する一方で、AlphaGenomeは、遺伝子がそれらのタンパク質を生成するときとどこで生成するかを予測します。
Google DeepMindのCEOであるDemis Hassabisは、生物学を研究所のAI能力の主要な応用ドメインとして位置付けました。ゲノミクス研究は、会話AIやAlphaGenomeを含むGeminiを動かす言語モデルを超えて、DeepMindの野心を拡大します。
なぜこれが重要か
ヒトゲノムには約30億の塩基対が含まれていますが、そのうち約1.5%のみがタンパク質を直接コード化します。残りの98.5%(「ジャンクDNA」として長い間見捨てられていたもの)は、遺伝子がいつ、どこ、どのくらい発現されるかを制御する調節要素を含みます。これらの非コード領域の変異は疾患を引き起こしますが、どの変異が重要かを特定することは非常に困難でした。
従来の方法では、個々の変異をテストするために、高価で時間のかかる実験が必要です。AlphaGenomeのようなマシンラーニングモデルは、計算的に数千の変異をスクリーニングし、実験的フォローアップに値する変異を優先順位付けできます。希少な疾患の診断では、患者が新しい変異を抱えていることが多いため、この機能は、シーケンシングから診断までの道筋を加速する可能性があります。
モデルの100万ベースペアのコンテキストを処理する能力は特に重要です。遺伝子調節要素は、制御する遺伝子から数十万の塩基対離れた場所に存在し、DNAの複雑な3D折り畳みを介して通信します。以前のモデルでは、長距離依存関係を捉えることができませんでした。
AlphaGenomeは、生物学研究を変革するAIツールの成長するエコシステムの一部です。タンパク質構造予測、薬剤発見、遺伝子調節は、機械学習の解決可能な問題になっています。遺伝子研究コミュニティにとって、これらのモデルのオープンアクセスは、以前は十分な資金のある研究所のみが利用できた計算能力へのアクセスを民主化します。
モデルの限界も、DeepMindの発表から明らかです。AlphaGenomeは実験測定の予測に優れていますが、予測を臨床結果に翻訳するには、追加の検証が必要です。クロマチン可溶化の予測と疾患リスクの予測の間のギャップは、まだ大きいです。
現在、AlphaGenomeは、臨床応用がまだ数年先になるとしても、ゲノムの機能を理解することを促進する研究ツールとして機能します。160カ国にわたる3,000人の科学者がすでにこのモデルを使用していることから、研究コミュニティは、DeepMindが構築したものに即時の価値を見出しているようです。












