Connect with us

Google DeepMind、ヒトゲノム機胜を解読するAlphaGenomeを公開

医療

Google DeepMind、ヒトゲノム機胜を解読するAlphaGenomeを公開

mm

Google DeepMindは1月28日、DNA配列が生物学的機能にどのように変換されるかを予測するAIモデル「AlphaGenome」をリリースしました。このモデルは最大100万塩基対を一度に処理し、26のバリアント効果予測ベンチマークのうち25において既存モデルを上回りました。

このモデルは『Nature』誌に掲載され、DeepMindブログで詳細が説明されており、計算ゲノミクスにおける重要な進歩を表しています。従来のモデルは異なる予測タスクに別々のシステムを必要としていましたが、AlphaGenomeは遺伝子発現からクロマチンアクセシビリティまで、単一の統一アーキテクチャで全てを処理します。

「AlphaGenomeはDNAの長い領域を見渡し、重要な調節要素がどこにあるか、そしてそれらが遺伝子発現に及ぼす下流の影響を予測できます」とDeepMindチームは発表文で記しています。このモデルの100万トークンのコンテキストウィンドウにより、遺伝子のオン・オフに影響を与える遠く離れたDNA領域間の長距離相互作用を捉えることが可能になります。

仕組み

AlphaGenomeは2つのニューラルネットワークアーキテクチャを組み合わせています:生のDNA配列を処理するためのBorzoiスタイルの1次元畳み込みネットワークと、画像セグメンテーションから適応されたU-Netアーキテクチャです。このハイブリッドアプローチにより、モデルはDNAの配列的な性質と、調節要素間の複雑な空間的関係の両方を扱うことができます。

学習データは、ENCODEおよびFANTOMコンソーシアムによる約7,000のゲノミックトラックに及びます。これらはヒトゲノム全体の機能要素をカタログ化した大規模な共同研究プロジェクトです。モデルは、遺伝子発現、DNAアクセシビリティ、タンパク質結合、クロマチン修飾を測定する実験アッセイからのシグナルを予測することを学習します。

研究者にとって、実用的な価値はバリアント効果予測にあります。患者のゲノムに変異が含まれる場合、臨床医はそのバリアントが重要かどうかを知る必要があります。AlphaGenomeは、単一のヌクレオチド変化が調節領域全体にどのように影響するかを予測でき、現在の手法では見逃されている疾患原因変異を特定する可能性があります。

このモデルは、遺伝的バリアントが遺伝子発現や調節要素の活性にどのように影響するかを予測する能力をテストするベンチマークで強力な結果を達成しました。遺伝子発現レベルに影響を与えることが知られているバリアントである発現量的形質遺伝子座(eQTL)において、AlphaGenomeはそれらのタスク専用に訓練された専門モデルと同等以上の性能を示しました。

オープンソースでの公開

DeepMindは、非商用利用を目的としてAlphaGenomeのソースコードをGitHubで公開し、基礎的な生物学ツールを公に利用可能にする同研究所のパターンを継続しています。リポジトリには、モデルの重み、推論コード、およびカスタム配列で予測を実行するためのドキュメントが含まれています。

このオープンリリースは、2021年の公開以来300万人以上の研究者に利用されてきたDeepMindのタンパク質構造予測ツール「AlphaFold」によって確立されたモデルに続くものです。AlphaGenomeは相補的な問題に取り組んでいます:AlphaFoldがタンパク質の形状を予測するのに対し、AlphaGenomeは遺伝子がいつ、どこでそれらのタンパク質を産生するかを予測します。

Google DeepMindのCEOであるデミス・ハサビスは、生物学を同研究所のAI能力の主要な応用分野として位置づけています。ゲノミクス研究は、Geminiのような製品を支える会話型AIや言語モデルを超えて、同様のアーキテクチャ革新を科学的問題に適用することで、DeepMindの野望を拡大するものです。

重要性

ヒトゲノムには約30億塩基対が含まれますが、タンパク質を直接コードするのは約1.5%のみです。残りの98.5%は長らく「ジャンクDNA」として軽視されてきましたが、遺伝子がいつ、どこで、どれだけ発現するかを制御する調節要素を含んでいます。これらの非コード領域の変異は疾患を引き起こしますが、どのバリアントが重要であるかを特定することは非常に困難でした。

従来の方法では、個々のバリアントをテストするために高価で時間のかかる実験が必要でした。AlphaGenomeのような機械学習モデルは、数千のバリアントを計算上スクリーニングし、どの変異が実験的追跡調査に値するかを優先順位付けできます。患者が未知の影響を持つ新規変異を保有することが多い希少疾患の診断において、この能力はシーケンシングから診断に至る道のりを加速する可能性があります。

このモデルが100万塩基対のコンテキストを処理できる能力は特に重要です。遺伝子調節要素は、それらが制御する遺伝子から数十万塩基対離れた位置に存在し、DNAの複雑な3次元折り畳みを通じて通信することがあります。より短いコンテキストウィンドウを持つ以前のモデルでは、これらの長距離依存関係を捉えることができませんでした。

AlphaGenomeは、生物学研究を変革しつつあるAIツールの成長するエコシステムに加わります。タンパク質構造予測、創薬、そして今や遺伝子調節は、機械学習にとってますます扱いやすい問題となっています。遺伝学研究コミュニティにとって、これらのモデルがオープンに利用可能であることは、以前は資金豊富な研究室に限られていた計算能力へのアクセスを民主化します。

このモデルの限界も、DeepMindの発表から明らかです。AlphaGenomeは実験測定値の予測に優れていますが、それらの予測を臨床的転帰に翻訳するには追加の検証が必要です。クロマチンアクセシビリティを予測することと、疾患リスクを予測することとの間には依然として大きな隔たりがあります。

現時点では、AlphaGenomeは研究ツールとして機能します。臨床応用が実現するまでにはまだ数年かかるとしても、ゲノムの働きを理解することを加速する可能性のあるツールです。既に160カ国、3,000人の科学者がこのモデルを使用していることは、研究コミュニティがDeepMindが構築したものに即座の価値を見出していることを示唆しています。

Alex McFarlandは、人工知胜の最新動向を探求するAIゞャヌナリスト兌ラむタヌです。圌は䞖界䞭の数倚くのAIスタヌトアップや出版物ず協力しおきたした。