スタブ Serafim Batzoglou 博士、Seer 最高データ責任者 - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

Serafim Batzoglou 博士、Seer 最高データ責任者 - インタビュー シリーズ

mm

公開済み

 on

Serafim Batzoglou は最高データ責任者です。 シーア。 Seer に入社する前は、Serafim は Insitro で最高データ責任者を務め、創薬へのアプローチにおいて機械学習とデータ サイエンスを主導していました。 Insitro に入社する前は、イルミナで応用生物学および計算生物学担当副社長を務め、人間の健康においてゲノム データをより解釈しやすくするための AI および分子アッセイの研究と技術開発を主導しました。

最初にゲノミクスの分野に惹かれたのは何ですか?

私が計算生物学の分野に興味を持ったのは、MIT でコンピュータ サイエンスの博士号を取得し始めた頃で、博士課程の指導教官となったボニー バーガーとデビッド ギフォードが教えるテーマの授業を受講したときでした。 ヒトゲノムプロジェクトは、私の博士課程の期間にペースを上げていました。 MIT のゲノム センターを率いていたエリック ランダーが私の博士課程の共同顧問となり、私をプロジェクトに参加させてくれました。 ヒトゲノムプロジェクトに動機づけられて、私は全ゲノムアセンブリとヒトとマウスの DNA の比較ゲノミクスに取り組みました。

その後、スタンフォード大学のコンピュータ サイエンス学部の教員として移り、そこで 15 年間を過ごし、約 30 人の非常に才能のある博士課程の学生と多くのポスドク研究者や学部生にアドバイスをする機会に恵まれました。 私のチームは、大規模なゲノムおよび生体分子データを分析するためのアルゴリズム、機械学習、およびソフトウェア ツールの応用に重点を置いています。 私は 2016 年にスタンフォードを去り、イルミナの研究および技術開発チームを率いました。 それ以来、私は業界の研究開発チームをリードすることに喜びを感じています。 チームワーク、ビジネスの側面、そして社会へのより直接的な影響は、学界と比較して産業界の特徴であると思います。 私はキャリアを通じて革新的な企業で働きました。2009 年に共同設立した DNAnexus、Illumina、insitro、そして現在は Seer です。 計算と機械学習は、技術開発からデータ取得、生物学的データの解釈と人間の健康への変換に至るまで、バイオテクノロジーの技術チェーン全体にわたって不可欠です。

過去 20 年間で、ヒトゲノムの解読は大幅に安価かつ迅速になりました。 これにより、ゲノム配列決定市場が劇的に成長し、ライフサイエンス業界での採用が拡大しました。 私たちは現在、予防、診断、治療、創薬などの医療に有意義な変革をもたらすのに十分なサイズの集団ゲノム、マルチオミクス、表現型のデータを取得しようとしているところです。 ゲノムデータのコンピューター分析を通じて、個人の疾患の分子的基盤をますます発見できるようになり、患者は、特にがんや希少遺伝病の分野で、個別化され、的を絞った治療を受ける機会が得られます。 機械学習とゲノム情報を組み合わせることで、医学での明らかな使用を超えて、家系図や栄養など、私たちの生活の他の領域についての洞察を得ることができます。 今後数年間で、パーソナライズされたデータ主導型医療が、まず希少疾患患者などの一部の人々に導入され、徐々に一般大衆にも導入されることになるでしょう。

現在の役職に就く前は、最高データ責任者を務めていました。 紹介、創薬へのアプローチにおいて機械学習とデータサイエンスをリードしています。 機械学習を使用して創薬を加速する方法について、この期間から得た重要な点は何ですか?

従来の創薬および開発の「試行錯誤」パラダイムは、非効率性と非常に長いスケジュールに悩まされています。 1 つの薬が市場に投入されるまでには、XNUMX 億ドル以上と XNUMX 年以上かかることがあります。 これらの取り組みに機械学習を組み込むことで、途中のいくつかのステップでコストと期間を大幅に削減できます。 XNUMX つのステップは標的の同定であり、疾患の表現型を調節したり、疾患の細胞状態をより健康な状態に戻す遺伝子または遺伝子セットを、大規模な遺伝的および化学的摂動、およびイメージングや機能ゲノミクスなどの表現型の読み取りを通じて同定できます。 。 もうXNUMXつのステップは化合物の同定と最適化であり、機械学習によるインシリコ予測やインビトロスクリーニングによって小分子や他のモダリティを設計でき、さらに溶解性、透過性、特異性、非耐性などの薬物の望ましい特性を設計できます。毒性を最適化することができます。 最も重要であると同時に最も難しいのは、おそらく人間への翻訳です。 ここで、適切な疾患に対する適切なモデル (人工多能性幹細胞由来株対初代患者細胞株、組織サンプル対動物モデル) の選択は、最終的に得られるデータとマシンの能力に反映される非常に重要な一連のトレードオフをもたらします。患者に伝えることを学ぶ。

Seer Bio は、人間の健康を改善するためにプロテオームの秘密を解読する新しい方法を開拓しています。この用語に馴染みのない読者のために、プロテオームとは何ですか?

  プロテオーム 時間の経過とともに環境、栄養、健康状態に応じて生物によって生成または修飾される、変化する一連のタンパク質です。 プロテオミクスは、特定の細胞型または組織サンプル内のプロテオームの研究です。 人間や他の生物のゲノムは静的です。体細胞突然変異の重要な例外を除けば、出生時のゲノムはその人が一生持つゲノムであり、体の各細胞に正確にコピーされます。 プロテオームは動的であり、数年、数日、さらには数分の時間にわたって変化します。 そのため、プロテオームはゲノムよりも表現型、そして最終的には健康状態にはるかに近いため、健康状態のモニタリングや疾患の理解にとってより有益な情報となります。

Seer では、血漿などの複雑なサンプル中のタンパク質やプロテオフォームについてより深い洞察を提供する、プロテオームにアクセスする新しい方法を開発しました。血漿は非常にアクセスしやすいサンプルですが、残念ながらこれまで従来の質量分析プロテオミクスにとって大きな課題となってきました。

Seer's Proteograph™ プラットフォームとは何ですか?また、プロテオームの新しいビューをどのように提供しますか?

Seer の Proteograph プラットフォームは、独自に設計されたナノ粒子のライブラリを活用し、シンプルかつ迅速かつ自動化されたワークフローを活用して、プロテオームの詳細かつスケーラブルな調査を可能にします。

Proteograph プラットフォームは、従来の質量分析法ではプロテオームの低存在量部分を検出できない、大きなダイナミック レンジ (サンプル中のさまざまなタンパク質の存在量に何桁もの違いがある) を示す血漿やその他の複雑なサンプルを調べる場合に威力を発揮します。 Seer のナノ粒子は、ダイナミック レンジ全体にわたって偏りのない方法でタンパク質を収集する、調整可能な物理化学的特性を備えて設計されています。 一般的な血漿サンプルでは、​​当社の技術により、プロテオグラフを使用せずに純粋な血漿を処理した場合に比べて、5 倍から 8 倍多くのタンパク質を検出できます。 その結果、サンプル前処理から機器、データ分析に至るまで、当社の Proteograph 製品スイートは、科学者が他の方法では検出できない可能性のあるプロテオーム疾患の兆候を発見するのに役立ちます。 私たちは、Seer がプロテオームへの新しい入り口を開いていると言いたいのです。

さらに、科学者が大規模なプロテオゲノム研究を簡単に実行できるようにしています。 プロテオゲノミクスは、ゲノムデータとプロテオームデータを組み合わせて、タンパク質変異体を特定および定量化し、ゲノム変異体とタンパク質存在量レベルを関連付け、最終的にはゲノムとプロテオームを表現型および疾患に関連付け、疾患に関連する原因および下流の遺伝経路の解明を開始します。 。

Seeer Bio で現在使用されている機械学習テクノロジーについていくつかお話しいただけますか?

Seer は、技術開発から下流のデータ分析に至るすべての段階で機械学習を活用しています。 これらのステップには次のものが含まれます。(1) 当社独自のナノ粒子の設計。機械学習は、ナノ粒子のどの物理化学的特性と組み合わせが特定の製品ラインやアッセイで機能するかを決定するのに役立ちます。 (2) MS 機器から生成された読み出しデータからのペプチド、タンパク質、変異体、プロテオフォームの検出と定量化。 (3) 大規模集団コホートにおける下流のプロテオミクスおよびプロテオゲノム解析。

昨年、私たちは Advanced Materials に論文を発表しました プロテオミクス手法、ナノエンジニアリング、機械学習を組み合わせて、タンパク質コロナ形成のメカニズムの理解を深めます。 この論文はナノとバイオの相互作用を明らかにし、改良された将来のナノ粒子および製品の作成において Seer に情報を提供しています。

ナノ粒子の開発を超えて、私たちは開発を行っています。 変異ペプチドと翻訳後修飾を識別するための新しいアルゴリズム (PTM)。 私たちは最近、次の方法を開発しました。 タンパク質の定量化された形質遺伝子座の検出 (pQTL) は、親和性に基づくプロテオミクスの交絡因子であることが知られているタンパク質変異体に対して堅牢です。 私たちはこの研究を拡張し、深層学習ベースのデノボシーケンス手法を使用して生のスペクトルからこれらのペプチドを直接特定し、スペクトルライブラリのサイズを増大させることなく検索できるようにしています。

私たちのチームは、機械学習に関する深い専門知識を持たない科学者が発見作業で機械学習モデルを最適に調整して利用できるようにする方法も開発しています。 これは、以下に基づく Seer ML フレームワークを通じて実現されます。 AutoML ベイズ最適化による効率的なハイパーパラメータ調整を可能にするツール。

最後に、タンパク質グループ内のペプチド間の強度値の相関など、期待される指標を最大化するために測定された定量値をモデル化することにより、バッチ効果を軽減し、質量スペック読み取りの定量的精度を向上させる方法を開発しています。

幻覚は LLM によくある問題ですが、これを防止または軽減する解決策にはどのようなものがありますか?

LLM は、大規模なコーパスが与えられ、同様のテキストを生成するようにトレーニングされる生成手法です。 これらは、単語 (またはトークン) の特定の組み合わせが一緒に見つかる頻度などの単純なローカルなプロパティから、コンテキストと意味の理解をエミュレートするより高いレベルのプロパティまで、トレーニング対象のテキストの基礎となる統計的プロパティをキャプチャします。

ただし、LLM は主に正しくなるように訓練されているわけではありません。 ヒューマン フィードバックによる強化学習 (RLHF) やその他の手法は、正確性を含む望ましい特性を訓練するのに役立ちますが、完全に成功しているわけではありません。 プロンプトが与えられると、LLM はトレーニング データの統計的特性に最もよく似たテキストを生成します。 多くの場合、このテキストも正しいです。 たとえば、「アレクサンダー大王の誕生はいつですか」と尋ねられた場合、正しい答えは紀元前 356 年 (または紀元前) であり、訓練データ内ではアレクサンダー大王の誕生がこの値として頻繁に現れるため、LLM はその答えを与える可能性が高くなります。 しかし、トレーニング コーパスには存在しない架空の人物である「レジネラ皇后はいつ生まれたのですか」と尋ねられると、LLM は幻覚を起こし、彼女の誕生の物語を作成する可能性があります。 同様に、LLM が正しい答えを取得できない可能性がある質問をされた場合 (正しい答えが存在しないため、または他の統計目的のため)、LLM は幻覚を起こして、あたかも知っているかのように答える可能性があります。 これは幻覚を引き起こしますが、これは「これこれのがんをどのように治療できるか」などの深刻な用途にとっては明らかな問題です。

幻覚に対する完璧な解決策はまだありません。 これらは LLM の設計に固有のものです。 部分的な解決策の XNUMX つは、LLM に「段階的に慎重に考える」などの適切な指示を与えることです。 これにより、LLM が話をでっち上げない可能性が高まります。 開発中のより洗練されたアプローチは、ナレッジ グラフの使用です。 ナレッジ グラフは構造化データを提供します。ナレッジ グラフ内のエンティティは、事前定義された論理的な方法で他のエンティティに接続されます。 特定のドメインのナレッジ グラフを構築するのは、もちろん困難な作業ですが、自動化された統計的手法とキュレーションを組み合わせれば実行可能です。 組み込みのナレッジ グラフを使用すると、LLM は、生成したステートメントを既知の事実の構造化セットと照合してクロスチェックでき、ナレッジ グラフに矛盾するステートメントやナレッジ グラフによってサポートされないステートメントを生成しないように制約できます。

幻覚という根本的な問題のため、そしておそらく十分な推論能力と判断能力が欠如しているため、LLM は今日、情報の検索、接続、抽出には強力ですが、医療診断や法的アドバイスなどの深刻な用途では人間の専門家に代わることはできません。 それでも、これらの分野における人間の専門家の効率と能力を大幅に向上させることができます。

生物学が仮説ではなくデータによって動かされる未来についてのビジョンを教えていただけますか?

研究者がパターンを発見し、仮説を開発し、それらをテストするための実験や研究を実施し、データに基づいて理論を洗練するという従来の仮説主導のアプローチは、データ主導のモデリングに基づく新しいパラダイムに取って代わられつつあります。

この新たなパラダイムでは、研究者は仮説のない大規模なデータ生成から始めます。 次に、オクルージョンされたデータの正確な再構築、多くの下流タスクにおける強力な回帰または分類のパフォーマンスを目的として、LLM などの機械学習モデルをトレーニングします。 機械学習モデルがデータを正確に予測し、実験の反復間の類似性に匹敵する忠実度を達成すると、研究者はモデルを調べて生物学的システムに関する洞察を抽出し、根底にある生物学的原理を識別できるようになります。

LLM は生体分子データのモデリングに特に優れていることが証明されており、仮説主導型からデータ主導型の生物学的発見への移行を促進するように調整されています。 この変化は今後 10 年間でますます顕著になり、人間の能力をはるかに超えた粒度で生体分子システムを正確にモデリングできるようになります。

病気の診断と創薬に対する潜在的な影響は何ですか?

私は、LLM と生成 AI がライフ サイエンス業界に大きな変化をもたらすと信じています。 LLM から大きな恩恵を受ける分野の XNUMX つは、臨床診断、特に診断が困難な希少疾患やがんのサブタイプの診断です。 ゲノムプロファイル、治療反応、医療記録、家族歴に至るまで、正確かつタイムリーな診断を推進するために活用できる包括的な患者情報が膨大にあります。 このすべてのデータを簡単にアクセスでき、個々の医療機関がサイロ化しないように編集する方法を見つけることができれば、診断の精度を劇的に向上させることができます。 これは、LLM を含む機械学習モデルが診断時に自律的に動作できることを意味するものではありません。 技術的な限界があるため、近い将来、それらは自律的ではなくなり、代わりに人間の専門家を増強することになるでしょう。 これらは、医師がこれまでに必要とされていた時間のほんの一部で、十分な情報に基づいた評価と診断を提供し、診断を適切に文書化して患者だけでなく、機械を介して接続されている医療提供者のネットワーク全体に伝達するのに役立つ強力なツールとなるでしょう。学習システム。

業界はすでに創薬と開発に機械学習を活用しており、従来のパラダイムと比較してコストとスケジュールを削減できる能力を宣伝しています。 LLM は利用可能なツールボックスにさらに追加され、ゲノム、プロテオーム、機能的ゲノムおよびエピゲノム データ、単一細胞データなどを含む大規模な生体分子データをモデリングするための優れたフレームワークを提供します。 近い将来、財団 LLM は間違いなく、これらすべてのデータ モダリティ全体と、ゲノム、プロテオミクス、健康情報が収集される個人の大規模なコホート全体に接続することになります。 このようなLLMは、有望な薬剤標的の生成を助け、生物学的機能や疾患に関連するタンパク質の活性の可能性のあるポケットを特定したり、小分子や他の薬剤モダリティで特定の方法で調節できる経路やより複雑な細胞機能を示唆したりするでしょう。 また、LLM を利用して、遺伝的感受性に基づいて薬物反応者と非反応者を特定したり、他の疾患適応症で薬物を再利用したりすることもできます。 既存の革新的な AI ベースの創薬企業の多くは、間違いなくすでにこの方向に向けて考え、開発を始めており、人間の健康と医薬品への LLM の展開を目的とした公的取り組みだけでなく、追加の企業の設立も期待されるはずです。発見。

詳細なインタビューをありがとうございます。さらに詳しく知りたい読者は、こちらをご覧ください。 シーア.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。