AGI

Med-Gemini: 医療AIを次世代のマルチモーダルモデルで変革する

Published June 10, 2024

Updated April 27, 2026

Dr. Tehseen Zia

人工知能（AI）は、過去数年間で医療分野で大きな波を起こしています。医療画像診断の精度を向上させ、ゲノムデータ分析を通じて個別化された治療を創出し、生物学的データの分析を通じて薬剤発見を加速させています。しかしながら、現在のAIアプリケーションの多くは、特定のタスクに限定され、CTスキャンや遺伝子情報などの単一のデータタイプのみを使用しています。このシングルモダリティアプローチは、医師がさまざまな情報源を統合して状態を診断し、結果を予測し、包括的な治療計画を立てる方法とは大きく異なります。

実際に医師、研究者、患者を支援するには、AIは、画像、ビデオ、電子ヘルスレコード（EHRs）などの複雑なマルチモーダルデータを理由付けながら、医療画像の分析、疾患の予測、ゲノムデータからの予測などのさまざまな医療タスクを処理できる必要があります。ただし、これらのマルチモーダル医療AIシステムを構築することは、AIのさまざまなデータタイプを管理する能力の限界と、包括的な生物医学データセットの不足により、課題となっています。

マルチモーダル医療AIの必要性

ヘルスケアは、医療画像から遺伝子情報まで、医療専門家が患者を理解して治療するために使用する複雑なデータソースのネットワークです。ただし、従来のAIシステムは、単一タスクと単一データタイプに焦点を当てており、患者状態の包括的な概要を提供する能力が制限されています。これらのユニモーダルAIシステムでは、膨大な量のラベル付けされたデータが必要であり、これは取得コストが高く、機能の範囲が限られており、さまざまな情報源からの洞察を統合することが課題です。

マルチモーダルAIは、さまざまな情報源からの情報を統合することにより、従来の医療AIシステムの課題を克服できます。患者状態のより正確で包括的な理解を提供します。さらに、マルチモーダルAIはデータ統合を促進し、医療専門家が統一された患者情報ビューにアクセスできるようにします。これにより、コラボレーションと十分な情報に基づいた意思決定が促進されます。マルチモーダルAIは、さまざまなデータタイプから学習し、新しい課題に適応し、医療の進歩とともに進化する能力があります。

Med-Geminiの紹介

大規模マルチモーダルAIモデルの最近の進歩は、洗練された医療AIシステムの開発を促進しました。この動向の先頭を走るのは、GoogleとDeepMindで、先進的なモデルであるMed-Geminiを導入しました。このマルチモーダル医療AIモデルは、14の業界ベンチマークで優れたパフォーマンスを示し、OpenAIのGPT-4などの競合他社を上回りました。Med-Geminiは、Google DeepMindのGeminiファミリーの大規模マルチモーダルモデル（LMMs）に基づいて構築されています。これは、テキスト、オーディオ、画像、ビデオなどのさまざまな形式のコンテンツを理解して生成するように設計されています。従来のマルチモーダルモデルとは異なり、Geminiは、専門化されたトランスフォーマーモデルを備えた独自のMixture-of-Experts（MoE）アーキテクチャを備えています。これらのモデルは、特定のデータセグメントまたはタスクを処理することに特化しています。医療分野では、これは、Geminiが、ラジオロジー画像、遺伝子シーケンス、患者履歴、または臨床ノートである入力データタイプに基づいて、最も適切な専門家を動的に関与させることを意味します。この設定は、医師が使用する多学科アプローチを反映し、モデルの学習能力と情報処理能力を高めます。

Geminiをマルチモーダル医療AI用にファインチューニング

Med-Geminiを作成するために、研究者はGeminiを匿名化された医療データセットでファインチューニングしました。これにより、Med-GeminiはGeminiのネイティブ能力を継承し、言語会話、多モーダルデータの推論、医療タスクのより長いコンテキストの管理が可能になります。研究者は、2Dモダリティ、3Dモダリティ、ゲノミクス用にGeminiビジョンエンコーダーの3つのカスタムバージョンをトレーニングしました。これは、さまざまな医療分野の専門家をトレーニングすることと似ています。トレーニングにより、3つの特定のMed-Geminiバリアントが開発されました: Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

Med-Gemini-2D

Med-Gemini-2Dは、胸部X線、CTスライス、病理パッチ、カメラ画像などの従来の医療画像を処理するようにトレーニングされています。このモデルは、分類、視覚質問回答、テキスト生成などのタスクで優れています。たとえば、胸部X線と「X線にはがん性増殖の兆候が見られたか？」という指示が与えられた場合、Med-Gemini-2Dは正確な回答を提供できます。研究者によると、Med-Gemini-2Dの改良されたモデルは、胸部X線のレポート生成を1％から12％向上させ、放射線科医によって生成されたレポートと同等またはそれ以上のレポートを生成しました。

Med-Gemini-3D

Med-Gemini-2Dの機能を拡張して、Med-Gemini-3Dは、CTスキャンやMRIスキャンのような3D医療データを解釈するようにトレーニングされています。これらのスキャンは、解剖学的構造の包括的なビューを提供し、より深い理解と高度な分析技術を必要とします。テキスト指示を使用して3Dスキャンを分析する能力は、医療画像診断における重要な進歩です。評価では、Med-Gemini-3Dによって生成されたレポートの半分以上が、放射線科医によって行われたものと同じケアの推奨事項に導きました。

Med-Gemini-Polygenic

他のMed-Geminiバリアントとは異なり、医療画像に焦点を当てているMed-Gemini-Polygenicは、ゲノムデータから疾患や健康結果を予測するように設計されています。研究者によると、Med-Gemini-Polygenicは、テキスト指示を使用してゲノムデータを分析する最初のモデルです。実験では、モデルは8つの健康結果（うつ病、脳卒中、緑内障など）を予測する際に、以前の線形ポリジェニックスコアを上回りました。また、明示的なトレーニングなしに追加の健康結果を予測するゼロショット能力も示しました。これは、冠状動脈疾患、COPD、2型糖尿病などの疾患を診断する上で重要な進歩です。

信頼性と透明性の確保

Med-Geminiのマルチモーダル医療データの処理における注目に値する進歩に加えて、その対話型の機能は、医療分野におけるAIの採用の基本的な課題に取り組む可能性があります。たとえば、AIのブラックボックス性や職場での置き換えに関する懸念です。従来のAIシステムとは異なり、Med-Geminiは医療専門家のためのツールとして機能します。分析能力を強化することで、Med-Geminiは職場での置き換えの恐怖を軽減します。分析と推奨事項の詳細な説明を提供することで、透明性を高め、医師がAIの決定を理解して検証できるようにします。この透明性は、医療専門家の間で信頼を築きます。また、Med-Geminiは人間の監視をサポートし、AIによって生成された洞察が専門家によってレビューおよび検証されることを保証し、AIと医療専門家が協力して患者ケアを改善する環境を促進します。

実世界への応用への道

Med-Geminiは注目に値する進歩を示していますが、まだ研究段階にあり、実世界への応用前に徹底的な医療検証が必要です。モデルがさまざまな医療状態と患者人口統計で信頼性、安全性、有効性を示すことを保証するために、厳格な臨床試験と広範なテストが不可欠です。研究者は、Med-Geminiのパフォーマンスをさまざまな医療条件と患者人口統計で検証する必要があり、モデルが強固で汎用性があることを保証する必要があります。医療基準と倫理ガイドラインの遵守を保証するために、医療当局からの規制承認が必要です。AI開発者、医療専門家、規制当局の共同努力は、Med-Geminiを洗練し、制限を解決し、臨床的有用性への信頼を築くために不可欠です。

結論

Med-Geminiは、テキスト、画像、ゲノム情報などのマルチモーダルデータを統合して包括的な診断と治療推奨を行うことで、医療AIを大幅に進歩させています。従来のAIモデルとは異なり、Med-Geminiの先進的なアーキテクチャは、医療専門家の多学科アプローチを反映し、診断の精度を高め、コラボレーションを促進します。Med-Geminiの開発は、AIが医療専門家を支援し、洗練された統合データ分析を通じて患者ケアを改善する未来を示唆しています。