人工知能

2024年の生成AIの進化：大規模言語モデルから大規模マルチモーダルモデルへ

公開日 2024年1月8日

更新日 2026年5月22日

著者

Dr. Tehseen Zia

私たちが世界を体験するとき、私たちの感覚（視覚、音、匂い）が多様な情報を提供し、私たちはさまざまなコミュニケーション方法（顔の表情やジェスチャーなど）を使用して自分を表現します。これらの感覚とコミュニケーション方法は、まとめてモーダリティと呼ばれ、人間が情報を認識し、伝えるさまざまな方法を表しています。この人間の能力からインスピレーションを得て、大規模マルチモーダルモデル（LMM）が開発されており、生成AIとマルチモーダルAIの組み合わせで、テキスト、画像、オーディオなどのさまざまなタイプのコンテンツを理解し、生成することができます。この記事では、この新たに登場した分野について、LMMが何であるか、どのように構築されるか、既存の例、課題、潜在的な応用について探究します。

2024年の生成AIの進化：大規模言語モデルから大規模マルチモーダルモデルへ

マッキンゼーは、2023年の報告書で、2023年を生成AIのブレイクアウト年と位置付けました。これにより、生成AIの分野では多くの進歩が見られました。私たちは、大規模言語モデル（LLM）が人間のような言語を理解し、生成する能力を持つことに注目しました。さらに、画像生成モデルも大幅に進化し、テキストからのプロンプトから視覚的なコンテンツを生成する能力を示しています。ただし、個々のモーダリティ（テキスト、画像、オーディオなど）での進歩にもかかわらず、生成AIはこれらのモーダリティを生成プロセスで無理なく組み合わせることに課題に直面しています。世界は本質的にマルチモーダルであるため、AIがマルチモーダル情報を処理することが重要です。これは、人間との有意義なやり取りと現実世界での成功的な運用に不可欠です。
その結果、多くのAI研究者は、2024年にLMMが次のAI研究開発のフロンティアになることを予測しています。この進化するフロンティアは、生成AIの能力を強化し、テキスト、画像、オーディオ、ビデオなど、さまざまなモーダリティの出力を生成することを目的としています。重要な点は、すべてのマルチモーダルシステムがLMMであるわけではないことです。MidjourneyやStable Diffusionなどのモデルは、マルチモーダルですが、LMMのカテゴリには該当しません。なぜなら、これらのモデルには、LMMの基本的なコンポーネントであるLLMが含まれないからです。言い換えると、LMMはLLMの拡張と考えられ、さまざまなモーダリティをうまく処理する能力を提供します。

LMMはどのように動作するか

研究者は、LMMを構築するためのさまざまなアプローチを探索していますが、一般的に3つの重要なコンポーネントと操作が含まれます。まず、各データモーダリティのエンコーダーが使用され、モーダリティごとのデータ表現（エンベディングと呼ばれる）が生成されます。次に、異なるメカニズムが使用され、異なるモーダリティからのエンベディングを統一されたマルチモーダルエンベディング空間に合わせます。最後に、生成モデルでは、テキスト応答を生成するためにLLMが使用されます。入力はテキスト、画像、ビデオ、オーディオのいずれかである可能性があるため、研究者は、言語モデルがさまざまなモーダリティを考慮して応答を生成する新しい方法を開発しています。

2023年のLMMの開発

以下に、2023年に開発された注目すべきLMMを簡単にまとめます。

LLaVAは、ウィスコンシン大学マディソン校、Microsoft Research、コロンビア大学が共同で開発したオープンソースのLMMです。モデルは、オープンソース版のマルチモーダルGPT4を提供することを目的としています。MetaのLlama LLMを活用し、CLIPビジュアルエンコーダーを使用して、ロバストな視覚的な理解を実現します。ヘルスケアに焦点を当てたLLaVAのバリアント、LLaVA-Medは、バイオメディカル画像に関する質問に答えることができます。
ImageBindは、Metaが開発したオープンソースモデルで、人間の認識の能力を模倣し、多様なデータを関連付けます。モデルは、テキスト、画像/ビデオ、オーディオ、3D測定、温度データ、モーションデータなどの6つのモーダリティを統合し、これらの多様なデータタイプ間で統一された表現を学習します。ImageBindは、写真内のオブジェクトを音、3Dシェイプ、温度、モーションなどの属性と関連付けることができます。モデルは、たとえば、テキストや音からシーンを生成するために使用できます。
SeamlessM4Tは、Metaが開発したマルチモーダルモデルで、多言語コミュニティ間のコミュニケーションを促進することを目的としています。SeamlessM4Tは、スピーチツースピーチ、スピーチツーテキスト、テキストツースピーチ、テキストツーテキストの翻訳タスクで優れています。モデルは、ノンオートレグレッシブテキストツーユニットデコーダーを使用してこれらの翻訳を実行します。強化されたバージョン、SeamlessM4T v2は、SeamlessExpressiveやSeamlessStreamingなどのモデルを基盤とし、言語間での表現の保存と遅延の最小化を強調しています。
GPT4は、OpenAIがリリースしたGPT3.5の後継モデルです。詳細なアーキテクチャの仕様は公開されていませんが、GPT4はテキストのみ、ビジョンみ、オーディオのみのモデルをスムーズに統合することで知られています。モデルは、テキストとグラフィカルな入力からテキストを生成することができます。画像内のユーモアの説明、スクリーンショットからのテキストの要約、図を含む試験問題への適切な応答など、さまざまなタスクで優れています。GPT4は、幅広い入力データ形式を効果的に処理する能力でも知られています。
Geminiは、Google DeepMindが開発したモデルで、シングルモーダリティのコンポーネントを組み合わせることなく、さまざまなタスク間でシームレスに相互作用することができます。モデルは、テキストとさまざまなオーディオビジュアル入力を容易に処理し、テキストと画像の両方の形式で出力を生成する能力を示しています。

大規模マルチモーダルモデルの課題

より多くのデータモーダリティの統合: 現在のLMMは主にテキストと画像で動作します。ただし、LMMはテキストと画像を超えて、ビデオ、音楽、3Dなどのモーダリティを包含する必要があります。
多様なデータセットの可用性: マルチモーダル生成AIモデルを開発およびトレーニングする上での主要な課題は、複数のモーダリティを含む大規模で多様なデータセットの必要性です。たとえば、テキストと画像を同時に生成するモデルをトレーニングするには、関連するテキストと画像の入力が含まれるデータセットが必要です。
マルチモーダル出力の生成: LMMはマルチモーダル入力を処理できますが、テキストとグラフィックスまたはアニメーションのような多様な出力を生成することは依然として課題です。
指示の実行: LMMは、単なる完了を超えて、会話と指示の実行をマスターする課題に直面しています。
マルチモーダル推論: 現在のLMMはモーダリティ間の変換に優れていますが、複数のモーダリティからのデータを統合して複雑な推論タスク（たとえば、音声指示に基づく文字問題の解決）を実行することは依然として課題です。
LMMの圧縮: LMMはリソースを大量に消費するため、計算リソースが限られているエッジデバイスでは実用的ではありません。LMMを圧縮して効率を向上させ、リソースが限られているデバイスでの展開を可能にすることは、重要な研究分野です。

潜在的な用途

教育: LMMは、テキスト、画像、オーディオを組み合わせた多様な学習材料を生成することで教育を変革する可能性があります。LMMは、課題に対する包括的なフィードバックを提供し、コラボレーションプラットフォームを促進し、インタラクティブなシミュレーションや現実世界の例を通じてスキル開発を強化することができます。
ヘルスケア: 伝統的なAI診断システムが単一のモーダリティに焦点を当てているのとは異なり、LMMは複数のモーダリティを統合することで医療診断を改善できます。また、ヘルスケア提供者と患者間の言語障壁を克服するためのコミュニケーションをサポートし、病院内のさまざまなAIアプリケーションの集中リポジトリとして機能します。
アートと音楽生成: LMMは、ユニークで表現力のある出力を生成するために、さまざまなモーダリティを組み合わせることで、アートと音楽生成に優れています。たとえば、アートLMMは視覚的な要素と音響的な要素を融合させ、没入感のある体験を提供できます。同様に、音楽LMMは楽器的な要素とボーカルの要素を統合し、ダイナミックで表現力のある曲を生み出すことができます。
パーソナライズされたレコメンデーション: LMMは、さまざまなモーダリティ間でユーザーの嗜好を分析し、映画、音楽、記事、製品などのコンテンツ消費に対するパーソナライズされたレコメンデーションを提供できます。

天気予報と環境モニタリング: LMMは、衛星画像、気象条件、歴史的なパターンなどのさまざまなモーダリティのデータを分析し、天気予報と環境モニタリングの精度を向上させることができます。

結論

大規模マルチモーダルモデルの分野は、生成AIの重要なブレイクスルーを示しています。ヘルスケア、教育、アート、パーソナライズされたレコメンデーションなどの分野での革新的な応用が期待されています。ただし、より多くのデータモーダリティを統合すること、リソースを大量に消費するモデルの圧縮などの課題は、LMMの潜在能力を完全に実現するために必要な継続的な研究努力を強調しています。

Dr. Tehseen Zia

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。

Unite.AI

2024年の生成AIの進化：大規模言語モデルから大規模マルチモーダルモデルへ

2024年の生成AIの進化：大規模言語モデルから大規模マルチモーダルモデルへ

LMMはどのように動作するか

2023年のLMMの開発

大規模マルチモーダルモデルの課題

潜在的な用途

結論

You may like