AGI

ジェミニ 1.5 を探る: Google の最新のマルチモーダル AI モデルが先代を超える AI ランドスケープ

Published February 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

人工知能の急速に進化するランドスケープにおいて、Google はマルチモーダル AI テクノロジーにおける先駆的な開発でリードを続けています。ジェミニ 1.0 のデビューに続き、Google はカッティングエッジのマルチモーダル AI の大規模言語モデル、マルチモーダル大規模言語モデルを発表しました。Google は現在、ジェミニ 1.5 を発表しました。このイテレーションは、ジェミニ 1.0 で確立された容量を強化するだけでなく、Google のマルチモーダルデータの処理と統合方法に重大な改善をもたらします。この記事では、ジェミニ 1.5 を探り、その革新的なアプローチと独自の機能を明らかにします。

ジェミニ 1.0: 基礎の構築

Google DeepMind と Google Research によって 2023 年 12 月 6 日に発表されたジェミニ 1.0 は、テキスト、オーディオ、画像、ビデオなどのさまざまな形式のコンテンツを理解し、生成することができる新しいタイプのマルチモーダル AI モデルを導入しました。これは、さまざまな情報タイプを管理するための範囲を拡大することで、AI における重要なステップとなりました。
ジェミニの特徴は、複数のデータタイプをシームレスに統合する能力です。従来の AI モデルは単一のデータ形式に特化している場合がありますが、ジェミニはテキスト、視覚、オーディオを統合します。この統合により、手書きのノートを分析したり、複雑な図を解釈したりするタスクを実行できるため、幅広い複雑な課題を解決できます。
ジェミニファミリーには、さまざまなアプリケーション用のモデルがあります。Ultra モデルは複雑なタスク用、Pro モデルは Google Bard などの主要プラットフォームでの速度とスケーラビリティ用、Nano モデル (Nano-1 と Nano-2) は 1.8 億と 3.25 億のパラメータを備え、Google Pixel 8 Pro スマートフォンなどのデバイスへの統合用に設計されています。

ジェミニ 1.5 への飛躍

Google の最新リリースであるジェミニ 1.5 は、前身のジェミニ 1.0 の機能と運用効率を強化しています。このバージョンは、Mixture-of-Experts (MoE) アーキテクチャを採用し、前身の統一的大規模モデルのアプローチから離れました。このアーキテクチャには、特定のデータセグメントまたはタスクを管理するための小規模で専門化されたトランスフォーマーモデルのコレクションが含まれます。各エキスパートは、特定のタスクに適したエキスパートを動的に活用することで、モデルが情報を学習および処理する能力をストリームライン化します。
この革新的なアプローチにより、モデルはタスクに必要なエキスパートのみを活用することで、トレーニングとデプロイの効率が大幅に向上します。結果として、ジェミニ 1.5 は複雑なタスクを迅速にマスターし、高品質の結果をより効率的に提供できます。Google の研究チームは、ジェミニモデルの開発と強化を加速することができます。

機能の拡張

ジェミニ 1.5 の注目すべき進歩は、その情報処理能力の拡大です。コンテキストウィンドウ (モデルがレスポンスを生成するために分析できるユーザーデータの量) は、ジェミニ 1.0 の 32,000 トークンから最大 1 百万トークンに拡大しました。この強化により、ジェミニ 1.5 Pro は、1 時間のビデオコンテンツ、11 時間のオーディオ、または大規模なコードベースとテキストドキュメントなどの大量のデータを同時に処理できます。10 百万トークンまでのテストも成功し、巨大なデータセットを理解および解釈するための卓越した能力を示しています。

ジェミニ 1.5 の機能の概要

ジェミニ 1.5 のアーキテクチャの改善とコンテキストウィンドウの拡大により、大規模な情報セットに対する高度な分析を実行できます。アポロ 11 ミッションのトランスクリプトの詳細な分析や、サイレント映画の解釈など、ジェミニ 1.5 は並外れた問題解決能力を示しています。特に、長いコードブロックに対して。
Google の先進的な TPUv4 アクセラレータで開発されたジェミニ 1.5 Pro は、多様なデータセットでトレーニングされており、多モーダルおよびマルチリンガルコンテンツを含みます。この広範なトレーニングベースと、人間の好みデータに基づくファインチューニングにより、ジェミニ 1.5 Pro の出力は人間の認識とよく一致します。
厳格なベンチマークテストにより、ジェミニ 1.5 Pro は、評価の圧倒的多数で先代を上回り、さらに大規模なジェミニ 1.0 Ultra モデルと並んでいます。ジェミニ 1.5 Pro は強力な「コンテキスト内学習」能力を示し、詳細なプロンプトから新しい知識を効果的に習得します。特に、Machine Translation from One Book (MTOB) ベンチマークでは、英語からカラマンガ語 (少数の人々によって話される言語) に翻訳する能力が人間の学習に匹敵することを実証し、適応性と学習効率を強調しています。

限定プレビューアクセス

ジェミニ 1.5 Pro は、開発者とエンタープライズカスタマー向けに AI Studio と Vertex AI を通じて限定プレビューで利用可能です。より広範なリリースとカスタマイズ可能なオプションが予定されています。このプレビューフェーズでは、コンテキストウィンドウの拡大と処理速度の改善が利用可能です。ジェミニ 1.5 Pro に興味がある開発者とエンタープライズカスタマーは、AI Studio または Vertex AI アカウントチームに登録することで詳細を入手できます。

まとめ

ジェミニ 1.5 は、マルチモーダル AI の開発において重要なステップを表します。ジェミニ 1.0 で確立された基礎を築き、データの処理と統合方法を改善しました。革新的なアーキテクチャと拡大されたデータ処理能力は、Google が AI テクノロジーを強化するための継続的な取り組みを強調しています。より効率的なタスク処理と高度な学習能力により、ジェミニ 1.5 は AI の進化を示しています。現在、開発者とエンタープライズカスタマー向けに限定プレビューで利用可能ですが、将来的にはより広範な利用と進歩が予想されます。

Related Topics:Large Multimodal Models Multimodal AI Multimodal Large Language Model

Dr. Tehseen Zia

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。