AGI
ジェミニ 1.5 を探る: Google の最新のマルチモーダル AI モデルが先代を超える AI ランドスケープ
人工知能の急速に進化するランドスケープにおいて、Google はマルチモーダル AI テクノロジーにおける先駆的な開発でリードを続けています。ジェミニ 1.0 のデビューに続き、Google はカッティングエッジの マルチモーダル AI の大規模言語モデル、マルチモーダル大規模言語モデル を発表しました。Google は現在、ジェミニ 1.5 を発表しました。このイテレーションは、ジェミニ 1.0 で確立された容量を強化するだけでなく、Google のマルチモーダル データの処理と統合方法に重大な改善をもたらします。この記事では、ジェミニ 1.5 を探り、その革新的なアプローチと独自の機能を明らかにします。
ジェミニ 1.0: 基礎の構築
Google DeepMind と Google Research によって 2023 年 12 月 6 日に発表されたジェミニ 1.0 は、テキスト、オーディオ、画像、ビデオなどのさまざまな形式のコンテンツを理解し、生成することができる新しいタイプのマルチモーダル AI モデルを導入しました。これは、さまざまな情報タイプを管理するための範囲を拡大することで、AI における重要なステップとなりました。
ジェミニの特徴 は、複数のデータ タイプをシームレスに統合する能力です。従来の AI モデルは単一のデータ形式に特化している場合がありますが、ジェミニはテキスト、視覚、オーディオを統合します。この統合により、手書きのノートを分析したり、複雑な図を解釈したりするタスクを実行できるため、幅広い複雑な課題を解決できます。
ジェミニ ファミリーには、さまざまなアプリケーション用のモデルがあります。Ultra モデルは複雑なタスク用、Pro モデルは Google Bard などの主要プラットフォームでの速度とスケーラビリティ用、Nano モデル (Nano-1 と Nano-2) は 1.8 億と 3.25 億のパラメータを備え、Google Pixel 8 Pro スマートフォンなどのデバイスへの統合用に設計されています。
ジェミニ 1.5 への飛躍
Google の最新リリースであるジェミニ 1.5 は、前身のジェミニ 1.0 の機能と運用効率を強化しています。このバージョンは、Mixture-of-Experts (MoE) アーキテクチャを採用し、前身の統一的大規模モデルのアプローチから離れました。このアーキテクチャには、特定のデータ セグメントまたはタスクを管理するための小規模で専門化された トランスフォーマー モデル のコレクションが含まれます。各エキスパートは、特定のタスクに適したエキスパートを動的に活用することで、モデルが情報を学習および処理する能力をストリームライン化します。
この革新的なアプローチにより、モデルはタスクに必要なエキスパートのみを活用することで、トレーニングとデプロイの効率が大幅に向上します。結果として、ジェミニ 1.5 は複雑なタスクを迅速にマスターし、高品質の結果をより効率的に提供できます。Google の研究チームは、ジェミニ モデルの開発と強化を加速することができます。
機能の拡張
ジェミニ 1.5 の注目すべき進歩は、その情報処理能力の拡大です。コンテキスト ウィンドウ (モデルがレスポンスを生成するために分析できるユーザー データの量) は、ジェミニ 1.0 の 32,000 トークンから最大 1 百万トークンに拡大しました。この強化により、ジェミニ 1.5 Pro は、1 時間のビデオ コンテンツ、11 時間のオーディオ、または大規模なコード ベースとテキスト ドキュメントなどの大量のデータを同時に処理できます。10 百万トークンまでのテストも成功し、巨大なデータセットを理解および解釈するための卓越した能力を示しています。
ジェミニ 1.5 の機能の概要
ジェミニ 1.5 のアーキテクチャの改善とコンテキスト ウィンドウの拡大により、大規模な情報セットに対する高度な分析を実行できます。アポロ 11 ミッションの トランスクリプト の詳細な分析や、サイレント映画の解釈など、ジェミニ 1.5 は並外れた問題解決能力を示しています。特に、長いコード ブロックに対して。
Google の先進的な TPUv4 アクセラレータで開発されたジェミニ 1.5 Pro は、多様なデータセットでトレーニングされており、多モーダルおよびマルチリンガル コンテンツを含みます。この広範なトレーニング ベースと、人間の好みデータに基づくファインチューニングにより、ジェミニ 1.5 Pro の出力は人間の認識とよく一致します。
厳格なベンチマーク テスト により、ジェミニ 1.5 Pro は、評価の圧倒的多数で先代を上回り、さらに大規模なジェミニ 1.0 Ultra モデルと並んでいます。ジェミニ 1.5 Pro は強力な「コンテキスト内学習」能力を示し、詳細なプロンプトから新しい知識を効果的に習得します。特に、Machine Translation from One Book (MTOB) ベンチマークでは、英語からカラマンガ語 (少数の人々によって話される言語) に翻訳する能力が人間の学習に匹敵することを実証し、適応性と学習効率を強調しています。
限定プレビュー アクセス
ジェミニ 1.5 Pro は、開発者とエンタープライズ カスタマー向けに AI Studio と Vertex AI を通じて限定プレビューで利用可能です。より広範なリリースとカスタマイズ可能なオプションが予定されています。このプレビュー フェーズでは、コンテキスト ウィンドウの拡大と処理速度の改善が利用可能です。ジェミニ 1.5 Pro に興味がある開発者とエンタープライズ カスタマーは、AI Studio または Vertex AI アカウント チームに登録することで詳細を入手できます。
まとめ
ジェミニ 1.5 は、マルチモーダル AI の開発において重要なステップを表します。ジェミニ 1.0 で確立された基礎を築き、データの処理と統合方法を改善しました。革新的なアーキテクチャと拡大されたデータ処理能力は、Google が AI テクノロジーを強化するための継続的な取り組みを強調しています。より効率的なタスク処理と高度な学習能力により、ジェミニ 1.5 は AI の進化を示しています。現在、開発者とエンタープライズ カスタマー向けに限定プレビューで利用可能ですが、将来的にはより広範な利用と進歩が予想されます。












