Artificial Intelligence

Google のマルチモーダル AI Gemini – 技術的な詳細

更新中 on 2023 年 12 月 11 日

Google の CEO である Sundar Pichai 氏は、Google DeepMind の Demis Hassabis 氏とともに、 2023 年 XNUMX 月に Gemini を導入。この新しい大規模な言語モデルは、Google の膨大な製品全体に統合されており、何百万ものユーザーが使用するサービスやツールに波及する改善を提供します。

Google の高度なマルチモーダル AI である Gemini は、統合された DeepMind ラボと Brain AI ラボの共同作業から誕生しました。 Gemini は前任者の肩の上に立って、より相互接続されたインテリジェントなアプリケーションスイートを提供することを約束します。

Bard、Duet AI、PaLM 2 LLM のデビューの直後に行われた Google Gemini の発表は、AI 革命で競争するだけでなくリードするという Google の明確な意図を示しています。

AI の冬という概念に反して、Gemini の発売は、可能性と成長に満ちた繁栄する AI の春を示唆しています。 ChatGPT の登場から XNUMX 年が経ち、それ自体が AI にとって画期的な瞬間であったことを振り返ると、Google の動きは業界の拡大がまだ終わっていないことを示しています。実際、ペースが上がっているだけかもしれません。

ジェミニとは何ですか？

Google の Gemini モデルは、テキスト、画像、音声、ビデオなどのさまざまなデータタイプを処理できます。 XNUMX つのバージョンがあります—超, Pro, ナノ- 複雑な推論からデバイス上での使用まで、それぞれが特定のアプリケーションに合わせて調整されています。 Ultra は多面的なタスクに優れており、Bard Advanced で利用できるようになります。一方、Pro は、テキストプロンプト用にすでに Bard に統合されており、パフォーマンスとリソース効率のバランスを提供します。 Nano はオンデバイス展開用に最適化されており、4 つのサイズがあり、Pixel 8 Pro などのデバイスでオフラインで使用するための XNUMX ビット量子化などのハードウェア最適化が特徴です。

Gemini のアーキテクチャは、ネイティブのマルチモーダル出力機能がユニークで、画像生成には個別の画像トークンを使用し、微妙な音声の理解のためにユニバーサルスピーチモデルの音声機能を統合します。ビデオデータをテキストまたはオーディオ入力と織り交ぜた連続画像として処理できる機能は、そのマルチモーダルな能力を実証しています。

Gemini は、テキスト、画像、オーディオ、ビデオのシーケンスを入力としてサポートします

ジェミニへのアクセス

Gemini 1.0 は、Bard を含む Google のエコシステム全体に展開されており、Gemini Pro の洗練された機能の恩恵を受けています。 Google はまた、Gemini を検索、広告、Duet サービスに統合し、より迅速かつ正確な応答でユーザーエクスペリエンスを向上させました。

Gemini の機能を活用したいユーザーのために、Google AI Studio と Google Cloud Vertex は Gemini Pro へのアクセスを提供し、後者はより優れたカスタマイズ機能とセキュリティ機能を提供します。

Gemini Pro を活用した Bard の強化された機能を体験するには、ユーザーは次の簡単な手順を実行できます。

吟遊詩人に移動: お好みの Web ブラウザを開いて、Bard Web サイトにアクセスします。
安全なログイン: Google アカウントでサインインしてサービスにアクセスすると、シームレスで安全なエクスペリエンスが保証されます。
インタラクティブチャット: Gemini Pro の高度な機能を選択できる Bard を使用できるようになりました。

マルチモダリティの力:

Gemini はその中核として、GPT-3 などの成功した NLP モデルで採用されているものと同様のトランスフォーマーベースのアーキテクチャを利用しています。ただし、Gemini の独自性は、テキスト、画像、コードなどの複数のモダリティからの情報を処理および統合する能力にあります。これは、と呼ばれる新しい技術によって実現されます。 クロスモーダルな注意これにより、モデルはさまざまな種類のデータ間の関係と依存関係を学習できるようになります。

Gemini の主要コンポーネントの内訳は次のとおりです。

マルチモーダルエンコーダ: このモジュールは、各モダリティ (テキスト、画像など) からの入力データを個別に処理し、関連する特徴を抽出し、個別の表現を生成します。
クロスモーダルアテンションネットワーク: このネットワークは双子座の中心です。これにより、モデルはさまざまな表現間の関係と依存関係を学習できるようになり、相互に「対話」して理解を深められるようになります。
マルチモーダルデコーダ: このモジュールは、クロスモーダルアテンションネットワークによって生成された強化された表現を利用して、画像キャプション、テキストから画像への生成、コード生成などのさまざまなタスクを実行します。

ジェミニモデルは、テキストや画像を理解するだけではなく、人間が世界を認識する方法により近い方法で、さまざまな種類の情報を統合することを目的としています。たとえば、Gemini は一連の画像を見て、その中のオブジェクトの論理的または空間的順序を判断できます。また、物体の設計上の特徴を分析して、XNUMX 台の車のどちらがより空力的な形状をしているかなどを判断することもできます。

しかし、双子座の才能は視覚的な理解だけにとどまりません。一連の指示をコードに変換し、指示どおりに機能するだけでなく、ユーザーの対話を強化するためのモチベーションを高める絵文字などの創造的な要素を含むカウントダウンタイマーなどの実用的なツールを作成できます。これは、創造性と機能性の融合を必要とするタスクを処理する能力を示しており、これらのスキルは明らかに人間であるとみなされることがよくあります。

ジェミニの能力 : 空間推論 (ソース)

Gemini の機能は、プログラミングタスクの実行まで拡張されます(ソース)

Gemini の洗練されたデザインは、ニューラルネットワーク研究の豊富な歴史に基づいており、Google の最先端の TPU テクノロジーをトレーニングに活用しています。特に Gemini Ultra は、さまざまな AI ドメインで新しいベンチマークを設定し、マルチモーダル推論タスクで顕著なパフォーマンス向上を示しています。

Gemini は、複雑なデータを解析して理解する能力を備え、特に教育における現実世界のアプリケーション向けのソリューションを提供します。手書きのメモを理解し、正確な数学的組版を提供することで、物理学などの問題の解決策を分析して修正できます。このような機能は、AI が教育現場を支援し、学生や教育者に学習と問題解決のための高度なツールを提供する未来を示唆しています。

Gemini は、競技プログラミングの問題に優れた AlphaCode 2 のようなエージェントの作成に活用されています。これは、Gemini が複雑な複数段階の問題を処理できるジェネラリスト AI として機能する可能性を示しています。

Gemini Nano は AI の力を日常のデバイスにもたらし、要約や読解などのタスク、さらにはコーディングや STEM 関連の課題でも優れた能力を維持します。これらの小型モデルは、メモリの少ないデバイスでも高品質の AI 機能を提供できるように微調整されており、高度な AI をこれまで以上に利用しやすくしています。

Gemini の開発には、Google の最新の TPU を使用したトレーニングアルゴリズムとインフラストラクチャの革新が含まれていました。これにより、効率的なスケーリングと堅牢なトレーニングプロセスが可能になり、最小のモデルでも優れたパフォーマンスを実現できます。

Gemini のトレーニングデータセットは、Web ドキュメント、書籍、コード、画像、オーディオ、ビデオなど、その機能と同じくらい多様です。このマルチモーダルかつ多言語のデータセットにより、Gemini モデルはさまざまな種類のコンテンツを効果的に理解して処理できるようになります。

ジェミニと GPT-4

他のモデルの出現にもかかわらず、誰もが気になるのは、Google の Gemini が、業界の新しい LLM のベンチマークである OpenAI の GPT-4 とどのように比較できるかということです。 Google のデータによると、GPT-4 は常識的な推論タスクでは優れているかもしれませんが、他のほぼすべての分野では Gemini Ultra が優位性を持っています。

ジェミニ VS GPT-4

上のベンチマーク表は、さまざまなタスクにわたる Google の Gemini AI の優れたパフォーマンスを示しています。特に、Gemini Ultra は MMLU ベンチマークで 90.04% の精度という顕著な結果を達成しており、57 被験者にわたる多肢選択式の質問で優れた理解を示しています。

小学校の算数の問題を評価する GSM8K では、Gemini Ultra は 94.4% のスコアを獲得し、高度な算術処理スキルを示しました。コーディングベンチマークでは、Gemini Ultra は Python コード生成の HumanEval で 74.4% のスコアを達成しており、プログラミング言語の強力な理解を示しています。

読解力をテストする DROP ベンチマークでは、Gemini Ultra が 82.4% のスコアで再び首位に立っていました。一方、常識的な推論テストである HellaSwag では、Gemini Ultra は見事なパフォーマンスを示しましたが、GPT-4 によって設定された非常に高いベンチマークを超えることはできませんでした。

まとめ

Google の最先端テクノロジーを活用した Gemini の独自のアーキテクチャは、AI 分野で強力なプレーヤーとしての地位を確立し、GPT-4 などのモデルによって設定された既存のベンチマークに挑戦します。そのバージョン (Ultra、Pro、Nano) はそれぞれ、複雑な推論タスクから効率的なオンデバイスアプリケーションに至るまで、特定のニーズに対応しており、さまざまなプラットフォームやデバイスで高度な AI にアクセスできるようにするという Google の取り組みを示しています。

Bard から Google Cloud Vertex に至る Google のエコシステムへの Gemini の統合により、さまざまなサービス全体でユーザーエクスペリエンスを向上させる可能性が強調されます。既存のアプリケーションを改良するだけでなく、パーソナライズされた支援、創造的な取り組み、ビジネス分析など、AI 主導のソリューションに新たな道を開くことも約束されています。

将来に目を向けると、Gemini のような AI モデルの継続的な進歩は、継続的な研究開発の重要性を浮き彫りにしています。このような洗練されたモデルをトレーニングし、その倫理的かつ責任ある使用を保証するという課題は、依然として議論の最前線にあります。

関連トピック：双子座生成AI グーグル GPT

次に

誇大宣伝に乗ろう: ベイエリアの AI イベント

お見逃しなく

Google、Geminiの発表ビデオで誤解を招いたと非難

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。