私達と接続

Siri から ReALM へ: よりスマートな音声アシスタントを目指す Apple の旅

Artificial Intelligence

Siri から ReALM へ: よりスマートな音声アシスタントを目指す Apple の旅

mm

2011 年の Siri の発売以来、Apple は一貫して音声アシスタントのイノベーションの最前線に立ち、世界的なユーザーのニーズに適応してきました。 ReALM の導入は、この取り組みにおける重要なポイントを示しており、デバイスとの対話における音声アシスタントの進化する役割を垣間見ることができます。この記事では、ReALM が Siri に与える影響と、将来の音声アシスタントの潜在的な方向性について考察します。

音声アシスタントの台頭: Siri の創世記

この旅は、Apple が洗練された人工知能システムである Siri を自社のデバイスに統合し、私たちのテクノロジーとの関わり方を変革したときに始まりました。が開発した技術を起源とする SRIインターナショナル, Siri は音声起動アシスタントのゴールドスタンダードになりました。ユーザーは簡単な音声コマンドを通じてインターネット検索やスケジュール設定などのタスクを実行できるため、会話型インターフェイスの限界を押し広げ、音声アシスタント市場での競争に火をつけることができます。

Siri 2.0: 音声アシスタントの新時代

Apple がリリースに向けて準備を進める中、 iOSの18 ワールドワイドデベロッパーカンファレンス(WWDC) 2024 年 XNUMX 月には、技術コミュニティ内で Siri の大幅な進化に対する期待が高まっています。この新しいフェーズは、 シリ2.0、生成型 AI の進歩を最前線にもたらし、Siri をさらに洗練された仮想アシスタントに変える可能性があると約束しています。正確な機能強化は機密のままですが、ChatGPT などのテクノロジーに見られる高度な言語学習モデルを活用して、Siri が会話インテリジェンスとパーソナライズされたユーザー インタラクションにおいて新たな高みを達成するという見通しでテクノロジー業界は大騒ぎしています。これに関連して、コンパクトな言語モデルである ReALM の導入は、Siri 2.0 がユーザーに導入する可能性のある拡張機能を示唆しています。次のセクションでは、Siri の進行中の進歩における重要なステップとしての ReALM の役割とその潜在的な影響について説明します。

ReALM の発表

ReALM は Reference Resolution As Language Modeling の略で、会話中の「あれ」や「これ」など、文脈に沿った曖昧な参照を解読することに長けた特殊な言語モデルです。会話や視覚的な参照を処理し、テキスト形式に変換する機能が際立っています。この機能により、ReALM はダイアログ内で画面レイアウトと要素を解釈してシームレスに操作できるようになり、視覚的に依存するコンテキストでクエリを正確に処理するための重要な機能となります。

ReALM のアーキテクチャは、ReALM-80M のような小規模なバージョンから ReALM-3B のような大きなバージョンまであり、モバイル デバイスに統合するために計算効率が高くなるように最適化されています。この効率により、消費電力が削減され、処理リソースへの負担が軽減され、一貫したパフォーマンスが可能になります。これは、バッテリー寿命を延ばし、さまざまなデバイスで迅速な応答時間を提供するために重要です。

さらに、ReALM の設計はモジュール式の更新に対応しており、参照解像度における最新の進歩のシームレスな統合を促進します。このモジュール式アプローチにより、モデルの適応性と柔軟性が強化されるだけでなく、その長期的な実行可能性と有効性が確保され、幅広いデバイスにわたって進化するユーザー ニーズと技術標準に対応できるようになります。

ReALM と言語モデルの比較

従来の言語モデルは次のようなものですが、 GPT-3.5 ReALM は主にテキストを処理するため、Gemini などのモデルと同様に、テキストとビジュアルの両方を処理するマルチモーダルなルートを採用しています。 GPT-3.5 のより広範な機能とは異なり、 双子座、テキストの生成、理解、画像の作成などのタスクを処理する ReALM は、特に会話および視覚的なコンテキストを解読することを目的としています。ただし、ビジュアル データとテキスト データを直接処理する Gemini のようなマルチモーダル モデルとは異なり、ReALM は画面のビジュアル コンテンツをテキストに変換し、エンティティとその空間詳細に注釈を付けます。この変換により、ReALM は画面のコンテンツをテキスト形式で解釈できるようになり、画面上の参照をより正確に識別して理解することが容易になります。

ReALM は Siri をどのように変革できるのでしょうか?

ReALM は Siri の機能を大幅に強化し、より直感的でコンテキスト認識型のアシスタントに変えることができます。それがどのような影響を与える可能性があるかは次のとおりです。

  • 文脈の理解の向上: ReALM は、会話内のあいまいな参照を解読することに特化しており、コンテキスト依存のクエリを理解する Siri の能力が大幅に向上する可能性があります。これにより、追加の詳細なしで「あの曲をもう一度再生する」や「彼女に電話をかける」などの参照を把握できるため、ユーザーはより自然に Siri と対話できるようになります。
  • 強化された画面インタラクション: ReALM は、ダイアログ内の画面レイアウトと要素を解釈する能力を備えているため、Siri をデバイスのビジュアル コンテンツとより流動的に統合できるようになります。 Siri は、「メールの横にあるアプリを開く」や「このページを下にスクロールする」など、画面上の項目に関連するコマンドを実行できるようになり、さまざまなタスクでのユーティリティが拡張されます。
  • パーソナライゼーション: ReALM は、以前の対話から学習することで、パーソナライズされた適応的な応答を提供する Siri の能力を向上させることができます。時間が経つと、Siri は知識豊富なパーソナル アシスタントのように、ユーザーのニーズや好みを予測し、過去の行動や状況の理解に基づいてアクションを提案したり開始したりするようになるかもしれません。
  • アクセシビリティの向上: ReALM のコンテキスト理解機能と参照理解機能は、アクセシビリティに大きな利益をもたらし、テクノロジーをより包括的なものにする可能性があります。 ReALM を活用した Siri は、あいまいなコマンドや部分的なコマンドを正確に解釈し、身体的または視覚的障害を持つ人々にとって、より簡単かつ自然なデバイスの使用を促進します。

ReALM と Apple の AI 戦略

ReALM の立ち上げは、オンデバイス インテリジェンスを強調する Apple の AI 戦略の重要な側面を反映しています。この開発は、データがデバイス上でローカルに処理され、遅延が短縮され、帯域幅が節約され、デバイス自体でユーザー データが保護されるエッジ コンピューティングという広範な業界トレンドに沿ったものです。

ReALM プロジェクトは、コマンドの実行だけでなく、ユーザーのニーズのより深い理解と予測にも焦点を当てた、Apple の広範な AI 目標も示しています。 ReALM は、ユーザーの習慣や好みの詳細な把握に基づいて、デバイスがよりパーソナライズされた予測サポートを提供できる、将来のイノベーションに向けた一歩を表しています。

ボトムライン

Siri から ReALM への Apple の開発は、コンテキスト理解とユーザー インタラクションの向上に焦点を当てた、音声アシスタント テクノロジの継続的な進化を強調しています。 ReALM は、オンデバイスの処理とセキュリティを強化するためのエッジ コンピューティングの業界トレンドに合わせて、よりインテリジェントでパーソナライズされたプライバシーを意識した音声アシスタントへの移行を意味します。

Tehseen Zia 博士は、COMSATS イスラマバード大学の終身准教授であり、オーストリアのウィーン工科大学で AI の博士号を取得しています。 人工知能、機械学習、データ サイエンス、コンピューター ビジョンを専門とし、評判の高い科学雑誌での出版で多大な貢献をしてきました。 Tehseen 博士は、主任研究者としてさまざまな産業プロジェクトを主導し、AI コンサルタントも務めてきました。