Ari Grobman – Unite.AI

拡張現実 March 6, 2023

ARグラスの未来はAIによって実現される

人工知能の進歩は、主流の会話を支配しています。AIの応用は限りなく思いつくもののようです – そして、驚くことではありませんが、それは私たちの世界と私たちがそれと交流する方法を変えるでしょう。多くの他の業界と同様に、それは特に拡張現実に当てはまります。AIモデルは、特にモバイルデバイスアプリで、没入型のAR体験を構築するために既に使用されています。拡張現実と人工知能の分野は、より徹底的に現実世界とデジタル世界を融合させる、直感的でユニークな体験を作成するために協力しています。AIとAR開発の次のフロンティアは、没入型エンゲージメントの可能性を拡大するために、消費者向けARグラスに高度なAI機能を実装することです。生成的なAIは、3Dワールドの作成を加速し、着用者が自分の現実を作成するための限りない可能性を生み出す生成的なAIには、アルゴリズム、言語モデル、物理世界をマッピングして相互作用するために必要な計算を実行するために使用可能な処理能力の向上などの進歩が含まれます。現在、ARグラスにおける3Dモデルの制限は、基本的に手動であるためあります。ただし、生成的なAIはこれらを非常に迅速に自動的に作成します。 ARグラスにおける生成的なAIは、3Dモデルをより迅速に構築するのに役立ち、ARの全潜在能力を解放します。このデジタルワールドの作成は、物理ワールドをオーバーレイするために、より迅速に、より完全に、より没入型に、集中した手動労働を必要とせずに実行されます。生成的なAIは、ユーザーエクスペリエンスと物理空間とのやり取りも変えるでしょう。生成的なAIを搭載したARグラスを着用すると、着用者は文字通り、想像力を現実世界に転送できます。コードを書く必要なく、着用者は音声認識を使用して、ARグラスを通じて、正確にどのようにしたいのかを「話す」ことができます。彼らは「部屋の中を泳いでいるイルカがある」と言うことができます – そして、それが彼らの目の前に現れます。娯楽、仕事、その他への没入の機会は、実質的に無限です。生成的なAIを使用するARグラスは、さらに没入型でパーソナライズされたゲーム体験を作成するために、ゲームの世界を変えるでしょう。たとえば、ChatGPTを使用すると、よりリアルなキャラクターを作成し、新しいクエストやゲームワールドを追加することが容易になります。また、プレイヤーの行動を分析し、リアルタイムでゲームをプレイヤーにとってより簡単またはより挑戦的なものにすることで、ゲーム体験を改善することもできます。AIによる音声と書き文字の翻訳は言語の壁を減らす自動音声認識（ASR）は、音声認識（画像処理を使用してテキストを抽出するアルゴリズム）を使用します。これは、外国でのメニューなどの書き文字を、リアルタイムにネイティブ言語に翻訳できます。これをARグラスに適用すると、誰かが別の言語で話している間、ARグラスの枠内でネイティブ言語のリアルタイム字幕を提供できます。これにより、現地語でコミュニケーションを試みる観光客やビジネスマンの挫折感が軽減され、よりコミュニケーションがとりやすい世界が実現します。テキスト認識と翻訳は、AI光学文字認識（OCR）テクニックとテキストツーテキスト翻訳エンジンのようなDeepLを組み合わせます。Stable DiffusionのようなAIエンジンは、アニメーションまたはその他の視覚的な補助を使用して、複雑または詳細な概念を伝えるのに役立ちます。ユーザーの関与を深めることで、ARグラスは、ユーザーが前にいるパネルまたはプレゼンテーションに関連する画像またはビデオをリアルタイムで表示できます。Googleは最近、この機能を持つARグラスの開発を発表しました。これは、聴覚障害者のコミュニティが、唇を読んだり目を見たりする必要なく、音声をキャプションに即座に変換して着用者の目の前に表示することで、日常会話に参加できるようにします。AIは、ヘルスケア、教育、その他の多くの分野で存在感を示しています。すぐに、人気のある科学フィクションのように、ARグラスが現れ、AIが部屋や話者の位置を迅速にマッピングして、どこにいるかに関係なく、バーチャルコミュニケーションをシームレスで手間のかからないものにするでしょう。AIは、ARグラスが実世界のオブジェクトを簡単に検出してラベル付けするのを助け、関与を深める畳み込みニューラルネットワーク（CNN）アルゴリズムは、現在、モバイルデバイスでシーン内のオブジェクトの位置と範囲を推定するために使用されています。オブジェクトを検出した後、ARソフトウェアはテキストをオーバーレイしたり、物理世界に別のオブジェクトを生成したりして、2つの間の相互作用を作成できます。現実世界に転送されたオブジェクトには、指示、ナビゲーション、食事と栄養、その他の多くのアプリケーションがあります。AI機能を備えたARグラスを着用すると、たとえば、ユーザーはどの都市の通りを歩いても、実時間にランドマークについて学習できます。ARグラスは、都市とそのランドマークを識別、ラベル付け、情報を提供できます – すべて着用者のフレームを通じてです。オブジェクト認識技術が改善されると、どの食べ物や食事のサイズでも、カロリー、タンパク質、脂肪、コレステロールなどの栄養データが利用可能になります。一方、製品のシンプルなQRコードは、ユーザーに栄養の詳細を呼び出します。単純なオブジェクト検出以外では、顔認識ソフトウェアも、人の検出のために一般的になっています。すでに、航空業界では、乗客の身分を確認し、搭乗プロセスを高速化するために、顔認識技術が多くのフライトで使用されています。ARグラスで顔認識を使用すると、着用者に認識の力を与えることができます。たとえば、近い将来、ARグラスを使用して、ソーシャルメディアで他の人と出会い、バックグラウンド情報を瞬時に受け取ることができます。AIを搭載したARグラスは、私たちの生活を変えています。視覚と機能は継続的に改善されます。私たちがますます接続された世界では、タスクを簡素化し、数年前では不可能と思われた障壁を打ち破っています。人工知能の進歩は非常に速く進行しています。次の10年で、AIは過去50年よりも多くの進歩を遂げるでしょう。政府、ビジネス、または個人の環境に関係なく、人工知能はすぐにARグラスと融合して、物理的な環境とデジタル環境を統合するでしょう。