人工知能

マルチモーダル学習がAI開発者の中で人気を博している

Published November 24, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Venture Beat (VB)は、週刊レポートの1つを、マルチモーダル学習の開発における人工知能の利点に費やした。そのきっかけは、レポートによってABI Researchが行ったものだった。

重要な概念は、「データセットはAIシステムの基本的な構成要素である」という事実にあり、データセットがなければ、「モデルは予測を導く関係を学習できない」ということである。ABIレポートは、「AIデバイスの総設置台数は2019年の26.9億から2024年の44.7億に増加するが、比較的少数のデバイスのみが短期的には相互運用可能になる」と予測している。

これは、多大な時間、エネルギー、リソースの浪費となる可能性がある。「それぞれのデバイスを通じて流れるギガバイトからペタバイトのデータを1つのAIモデルまたはフレームワークに組み合わせるのではなく、それぞれ独立して、異質的に動作して、与えられたデータを理解するために働くことになる」

これを克服するために、ABIはマルチモーダル学習を提案している。これは、さまざまなセンサーと入力からのデータを1つのシステムに統合する方法論である。「マルチモーダル学習は、補足的な情報や傾向を運ぶことができ、通常、学習プロセスにすべてを含めることでのみ明らかになる」

VBは、画像とテキストのキャプションを考慮する実行可能な例を提示している。「異なる単語が類似の画像とペアになっている場合、これらの単語はおそらく同じ物体や事物を説明するために使用される。逆に、単語が異なる画像の隣に現れる場合、これはこれらの画像が同じ物体を表すことを意味する。したがって、AIモデルがテキストの説明から画像の物体を予測できるはずであり、実際、学術的な文献の集まりはこれが事実であることを証明している」

可能な利点にもかかわらず、ABIは、IBM、Microsoft、Amazon、Googleなどのテクノロジー大手企業が依然として主にユニモーダルシステムに焦点を当てていることを指摘している。理由の1つは、そのような切り替えが表す課題である。

それでも、ABIの研究者は、「出荷されるデバイスの総数は2017年の394万から2023年の5.1412億に増加することになる。ロボティクス、消費者、ヘルスケア、メディア、エンターテインメント分野での採用によって促進される」」と予測している。マルチモーダル学習をすでに実装している企業の例として、Waymoを挙げており、同社は「ハイパーアウェアな自律走行車」を構築するためにこのアプローチを使用している。また、Intel Labsでは、同社のエンジニアリングチームが「現実世界の環境でのセンサーデータの収集技術を調査している」。

Intel LabsのプリンシパルエンジニアであるOmesh Tickooは、VBに「私たちが行ったことは、時間帯などのコンテキストを判断する技術を使用して、センサーのデータが最高品質でないことを示すシステムを構築したことである。与えられた信頼値に基づいて、異なるセンサーを異なる間隔で比較して、求めている答えを得るために最適な組み合わせを選択する」

VBは、「ユニモーダル学習は、画像認識や自然言語処理などのアプリケーションで非常に効果的であるため、依然として優勢である」と述べている。同時に、「電子機器がより安くなり、コンピューティングがよりスケーラブルになると、マルチモーダル学習はおそらくより重要性を増すだろう」と予測している。