Connect with us

最新の言語モデルでも時系列論理を理解するのが難しい

人工知能

最新の言語モデルでも時系列論理を理解するのが難しい

mm
Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

将来の状態を予測することは、コンピュータビジョン研究における重要なミッションです。特にロボティクスでは、現実世界の状況を考慮する必要があります。ミッションクリティカルなタスクを担当するマシンラーニングシステムは、物理世界を十分に理解する必要があります。

しかし、時系列現実に関する知識が見かけ上印象的である場合でも、時系列論理を理解するのが難しいことがあります。アラブ首長国連邦の新しい研究によると、最新のマルチモーダル大規模言語モデル(MLLMs)、包括してGPT-4oやGoogle Geminiなどのセクターのリーダーは、画像における時間の表現を解釈する能力で苦労しています。

人間にとっては簡単な順序付き画像のペア(以下の画像参照)を、予想外のコンテキストや構成(例:2番目の画像が最初に表示される、シングル画像に結合される、順序が正しくない可能性のある複数の画像など)で提示すると、先進的なMLLMsを混乱させることができます。

Samples from one of the datasets compiled for the new study, which show sequential events. The researchers have made this data available at https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Samples from one of the datasets compiled for the new study, which show sequential events in the form of ‘before and after’ images. The researchers have made this data available at https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

研究者は、イベントの順序を決定したり、時間間隔を推定したりする基本的な時系列推論課題をモデルに課し、7つのMLLMsをテストしました。結果は、人間の精度よりも著しく低かった。

『全体的に、[結果]は、現在のMLLMsが提案されたベンチマークに苦労していることを示しています。GPT-4oは、他のモデルよりも優れたパフォーマンスを示しましたが、さまざまな設定で一貫して正確な時系列推論を示すことができませんでした。』

『一貫した精度スコアは、すべてのモデルで著しく低く、視覚的な入力から時系列シーケンスを理解し、解釈する能力に重大な限界があることを示しています。これらの欠陥は、モデルにマルチ画像入力または最適化されたプロンプトが提供されても明らかであり、現在のアーキテクチャとトレーニング手法が堅牢な時系列順序の理解に不足していることを示唆しています。』

マシンラーニングシステムは、最も正確で、最も効率的で、人間に優しい結果を最適化するように設計されています。ただし、推論を明示的に開示しないため、いつの間にか「ショートカット」を使用しているか、または「チート」しているかがわかりにくい場合があります。

そのような場合、MLLMは、正しい答えに到達しますが、間違った方法で到達します。正しい答えであるという事実は、モデルに誤った自信を与え、同じ方法で後に提示されるタスクで誤った結果を生み出す可能性があります。

これは、人間がそれに感銘を受けて、試験や注釈セッションで肯定的なフィードバックを与えると、開発チェーンにさらに深く根付く可能性があります。

この場合、MLLMsは、時間や時系列現象の真正の理解を「フェイク」している可能性が示唆されています。つまり、時間スタンプや画像の配置、またはファイル名などの二次的な指標に基づいています。

これは、MLLMsが人間と同じように時系列現象の概念を「一般化」していないことを示唆しています。

新しい論文は、Can Multimodal MLLMs do Visual Temporal Understanding and Reasoning? The answer is No!というタイトルで、アラブ首長国連邦のモハメド・ビン・ザイード大学の人工知能とアリババの国際デジタルコマースの3人の研究者によって発表されました。

データとテスト

研究者は、TOU(時系列順序理解)とTLE(時間間隔推定)という2つの新しいアプローチを提案しています。TOUアプローチでは、モデルがビデオフレームのペアからイベントの正しい順序を決定する能力をテストします。TLE方法では、MLLMが2つの画像間の時間差を推定する能力を評価します。

From the paper, the two main tasks of the TemporalVQA benchmark: in Temporal Order Understanding, the model decides which of two images shows an event that occurred first; in Time-lapse Estimation, the model estimates how much time has passed between two images, selecting from options including seconds, minutes, days, or years. These tasks aim to test how well the MLLMs can reason about the timing and sequence of visual events. Source: https://arxiv.org/pdf/2501.10674

From the paper, the two main tasks of the TemporalVQA benchmark: in Temporal Order Understanding, the model decides which of two images shows an event that occurred first; in Time-lapse Estimation, the model estimates how much time has passed between two images, selecting from options including seconds, minutes, days, or years. These tasks aim to test how well the MLLMs can reason about the timing and sequence of visual events. Source: https://arxiv.org/pdf/2501.10674

研究者は、TOUベンチマークのために360の画像ペアをキュレーションしました。画像ペアは、PixabayとPexelsのオープンソースビデオから選択され、データセットをGUIで利用できるようにしました。

ビデオは、日常的な活動をする人々から動物や植物などの非人間のコンテンツまで、幅広い主題をカバーしていました。画像ペアは、明確な順序を示すために選択されました。

人間の選択により、フレームの順序を明確に決定することができました。例えば、1つのキュレーションされたペアは、1つのフレームで部分的に満たされたティーカップを示し、別のフレームで同じカップをティーで満たしたものを示しています。

The temporal logic of these two pictures cannot be escaped, since the tea cannot possibly be sucked back up the spout.

The temporal logic of these two pictures cannot be escaped, since the tea cannot possibly be sucked back up the spout.

TLEアプローチでは、GoogleとFlickrの著作権フリー画像、およびYouTubeの著作権フリー動画の特定のフレームが選択されました。画像の主題は、秒から日まで、季節の変化などの時間間隔で変化しました。

テストでは、7つのMLLMsが使用されました。結果は、人間の精度よりも著しく低かった。

時系列順序理解:結果

Results of Temporal Order Understanding across different models and input layouts, showing accuracy and consistency for various setups and prompts.

Results of Temporal Order Understanding across different models and input layouts, showing accuracy and consistency for various setups and prompts.

結果は、すべてのテストされたMLLMsが、GPT-4oを含め、時系列VQAベンチマークで苦労していることを示しています。GPT-4oは一貫して信頼性の高い時系列推論を示すことができませんでした。

研究者は、MLLMsの時系列シーケンスを解釈して推論する能力に重大な限界があることを示唆しています。

時間間隔推定:結果

Results for TLE: time-lapse estimation evaluates model accuracy in identifying intervals between image pairs, across scales from seconds to years. The task assesses each model's ability to select the correct time scale for the temporal gap.

Results for TLE: time-lapse estimation evaluates model accuracy in identifying intervals between image pairs, across scales from seconds to years. The task assesses each model’s ability to select the correct time scale for the temporal gap.

結果は、MLLMsが時間間隔推定で中程度の精度しか示さなかったことを示しています。GPT-4oは70%の精度を達成しましたが、他のモデルは著しく低い精度を示しました。

結論

MLLMsが最終的に「ショートカット」データを蓄積し、吸収することで、時系列論理を理解する能力を身につける可能性があります。ただし、人間と同じように時系列現象の概念を「一般化」する能力を持っているかどうかは、別の問題です。

人間の時系列推論能力は、経験と学習を通じて発達する可能性があります。MLLMsも同じように「チート」している可能性があります。

* モデルは、人間のフィードバックによって損失関数を最適化し、人間の試験とその後のトライアージュによって最適化されるためです。

初めて発行:2025年1月27日

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。