Unite.AI

AI-generated image of an industrial robot seated in an armchair and reading a book, while ignoring a movie playing on TV. ChatGPT-o4, Nano-Banana; Firefly.

Andersonの視点4 months ago

AIは映画を見るより本を読みたい

実際の動画コンテンツを見てコメントするようAIモデルに指示するのは、そのためのモデルであっても驚くほど難しい。彼らは書かれた言葉の方に関心がある。もし、小さな動画クリップをChatGPTや同様の人気のある視覚/言語モデルにアップロードしようとしたことがあれば、それらが実際には動画を解析できないことに驚いたかもしれない。ChatGPT-4o+のようなモデルは、JPEGやPNGのような画像形式の個々のフレームを分析することは可能だが、ユーザーが自分でフレームを抽出して画像としてアップロードすることを好む（それらはコメントする準備ができている）。OpenAI GPTシリーズの場合、動画クリップから一連のフレームを完全に抽出し、それをChatGPTに渡すという、かなり手間のかかる方法を取ることができる。例えば、動画に対してAIが生成したナレーショントラックを生成する目的で：しかし、動画からフレームへの変換は、上記の例のようにより大きなルーチンで関数を呼び出すか、FFMPEGや様々な無料・有料の動画編集ソリューションでフレームを抽出するかして、ユーザーが行う必要がある。ある程度、おそらく大きな程度まで、ChatGPTのような大規模製品における動画分析の制限は、リソース使用量にかかっている：最も一般的な動画コーデックの選択肢を1つのAIインスタンスに装備し、抽出というディスク負荷が高くCPUを抑制するプロセスに計算リソースをコミットすることは、何億人ものユーザーが毎日これらの機能を使い始めると決めた場合、小さな考慮事項ではない。さらに、時間的分析は単一のフレームとは非常に異なる絵を描く可能性がある（誰かが幸せな気分で家に入り、その後死体を発見する場面を想像してほしい）。したがって、短い動画クリップであっても、その時間的な「チェックサム」全体を考慮することは、要求が厳しくリソース集約的なタスクである。これは研究文献の専門分野でもあり、例えばOptical Flowのようなフレームワークの継続的な開発に見られるように、本質的に動画の長さを「展開」して、あたかも静的な文書であるかのように扱い、処理できるようにするものだ：要約で我慢するそれにもかかわらず、GoogleのNotebook LMやより最近のChatGPTエントリーのようなモデルは、関連するメタデータ（つまり、動画を何らかの形で文脈化する埋め込みテキストコンテンツ）を読むことができるため、動画ファイルのアップロードを禁止していない。そして時には、そのようなデータがない動画を解釈しようとさえする。次のケースでは、イタリア映画The Hand of God（2021年）からの6秒間のランダムなクリップをNotebookLMにアップロードし、クリップにメタデータやファイル名に有用なテキストが一切含まれていないことを確認した。NotebookLMはその後、動画とは全く関係のない内容を精巧にでっち上げ*、意味をなさず無関係な5分間の対談ポッドキャストまで生成した：NotebookはChatGPTと同様に、YouTube動画を入力として受け入れるが、それは動画に解釈可能なテキストレイヤーの注釈や字幕（動画に焼き付けられたラスタライズされた字幕ではない）が含まれている場合に限られる。このようにして、動画のコンテンツを実際に見て聞き、その意味的解釈を行うという重労働（YouTubeにとっては、その著作権保護対策や保留中のアイデンティティ保護システムのため法的に必要）は、ユーザーがアップロードした後、クリップに必要な処理リソースが割り当てられた時に、余裕を持って行われている。本当の動画解釈は高価で疲れる作業であり、このタスクを実行するために特別に訓練されたモデルでさえ、実際に動画を見るよりもテキストを読みたいことが明らかになっている。TL;DW（長すぎるので見なかった人向け）これは、英国ブリストル大学の新しい論文『A Video Is Not Worth a Thousand Words』によるもので、2人の著者は、現在の最先端の視覚言語モデル（VLM）——動画をより労力をかけて分析し、動画質問応答（VQA）に参加することを意図して特別に設計されたモデル——も、可能な限りテキストベースの情報に頼ることをデフォルトとしていると結論付けている。動画と書かれた質問、多肢選択式の回答の両方が与えられた場合、モデルは通常、画面上で起こっていることではなく、テキスト内のパターンに基づいて選択を行うことが論文の著者らによって発見された。多くの場合、質問が完全に取り除かれても同様の性能を発揮した。ショートカットや不正行為の習慣的な形式と思われるものにおいて、大多数のモデルにとって最も重要だったのは、可能な回答の中のパターンを見つけられることであった。タスクをより難しくするために、より多くの回答オプションを追加した時だけ、AIは動画により注意を払い始めた。著者らは、多様なコンテキスト長を持つ6つのVLMモデルに対して、4つの適切なデータセットを用いて様々な条件下でVQAテストを実施した。その結果、モデルが動画コンテンツよりもテキストに依存していることを示す結果が得られた。新しい論文には、ランタイムとデータを含むGitHubリポジトリが付属している。手法各入力がモデルの決定にどれだけ貢献しているかを理解するために、この新しい研究は、ゲーム理論から来たシャプレイ値と呼ばれる手法を使用している。もともと連合内のプレイヤー間で支払いを公平に分割するために設計されたシャプレイ値は、各「プレイヤー」にその個々の影響に基づいて貢献度を割り当てる。したがって、このシナリオにおけるプレイヤーは、VQAタスクの動画フレームまたはテキストコンポーネント（注釈、字幕、キャプションなど）のいずれかであり、「支払い」はモデルの最終的な回答である。各部分が追加または削除されたときに何が起こるかを体系的にテストすることにより、この手法はその要素が選択された答えに到達する上でどれほど重要であったかを明らかにする。この新しいプロジェクトの場合、手法を複数のデータタイプに拡張するために、シャプレイ値は混合モダリティを扱うように適応され、動画とテキストのコンポーネントは別々に扱われ、それらがモデルの出力に及ぼす様々な影響が測定された。これにより、動画コンテンツが本当に解釈されているのか、それとも書かれた手がかりがショートカットとして使われているのかが明らかになった。評価指標各モダリティ（すなわち、動画、質問、または回答）がモデルの決定にどれだけ貢献したかを比較するために、2つの単純な指標が定義された：モダリティ貢献度は、総説明量のうち各タイプの入力から来た割合を測定する。ここでは、利用可能なすべてのシャプレイ値を合計し、各モダリティに属する割合が総計に対するパーセンテージとして計算される。第二に、特徴ごとの貢献度は、動画のような一部のモダリティが他よりもはるかに多くの特徴を含んでいるという事実を補正する。代わりに、各特徴の平均シャプレイ値が計算され、それらの平均が比較されて、どのモダリティの影響が支配的であるかが決定される。データとテスト著者らは、テストの原理が広く適用可能で一般化できることを保証するために設計された様々な特性を持つ6つのVLMに対してこのアプローチをテストした。したがって、モデルは異なるコンテキスト長、異なる年代（すなわち、フレームワークがリリースされてからの時間）、異なるアーキテクチャ構成のために選ばれた。対象はFrozenBiLM; InternVideo; VideoLLaMA2; VideoLLaMA3; LLaVa-Video（Qwen2を活用）; そしてLongVA（これもQwen2を使用）であった。多様性を目指す同じ目的で選ばれた4つのターゲットデータセットは、EgoSchema（関連する動画を完全に見なければ完了できないように設計されたVQAデータセット）; HD-EPIC（異常に長い動画を含むキッチンに焦点を当てたデータセット）; MVBench（他のデータセットからの貢献をまとめた精選された集合体）; そしてLVBench（非常に長い動画に対してVQAクエリを提示する）であった。これらから、著者らは60の質問を考案した——各質問タイプから10問ずつ。貢献度の評価指標は、ほとんどのモデルが、特にフレームごとに判断すると、テキストよりも動画に依存していないことを明確にした。動画が全体の貢献度で合理的な結果を示した場合でも、特徴ごとの影響はしばしば最小限であり、モデルが動画を集合的に使用しているかもしれないが、個々のフレームにはほとんど注意を払っていないことを示唆している。