Andersonの視点

ビデオを1fps以上の速度で字幕化する課題

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

ビデオ内で発生するイベントを機械学習システムが認識する能力は、AIベースのビデオ生成の将来にとって非常に重要です。特に、ビデオデータセットには、ユーザーのリクエストに従ったモデルを生成し、過度にhallucinateしないようにするために、正確な字幕が必要です。

GoogleのVidReCapプロジェクトからのキャプションスキーマの例。 ソース: https://sites.google.com/view/vidrecap

必要なスケールのビデオを手動で字幕化することは、考えられないことです。ビデオを自動字幕化するためにAIシステムをトレーニングすることは可能ですが、グラウンドトゥルースとして、多様性とカバレッジのために、多くの人間が生成した例はまだ必要です。

より重要なのは、ほとんどの現在のAIベースのビデオ字幕化モデルが1fpsで動作しているということです。これは、感情認識システムの突然のマイクロ表情の変化、バスケットボールなどの高速スポーツにおける急速なイベント、暴力的な動き、ドラマティックな映画における急速なカットなどの多くのシナリオで変化を認識するには、十分な密度のキャプチャーレートではありません。ここで、PySceneDetectなどのシステムはこれらを識別できないか、使用されていない可能性があります。

再生をクリックしてください。 世界で最も遅いスポーツの1つであるスヌーカーで、アレックス・ヒギンズが1982年にレイ・リアドンに対して世界選手権を獲得するという、急速だが人生を変えるアクション。ソース: https://www.youtube.com/watch?v=_1PuqKno_Ok

速く動いて論理を破る

この低レートは、さまざまなロジスティックな理由により標準となっています。1つは、ビデオ字幕化は、システムが1つの連続的なフレームを1回ずつ調査するか、またはさまざまな方法で意味的にフレームのシーケンスを解釈可能なキャプションシーケンスにまとめるか、どちらの場合でもリソースを大量に消費するアクティビティだからです。

1fpsが現在の標準である別の理由は、ビデオは一般的に急速なイベントでいっぱいではないことです。したがって、300フレームの静的なスヌーカーテーブルに、チャンピオンシップを勝つ黒いボールをポットする瞬間と同じくらいの注意を払うことは冗余です。

スポーツビデオにおけるラピッドスラムダンクに対する継続的なクラウドの反応などの二次的なヒントを使用して、スポーツビデオの重要な瞬間を識別することができます。ただし、これらのヒントは、予想外のプレーヤーの負傷などの他の理由で発生する可能性があり、信頼することはできません。これは、誤ってラベル付けされたビデオデータセットが、命令を妄想したり誤って解釈したりする生成ビデオモデルにつながる可能性があることを示す1つの例です。たとえば、モデルはスラムダンクを生成するように求められたときにプレーヤーの負傷を表示する可能性があります（二次的なヒントであるクラウドの激動は、特定のタイプのイベントに独自ではありませんでした）。

これは、多くの面で「予算」の問題であり、他の面では手続き上の問題です。現在のフレームワークは、スパースなキーフレームがビデオの主な情報を効果的にキャプチャできるという原則で動作してきましたが、これは、証拠が複数のフレームにわたって存在する場合、ジャンルやビデオの主題の他の側面を確立するのに効果的です。

F-16

中国からの新しい論文は、解決策を提供しています。最初のマルチモーダル大規模言語モデル（MLLM、または単にLLM）が、標準の1fpsではなく、16fpsでビデオを分析できるというものです。

テストでは、著者は、新しいシステム、F-16が、GPT-4oやGoogleのGemini-1.5 proなどの専有の最先端モデルを上回ると主張しています。他の現在のモデルは、試験でF-16の結果に一致または上回ることができましたが、競合するモデルははるかに大きくて扱いにくかったです。

F-16は、まじめなハードウェア（後で詳しく説明します）でトレーニングされましたが、推論は通常、トレーニングよりもはるかに要求が少ないです。したがって、コード（近い将来にリリースされることが約束されています）は、メディウムまたはハイレベルの家庭用GPUで実行できることが期待されます。

必要なのは、F-16のようなビデオ字幕化モデルが、消費者システムで動作できるように、量子化されているかもしれません。そうすれば、全ての生成ビデオシーンがAPIベースの商用システムに移行したり、消費者がローカルフレームワークを商用オンラインGPUサービスに接続することを強いられることはありません。

スケールアップを超えて

著者は、このアプローチがデータセットをスケールアップする実用的な代替手段であると観察しています。推論することもできます。データを問題に投げつけることしても、このようなアプローチが好ましい場合があります。なぜなら、新しいシステムは、より細かい方法でイベントを区別するからです。

彼らは次のように述べています：

‘低フレームレートサンプリングにより、特に急速に変化するシーン、複雑な詳細、または高速動作のあるビデオでは、重要な視覚情報の損失が発生する可能性があります。さらに、キーフレームが見逃された場合、モデルはキーフレーム情報に依存するラベルでトレーニングされている場合、予想されるコンテンツとその予測を合わせるのに苦労する可能性があり、妄想や性能の低下につながる可能性があります…

‘… F-16は、同等のサイズのモデルの中で一般的なビデオQAでSOTAのパフォーマンスを達成し、高フレームレートビデオ理解における明確な利点を示し、GPT-4oなどの商用モデルを上回ります。この研究は、マルチモーダルLLM研究における高フレームレートビデオ理解の進歩に向けて新しい道を開きます。’

新しい論文は、LLMビデオ理解の16フレーム毎秒での改善と題されています。著者は、清華大学とByteDanceの8人です。

方法

連続するフレームには、多くの場合、冗長な情報が含まれているため、F-16は、高フレームレートアライナーを適用して、キーモーションの詳細を圧縮および符号化しながら、視覚的意味を保持します。各フレームは、事前にトレーニングされた画像エンコーダーによって最初に処理され、特徴表現が抽出された後、アライナーに渡されます。アライナーは、ガウシアンエラーラインユニット（GELU）に基づいています。

F-16のアーキテクチャは、16 FPSでビデオを処理し、従来の低フレームレートモデルよりも多くのフレームをキャプチャし、高フレームレートアライナーは視覚的意味を保持しながら、モーションダイナミクスを効率的に符号化します。ソース: https://arxiv.org/pdf/2503.13956

フレーム数の増加を効率的に処理するために、F-16はフレームを小さな処理ウィンドウにグループ化し、3層のマルチレイヤーパーセプトロン（MLP）を使用して視覚特徴を結合し、最も関連性の高いモーションの詳細のみを保持し、不要な重複を削減しながら、行動の時間的流れを保持します。空間マックスプーリングレイヤーは、トークン数をさらに圧縮し、計算コストを抑えます。

処理されたビデオトークンは、Qwen2-7B LLMに渡され、抽出された視覚特徴と与えられたユーザープロンプトに基づいてテキスト応答を生成します。

ビデオ入力をこのように構造化することで、著者は、F-16がダイナミックなシーンでより正確なイベント認識を可能にし、同時に効率性を維持できることを主張しています。

短いバージョン

F-16は、事前にトレーニングされた画像LLM、LLaVA-OneVisionを拡張して、ビデオを処理するために、視覚入力パイプラインを変換します。標準的な画像LLMは個々のフレームを処理しますが、F-16の高フレームレートアライナーは、複数のフレームを、モデルがより効率的に処理できる形式に変換します。これにより、冗長な情報でシステムを圧倒するのを避けながら、正確なビデオ理解に必要な重要なモーションキューを保持します。

F-16のアライナーは、事前にトレーニングされたパラメータを再利用するために、サブマトリックスに構造化されます。これにより、シーケンシャルビデオ入力に適応しながら、シングルフレームモデルからの知識を統合できます。

アライナーは、最も情報の多い特徴を保持しながら、不要な詳細を破棄することで、フレームシーケンスを最適化された形式に圧縮および符号化します。アーキテクチャの設計により、システムは高フレームレートビデオを処理しながら、計算要求を制御下に維持できるため、スケーリングは進歩の唯一の方法ではないことを示唆しています。

ペースの変化

高フレームレートでビデオを処理すると、モーション理解が向上しますが、計算コストが増加します。特に、推論中に、F-16は、可変フレームレートデコーディング方法を導入して、フレームレートを動的に調整できます。

F-16に利用可能なシングルフレームと高フレームレートアライナー。

この柔軟性により、モデルは、高い精度が必要でない場合、効率的に低いFPSで動作し、計算オーバーヘッドを削減できます。

テスト時には、低いフレームレートが選択された場合、F-16は、事前にトレーニングされたアライナーパラメータを再利用して、入力フレームを繰り返して、アライナーの入力構造と一致させます。これにより、モデルはアーキテクチャを変更せずにビデオを効果的に処理できます。

単純にフレームを削除する（これは精度の低下につながる可能性がある）とは異なり、このアプローチにより、モーション認識に多少の影響はありますが、F-16は依然として低フレームレートモデルを上回り、16 FPS以下でも強力な結果を維持します。

左、F-16のさまざまなモジュールの時間消費、Video-MME Longセットの300個のビデオで、さまざまなテストFPSとシーケンスの長さで測定。右、モデルが同じFPSでトレーニングおよびテストされた場合と、16 FPSでトレーニングされたモデルが低いFPSでテストされた場合の、Video-MMEのパフォーマンスの比較。実線は、モデルが同じFPSでトレーニングおよびテストされた場合を表し、破線は、16 FPSでトレーニングされたモデルが低いFPSでテストされた場合を表します。

F-16の高フレームレート処理により、計算要件が増加しましたが、アライナーは冗長な視覚トークンを圧縮することで、これらのコストを管理するのに役立ちました。

モデルは、低FPSモデルよりもビデオごとに多くのFLOPSを必要としましたが、トークンあたりの精度も向上したため、フレーム選択とトークン圧縮戦略が追加の計算を相殺したことを示唆しています。

結論

この特定の研究分野の重要性と課題を過剰に強調することはできません。特に今年は、生成ビデオのブレイクスルー年となり、ビデオデータセットのキュレーションと字幕化の品質の欠陥が、明らかになるでしょう。

また、ビデオ内の詳細を正確に説明するという課題は、VRAM、時間、またはディスク容量を問題に投げつけることだけでは解決できないことも強調する必要があります。イベントをビデオから分離/抽出する方法（例：ゴルフやスヌーカービデオクリップの場合）は、現在の最先端ソリューションで支配的なセマンティックアプローチとメカニズムを再考することで利益を得るでしょう。なぜなら、これらの制限のいくつかは、リソースが貧弱な時代に確立されたものだからです。

(付随して、16fpsが2025年の基準では非常に低いフレームレートであるにもかかわらず、Wan 2.1生成ビデオモデルのネイティブトレーニングスピードであり、問題なく動作するスピードであるという事実は興味深いです。研究シーンは、ここでの「標準エントロピー」に注意を払う必要があります。時には、古い制約が将来の標準を永続させる可能性があります。)

2025年3月19日水曜日初版