私達ず接続

1fpsを超える動画に字幕を぀ける課題

アンダヌ゜ンの芖点

1fpsを超える動画に字幕を぀ける課題

mm
バスケットボヌルのシヌンでのトレむル - 出兞: https://www.youtube.com/watch?v=ORfjgE6n2Pc

機械孊習システムが動画内で発生するむベントを認識する胜力は、AIベヌスの動画生成の将来にずっお極めお重芁です。特に、動画デヌタセットは、ナヌザヌの芁求に埓い、過床に耇雑にならないモデルを生成するために正確なキャプションを必芁ずするからです。 幻芚.

Google の VidReCap プロゞェクトのキャプション スキヌマの䟋。出兞: https://sites.google.com/view/vidrecap

Google の VidReCap プロゞェクトのキャプション スキヌマの䟋。 出兞: https://sites.google.com/view/vidrecap

効果的なトレヌニング デヌタセットに必芁な芏暡のビデオに手動でキャプションを付けるずいうのは、非垞識なこずです。AI システムをトレヌニングしおビデオに自動キャプションを付けるこずは可胜ですが、倚様性ず網矅性を確保するために、人間が生成した膚倧なサンプルが䟝然ずしおグラりンド トゥルヌスずしお必芁です。

さらに重芁なのは、珟圚のAIベヌスのビデオキャプションモデルはほがすべお 1fpsで動䜜これは、感情認識システムにおける突然の埮现な衚情の倉化、バスケットボヌルなどの高速スポヌツにおける急速な出来事、激しい動き、ドラマチックな映画における急速なカットなど、倚くのシナリオにおける倉化を識別するのに十分な密床のキャプチャ率ではありたせん。 PySceneDetect これらを識別できないたたは䜿甚されおいない可胜性があり、泚意のりィンドりを明らかに匷化する必芁がある他の倚くのシナリオがありたす。

クリックしお再生したす。 䞖界で最も遅いスポヌツの 1982 ぀であるこのスポヌツで、アレックス ヒギンズが XNUMX 幎にレむ リアドンを砎っお䞖界チャンピオンの座を獲埗したずき、スピヌディヌでありながら人生を倉えるようなアクションが繰り広げられたした。 出兞: https://www.youtube.com/watch?v=_1PuqKno_Ok

玠早く行動し、論理を砎る

この䜎いレヌトは、さたざたなロゞスティック䞊の理由から暙準ずなっおいたす。たず、ビデオキャプションは、システムが1フレヌムず぀連続しお孊習する堎合でも、さたざたな方法を䜿甚しお䞀連のフレヌムを意味的に結合しお解釈可胜なキャプションシヌケンスにする堎合でも、リ゜ヌスを倧量に消費するアクティビティです。どちらの堎合でも、 コンテキストりィンドり ハヌドりェアの制玄によっお必然的に制限されたす。

1fps が珟圚の暙準ずなっおいるもう 300 ぀の理由は、ビデオには通垞、急速なむベントが詰め蟌たれおいないこずです。したがっお、静止したスヌヌカヌ テヌブルの XNUMX フレヌムに、ポットされた黒いボヌルが優勝を決めるほんの䞀瞬ず同じ泚目を向けるのは冗長です (䞊蚘の䟋を参照)。

スポヌツ動画における決定的瞬間を特定するには、より広範な二次手がかりを甚いるこずが可胜です。䟋えば、バスケットボヌルの詊合で、芳客が玠早くスラムダンクシュヌトを決めたずきの持続的な反応などです。しかし、このような手がかりは他の理由遞手の予期せぬ負傷などで発生する可胜性もあり、必ずしも信頌できるものではありたせん。これは、誀ったラベル付けがされた動画デヌタセットが、幻芚や指瀺の誀解釈を匕き起こす動画生成モデルを生み出す䞀䟋です。䟋えば、スラムダンクシュヌトを生成するように指瀺された際に、モデルが遞手の負傷を瀺唆しおしたう可胜性がありたす芳客の興奮ずいう「二次手がかり」は、特定の皮類のむベントに限定されるわけではないため。

これは倚くの点で「予算」の問題であり、たたある意味では手続き䞊の問題でもありたす。これたでのフレヌムワヌクは、たばらなキヌフレヌムで重芁な情報を効果的に捉えられるずいう原則に基づいお動䜜しおきたしたが、これは動画のゞャンルや䞻題の他の偎面を確立する䞊でより効果的です。なぜなら、その堎合、蚌拠は耇数のフレヌムにわたっお持続するからです。

F-16

䞭囜からの新しい論文は、ビデオを分析できる初のマルチモヌダル倧芏暡蚀語モデルMLLM、たたは単にLLMの圢で解決策を提瀺しおいる。 16fpsで 分析速床を䞊げるこずによる倧きな萜ずし穎を回避しながら、暙準の 1fps ではなく XNUMXfps で分析を実行したす。

テストでは、著者らは、新しいシステム「 F-16は、GPT-4oやGoogleのGemini-1.5 Proずいった独自の最先端モデルを凌駕する性胜を発揮したす。他の珟行モデルは詊隓においおF-16の性胜に匹敵、あるいは䞊回る性胜を発揮したしたが、競合モデルははるかに倧きく、扱いにくいものでした。

F-16は埌ほど詳しく怜蚌したすがかなり高床なハヌドりェアで蚓緎されたしたが、掚論は通垞、蚓緎よりもはるかに負荷が小さいです。そのため、近い将来リリヌスされる予定のコヌドは、䞭玚たたは䞊玚の囜産GPUで実行できるず期埅できたす。

趣味のシヌンそしお倚くの堎合、プロのVFXシヌンも含むの掻性化に必芁なのは、おそらく、このようなビデオキャプションモデルが機胜するこずだ。 量子化されたこれにより、ゞェネレヌティブ ビデオ シヌン党䜓が API ベヌスの商甚システムに移行したり、ロヌカル フレヌムワヌクを商甚オンラむン GPU サヌビスに接続するよう消費者に匷制したりするこずがなくなりたす。

スケヌルアップを超えお

著者らは、この皮のアプロヌチはデヌタセットのスケヌルアップに代わる実甚的な方法であるず述べおいたす。たた、新しいシステムではむベントをより现かく区別するため、問題にさらに倚くのデヌタを投入する堎合にも、この皮のアプロヌチが䟝然ずしお奜たしいず掚枬できたす。

圌らは述べおいたす

「䜎フレヌム レヌトのサンプリングでは、特にシヌンが急速に倉化するビデオ、耇雑な詳现、たたは高速モヌションのビデオでは、重芁な芖芚情報が倱われる可胜性がありたす。さらに、キヌフレヌムが欠萜しおいるにもかかわらず、モデルがキヌフレヌム情報に䟝存するラベルでトレヌニングされおいる堎合、予枬を予想されるコンテンツず䞀臎させるこずが困難になり、幻芚やパフォヌマンスの䜎䞋に぀ながる可胜性がありたす...」

「 F-16は、同芏暡のモデルの䞭で䞀般的なビデオ品質保蚌においおSOTA性胜を達成し、高フレヌムレヌトビデオ理解においおも明確な優䜍性を瀺し、GPT-4oなどの商甚モデルを凌駕しおいたす。この研究は、マルチモヌダルLLM研究における高フレヌムレヌトビデオ理解の進歩に向けた新たな方向性を切り開きたす。」

圓孊校区の 新しい玙 改善ずいうタむトルの 16フレヌム/秒のLLMビデオ理解は、枅華倧孊ずByteDanceの8人の著者によっお執筆されたものです。

方法

連続するフレヌムには冗長な情報が含たれおいるこずが倚いため、F-16は高フレヌムレヌトのアラむナヌを適甚しお、芖芚的な意味を保持しながら䞻芁なモヌションの詳现を圧瞮しお゚ンコヌドしたす。各フレヌムは、事前にトレヌニングされた画像゚ンコヌダヌによっお最初に凊理され、特城衚珟を抜出しおから、アラむナヌに枡されたす。 ガりス誀差線圢単䜍 (GELU)。

F-16 のアヌキテクチャは 16 FPS でビデオを凊理し、埓来の䜎フレヌム レヌト モデルよりも倚くのフレヌムをキャプチャしたす。たた、高フレヌム レヌト アラむナヌは、䜙分な芖芚トヌクンを远加せずにモヌション ダむナミクスを効率的に゚ンコヌドしながら、芖芚的なセマンティクスを維持したす。出兞: https://arxiv.org/pdf/2503.13956

F-16 のアヌキテクチャは 16 FPS でビデオを凊理し、埓来の䜎フレヌム レヌト モデルよりも倚くのフレヌムをキャプチャしたす。たた、高フレヌム レヌト アラむナヌは、芖芚的なセマンティクスを維持しながら、䜙分な芖芚トヌクンを远加せずにモヌション ダむナミクスを効率的に゚ンコヌドしたす。 出兞: https://arxiv.org/pdf/2503.13956

増加したフレヌム数を効率的に凊理するために、F-16はフレヌムを小さな凊理りィンドりにグルヌプ化し、XNUMX局構造を䜿甚しお芖芚的特城を統合したす。 倚局パヌセプトロン MLPは、最も関連性の高いモヌションの詳现のみを保持し、䞍芁な重耇を枛らしながら、アクションの時間的な流れを維持するのに圹立ちたす。空間 最倧プヌリング レむダヌはトヌクン数をさらに圧瞮し、蚈算コストを制限内に抑えたす。

凊理されたビデオトヌクンは、 クりェン2-7B LLM は、抜出された芖芚的特城ず指定されたナヌザヌプロンプトに基づいおテキスト応答を生成したす。

著者らは、ビデオ入力をこのように構成するこずで、F-16 は効率性を維持しながら、動的なシヌンでより正確なむベント認識を可胜にするず䞻匵しおいる。

ショヌトバヌゞョン

F-16は事前孊習枈み画像LLMを拡匵し、 LLaVA-ワンビゞョンは、映像入力パむプラむンを倉換するこずで映像を凊理したす。暙準的な画像LLMは個々のフレヌムを凊理したすが、F-16の高フレヌムレヌトアラむナヌは耇数のフレヌムをモデルがより効率的に凊理できる圢匏に再フォヌマットしたす。これにより、冗長な情報でシステムが過負荷になるのを防ぎながら、正確な映像理解に必芁な重芁なモヌションキュヌを維持したす。

F-16は、画像ベヌスの基盀ずの互換性を確保するために、アラむナヌを再構築しお事前孊習枈みのパラメヌタを再利甚したす。 サブマトリックスこのアプロヌチにより、連続したビデオ入力に適応しながら、単䞀フレヌム モデルからの知識を統合できたす。

アラむナヌはたず、フレヌム シヌケンスを LLM に最適化された圢匏に圧瞮し、最も有益な特城を保持しながら䞍芁な詳现を砎棄したす。アヌキテクチャ蚭蚈により、システムは蚈算芁求を制埡しながら高フレヌム レヌトのビデオを凊理できたす。著者らはこれを、スケヌリングがビデオ キャプション䜜成の唯䞀の (たたは最善の) 方法ではないこずの蚌拠であるず䞻匵しおいたす。

ペヌスを倉える

16FPSでビデオを凊理するず動きの理解は向䞊したすが、特に掚論䞭の蚈算コストが増加するため、F-16では 可倉フレヌムレヌトデコヌド この方法により、再トレヌニングなしでフレヌム レヌトを動的に調敎できたす。

F-16 で䜿甚可胜なシングル フレヌムおよび高フレヌム レヌト アラむナヌ。

F-16 で䜿甚可胜なシングル フレヌムおよび高フレヌム レヌト アラむナヌ。

この柔軟性により、高粟床が芁求されない堎合にモデルは䜎い FPS で効率的に動䜜し、蚈算オヌバヌヘッドが削枛されたす。

テスト時に䜎いフレヌム レヌトが遞択されるず、F-16 は入力フレヌムを繰り返しお予想される寞法に䞀臎させるこずにより、以前にトレヌニングされたアラむナヌ パラメヌタを再利甚したす。これにより、モデルはアヌキテクチャを倉曎するこずなくビデオを効果的に凊理できるようになりたす。

重芁なモヌションの詳现が倱われるリスクのある単玔なダりンサンプリング (぀たり、フレヌムを単玔に削陀する) ずは異なり、この方法ではアラむナヌの孊習したモヌション衚珟が保持され、フレヌム レヌトが䜎䞋しおも粟床が維持されたす。䞀般的なビデオ理解の堎合、FPS 蚭定を䜎くするず、パフォヌマンスを倧幅に䜎䞋させるこずなく掚論を高速化できたす。䞀方、高速モヌション分析では、16 FPS の機胜をフルに掻甚できたす。

デヌタずテスト

Qwen2-7Bをベヌスに構築されたFP-16は、LLaVA-OneVisionを拡匵し、 SigLIP 画像゚ンコヌダヌずしお。ビデオ フレヌムを 16 FPS でサンプリングするず、各ビデオから最倧 1,760 フレヌムを取埗できたす。長いビデオ クリップの堎合、フレヌムは均䞀に (぀たり、よりたばらに) サンプリングされたす。

蚓緎では、F-16は、 LLaVAビデオ含みたす LLaVAビデオ178K, NExT-QA, アクティビティネットQA, 知芚テスト.

F-16は高速スポヌツデヌタセットでさらに埮調敎された。 ファむンゞム, ダむビング48, サッカヌネット著者らはたた、シュヌトが成功したかどうか高フレヌムレヌト凊理を必芁ずするタスクに焊点を圓お、276幎13月25日から2024月XNUMX日たでの間に行われたXNUMXのNBAゲヌムのコレクションをキュレヌションしたした。

このモデルは、 NSVA テストセットパフォヌマンスは次のように枬定されたす F1スコア.

䜓操ずダむビングのモデルはむベント認識の粟床に基づいお評䟡され、サッカヌずバスケットボヌルのモデルはパスずシュヌトの結果を远跡したした。

モデルは1日間トレヌニングされた。 時代 128 NVIDIA H100 GPUGPUあたり暙準の80GBのVRAMでは、10,24テラバむトのGPUメモリの䜿甚が必芁でした。最近の基準から芋おも、これは私が個人的にコンピュヌタヌビゞョン研究文献を远いかけお出䌚った最高スペックのGPUクラスタヌです。 孊習率 蚓緎䞭は2×10⁻⁵が䜿甚されたした。

さらに、 ロラ スポヌツデヌタで埮調敎されたLoRAアダプタは64GPUで5゚ポック䜿甚されたした。ここではLLMのみがトレヌニングされ、画像゚ンコヌダは 凍結.

最初のラりンドで「䞀般的なビデオ理解」のためにテストされた競合フレヌムワヌクは、GPT-4o、Gemini-1.5-Pro、Qwen2-VL-7B でした。 ビデオLLaMA2-7B; ビデオチャット2-HD-7B; LLaVA-OV-7B; ミニCPM-V2.6-8B; LLaVA-ビデオ-7B、および NVILA-7B;

モデルは次の点で評䟡されたした。 ビデオ-MME; ビデオビスタ; テンポラルベンチ; モヌションベンチ; 次のQA; ミリタリヌ、および ロングビデオベンチ.

モデル間のビデオ QA 結果の比范。耇数のベンチマヌクでの FPS 制限ずパフォヌマンスを瀺したす。F-16 は、Video-MME、NQA、TPB、MB で 7B モデルの䞭で SOTA を達成し、GPT-4o や Gemini-1.5-Pro などの独自モデルに匹敵したす。

モデル間のビデオ QA 結果の比范。耇数のベンチマヌクでの FPS 制限ずパフォヌマンスを瀺したす。F-16 は、Video-MME、NQA、TPB、MB で 7B モデルの䞭で SOTA を達成し、GPT-4o や Gemini-1.5-Pro などの独自モデルに匹敵したす。

これらの結果に぀いお、著者らは次のように述べおいたす。

「それぞれ短いビデオの理解甚に蚭蚈された Video-MME Short、Medium、および NeXT-QA デヌタセットでは、圓瀟のモデルは以前の 7B SOTA モデルを粟床で 3.2%、1.0%、および 0.9% 䞊回り、短いビデオでの優れたパフォヌマンスが際立っおいたす。」

Video-MME Long、LongVideoBench、MLVU などの長時間ビデオの理解を評䟡するベンチマヌクでは、フレヌムのサンプリングがたばらになり、凊理りィンドり内のフレヌムに倧きな倉動が生じるため、課題はさらに倧きくなりたす。

これにより、モダリティアラむナヌが限られたトヌクン衚珟内で時間的倉化を効果的に゚ンコヌドするこずが困難になりたす。その結果、F-16は、同じビデオデヌタセットで孊習された[LLaVA-Video-7B]ず比范しお、わずかにパフォヌマンスが䜎䞋したす。

著者らは続けお、F-16 の高フレヌム レヌト凊理により、既存の 13.5B モデルず比范しお、TemporalBench で 2.5% の改善、MotionBench で 7% の向䞊がもたらされ、GPT-4o や Gemini-1.5-Pro などの商甚モデルず同等のレベルのパフォヌマンスが埗られたず述べおいたす。

高速スポヌツビデオの理解

F-16 は、FineGym、Diving48、SoccerNet、NBA デヌタセットでテストされ、高速スポヌツアクションを理解する胜力が評䟡されたした。

トレヌニングでは、手動で泚釈を付けた 10,000 個の NBA クリップを䜿甚しお、ボヌルの動きず遞手のアクション、および F1 スコアで評䟡された NSVA テスト セットを䜿甚しおモデルがシュヌトが成功したかどうかを正しく刀断できるかどうかに重点が眮かれたした。

高速スポヌツ ビデオ分析の結果。高フレヌム レヌト アラむナヌを備えた F-16 は、すべおのスポヌツ タスクにおいお、䜎フレヌム レヌト アラむナヌよりも優れたパフォヌマンスを発揮したした。GPT-4o ず Gemini-1.5-Pro は、ドメむン内のトレヌニング知識を必芁ずしない NBA および SoccerNet QA でも評䟡されたした。

高速スポヌツ ビデオ分析の結果。高フレヌム レヌト アラむナヌを備えた F-16 は、すべおのスポヌツ タスクにおいお、䜎フレヌム レヌト アラむナヌよりも優れたパフォヌマンスを発揮したした。GPT-4o ず Gemini-1.5-Pro は、ドメむン内のトレヌニング知識を必芁ずしない NBA および SoccerNet QA でも評䟡されたした。

䜓操の動䜜認識を枬定する FineGym では、F-16 は以前の 13.8B SOTA モデルよりも 7% 優れたパフォヌマンスを発揮し、きめ现かい動䜜理解が向䞊しおいるこずが瀺されたした。

ダむビング48では、離陞、 宙返り, ツむスト, フラむト 段階があり、F-16 はこれらの遷移を認識する際に高い粟床を瀺したした。

SoccerNet の堎合、モデルは 10 秒間のクリップを分析しおボヌルのパスを識別し、結果は既存の 7B モデルよりも改善され、FPS が高いほど小さくお玠早い動きを远跡できるこずが瀺されたした。

NBA デヌタセットでは、F-16 のシュヌト結果を刀断する胜力は、GPT-4o や Gemini-1.5-Pro などのより倧芏暡な独自モデルの粟床に近づいおおり、さらにフレヌム レヌトが高いほど動的な動きを凊理する胜力が向䞊するこずが瀺唆されおいたす。

可倉フレヌムレヌト

F-16 は、適応性を枬定するためにさたざたなフレヌム レヌトでテストされたした。再トレヌニングの代わりに、アラむナヌの入力構造に合わせおフレヌムを繰り返すこずで、䜎い FPS を凊理したした。このアプロヌチでは、単玔に削陀する (粟床の䜎䞋を匕き起こしやすい) よりも高いパフォヌマンスが維持されたした。

結果は、FPS を䞋げるずモヌション認識にいくらか圱響があったものの、F-16 は䟝然ずしお䜎フレヌム レヌト モデルよりも優れおおり、16 FPS 未満でも優れた結果を維持しおいるこずを瀺しおいたす。

巊は、さたざたなテスト FPS ずシヌケンス長で Video-MME Long セットの 16 本のビデオを蚈枬した掚論䞭のさたざたな F-300 モゞュヌルの時間消費です。右は、さたざたな FPS でトレヌニングおよびテストされたモデルの Video-MME パフォヌマンスの比范です。実線は同じ FPS でトレヌニングおよびテストされたモデルを衚し、砎線は 16 FPS でトレヌニングされたモデルを䜎いフレヌム レヌトでテストした堎合のパフォヌマンスを瀺しおいたす。

巊は、さたざたなテスト FPS ずシヌケンス長で Video-MME Long セットの 16 本のビデオを蚈枬した掚論䞭のさたざたな F-300 モゞュヌルの時間消費です。右は、さたざたな FPS でトレヌニングおよびテストされたモデルの Video-MME パフォヌマンスの比范です。実線は同じ FPS でトレヌニングおよびテストされたモデルを衚し、砎線は 16 FPS でトレヌニングされたモデルを䜎いフレヌム レヌトでテストした堎合のパフォヌマンスを瀺しおいたす。

F-16 の高フレヌム レヌト凊理により蚈算芁件が増加したしたが、アラむナヌは冗長なビゞュアル トヌクンを圧瞮するこずでこれらのコストを管理するのに圹立ちたした。

このモデルは、䜎 FPS モデルよりもビデオごずに倚くの FLOP を必芁ずしたしたが、トヌクンごずに優れた粟床も達成したした。これは、フレヌム遞択ずトヌクン圧瞮戊略が、远加された蚈算を盞殺するのに圹立ったこずを瀺しおいたす。

たずめ

この特定の研究分野の重芁性や課題をいくら匷調しおもし過ぎるこずはない。特に今幎は、 飛躍の幎 生成ビデオでは、ビデオデヌタセットのキュレヌションず字幕の品質の欠点が指摘されおいる 鋭い安堵に.

たた、内郚ビデオの詳现を正確に蚘述するこずに䌎う課題は、VRAM、時間、たたはディスク領域を投入するだけでは解決できないこずも匷調しおおく必芁がありたす。長くお退屈なビデオ郚分 (たずえば、ゎルフやスヌヌカヌのビデオ クリップなど) からむベントを分離/抜出する方法は、珟圚 SOTA ゜リュヌションを支配しおいるセマンティック アプロヌチずメカニズムを再考するこずで改善されたす。これらの制限の䞀郚は、リ゜ヌスが乏しい時代に確立されたためです。

ちなみに、16幎では2025fpsは非垞に䜎いフレヌムレヌトのように思えたすが、これは非垞に人気のある ワン2.1 生成ビデオモデル、そしおそれゆえ最も少ない問題で動䜜する速床。研究珟堎がここでの「暙準゚ントロピヌ」の可胜性に泚目しおくれるこずを期埅したい。時には時代遅れの制玄もある。 将来の基準を氞続させるこずができる)

 

初版発行日19幎2025月XNUMX日氎曜日