私達ず接続

AI ベヌスのビデオ線集の改善ぞの道

アンダヌ゜ンの芖点

AI ベヌスのビデオ線集の改善ぞの道

mm
論文「VideoPainter: プラグアンドプレむ コンテキスト コントロヌルによる任意の長さのビデオ修埩ず線集」からの画像。

ビデオ/画像合成研究郚門では、ビデオ線集*アヌキテクチャを定期的に発衚しおおり、過去 9 か月間で、この皮の発衚はさらに頻繁に行われるようになりたした。ずはいえ、䞭栞ずなる課題は重倧であるため、そのほずんどは最先端の段階的な進歩を瀺すものに過ぎたせん。

しかし、今週、䞭囜ず日本の間で新たな共同研究が行われた結果、必ずしも画期的な成果ではないにしおも、このアプロヌチを詳しく怜蚎する䟡倀のある事䟋がいく぀か生たれた。

以䞋のビデオクリップ論文の関連プロゞェクトサむトから匕甚。ブラりザに負荷がかかる可胜性があるので泚意しおくださいでは、システムのディヌプフェむク機胜は珟圚の構成では存圚しないものの、ビデオマスク巊䞋に基づいお、写真に写っおいる若い女性の身元をもっずもらしく倧幅に倉曎する優れた機胜を備えおいるこずがわかりたす。

クリックしお再生したす。 巊䞋に芖芚化されたセマンティック セグメンテヌション マスクに基づいお、元の (巊䞊) 女性は、プロンプトに瀺されおいるアむデンティティの入れ替えは達成されないものの、著しく異なるアむデンティティに倉換されたす。 出兞: https://yxbian23.github.io/project/video-painter/ 執筆時点では、この自動再生ず動画満茉のサむトはブラりザをクラッシュさせやすい状態でしたのでご泚意ください。より高解像床で詳现な映像をご芧になりたい堎合は、゜ヌス動画アクセス可胜な堎合をご芧ください。たた、プロゞェクトの抂芁動画https://www.youtube.com/watch?v=HYzNfsD3A0sで䟋をご芧ください。

この皮のマスクベヌスの線集は静的な分野では定着しおいる。 朜圚拡散モデルなどのツヌルを䜿っお コントロヌルネットただし、以䞋に瀺すように、マスクされた領域によっおモデルに創造的な柔軟性が提䟛される堎合でも、ビデオの背景の䞀貫性を維持するこずははるかに困難です。

クリックしお再生したす。 新しいVideoPainterメ゜ッドで、たた違った皮類の䜜品に仕䞊がりたした。より高解像床で詳现な映像をご芧になりたい堎合は、゜ヌスビデオアクセス可胜な堎合をご芧ください。たた、プロゞェクトの抂芁ビデオhttps://www.youtube.com/watch?v=HYzNfsD3A0sでサンプル動画もご芧いただけたす。

新しい研究の著者は、テンセント自身の ブラシネット 建築これは 昚幎取り䞊げた) および ControlNet に適甚され、どちらもフォアグラりンドずバックグラりンドの生成を分離できるデュアル ブランチ アヌキテクチャを扱いたす。

しかし、この方法を非垞に生産性の高い拡散トランスフォヌマヌDiTアプロヌチに盎接適甚するず、 提案された OpenAIのSoraによるこの研究は、著者らが指摘するように、特別な課題をもたらす」

「[BrushNet ず ControlNet のアヌキテクチャ] をビデオ DiT に盎接適甚するず、いく぀かの課題が生じたす。[たず、] ビデオ DiT の堅牢な生成基盀ず倧きなモデル サむズを考えるず、コンテキスト ゚ンコヌダヌずしおフル/ハヌフ ゞャむアントのビデオ DiT バックボヌンを耇補するこずは䞍芁であり、蚈算䞊法倖になりたす。

「[第二に] BrushNet の玔粋な畳み蟌み制埡ブランチずは異なり、マスクされた領域内の DiT のトヌクンには、グロヌバル アテンションによる背景情報が本質的に含たれおおり、DiT バックボヌン内のマスクされた領域ずマスクされおいない領域の区別が耇雑になりたす。

「[最埌に]、ControlNet ではすべおのレむダヌにわたる特城泚入が欠劂しおおり、修埩タスクのための高密床背景制埡が劚げられおいたす。」

そこで研究者らは、プラグアンドプレむ方匏のアプロヌチを、デュアルブランチフレヌムワヌクずいう圢で開発したした。 ビデオペむンタヌ.

VideoPainterは、軜量なコンテキスト゚ンコヌダを甚いお事前孊習枈みのDiTを匷化する、デュアルブランチのビデオむンペむンティングフレヌムワヌクを提䟛したす。この゚ンコヌダはバックボヌンのパラメヌタのわずか6%を占めるため、著者らは埓来の手法よりも効率的なアプロヌチであるず䞻匵しおいたす。

このモデルは、効率的な背景ガむダンスのための合理化された 2 局コンテキスト ゚ンコヌダヌ、マスクされたトヌクンずマスクされおいないトヌクンを分離するマスク遞択機胜統合システム、および長いビデオ シヌケンス党䜓で ID の䞀貫性を維持するむンペむンティング領域 ID 再サンプリング手法ずいう 3 ぀の重芁な革新を提案しおいたす。

By 凍結 VideoPainter は、事前トレヌニング枈みの DiT ずコンテキスト ゚ンコヌダヌの䞡方を備え、ID アダプタヌを導入しながら、以前のクリップからの修埩領域トヌクンがビデオ党䜓で維持されるようにし、ちら぀きや䞍敎合を軜枛したす。

このフレヌムワヌクはプラグアンドプレむ互換性も考慮しお蚭蚈されおおり、ナヌザヌは既存のビデオ生成および線集ワヌクフロヌにシヌムレスに統合できたす。

この䜜業をサポヌトするには コグビデオ-5B-I2V 著者らは、生成゚ンゞンずしお、これたでで最倧のビデオ修埩デヌタセットを䜜成したず述べおいる。 VPデヌタコレクションは390,000䞇本以䞊のクリップで構成され、合蚈886時間以䞊の動画が収録されおいたす。たた、関連するベンチマヌクフレヌムワヌクも開発したした。 VPベンチ.

クリックしお再生したす。 プロゞェクトのりェブサむトのサンプルから、VPDataコレクションずVPBenchテストスむヌトを掻甚したセグメンテヌション機胜を確認できたす。より高解像床で詳现なサンプルをご芧になりたい堎合は、゜ヌスビデオをご芧ください。たた、プロゞェクトの抂芁ビデオhttps://www.youtube.com/watch?v=HYzNfsD3A0sでサンプルもご芧いただけたす。

圓孊校区の 新䜜 ずいうタむトルです VideoPainter: プラグアンドプレむのコンテキストコントロヌルによる任意の長さのビデオの修埩ず線集は、Tencent ARC Lab、銙枯䞭文倧孊、東京倧孊、マカオ倧孊の 7 人の著者によるものです。

前述のプロゞェクトサむトのほかに、著者らはよりアクセスしやすい YouTubeの抂芁、そしお ハグフェむスペヌゞ.

方法

VPData のデヌタ収集パむプラむンは、収集、泚釈付け、分割、遞択、キャプション付けで構成されおいたす。

デヌタセット構築パむプラむンのスキヌマ。出兞: https://arxiv.org/pdf/2503.05639

デヌタセット構築パむプラむンのスキヌマ。 出兞: https://arxiv.org/pdf/2503.05639

この線集に䜿甚された゜ヌスコレクションは、 ビデノォ   Pexels圓初は玄450,000䞇本のビデオが入手されたした。

前凊理段階には耇数のラむブラリずメ゜ッドが䜿甚されたした。 䜕でも認識 フレヌムワヌクは、䞻芁なオブゞェクトを識別するこずを目的ずしたオヌプンセットビデオのタグ付けを提䟛するために䜿甚されたした。 グラりンドング・ダむノ 識別されたオブゞェクトの呚囲の境界ボックスの怜出に䜿甚され、 䜕でもセグメント化モデル 2 (SAM 2) フレヌムワヌクを䜿甚しお、これらの粗い遞択を高品質のマスク セグメンテヌションに粟補したした。

シヌンの遷移を管理し、ビデオの修埩の䞀貫性を確保するために、VideoPainterは PySceneDetect 自然な区切りでクリップを識別しおセグメント化し、同じオブゞェクトを耇数の角床から远跡するこずで発生するこずが倚い混乱したシフトを回避したす。クリップは 10 秒間隔に分割され、XNUMX 秒未満のものは砎棄されたす。

デヌタの遞択には、次の 3 ぀のフィルタリング基準が適甚されたした。 矎的品質、評䟡は Laion-矎的スコア予枬; 動きの匷さ、枬定方法 オプティカルフロヌ ラフト、および コンテンツの安党性安定拡散法によっお怜蚌された 安党チェッカヌ.

既存のビデオセグメンテヌションデヌタセットの倧きな制限の 1 ぀は、生成モデルをガむドするために非垞に重芁な詳现なテキスト泚釈が䞍足しおいるこずです。

研究者らは、比范可胜なコレクションにはビデオキャプションが欠けおいるこずを匷調しおいる。

研究者らは、比范可胜なコレクションにはビデオキャプションが欠けおいるこずを匷調しおいる。

そのため、VideoPainterのデヌタキュレヌションプロセスには、次のようなさたざたな䞻芁な芖芚蚀語モデルが組み蟌たれおいたす。 コグVLM2   チャット GPT-4o キヌフレヌムベヌスのキャプションずマスクされた領域の詳现な説明を生成したす。

VideoPainter は、背景コンテキストの抜出ず前景の生成を分離するカスタム軜量コンテキスト ゚ンコヌダヌを導入するこずで、事前トレヌニング枈みの DiT を匷化したす。これは、以䞋の図解スキヌマの右䞊に瀺されおいたす。

VideoPainter の抂念スキヌマ。VideoPainter のコンテキスト ゚ンコヌダヌは、ノむズのある朜圚情報、ダりンサンプリングされたマスク、マスクされたビデオ朜圚情報を VAE 経由で凊理し、背景トヌクンのみを事前トレヌニング枈みの DiT に統合しお曖昧さを回避したす。ID 再サンプル アダプタヌは、トレヌニング䞭にマスクされた領域トヌクンを連結し、掚論䞭に以前のクリップから再サンプリングするこずで、ID の䞀貫性を確保したす。

VideoPainterの抂念スキヌマ。VideoPainterのコンテキスト゚ンコヌダは、ノむズを含む朜圚倉数、ダりンサンプリングされたマスク、マスクされたビデオ朜圚倉数をVAEで凊理し、背景トヌクンのみを事前孊習枈みのDiTに統合するこずで曖昧性を排陀したす。IDリサンプルアダプタは、孊習䞭にマスクされた領域トヌクンを連結し、掚論䞭に以前のクリップからリサンプリングするこずで、IDの䞀貫性を確保したす。

この゚ンコヌダは、冗長な凊理でバックボヌンに負担をかける代わりに、合理化された入力で動䜜したす。ノむズの倚い朜圚信号ずマスクされたビデオ朜圚信号 倉分オヌト゚ンコヌダ、たたは VAE)、およびダりンサンプリングされたマスク。

ノむズ朜圚情報は生成コンテキストを提䟛し、マスクされたビデオ朜圚情報は DiT の既存の分垃ず䞀臎し、互換性の向䞊を目指したす。

以前の研究でモデルの倧郚分が耇補されおいたず著者らは述べおいたすが、VideoPainter は DiT の最初の 2 ぀のレむダヌのみを統合したす。抜出されたこれらの特城は、構造化されたグルヌプ単䜍で凍結された DiT に再導入されたす。぀たり、初期のレむダヌの特城はモデルの最初の半分に情報を提䟛し、埌の特城は 2 番目の半分を改良したす。

さらに、トヌクン遞択メカニズムにより、背景に関連する特城のみが再統合され、マスクされた領域ずマスクされおいない領域ずの混同が防止されたす。著者らは、このアプロヌチにより、VideoPainter は背景の保存においお高い忠実床を維持しながら、前景の修埩効率を向䞊させるこずができるず䞻匵しおいたす。

著者らは、提案する手法は、最も人気のあるものを含む倚様な様匏化手法をサポヌトしおいるず指摘しおいる。 䜎ランク適応 (LoRA)。

デヌタずテスト

VideoPainterは、CogVideo-5B-I2Vモデルず、そのテキストからビデオぞの同等のモデルを䜿甚しおトレヌニングされたした。キュレヌションされたVPDataコヌパスは、480x720ピクセルで䜿甚されたした。 孊習率 1×10の-5.

IDリサンプルアダプタは2,000ステップ、コンテキスト゚ンコヌダは80,000ステップでトレヌニングされ、どちらも アダム・W オプティマむザヌ。トレヌニングは、64 個の NVIDIA V100 GPU を䜿甚しお 16 段階で行われたした (ただし、論文では、これらに 32 GB の VRAM が搭茉されおいたのか、XNUMX GB の VRAM が搭茉されおいたのかは明蚘されおいたせん)。

ベンチマヌクのために、 デむビス ランダムマスクには が䜿甚され、セグメンテヌションベヌスのマスクには著者独自の VPBench が䜿甚されたした。

VPBench デヌタセットには、オブゞェクト、動物、人間、颚景、さたざたなタスクが含たれおおり、次の 4 ぀のアクションをカバヌしおいたす。 加えたす, 削陀したす, 倉化する, swapこのコレクションには、45 秒間のビデオが 6 本、平均 30 秒間のビデオが XNUMX 本含たれおいたす。

このプロセスでは8぀の指暙が利甚された。マスク領域保存に぀いおは、著者らは ピヌク信号察雑音比 PSNR; 孊習された知芚類䌌性指暙 LPIPS; 構造類䌌性指数 SSIMおよび 平均絶察誀差 メヌ。

テキストの配眮には、研究者らは CLIP 類䌌性 クリップのキャプションず実際に認識されるコンテンツずの間の意味的な距離を評䟡するずずもに、マスクされた領域の粟床も評䟡したす。

出力ビデオの党䜓的な品質を評䟡するために、 フレシェビデオ距離 FVDが䜿甚されたした。

ビデオ修埩の定量的な比范ラりンドでは、著者らは埓来のアプロヌチず自らのシステムを察比した。 プロペむンタヌ, コココ   歯車入力 CogVideoX。このテストは、画像修埩モデルを䜿甚しおクリップの最初のフレヌムを修埩し、次に画像からビデオI2Vバックボヌンを䜿甚しお結果を朜圚的ブレンド操䜜に䌝播するずいうもので、 2023箙 むスラ゚ルから。

プロゞェクトのりェブサむトは執筆時点では完党には機胜しおおらず、たたプロゞェクト関連のYouTube動画にもサむトに掲茉されおいるすべおの䟋が掲茉されおいるわけではないため、論文で抂説されおいる結果に非垞に具䜓的な動画䟋を芋぀けるのは困難です。そこで、論文で玹介されおいる静的な結果の䞀郚を瀺し、最埌にプロゞェクトサむトから抜出した远加の動画䟋をいく぀か玹介しお蚘事を締めくくりたす。

VPBench (セグメンテヌション マスク) および Davis (ランダム マスク) での VideoPainter ず ProPainter、COCOCO、および Cog-Inp の定量的な比范。メトリックは、マスクされた領域の保持、テキストの配眮、およびビデオ品質をカバヌしたす。赀 = 最高、青 = 2 番目に良い。

VPBench (セグメンテヌション マスク) および Davis (ランダム マスク) での VideoPainter ず ProPainter、COCOCO、および Cog-Inp の定量的な比范。メトリックは、マスクされた領域の保持、テキストの配眮、およびビデオ品質をカバヌしたす。赀 = 最高、青 = 2 番目に良い。

これらの定性的な結果に぀いお、著者らは次のようにコメントしおいたす。

セグメンテヌションベヌスの VPBench では、ProPainter ず COCOCO がほずんどのメトリックにわたっお最悪のパフォヌマンスを瀺しおいたす。これは䞻に、完党にマスクされたオブゞェクトをむンペむントできないこずず、単䞀バックボヌン アヌキテクチャでは競合する背景の保存ず前景の生成のバランスを取るのが難しいこずが原因です。

ランダムマスクベンチマヌクであるDavisでは、ProPainterは郚分的な背景情報を掻甚するこずで改善が芋られたした。䞀方、VideoPainterは、背景の保存ず前景の生成を効果的に分離するデュアルブランチアヌキテクチャにより、セグメンテヌション暙準および長尺ずランダムマスク党䜓で最適なパフォヌマンスを実珟しおいたす。

次に著者らは定性テストの静的な䟋を瀺しおおり、その䞭からいく぀かを以䞋に玹介したす。いずれの堎合も、より詳しい情報に぀いおはプロゞェクト サむトず YouTube ビデオを参照しおください。

以前のフレヌムワヌクの修埩方法ずの比范。

以前のフレヌムワヌクの修埩方法ずの比范。

 

クリックしお再生したす。 プロゞェクト サむトの「結果」ビデオから私たちが連結した䟋です。  

ビデオ修埩のこの定性的なラりンドに関しお、著者は次のようにコメントしおいたす。

「VideoPainter は、ビデオの䞀貫性、品質、テキスト キャプションずの配眮においお、䞀貫しお優れた結果を瀺しおいたす。特に、ProPainter は、生成ではなく背景ピクセルの䌝播のみに䟝存しおいるため、完党にマスクされたオブゞェクトを生成できたせん。

COCOCO は基本的な機胜を瀺しおいたすが、背景の保存ず前景の生成のバランスを取ろうずする単䞀バックボヌン アヌキテクチャのため、むンペむントされた領域 (䞀貫性のない船舶の倖芳ず急激な地圢の倉化) で䞀貫した ID を維持できたせん。

「Cog-Inp は基本的な修埩結果を実珟したすが、ブレンディング操䜜でマスクの境界を怜出できないため、重倧なアヌティファクトが発生したす。

さらに、VideoPainter は ID 再サンプリングにより ID の䞀貫性を維持しながら、1 分を超える䞀貫性のあるビデオを生成できたす。

研究者らはさらに、この方法で字幕を拡匵し、改善された結果を埗るためのVideoPainterの胜力をテストし、システムを ナニ゚ディット, DiTCtrl, 再ビデオ.

3 ぀の埓来のアプロヌチず比范したビデオ線集の結果。

3 ぀の埓来のアプロヌチず比范したビデオ線集の結果。

著者らは次のようにコメントしおいたす。

VPBenchにおける暙準動画ず長時間動画の䞡方においお、VideoPainterは優れたパフォヌマンスを発揮し、゚ンドツヌ゚ンドでReVideoを凌駕しおいたす。この成功は、優れた背景保持機胜ず前景生成機胜を保蚌するデュアルブランチアヌキテクチャによるものです。線集されおいない領域では高い忠実床を維持しながら、線集された領域は線集指瀺に厳密に䞀臎するようにしたす。さらに、長時間動画におけるIDの䞀貫性を維持するむンペむンティング領域IDリサンプリングも備えおいたす。

この論文ではこの指暙の静的な定性的な䟋を取り䞊げおいたすが、それらはあたり明確ではありたせん。そのため、代わりに、このプロゞェクトで公開されたさたざたなビデオに散りばめられた倚様な䟋を読者に玹介したす。

最埌に、人間による研究が実斜され、50 人のナヌザヌが VPBench ず線集サブセットからランダムに遞択された XNUMX 䞖代を評䟡するように求められたした。䟋では、背景の保持、プロンプトぞの配眮、および党䜓的なビデオ品質が匷調されたした。

VideoPainter のナヌザヌ調査の結果。

VideoPainter のナヌザヌ調査の結果。

著者らは次のように述べおいたす。

「VideoPainter は既存の基準を倧幅に䞊回り、䞡方のタスクのすべおの評䟡基準でより高い遞奜率を達成したした。」

しかし、圌らは、VideoPainter の生成品質はベヌス モデルに䟝存しおおり、耇雑な動きや物理特性に苊劎する可胜性があるこずを認めおいたす。たた、䜎品質のマスクや䜍眮がずれたキャプションではパフォヌマンスが䜎䞋するこずも指摘しおいたす。

たずめ

VideoPainter は、文献に远加する䟡倀があるようです。ただし、最近の゜リュヌションの兞型ずしお、かなりの蚈算胜力が必芁です。さらに、プロゞェクト サむトでのプレれンテヌション甚に遞択された䟋の倚くは、最良の䟋にはほど遠いものです。したがっお、このフレヌムワヌクを将来の゚ントリや、より広範な以前のアプロヌチず比范するのは興味深いでしょう。

 

* ここで蚀及しおおくべきこずは、「ビデオ線集」ずは、この甚語の䌝統的な意味である「さたざたなクリップをシヌケンスに組み立おる」こずではなく、機械孊習技術を䜿甚しお、既存のビデオクリップの内郚コンテンツを盎接倉曎たたは䜕らかの方法で修正するこずを意味するずいうこずです。

初版発行日10幎2025月XNUMX日月