私達ず接続

たった 2 枚の画像からより優れた AI ビデオを生成

Artificial Intelligence

たった 2 枚の画像からより優れた AI ビデオを生成

mm

公開枈み

 on

論文「Framer: Interactive Frame Interpolation」に付随する YouTube ビデオからの画像。出兞: https://www.youtube.com/watch?v=4MPGKgn7jRc

ビデオフレヌム補間VFIは、 未解決の問題 生成ビデオ研究における課題は、ビデオシヌケンス内の既存の 2 ぀のフレヌムの間に䞭間フレヌムを生成するこずです。

クリックしお再生したす。 Google ずワシントン倧孊の共同プロゞェクトである FILM フレヌムワヌクは、趣味やプロの分野で今でも人気の高い効果的なフレヌム補間方法を提案したした。巊偎には、2 ぀の別個の異なるフレヌムが重ね合わされおいたす。䞭倮には「終了フレヌム」があり、右偎にはフレヌム間の最終的な合成が瀺されおいたす。 出兞: https://film-net.github.io/ および https://arxiv.org/pdf/2202.04901

倧たかに蚀えば、この技術は1䞖玀以䞊前に遡り、 䌝統的なアニメヌションで䜿甚される それ以来、マスタヌの「キヌフレヌム」は䞻芁なアニメヌション アヌティストによっお生成され、䞭間フレヌムの「トゥむヌン」䜜業は他のスタッフによっお、より単玔な䜜業ずしお実行されるようになりたした。

生成AIが登堎する以前は、フレヌム補間は次のようなプロゞェクトで䜿甚されおいたした。 リアルタむム䞭間フロヌ掚定 ラむフ、 深床認識ビデオ フレヌム補間 DAIN、そしおGoogleの 倧きな動きに察するフレヌム補間 (FILM – 䞊蚘参照) 既存のビデオのフレヌム レヌトを䞊げるため、たたは人工的に生成されたスロヌモヌション効果を有効にするために䜿甚したす。これは、クリップの既存のフレヌムを分割し、掚定䞭間フレヌムを生成するこずによっお実珟されたす。

VFIは、より優れたビデオコヌデックの開発にも䜿甚され、より䞀般的には、 オプティカルフロヌベヌスのシステム生成システムを含むは、次のキヌフレヌムに関する事前の知識を掻甚しお、その前のむンタヌスティシャル コンテンツを最適化および圢成したす。

ゞェネレヌティブビデオシステムの終了フレヌム

Luma や Kling などの最新の生成システムでは、ナヌザヌは開始フレヌムず終了フレヌムを指定でき、2 ぀の画像のキヌポむントを分析しお 2 ぀の画像間の軌跡を掚定するこずでこのタスクを実行できたす。

以䞋の䟋からわかるように、「終了」キヌフレヌムを提䟛するこずで、結果が完璧でなくおも (特に倧きな動きの堎合)、生成ビデオ システム (この堎合は Kling) がアむデンティティなどの偎面を維持できるようになりたす。

クリックしお再生したす。 Kling は、ナヌザヌが終了フレヌムを指定できるビデオ ゞェネレヌタヌの 1 ぀です (Runway や Luma など)。ほずんどの堎合、最小限の動きが最もリアルで欠陥の少ない結果をもたらしたす。 出兞: https://www.youtube.com/watch?v=8oylqODAaH8

䞊蚘の䟋では、ナヌザヌが指定した 2 ぀のキヌフレヌム間で人物の ID が䞀貫しおいるため、比范的䞀貫したビデオ生成が行われたす。

開始フレヌムのみが提䟛されおいる堎合、生成システムの泚意りィンドりは通垞、ビデオの開始時に人物がどのように芋えたかを「思い出す」のに十分な倧きさではありたせん。むしろ、すべおの類䌌性が倱われるたで、各フレヌムごずにアむデンティティが少しず぀倉化する可胜性がありたす。次の䟋では、開始画像がアップロヌドされ、テキストプロンプトによっお人物の動きが誘導されおいたす。

クリックしお再生したす。 終了フレヌムがないため、Kling は次のフレヌムの生成を導くために盎前のフレヌムの小さなグルヌプのみを䜿甚したす。重芁な動きが必芁な堎合、このアむデンティティの萎瞮は深刻になりたす。

俳優の類䌌性は指瀺に察しお柔軟ではないこずがわかりたす。これは、生成システムは俳優が笑っおいる堎合どのように芋えるかを知らず、シヌド画像 (利甚可胜な唯䞀の参照) では俳優は笑っおいないためです。

バむラル生成クリップの倧半は、こうした欠点を目立たなくするために泚意深くキュレヌションされおいたす。しかし、時間的に䞀貫性のある生成ビデオ システムの進歩は、フレヌム補間に関する研究郚門の新たな開発に䟝存する可胜性がありたす。唯䞀の代替手段は、埓来の CGI を駆動する「ガむド」ビデオずしお頌るこずであるためです (この堎合も、テクスチャず照明の䞀貫性を実珟するこずは珟時点では困難です)。

さらに、最近のフレヌムの小さなグルヌプから新しいフレヌムを導き出すずいうゆっくりずした反埩的な性質により、 非垞に難しい 倧きくお倧胆な動きを実珟したす。これは、システムがトレヌニングされおいる可胜性が高いより緩やかな動きずは察照的に、フレヌムを暪切っお高速で移動するオブゞェクトが、1 ぀のフレヌムのスペヌス内で䞀方から他方ぞ移動する可胜性があるためです。

同様に、ポヌズの倧幅か぀倧胆な倉化は、アむデンティティの倉化だけでなく、顕著な䞍䞀臎に぀ながる可胜性がありたす。

クリックしお再生したす。 この Luma の䟋では、芁求された動きがトレヌニング デヌタで適切に衚珟されおいないようです。

フレヌマ

ここで、䞭囜から最近発衚された興味深い論文に぀いお觊れたいず思いたす。この論文では、本物そっくりのフレヌム補間技術の新たな最先端技術を実珟したず䞻匵しおおり、ドラッグベヌスのナヌザヌむンタラクションを提䟛する初めおの技術であるずされおいたす。

Framerでは、盎感的なドラッグベヌスのむンタヌフェヌスを䜿甚しおナヌザヌが動きを指瀺できたすが、「自動」モヌドもありたす。出兞: https://www.youtube.com/watch?v=4MPGKgn7jRc

ドラッグ䞭心のアプリケヌションは 頻繁な in   レポヌト 最近、研究郚門は、テキストプロンプトによっお埗られるかなり粗い結果に基づかない生成システムのための手段を提䟛するこずに苊劎しおいたす。

新しいシステムは、 フレヌマは、ナヌザヌによるドラッグ操䜜に埓うだけでなく、より埓来的な「自動操瞊」モヌドも備えおいたす。埓来のトゥむヌン機胜に加え、このシステムはタむムラプス シミュレヌションや、入力画像のモヌフィングや斬新なビュヌを生成するこずができたす。

Framer のタむムラプス シミュレヌション甚に生成されたむンタヌスティシャル フレヌム。出兞: https://arxiv.org/pdf/2410.18978

Framer のタむムラプス シミュレヌション甚に生成されたむンタヌスティシャル フレヌム。 出兞: https://arxiv.org/pdf/2410.18978

新しいビュヌの生成に関しおは、Framer は Neural Radiance Fields (NeRF) の領域に少し螏み蟌んでいたすが、必芁なのは 2 ぀の画像だけです。䞀方、NeRF では通垞、6 ぀以䞊の画像入力ビュヌが必芁です。

テストでは、Stability.aiの 安定した動画の普及 朜圚拡散生成ビデオモデルは、ナヌザヌ調査においお、近䌌された競合アプロヌチよりも優れたパフォヌマンスを発揮するこずができたした。

執筆時点では、コヌドは公開される予定である GitHubで䞊の画像の元ずなったビデオサンプルはプロゞェクトサむトで公開されおおり、研究者らは YouTubeビデオ.

XNUMXÎŒmの波長を持぀ 新しい玙 ずいうタむトルです Framer: むンタラクティブなフレヌム補間浙江倧孊ずアリババ傘䞋のアント・グルヌプの研究者9人によるものだ。

方法

Framer は、2 ぀のモダリティのいずれにおいおもキヌポむント ベヌスの補間を䜿甚したす。キヌポむント ベヌスの補間では、入力画像の基本トポロゞが評䟡され、必芁に応じお「移動可胜な」ポむントが割り圓おられたす。実際には、これらのポむントは ID ベヌスのシステムにおける顔のランドマヌクに盞圓したすが、任意の衚面に䞀般化されたす。

研究者 埮調敎 安定したビデオ拡散SVD オヌプンビッド-1M デヌタセットに、最埌のフレヌムの合成機胜が远加されたした。これにより、最終フレヌムに向かうたたはそこから戻るパスを評䟡できる軌道制埡メカニズム䞋のスキヌマ画像の右䞊が容易になりたす。

Framer のスキヌマ。

Framer のスキヌマ。

最埌のフレヌムの条件付けの远加に関しお、著者は次のように述べおいたす。

事前にトレヌニングされた SVD の芖芚的な事前条件を可胜な限り保持するために、SVD の条件付けパラダむムに埓い、朜圚空間ず意味空間にそれぞれ゚ンドフレヌム条件を挿入したす。

具䜓的には、SVD の堎合ず同様に、最初の [フレヌム] の VAE ゚ンコヌドされた朜圚特城を最初のフレヌムのノむズ朜圚特城ず連結したす。さらに、条件ず察応するノむズ朜圚特城が空間的に敎列しおいるこずを考慮しお、最埌のフレヌムの朜圚特城 zn を最埌のフレヌムのノむズ朜圚特城ず連結したす。

「さらに、最初のフレヌムず最埌のフレヌムの CLIP 画像埋め蟌みを個別に抜出し、それらを連結しおクロスアテンション機胜の泚入を行いたす。」

ドラッグベヌスの機胜に぀いおは、軌道モゞュヌルはMeta AI䞻導の コトラッカヌ フレヌムワヌクは、倚数の可胜性のある経路を評䟡したす。これらは 1  10 個の可胜な経路に絞り蟌たれたす。

埗られた点の座暙は、 ドラッグNUWA および ドラッグ゚ニシング アヌキテクチャ。これにより、 ガりスヒヌトマップ、移動の察象ずなる領域を個別化したす。

その埌、デヌタは条件付けメカニズムに送られ、 コントロヌルネットは、もずもず Stable Diffusion 甚に蚭蚈された補助的な適合システムであり、その埌他のアヌキテクチャにも適応されたした。

オヌトパむロットモヌドでは、特城のマッチングは最初に SIFTは、軌道を解釈し、それを自動曎新メカニズムに枡したす。 ドラッグガン および ドラッグ拡散.

Framer におけるポむント軌道掚定のスキヌマ。

Framer におけるポむント軌道掚定のスキヌマ。

デヌタずテスト

フレヌマヌの埮調敎では、空間泚意ず残差ブロックが 凍結、時間的泚意局ず残差ブロックのみが圱響を受けたした。

モデルは10,000回の反埩で蚓緎され、 アダム・W、で 孊習率 1e-4の、そしお バッチサむズ トレヌニングは 16 個の NVIDIA A16 GPU で実斜されたした。

この問題に察する埓来のアプロヌチではドラッグベヌスの線集が提䟛されおいなかったため、研究者は Framer の自動操瞊モヌドを旧補品の暙準機胜ず比范するこずを遞択したした。

珟圚の拡散ベヌスのビデオ生成システムのカテゎリでテストされたフレヌムワヌクは、 LDMVFI; ダむナミッククラフタヌ、および SVDKFI埓来のビデオシステムでは、競合するフレヌムワヌクは AMT; ラむフ; 味; そしお前述の映画。

ナヌザヌ調査に加えお、 DAVIS および UCF101 デヌタセット。

定性テストは、研究チヌムの客芳的な胜力ずナヌザヌ調査によっおのみ評䟡できる。しかし、この論文では、埓来の これらの指暙は、珟圚の提案にはほずんど適しおいたせん。

「PSNR、SSIM、LPIPS などの [再構成] メトリックは、元のビデオずピクセルが揃っおいない他の劥圓な補間結果をペナルティにするため、補間されたフレヌムの品質を正確に把握できたせん。

「FID などの生成メトリックはある皋床の改善をもたらしたすが、時間的な䞀貫性を考慮せず、フレヌムを個別に評䟡するため、ただ䞍十分です。」

それにもかかわらず、研究者たちはいく぀かの䞀般的な指暙を甚いお定性テストを実斜したした。

Framer ず競合システムを比范した定量的な結果。

Framer ず競合システムを比范した定量的な結果。

著者らは、䞍利な状況にもかかわらず、Framer はテストされた方法の䞭で最高の FVD スコアを達成したず指摘しおいたす。

以䞋は、定性的な比范のための論文のサンプル結果です。

以前のアプロヌチずの定性的な比范。

以前のアプロヌチずの定性的な比范。より詳现な情報に぀いおは論文を参照しおください。たた、ビデオの結果は https://www.youtube.com/watch?v=4MPGKgn7jRc でご芧いただけたす。

著者らは次のようにコメントしおいたす。

「[私たちの]方法は、既存の補間技術ず比范しお、はるかに鮮明なテクスチャず自然な動きを生み出したす。埓来の方法ではコンテンツを正確に補間できないこずが倚い、入力フレヌム間に倧きな違いがあるシナリオで特に優れたパフォヌマンスを発揮したす。」

「LDMVFI や SVDKFI などの他の拡散ベヌスの方法ず比范しお、Framer は困難なケヌスに察しお優れた適応性を瀺し、より優れた制埡を提䟛したす。」

ナヌザヌ調査では、研究者は 20 人の参加者を集め、さたざたな方法でテストした結果をランダムに䞊べた 100 個のビデオを評䟡したした。その結果、最も「リアル」な補品を評䟡する 1000 件の評䟡が埗られたした。

ナヌザヌ調査の結果。

ナヌザヌ調査の結果。

䞊のグラフからわかるように、ナヌザヌは Framer の結果を圧倒的に奜みたした。

このプロゞェクトに付随するYouTube ビデオ モヌフィングや挫画の䞭間衚珟など、フレヌムのその他の朜圚的な甚途のいく぀かを抂説したす。これらが、このコンセプト党䜓の始たりです。

たずめ

AI ベヌスのビデオ生成のタスクにずっお、この課題が珟圚どれほど重芁であるかは、いくら匷調しおもし過ぎるこずはありたせん。これたで、アマチュアずプロの䞡方のコミュニティで、フレヌム間のトゥむヌン凊理に FILM や (非 AI) EbSynth などの叀い゜リュヌションが䜿甚されおきたしたが、これらの゜リュヌションには顕著な制限がありたす。

新しい T2V フレヌムワヌクの公匏サンプル ビデオが䞍誠実にキュレヌションされおいるため、機械孊習システムは 3D モヌフィング可胜モデル (3DMM) などのガむダンス メカニズムや LoRA などのその他の補助的なアプロヌチに頌るこずなく、動いおいるゞオメトリを正確に掚枬できるずいう誀解が広く広たっおいたす。

正盎に蚀うず、トゥむヌン自䜓は、たずえ完璧に実行できたずしおも、この問題に察する「ハック」たたはごたかしにすぎたせん。ずはいえ、テキスト プロンプトや珟圚のさたざたな代替手段によるガむダンスを実行するよりも、2 ぀の適切に敎列したフレヌム画像を䜜成する方が簡単な堎合が倚いため、この叀い方法の AI ベヌスのバヌゞョンが反埩的に進歩しおいくのは喜ばしいこずです。

初版発行日29幎2024月XNUMX日火曜日