Spojte se s námi

Andersonův úhel

Cesta k lepšímu střihu videa na základě umělé inteligence

mm
Obrázky z dokumentu 'VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control'.

Odvětví výzkumu syntézy videa/obrazu pravidelně produkuje architektury pro úpravu videa* a za posledních devět měsíců se výjezdy tohoto druhu staly ještě častějšími. To znamená, že většina z nich představuje pouze postupný pokrok ve srovnání se současným stavem techniky, protože hlavní výzvy jsou podstatné.

Nová spolupráce mezi Čínou a Japonskem tento týden však přinesla několik příkladů, které si zaslouží bližší prozkoumání tohoto přístupu, i když se nemusí nutně jednat o přelomovou práci.

V níže uvedeném videoklipu (z přidružené stránky projektu v novinách, která – pozor – může zdanit váš prohlížeč) vidíme, že zatímco možnosti deepfakingu systému v současné konfiguraci neexistují, systém odvádí dobrou práci při věrohodné a výrazné změně identity mladé ženy na obrázku na základě masky videa (vlevo dole):

Klepnutím přehrajte. Na základě masky sémantické segmentace zobrazené v levém dolním rohu se původní žena (vlevo nahoře) transformuje do výrazně odlišné identity, i když tento proces nedosahuje výměny identity naznačené ve výzvě. Zdroj: https://yxbian23.github.io/project/video-painter/ (Upozorňujeme, že v době psaní tohoto článku mi tato automaticky se přehrávající a videem přeplněná stránka pravděpodobně způsobovala pád prohlížeče). Pokud máte přístup ke zdrojovým videím, podívejte se prosím na lepší rozlišení a podrobnosti, nebo se podívejte na příklady v přehledovém videu projektu na adrese https://www.youtube.com/watch?v=HYzNfsD3A0s

Úpravy založené na masce tohoto druhu jsou ve statickém režimu dobře zavedené modely latentní difúze, pomocí nástrojů jako ControlNet. Zachování konzistence pozadí ve videu je však mnohem náročnější, i když maskované oblasti poskytují modelu kreativní flexibilitu, jak je znázorněno níže:

Klepnutím přehrajte. Změna druhu s novou metodou VideoPainter. Pokud máte přístup ke zdrojovým videím, podívejte se na lepší rozlišení a podrobnosti, nebo se podívejte na příklady v přehledovém videu projektu na adrese https://www.youtube.com/watch?v=HYzNfsD3A0s

Autoři nové práce zvažují svou metodu jak s ohledem na vlastní metody společnosti Tencent BrushNet architektura (která jsme se věnovali minulý rok) a na ControlNet, které oba pojednávají o architektuře dvou větví, která je schopna izolovat generaci popředí a pozadí.

Použití této metody přímo na velmi produktivní přístup Diffusion Transformers (DiT). navržené od Sora z OpenAI, přináší, jak poznamenávají autoři, specifické výzvy“

„[Přímo] aplikace [architektury BrushNet a ControlNet] na video DiTs představuje několik výzev: [Za prvé, vzhledem k] robustní generativní základ a velká velikost modelu Video DiT, replikace plné/poloobří páteře Video DiT jako kontextového kodéru by byla zbytečná a výpočetně neúnosná.

„[Zadruhé, na rozdíl od] čistě konvoluční řídicí větve BrushNet, tokeny DiT v maskovaných oblastech neodmyslitelně obsahují informace o pozadí kvůli globální pozornosti, což komplikuje rozlišení mezi maskovanými a nemaskovanými oblastmi v páteřích DiT.

„[A konečně] ControlNet postrádá vkládání prvků napříč všemi vrstvami, což brání husté kontrole pozadí pro úlohy inpaintingu.“

Proto výzkumníci vyvinuli přístup typu plug-and-play ve formě rámce se dvěma větvemi s názvem VideoPainter.

VideoPainter nabízí framework pro inpainting videa s dvojitou větví, který vylepšuje předtrénované DiT pomocí odlehčeného kontextového kodéru. Tento kodér odpovídá pouze za 6 % parametrů páteřní sítě, což podle autorů činí tento přístup efektivnějším než konvenční metody.

Model navrhuje tři klíčové inovace: zjednodušený dvouvrstvý kontextový kodér pro efektivní navádění na pozadí; systém integrace funkcí selektivních na masky, který odděluje maskované a nemaskované tokeny; a technika převzorkování ID oblasti inpainting, která udržuje konzistenci identity napříč dlouhými videosekvencemi.

By zmrazení jak předtrénovaný DiT, tak kontextový kodér a zároveň zavádí ID-Adaptér, VideoPainter zajišťuje, že tokeny oblasti malování z předchozích klipů přetrvávají v celém videu, čímž se snižuje blikání a nekonzistence.

Rámec je také navržen pro kompatibilitu plug-and-play, což uživatelům umožňuje bezproblémovou integraci do stávajících pracovních postupů generování a úprav videa.

Na podporu práce, kterou využívá CogVideo-5B-I2V jako jeho generativní engine autoři kurátorovali to, co uvádějí, že je dosud největším souborem dat pro malování videa. S názvem VPData, sbírka obsahuje více než 390,000 886 klipů v celkové délce videa více než XNUMX hodin. Vyvinuli také související srovnávací rámec s názvem VPBench.

Klepnutím přehrajte. Z příkladů na webových stránkách projektu vidíme možnosti segmentace, které jsou poháněny kolekcí VPData a testovací sadou VPBench. Pokud máte přístup ke zdrojovým videím, podívejte se na ně pro lepší rozlišení a podrobnosti, nebo se podívejte na příklady v přehledovém videu projektu na adrese https://www.youtube.com/watch?v=HYzNfsD3A0s.

Jedno nová práce je s názvem VideoPainter: Vykreslování a úpravy videa libovolné délky s Plug-and-Play kontextovým ovládáním, a pochází od sedmi autorů z Tencent ARC Lab, Čínské univerzity v Hongkongu, Tokijské univerzity a Macauské univerzity.

Kromě výše zmíněné stránky projektu autoři vydali také přístupnější Přehled YouTube, stejně jako Stránka Objímání obličeje.

Metoda

Sběr dat pro VPData se skládá ze sběru, anotací, rozdělení, výběru a titulků:

Schéma pro potrubí výstavby datové sady. Zdroj: https://arxiv.org/pdf/2503.05639

Schéma pro potrubí výstavby datové sady. Zdroj: https://arxiv.org/pdf/2503.05639

Zdrojové kolekce použité pro tuto kompilaci pocházejí Video si Pexelss počátečním úlovkem přibližně 450,000 XNUMX získaných videí.

Několik přispívajících knihoven a metod zahrnovalo fázi předběžného zpracování: Rozpoznat cokoliv framework byl použit k poskytování otevřeného značkování videa, jehož úkolem je identifikovat primární objekty; Uzemnění Dino byl použit pro detekci ohraničujících rámečků kolem identifikovaných objektů; a Segmentovat Cokoli Model 2 K upřesnění těchto hrubých výběrů na vysoce kvalitní segmentace masek byl použit rámec (SAM 2).

VideoPainter používá ke správě přechodů scén a zajištění konzistence při malování videa PySceneDetect k identifikaci a segmentaci klipů v přirozených bodech zlomu, čímž se vyhnete rušivým posunům často způsobeným sledováním stejného objektu z více úhlů. Klipy byly rozděleny do 10sekundových intervalů, přičemž vše kratší než šest sekund bylo vyřazeno.

Pro výběr dat byla použita tři kritéria filtrování: estetická kvalita, hodnoceno s Laion-Aesthetic Score Predictor; síla pohybu, měřeno přes optický tok použitím VORA bezpečnost obsahu, ověřeno prostřednictvím Stable Diffusion's Bezpečnostní kontrola.

Jedním z hlavních omezení existujících datových sad pro segmentaci videa je nedostatek podrobných textových anotací, které jsou klíčové pro vedení generativních modelů:

Výzkumníci zdůrazňují nedostatek titulků k videu ve srovnatelných sbírkách.

Výzkumníci zdůrazňují nedostatek titulků k videu ve srovnatelných sbírkách.

Proces zpracování dat VideoPainter proto zahrnuje různé přední modely vizuálních jazyků, včetně CogVLM2 si Chat GPT-4o generovat titulky založené na klíčových snímcích a podrobné popisy maskovaných oblastí.

VideoPainter vylepšuje předem trénované DiTs zavedením vlastního lehkého kontextového kodéru, který odděluje extrakci kontextu na pozadí od generování popředí, jak je vidět v pravém horním rohu níže uvedeného ilustrativního schématu:

Konceptuální schéma pro VideoPainter. Kontextový kodér VideoPainter zpracovává hlučné latentní, převzorkované masky a maskované latentní videa prostřednictvím VAE, přičemž do předem trénovaného DiT integruje pouze tokeny pozadí, aby se předešlo nejednoznačnosti. ID Resample Adapter zajišťuje konzistenci identity zřetězením tokenů maskovaných oblastí během trénování a jejich převzorkováním z předchozích klipů během vyvozování.

Koncepční schéma pro VideoPainter. Kontextový kodér VideoPainteru zpracovává zašuměné latentní signály, převzorkované masky a maskované video latentní signály pomocí VAE a integruje pouze tokeny pozadí do předtrénovaného DiT, aby se předešlo nejednoznačnosti. Adaptér pro převzorkování ID zajišťuje konzistenci identity zřetězením tokenů maskovaných oblastí během trénování a jejich převzorkováním z předchozích klipů během inference.

Namísto zatěžování páteře redundantním zpracováním pracuje tento kodér na zjednodušeném vstupu: kombinaci hlučného latentního, maskovaného latentního videa (extrahovaného přes variační autokodérnebo VAE) a převzorkované masky.

Šumový latent poskytuje generační kontext a maskovaný latentní obraz je v souladu se stávající distribucí DiT s cílem zlepšit kompatibilitu.

Spíše než duplikování velkých částí modelu, ke kterému autoři uvádějí v předchozích dílech, integruje VideoPainter pouze první dvě vrstvy DiT. Tyto extrahované prvky jsou znovu zavedeny do zmrazeného DiT strukturovaným způsobem po skupinách – prvky rané vrstvy informují počáteční polovinu modelu, zatímco pozdější prvky zpřesňují druhou polovinu.

Mechanismus selektivní na token navíc zajišťuje, že jsou znovu integrovány pouze prvky relevantní pro pozadí, což zabraňuje záměně mezi maskovanými a nemaskovanými oblastmi. Tento přístup, jak tvrdí autoři, umožňuje VideoPainteru zachovat vysokou věrnost při zachování pozadí a zároveň zlepšit efektivitu malování popředí.

Autoři poznamenávají, že metoda, kterou navrhují, podporuje různé stylizační metody, včetně těch nejoblíbenějších, Přizpůsobení nízké hodnosti (LoRA).

Data a testy

VideoPainter byl trénován pomocí modelu CogVideo-5B-I2V spolu s jeho ekvivalentem převodu textu na video. Spravovaný korpus VPData byl použit v rozlišení 480 x 720 px, v a rychlost učení 1 × 10-5.

ID Resample Adapter byl natrénován pro 2,000 80,000 kroků a kontextový kodér pro XNUMX XNUMX kroků, oba pomocí AdamW optimalizátor. Školení probíhalo ve dvou fázích s použitím impozantních 64 GPU NVIDIA V100 (ačkoli papír neuvádí, zda měly 16 GB nebo 32 GB VRAM).

Pro srovnávání, Davis Pro náhodné masky byl použit a pro masky založené na segmentaci VPBench od autorů.

Datová sada VPBench obsahuje objekty, zvířata, lidi, krajinu a různé úkoly a zahrnuje čtyři akce: přidat, odstranit, přeměna, a výměna. Sbírka obsahuje 45 6sekundových videí a devět videí trvajících v průměru 30 sekund.

Pro proces bylo použito osm metrik. Pro Masked Region Preservation autoři použili Špičkový poměr signálu k šumu (PSNR); Naučené metriky vjemové podobnosti (LPIPS); Index strukturní podobnosti (SSIM); a Střední absolutní chyba (MAE).

Pro zarovnání textu výzkumníci použili CLIP Podobnost jak k vyhodnocení sémantické vzdálenosti mezi popiskem klipu a jeho skutečně vnímaným obsahem, tak i k vyhodnocení přesnosti maskovaných oblastí.

Chcete-li posoudit obecnou kvalitu výstupních videí, Frechet Video Vzdálenost (FVD).

Pro kvantitativní srovnávací kolo pro malbu pomocí videa autoři postavili svůj systém proti předchozím přístupům ProPainter, COCOCO si Cog-Inp (CogVideoX). Test spočíval v překreslení prvního snímku klipu pomocí modelů pro malování obrázků a poté pomocí páteře z obrazu na video (I2V) k přenesení výsledků do operace latentního prolnutí, v souladu s metodou navrženou společností Papír 2023 z Izraele.

Vzhledem k tomu, že webové stránky projektu v době psaní tohoto článku nejsou plně funkční a video na YouTube, které je k projektu připojeno, nemusí obsahovat všechny příklady uložené na stránkách projektu, je poměrně obtížné najít video příklady, které by byly specifické pro výsledky uvedené v článku. Proto ukážeme částečné statické výsledky uvedené v článku a článek zakončíme několika dalšími video příklady, které se nám podařilo z webových stránek projektu extrahovat.

Kvantitativní srovnání VideoPainter vs. ProPainter, COCOCO a Cog-Inp na VPBench (segmentační masky) a Davis (náhodné masky). Metriky pokrývají zachování maskované oblasti, zarovnání textu a kvalitu videa. Červená = nejlepší, Modrá = druhá nejlepší.

Kvantitativní srovnání VideoPainter vs. ProPainter, COCOCO a Cog-Inp na VPBench (segmentační masky) a Davis (náhodné masky). Metriky pokrývají zachování maskované oblasti, zarovnání textu a kvalitu videa. Červená = nejlepší, Modrá = druhá nejlepší.

Z těchto kvalitativních výsledků autoři komentují:

„V segmentaci založené VPBench vykazují ProPainter a COCOCO nejhorší výkon napříč většinou metrik, především kvůli neschopnosti překreslit plně maskované objekty a obtížnosti jednopáteřní architektury při vyvážení konkurenčního uchování pozadí a generování popředí.

„V benchmarku Davis pro náhodné masky vykazuje ProPainter zlepšení využitím částečných informací o pozadí. VideoPainter však dosahuje optimálního výkonu napříč segmentací (standardní a dlouhou délkou) a náhodnými maskami díky své architektuře s dvojitou větví, která efektivně odděluje zachování pozadí a generování popředí.“

Autoři poté uvádějí statické příklady kvalitativních testů, z nichž níže uvádíme výběr. Ve všech případech odkazujeme čtenáře na web projektu a video na YouTube pro lepší rozlišení.

Srovnání s metodami malování v předchozích rámcích.

Srovnání s metodami malování v předchozích rámcích.

 

Klepnutím přehrajte. Příklady, které jsme shrnuli z videí s „výsledky“ na webu projektu.  

Pokud jde o toto kvalitativní kolo pro malbu videa, autoři komentují:

„VideoPainter trvale ukazuje výjimečné výsledky v koherenci videa, kvalitě a zarovnání s textovým titulkem. Je pozoruhodné, že ProPainter selhává při generování plně maskovaných objektů, protože závisí pouze na šíření pixelů na pozadí namísto generování.

„Zatímco COCOCO demonstruje základní funkčnost, nedokáže udržet konzistentní ID v nabarvených oblastech (nekonzistentní vzhled plavidel a náhlé změny terénu) kvůli své architektuře s jednou páteří, která se snaží vyvážit zachování pozadí a generování popředí.

'Cog-Inp dosahuje základních výsledků malby; neschopnost jeho operace prolnutí detekovat hranice masky však vede k významným artefaktům.

„VideoPainter navíc dokáže generovat koherentní videa delší než jedna minuta a zároveň si zachovat konzistenci ID díky našemu převzorkování ID.“

Výzkumníci dále testovali schopnost VideoPainteru rozšiřovat titulky a dosahovat touto metodou lepších výsledků, čímž systém porovnali s... UniEdit, DiTCtrl, a ReVideo.

Výsledky úprav videa proti třem předchozím přístupům.

Výsledky úprav videa proti třem předchozím přístupům.

Autoři komentují:

„V VPBench dosahuje VideoPainter vynikajícího výkonu jak u standardních, tak i u dlouhých videí, dokonce překonává end-to-end ReVideo. Tento úspěch lze připsat jeho architektuře s dvojitou větví, která zajišťuje vynikající zachování pozadí a generování popředí, přičemž si udržuje vysokou věrnost v neupravených oblastech a zároveň zajišťuje, aby upravené oblasti přesně odpovídaly instrukcím pro úpravu, doplněné o převzorkování ID oblastí s inpaintingem, které zachovává konzistenci ID v dlouhých videích.“

Přestože článek obsahuje statické kvalitativní příklady pro tuto metriku, nejsou osvětlující a namísto toho odkazujeme čtenáře na různé příklady rozložené v různých videích publikovaných pro tento projekt.

Nakonec byla provedena studie na lidech, kde bylo třicet uživatelů požádáno, aby vyhodnotili 50 náhodně vybraných generací z VPBench a editačních podskupin. Příklady zdůraznily zachování pozadí, zarovnání podle výzvy a obecnou kvalitu videa.

Výsledky z uživatelské studie pro VideoPainter.

Výsledky z uživatelské studie pro VideoPainter.

Autoři uvádějí:

„VideoPainter výrazně překonal stávající základní úrovně a v obou úlohách dosáhl vyšší míry preference napříč všemi hodnotícími kritérii.“

Připouštějí však, že kvalita generací VideoPainteru závisí na základním modelu, který může mít potíže se složitým pohybem a fyzikou; a poznamenávají, že si také špatně vede s maskami nízké kvality nebo špatně zarovnanými titulky.

Proč investovat do čističky vzduchu?

VideoPainter se zdá být užitečným doplňkem literatury. Typická pro nedávná řešení má však značné výpočetní nároky. Navíc mnoho příkladů vybraných pro prezentaci na místě projektu velmi zaostává za nejlepšími příklady; bylo by proto zajímavé vidět tento rámec postavený proti budoucím položkám a širší škále předchozích přístupů.

 

* Stojí za zmínku, že „střih videa“ v tomto smyslu neznamená „skládání různých klipů do sekvence“, což je tradiční význam tohoto termínu; ale spíše přímo mění nebo nějakým způsobem upravuje vnitřní obsah existujících videoklipů pomocí technik strojového učení

Poprvé zveřejněno v pondělí 10. března 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí obsahu výzkumu na Metaphysic.ai.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai