Umělá inteligence
Vaření narativní konzistence pro generaci dlouhých videí

Nedávné veřejné vydání generativního modelu Hunyuan Video AI zpřísnilo probíhající diskuse o potenciálu velkých multimodálních modelů vidění-jazyk vytvořit celý film.
Nicméně, jak jsme pozorovali, je to velmi vzdálená perspektiva v současné době, z několika důvodů. Jedním z nich je velmi krátké okno pozornosti většiny generátorů videa AI, které se potýkají s udržením konzistence, dokonce i v krátkém jediném záběru, natož v sérii záběrů.
Dalším důvodem je, že konzistentní odkazy na videoobsah (jako jsou prozkoumatelná prostředí, která by se neměla náhodně měnit, pokud budete opakovat své kroky skrze ně) lze dosáhnout v difuzních modelech pouze pomocí technik, jako je low-rank adaptace (LoRA), což omezuje možnosti základních modelů.
Proto se zdá, že vývoj generativního videa je odsouzen k stagnaci, pokud nejsou vyvinuty nové přístupy k narativní kontinuitě.
Recept na kontinuitu
S tímto na mysli, nová spolupráce mezi USA a Čínou navrhla použití instrukčních kuchařských videí jako možného šablony pro budoucí systémy narativní kontinuity.
Klikněte pro přehrávání. VideoAuteur systém pro analýzu částí kuchařského procesu, pro vytvoření jemně popsaného nového datasetu a orchestrace metody pro generování kuchařských videí. Odkazujte na zdroj stránky pro lepší rozlišení. Zdroj: https://videoauteur.github.io/
Nazvaný VideoAuteur, práce navrhuje dvoufázový pipeline pro generování instrukčních kuchařských videí pomocí koherentních stavů kombinujících klíčové snímky a popisky, dosahující špičkových výsledků v – přiznáváme – málo přihlášené oblasti.
Stránka projektu VideoAuteur také zahrnuje řadu spíše více upoutávacích videí, které používají stejnou techniku, jako je například navrhovaný trailer pro (neexistující) Marvel/DC crossover:
Klikněte pro přehrávání. Dva superhrdinové z alternativních vesmírů se setkávají v falešném traileru z VideoAuteur. Odkazujte na zdroj stránky pro lepší rozlišení.
Stránka také obsahuje podobně stylizované promo videa pro stejně neexistující Netflix seriál o zvířatech a reklamu na Tesla auto.
Při vývoji VideoAuteur autoři experimentovali s různými ztrátovými funkcemi a dalšími novými přístupy. Pro vývoj receptu na generování pracovního postupu, také kurátoři CookGen, největší dataset zaměřený na kuchařskou doménu, s 200 000 videoklipy s průměrnou délkou 9,5 sekund.
Průměrně 768,3 slov na video, CookGen je pohodlně nejvíce anotovaný dataset svého druhu. Různé modely vidění/jazyk byly použity, mezi jinými přístupy, aby se zajistilo, že popisky jsou tak detailní, relevantní a přesné, jak je to možné.
Kuchařská videa byla vybrána, protože kuchařské instrukční procházky mají strukturovanou a neambivalentní narativ, což činí anotaci a hodnocení lehčí úkol. Kromě pornografických videí (které pravděpodobně vstoupí do tohoto prostoru brzy) je obtížné si představit jiný žánr, který je tak vizuálně a narativně “formulářový”.
Autoři uvádějí:
‘Náš navrhovaný dvoufázový auto-regresivní pipeline, který zahrnuje dlouhého narativního režiséra a vizuálně podmíněnou generaci videa, демонстрирует slibné zlepšení v sémantické konzistenci a vizuální věrnosti generovaných dlouhých narativních videí.
‘Prostřednictvím experimentů na našem datasetu, pozorujeme zlepšení v prostorové a časové koherenci napříč videosekvencemi.
‘Doufáme, že naše práce může usnadnit další výzkum v generování dlouhých narativních videí.’
Nová práce je nazvaná VideoAuteur: Towards Long Narrative Video Generation, a pochází od osmi autorů z Johns Hopkins University, ByteDance a ByteDance Seed.
Kurace datasetu
Pro vývoj CookGen, který pohání dvoufázový generativní systém pro produkci AI kuchařských videí, autoři použili materiál z YouCook a HowTo100M sbírek. Autoři porovnávají rozsah CookGen s předchozími datovými sadami zaměřenými na narativní vývoj v generativním videu, jako je Flintstones dataset, Pororo cartoon dataset, StoryGen, Tencent’s StoryStream, a VIST.

Porovnání obrázků a délky textu mezi CookGen a nejbližšími podobnými datovými sadami. Zdroj: https://arxiv.org/pdf/2501.06173
CookGen se zaměřuje na reálné narativy, zejména procedurální činnosti, jako je vaření, nabízející jasnější a snazší anotaci a hodnocení ve srovnání s image-based komiksovými datovými sadami. Převyšuje největší existující dataset, StoryStream, s 150x více rámců a 5x hustějšími textovými popisky.
Výzkumníci fine-tuned a popiskovací model pomocí metodologie LLaVA-NeXT jako základ. Automatické rozpoznávání řeči (ASR) pseudo-štítky získané pro HowTo100M byly použity jako “akce” pro každé video, a poté dále rafinovány velkými jazykovými modely (LLM).
Například ChatGPT-4o byl použit pro produkci datasetu popisků, a byl požádán, aby se zaměřil na interakce mezi subjekty a objekty (jako jsou ruce manipulující s nádobím a jídlem), atributy objektů a temporální dynamiku.
Jelikož jsou ASR skripty pravděpodobně obsahovat nepřesnosti a obecně “šum”, Intersection-over-Union (IoU) byl použit jako metrika pro měření, jak úzce popisky odpovídaly části videa, které byly adresovány. Autoři uvádějí, že to bylo zásadní pro vytvoření narativní konzistence.
Kurátorské klipy byly hodnoceny pomocí Fréchet Video Distance (FVD), která měří disparitu mezi skutečnými (reálnými) příklady a generovanými příklady, both s a bez skutečných klíčových snímků, dosahující výkonného výsledku:

Použití FVD pro hodnocení vzdálenosti mezi videi generovanými s novými popisky, both s a bez použití klíčových snímků zachycených z vzorkových videí.
Kromě toho byly klipy hodnoceny jak GPT-4o, tak šesti lidskými anotátory, následujících LLaVA-Hound definici “halucinace” (tj. schopnost modelu vynalézat fiktivní obsah).
Výzkumníci porovnali kvalitu popisků s Qwen2-VL-72B sbírkou, získáním mírně lepšího skóre.

Porovnání FVD a lidských hodnocení skórů mezi Qwen2-VL-72B a autorskou sbírkou.
Metoda
Generativní fáze VideoAuteur je rozdělena mezi Dlouhého narativního režiséra (LND) a vizuálně podmíněným modelem generování videa (VCVGM).
LND generuje sekvenci vizuálních vložených nebo klíčových snímků, které charakterizují narativní tok, podobně jako “základní výstřižky”. VCVGM generuje video klipy na základě těchto voleb.

Schéma pro VideoAuteur zpracovatelského pipeline. Dlouhý narativní režisér činí vhodné volby pro krmení generativního modulu Seed-X.
Autoři podrobně diskutují o různých zásluhách interleaved image-text režiséra a jazykově centrického klíčového režiséra, a docházejí k závěru, že former je účinnější přístup.
Interleaved image-text režisér generuje sekvenci prokládáním textových tokenů a vizuálních vložených, pomocí auto-regresivního modelu pro předpověď následujícího tokenu, na základě kombinovaného kontextu obou textů a obrázků. To zajišťuje těsné zarovnání mezi vizuálními a textovými prvky.
Naopak, jazykově centrický klíčový režisér syntetizuje klíčové snímky pomocí textově podmíněného difuzního modelu založeného pouze na popiscích, bez začlenění vizuálních vložených do generativního procesu.
Výzkumníci zjistili, že zatímco jazykově centrická metoda generuje vizuálně atraktivní klíčové snímky, chybí jí konzistence napříč snímky, argumentujíce, že interleaved metoda dosahuje vyšších skórů v realističnosti a vizuální konzistenci. Zjistili také, že tato metoda je lépe schopna naučit se realistický vizuální styl prostřednictvím tréninku, i když někdy s některými opakujícími se nebo šumovými prvky.
Neobvykle, v výzkumném směru dominovaném ko-optováním Stable Diffusion a Flux do pracovních postupů, autoři použili Tencent’s SEED-X 7B-parametrický multi-modální LLM základový model pro svůj generativní pipeline (i když tento model využívá Stability.ai’s SDXL vydání Stable Diffusion pro omezenou část jeho architektury).
Autoři uvádějí:
‘Na rozdíl od klasického Image-to-Video (I2V) pipeline, který používá obraz jako počáteční snímek, náš přístup využívá [regresní vizuální latenty] jako kontinuální podmínky po celou sekvenci.
‘Kromě toho, zlepšujeme robustnost a kvalitu generovaných videí přizpůsobením modelu pro zpracování šumových vizuálních vložených, protože regresní vizuální latenty nemusí být dokonalé kvůli regresním chybám.’
Ačkoli typické vizuálně podmíněné generativní pipeline tohoto druhu často používají počáteční klíčové snímky jako počáteční bod pro modelové vedení, VideoAuteur rozšiřuje tento paradigm tím, že generuje multi-part vizuální stavy v sémanticky koherentním latentním prostoru, vyhýbaje se potenciálnímu zkreslení založenému na “počátečních snímcích”.

Schéma pro použití vizuálních stavových vložených jako lepší kondiční metody.
Testy
V souladu s metodami SeedStory, výzkumníci používají SEED-X pro aplikaci LoRA fine-tuning na jejich narativním datasetu, popisují výsledek jako “Sora-like model”, pre-trénovaný na velkém měřítku video/textových pairů, a schopný přijímat jak vizuální, tak textové podněty a podmínky.
32 000 narativních videí bylo použito pro vývoj modelu, s 1 000 uchovávaných jako validační vzorky. Videá byla ořezána na 448 pixelů na kratší straně a poté středově ořezána na 448x448px.
Pro trénink, narativní generace byla hodnocena především na YouCook2 validaci. Howto100M set byl použit pro hodnocení kvality dat a také pro image-to-video generaci.
Pro vizuální kondiční ztrátu, autoři použili difuzní ztrátu z DiT a 2024 práce založené na Stable Diffusion.
Aby prokázali své tvrzení, že interleaving je lepší přístup, autoři postavili VideoAuteur proti několika metodám, které spoléhají pouze na textový vstup: EMU-2, SEED-X, SDXL a FLUX.1-schnell (FLUX.1-s).

Daný globální prompt, ‘Krok za krokem průvodce vařením mapo tofu’, interleaved režisér generuje akce, popisky a obrazové vložené sekvencí, aby vyprávěl proces. První dvě řádky ukazují klíčové snímky dekódované z EMU-2 a SEED-X latentních prostorů. Tyto obrázky jsou realistické a konzistentní, ale méně leštilé než ty z pokročilých modelů, jako je SDXL a FLUX.
Autoři uvádějí:
‘Jazykově centrický přístup pomocí text-to-image modelů produkuje vizuálně atraktivní klíčové snímky, ale trpí nedostatkem konzistence napříč snímky kvůli omezené vzájemné informaci. Naopak, interleaved generativní metoda využívá jazykově zarovnané vizuální latenty, dosahující realistického vizuálního stylu prostřednictvím tréninku.
‘Nicméně, občas generuje obrázky s opakujícími se nebo šumovými prvky, protože auto-regresivní model bojuje s vytvořením přesných vložených v jednom průchodu.’
Lidské hodnocení dále potvrzuje tvrzení autorů o zlepšené výkonnosti interleaved přístupu, s interleaved metodami dosahujícími nejvyšších skórů v průzkumu.

Porovnání přístupů z lidského studia provedeného pro článek.
Nicméně, jazykově centrické přístupy dosahují nejlepších estetických skórů. Autoři argumentují, že to není centrální otázka při generování dlouhých narativních videí.
Klikněte pro přehrávání. Segmenty generované pro video o stavbě pizzy, VideoAuteur.
Závěr
Nejoblíbenější směr výzkumu v souvislosti s touto výzvou, tj. narativní konzistence v generování dlouhých videí, se týká jednotlivých obrázků. Projekty tohoto druhu zahrnují DreamStory, StoryDiffusion, TheaterGen a NVIDIA’s ConsiStory.
V jistém smyslu, VideoAuteur také spadá do této “statické” kategorie, protože využívá seed obrázky, z nichž jsou generovány klip-sekce. Nicméně, prokládání videa a sémantického obsahu přibližuje proces praktickému pipeline.
Poprvé zveřejněno ve čtvrtek, 16. ledna 2025












