Kunstig intelligens
Hvorfor kan generative videosystemer ikke lave fuldlængde film?

Fremkomsten og fremskridtet i generativ AI-video har fået mange tilfældige iagttagere til at forudsige, at maskinlæring vil vise sig at være døden for filmindustrien, som vi kender den – i stedet vil enkeltstående skabere kunne lave Hollywood-stil store film hjemme, enten på lokale eller cloud-baserede GPU-systemer.
Er dette muligt? Selv hvis det er muligt, er det forestående, som så mange tror?
At enkeltstående vil kunne lave film, i den form vi kender dem, med konsekvente karakterer, narrativ kontinuitet og total fotorealisme, er ret muligt – og måske endda uundgåeligt.
Der er dog flere grundlæggende årsager til, at dette ikke er sandsynligt at ske med videosystemer baseret på Latent Diffusion Models.
Dette sidste faktum er vigtigt, fordi det på nuværende tidspunkt omfatter enhver populær tekst-til-video (T2) og billed-til-video (I2V) system, herunder Minimax, Kling, Sora, Imagen, Luma, Amazon Video Generator, Runway ML, Kaiber (og, så vidt vi kan se, Adobe Firefly’s forestående videofunktion); blandt mange andre.
Her overvejer vi udsigten til sande auteur fuldlængde gen-AI-produktioner, skabt af enkeltstående, med konsekvente karakterer, cinematografi og visuelle effekter på mindst samme niveau som den nuværende tilstand i Hollywood.
Lad os kaste et blik på nogle af de største praktiske hindringer for udfordringerne.
1: Du kan ikke få en præcis efterfølgende optagelse
Narrativ inkonsistens er den største af disse hindringer. Faktum er, at ingen nuværende video-genereringssystem kan lave en virkelig præcis ‘efterfølgende optagelse’*.
Dette skyldes, at denoising diffusion model i hjertet af disse systemer afhænger af tilfældigt støj, og denne kerneprincippet er ikke tilgængeligt for at fortolke nøjagtigt det samme indhold to gange (dvs. fra forskellige vinkler eller ved at udvikle den foregående optagelse til en efterfølgende optagelse, der opretholder konsistens med den foregående optagelse).
Hvor tekstpromptere bruges, alene eller sammen med uploadede ‘seed’-billeder (multimodal input), vil tokens fra prompten fremkalde semantisk passende indhold fra den trænede latente rum i modellen.
Men yderligere hæmmet af ’tilfældigt støj’-faktoren, vil den aldrig gøre det på samme måde to gange.
Dette betyder, at identiteterne af personer i videoen vil have tilbøjelighed til at skifte, og objekter og miljøer vil ikke matche den første optagelse.
Dette er hvorfor virale klip, der afbilder ekstraordinære visuelle effekter og Hollywood-niveau output, tenderer til at være enten enkelt optagelser eller en ‘showcase-montage’ af systemets muligheder, hvor hver optagelse viser forskellige karakterer og miljøer.
Uddrag fra en generativ AI-montage fra Marco van Hylckama Vlieg – kilde: https://www.linkedin.com/posts/marcovhv_thanks-to-generative-ai-we-are-all-filmmakers-activity-7240024800906076160-nEXZ/
Implikationen i disse samlinger af ad hoc video-genereringer (der kan være uærlige i tilfælde af kommercielle systemer) er, at det underliggende system kan skabe kontinuerte og konsekvente narrativer.
Analogien, der udnyttes her, er en film-trailer, der kun viser et par minutter af filmen, men giver publikum grund til at tro, at hele filmen eksisterer.
De eneste systemer, der på nuværende tidspunkt tilbyder narrativ konsistens i en diffusion-model, er de, der producerer stille billeder. Disse omfatter NVIDIA’s ConsiStory, og diverse projekter i den videnskabelige litteratur, såsom TheaterGen, DreamStory, og StoryDiffusion.

To eksempler på ‘statisk’ narrativ konsistens, fra nyere modeller:: Kilder: https://research.nvidia.com/labs/par/consistory/ og https://arxiv.org/pdf/2405.01434
I teorien kunne man bruge en bedre version af sådanne systemer (ingen af dem er virkelig konsekvente) til at skabe en række billed-til-video-optagelser, der kunne sættes sammen til en sekvens.
Ved nuværende tidspunkt producerer denne tilgang ikke troværdige efterfølgende optagelser; og i hvert fald har vi allerede forladt auteur-drømmen ved at tilføje et lag af kompleksitet.
Vi kan desuden bruge Low Rank Adaptation (LoRA) modeller, specifikt trænet på karakterer, ting eller miljøer, for at opretholde bedre konsistens på tværs af optagelser.
Men hvis en karakter ønsker at optræde i en ny dragt, skal en helt ny LoRA som regel trænes, der inkorporerer karakteren iklædt den pågældende dragt (selvom underbegreber som ‘rød kjole’ kan trænes ind i enkeltstående LoRAs, sammen med passende billeder, er de ikke altid lette at arbejde med).
Dette tilføjer betydelig kompleksitet, selv til en åbningsscene i en film, hvor en person står op af sengen, tager en morgenkåbe på, gaber, kigger ud ad vinduet og går på badeværelset for at børste tænderne.
En sådan scene, der indeholder omtrent 4-8 optagelser, kan filmes på en morgen ved konventionelle filmprocedurer; ved nuværende tidspunkt i generativ AI, repræsenterer det potentielt uger af arbejde, multiple trænede LoRAs (eller andre hjælpe-systemer) og en betydelig mængde post-processing
Alternativt kan video-til-video bruges, hvor almindelig eller CGI-optagelser omformes gennem tekst-promptere til alternative fortolkninger. Runway tilbyder sådant et system, for eksempel.
CGI (venstre) fra Blender, fortolket i en tekst-hjulpet Runway video-til-video-eksperiment af Mathieu Visnjevec – Kilde: https://www.linkedin.com/feed/update/urn:li:activity:7240525965309726721/












