Artificiell intelligens

Konsekvent AI-videoinnehållsredigering med textstyrd inmatning

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Medan den professionella VFX-gemenskapen är fascinerad – och ibland känner sig lite hotad – av nya innovationer inom bild- och videosyntes, så leder bristen på tidsmässig kontinuitet i de flesta AI-baserade videoredigeringsprojekten till att många av dessa insatser hamnar i den “psykedeliska” sfären, med skimrande och snabbt ändrande texturer och strukturer, inkonsekventa effekter och den typen av grov teknologi som påminner om den foto kemiska eran av visuella effekter.

Om du vill ändra något mycket specifikt i en video som inte faller inom området för deepfakes (dvs. påtvinga en ny identitet på befintlig film av en person), så fungerar de flesta av de nuvarande lösningarna under ganska allvarliga begränsningar, när det gäller den precision som krävs för produktionskvalitetsvisuella effekter.

En undantag är den pågående arbetet av en lös association av akademiker från Weizmann Institute of Science. 2021, tre av dess forskare, i samarbete med Adobe, tillkännagav en ny metod för att bryta ner video och superponera en konsekvent intern kartläggning – en lagerad neural atlas – i en sammansatt utdata, komplett med alfa-kanaler och tidskoherent utdata.

Från 2021-papperet: en uppskattning av den fullständiga genomsnittningen av vägen i källklippet redigeras via ett neuronnätverk på ett sätt som traditionellt skulle kräva omfattande rotoscoping och match-moving. Eftersom bakgrund och förgrundsobjekt hanteras av olika nätverk är maskerna verkligen ‘automatiska’. Källa: https://layered-neural-atlases.github.io/

Även om det hamnar någonstans i området som täcks av optisk flöde i VFX-pipelines, har den lagerade atlasen ingen direkt motsvarighet i traditionella CGI-arbetsflöden, eftersom den i princip utgör en ‘tidsmässig texturkarta’ som kan produceras och redigeras genom traditionella programvarumetoder. I den andra bilden i illustrationen ovan representeras (figurativt) vägytan över hela videons löptid. Att ändra den grundläggande bilden (tredje bilden från vänster i illustrationen ovan) producerar en konsekvent förändring i bakgrunden.

Bilderna av den ‘utvecklade’ atlasen ovan representerar endast enskilda tolkade ramar; konsekventa förändringar i valfri målvideo ram mappas tillbaka till den ursprungliga ramen, med eventuella nödvändiga ocklusioner och andra nödvändiga scenerfekter, såsom skuggor eller reflektioner.

Kärnarkitekturen använder ett Multilayer Perceptron (MLP) för att representera de utvecklade atlasen, alfa-kanaler och kartläggningar, alla som optimeras i konsert, och helt i ett 2D-utrymme, som eliminerar NeRF-liknande förgångskunskap om 3D-geometri punkter, djupkartor och liknande CGI-liknande attribut.

Referensatlasen för enskilda objekt kan också ändras på ett tillförlitligt sätt:

Konsekvent förändring av ett rörligt objekt under 2021-ramverket. Källa: https://www.youtube.com/watch?v=aQhakPFC4oQ

I princip kombinerar 2021-systemet geometrijustering, match-moving, kartläggning, omtexturering och rotoscoping till en diskret neural process.

Text2Live

De tre ursprungliga forskarna från 2021-papperet, tillsammans med NVIDIA-forskning, är bland bidragsgivarna till en ny innovation på tekniken som kombinerar kraften i lagerade atlasen med den typen av textstyrd CLIP-teknologi som har återvänt till popularitet den här veckan med OpenAI:s utgivning av DALL-E 2-ramverket.

Den nya arkitekturen, med titeln Text2Live, tillåter en slutanvändare att skapa lokaliserade redigeringar av faktisk videoinnehåll baserat på textprompt:

Två exempel på förgrundsredigering. För bättre upplösning och definition, se de ursprungliga videorna på https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live erbjuder semantisk och högt lokaliserad redigering utan användning av en förtränad generator, genom att använda en intern databas som är specifik för den video klipp som påverkas.

Bakgrund och förgrundsobjekt (objekt) transformationer under Text2Live. Källa: https://text2live.github.io/sm/pages/video_results_atlases.html

Tekniken kräver inte användarangiven mask, såsom en typisk rotoscoping eller green-screen-arbetsflöde, utan snarare uppskattar relevans kartor genom en bootstrapping-teknik baserad på 2021 forskning från The School of Computer Science at Tel Aviv University och Facebook AI Research (FAIR).

Utmatningskartor genererade via en transformer-baserad generisk uppmärksamhetsmodell.

Den nya papperet är titeln Text2LIVE: Text-Driven Layered Image and Video Editing. Det ursprungliga 2021-laget är anslutet av Weizmanns Omer Bar-Tal, och Yoni Kasten av NVIDIA Research.

Arkitektur

Text2Live består av en generator tränad på en enda indata bild och mål textprompt. En Contrastive Language-Image Pretraining (CLIP) modell förtränad på 400 miljoner text/bild par tillhandahåller associerad visuell material från vilket användarindata transformationer kan tolkas.

Generatoren accepterar en indata bild (ram) och utmatar en mål RGBA-lager som innehåller färg- och opacitetsinformation. Detta lager är sedan sammansatt i den ursprungliga filmen med ytterligare augmenteringar.

Alfa-kanalen i det genererade RGBA-lagret tillhandahåller en intern sammansättningsfunktion utan återgång till traditionella pipelines som inbegriper pixelbaserad programvara som After Effects.

Genom att träna på interna bilder som är relevanta för mål videon eller bilden, undviker Text2Live kravet antingen att invertera indata bilden till den latenta utrymmet av en Generative Adversarial Network (GAN), en praxis som för närvarande är långt ifrån exakt nog för produktionsvideo redigering krav, eller använda en Diffusionsmodell som är mer exakt och konfigurerbar, men kan inte upprätthålla trohet till mål videon.

Varierande prompt-baserad transformation redigering från Text2Live.

Tidigare tillvägagångssätt har antingen använt propagationsbaserade metoder eller optiskt flödesbaserade tillvägagångssätt. Eftersom dessa tekniker är till viss del ram-baserade, är ingen av dem i stånd att skapa en konsekvent tidsmässig utseende av förändringar i utmatningsvideo. En neural lagerad atlas, istället, tillhandahåller ett enda utrymme för att hantera förändringar, som sedan kan förbli trogen mot den åtagande förändringen när videon fortskrider.

Inga ‘sizzling’ eller slumpmässiga hallucinationer: Text2Live erhåller en tolkning av textprompten ‘rostig jeep’, och tillämpar den en gång på den neurala lagerade atlasen av bilen i videon, istället för att starta om transformationen för varje tolkad ram.

Arbetsflöde för Text2Lives konsekventa transformation av en Jeep till en rostig relikt.

Text2Live är närmare en genombrott i AI-baserad kompositing, snarare än i den fruktbara text-till-bild-rymden som har dragit så mycket uppmärksamhet den här veckan med utgivningen av den andra generationen av OpenAI:s DALL-E-ramverk (som kan inkorporera målbilder som en del av den transformerande processen, men förblir begränsad i sin förmåga att direkt ingripa i en bild, utöver censur av källträningsdata och påtvingande av filter, designad för att förhindra användarmissbruk).

Istället tillåter Text2Live slutanvändaren att extrahera en atlas och sedan redigera den i ett pass i högkontroll pixelbaserade miljöer som Photoshop (och eventuellt ännu mer abstrakta bildsyntesramverk som NeRF), innan den matas tillbaka in i en korrekt orienterad miljö som ändå inte förlitar sig på 3D-estimering eller bakåtriktad CGI-baserad tillvägagångssätt.

Dessutom, Text2Live, hävdar författarna, är den första jämförbara ramverket som uppnår maskering och kompositing på ett helt automatiskt sätt.

Publicerad första gången 7 april 2022.