Andersons vinkel

Konsistent AI-Videoinnhold Redigering med Tekst-Guidet Innputt

Publisert 7. april 2022

Oppdatert 24. mai 2026

Martin Anderson

Mens den profesjonelle VFX-bransjen er fascinert – og noen ganger føler seg litt truet – av nye innovasjoner i bilde- og videosyntese, mangler de fleste av disse prosjektene en temporel kontinuitet, noe som gjør at mange av disse prosjektene havner i den “psykedeliske” sfæren, med skinnende og raskt endrende teksturer og strukturer, inkonsistente effekter og den type grove teknologi-håndtering som minner om foto-kjemisk era av visuelle effekter.

Hvis du ønsker å endre noe svært spesifikt i en video som ikke faller innenfor området for deepfakes (dvs. å påføre en ny identitet på eksisterende film av en person), opererer de fleste av de nåværende løsningene under ganske strenge begrensninger, når det gjelder nøyaktigheten som kreves for produksjonskvalitets visuelle effekter.

En unntak er den pågående arbeidet til en løs gruppe av akademikere fra Weizmann Institute of Science. I 2021 annonserte tre av forskerne, i samarbeid med Adobe, en ny metode for å dekomponere video og legge til en konsistent intern kart – en lagd neural atlas – i en komponert utgang, komplett med alfa-kanaler og temporalt kohesive utgang.

Fra 2021-papiret: en estimat av den fullstendige gjennomføringen av veien i kildeklippet er redigert via en neural nettverk på en måte som tradisjonelt ville kreve omfattende rotoscoping og match-moving. Siden bakgrunn og forgrunnselementer håndteres av forskjellige nettverk, er masker virkelig ‘automatiske’. Kilde: https://layered-neural-atlases.github.io/

Skjønt det faller noen plass innenfor området dekket av optisk flyt i VFX-pipelines, har den lagde atlasen ingen direkte ekvivalent i tradisjonelle CGI-arbeidsflyter, siden det essensielt utgjør en ‘temporal teksturkart’ som kan produseres og redigeres gjennom tradisjonelle programvaremetoder. I det andre bildet i illustrasjonen ovenfor, er bakgrunnen av veiens overflate representert (figurativt) over hele kjøretiden til videoen. Å endre denne basisbildet (tredje bildet fra venstre i illustrasjonen ovenfor) produserer en konsistent endring i bakgrunnen.

Bildene av den ‘utfoldede’ atlasen ovenfor representerer bare individuelle tolkede rammeverk; konsistente endringer i noen målramme er kartlagt tilbake til den opprinnelige rammen, og beholder noen nødvendige okklusjoner og andre nødvendige scenefekter, som skygge eller refleksjoner.

Kjernearkitekturen bruker en Multilayer Perceptron (MLP) til å representere den utfoldede atlasen, alfa-kanalene og kartene, alle av disse er optimalisert i konser, og helt i en 2D-rom, og eliminerer NeRF-stil prior kunnskap om 3D-geometri punkter, dybde-kart og lignende CGI-stil attributter.

Referanseatlasen av individuelle objekter kan også pålitelig endres:

Konsistent endring av et bevegelig objekt under 2021-rammeverket. Kilde: https://www.youtube.com/watch?v=aQhakPFC4oQ

Essensielt kombinerer 2021-systemet geometri-justering, match-moving, kartlegging, re-teksturisering og rotoscoping i en diskret neural prosess.

Text2Live

De tre opprinnelige forskerne fra 2021-papiret, sammen med NVIDIA-forskning, er blant bidragsyterne til en ny innovasjon på teknikken som kombinerer kraften av lagde atlas med den type tekst-guidet CLIP-teknologi som har kommet tilbake til prominens denne uken med OpenAI’s utgivelse av DALL-E 2-rammeverket.

Den nye arkitekturen, tittelen Text2Live, tillater en sluttbruker å lage lokaliserede redigeringer av faktiske videoinnhold basert på tekst-prompt:

To eksempler på forgrunnredigering. For bedre oppløsning og definisjon, sjekk ut de originale videoene på https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live tilbyr semantisk og høyt lokaliseret redigering uten å bruke en forhånds-trent generator, ved å bruke en intern database som er spesifikk for video-klippet som påvirkes.

Bakgrunn og forgrunn (objekt) transformasjoner under Text2Live. Kilde: https://text2live.github.io/sm/pages/video_results_atlases.html

Teknikken krever ikke bruker-tilbudte masker, som en typisk rotoscoping eller grønn-skjerm-arbeidsflyt, men heller estimerer relevans-kart gjennom en bootstrapping-teknikk basert på 2021-forskning fra The School of Computer Science at Tel Aviv University og Facebook AI Research (FAIR).

Utgangskart generert via en transformer-basert generisk oppmerksomhetsmodell.

Den nye papiret er tittelen Text2LIVE: Text-Driven Layered Image and Video Editing. Det originale 2021-laget er sammen med Weizmanns Omer Bar-Tal, og Yoni Kasten fra NVIDIA Research.

Arkitektur

Text2Live består av en generator trent på en enkelt innputt-bilde og mål-tekst-prompt. En Contrastive Language-Image Pretraining (CLIP) modell forhånds-trent på 400 millioner tekst/bilde-par gir assosiert visuelt materiale fra hvilket bruker-innputt-transformasjoner kan tolkes.

Generatoren aksepterer en innputt-bilde (ramme) og utgang en mål-RGBA-lag som inneholder farge- og opasitet-informasjon. Dette laget er deretter komponert inn i den opprinnelige filmen med ekstra augmentasjoner.

Alfa-kanalen i den genererte RGBA-laget gir en intern komposisjonsfunksjon uten å gå til tradisjonelle pipelines som involverer piksel-basert programvare som After Effects.

Ved å trene på interne bilder som er relevante for mål-videoen eller bildet, unngår Text2Live å måtte invertere innputt-bildet inn i latent-rommet til en Generative Adversarial Network (GAN), en praksis som for tiden er langt ifra nøyaktig nok for produksjonsvideo-redigering-krav, eller å bruke en Diffusjonsmodell som er mer presis og konfigurerbar, men kan ikke opprettholde trofasthet til mål-videoen.

Forskjellige prompt-basert transformasjonsredigeringer fra Text2Live.

Tidligere tilnærminger har enten brukt propagasjons-basert metoder eller optisk flyt-basert tilnærminger. Siden disse teknikkene er til en viss grad ramme-basert, er ingen av dem i stand til å skape en konsistent temporel fremtoning av endringer i utgangs-videoen. En neural lagd atlas, derimot, gir en enkelt rom hvor endringer kan håndteres, som kan forbli trofast til den dedikerte endringen mens videoen fremover.

Ingen ‘sizzling’ eller tilfeldige hallucinasjoner: Text2Live får en tolkning av tekst-prompten ‘rusty jeep’, og anvender den en gang til den neurale lagde atlasen av bilen i videoen, i stedet for å starte om transformasjonen for hver tolket ramme.

Arbeidsflyt av Text2Lives konsistente transformasjon av en Jeep til en rusten levning.

Text2Live er nærmere en gjennombrudd i AI-basert komposisjon, enn i den fruktbare tekst-til-bilde-rommet som har tiltrukket så mye oppmerksomhet denne uken med utgivelsen av den andre generasjon av OpenAI’s DALL-E-rammeverk (som kan inkorporere mål-bilder som en del av den transformative prosessen, men forblir begrenset i sin evne til å gripe direkte inn i et bilde, i tillegg til censur av kilde-trening-data og pålegg av filtre, designet for å forhindre bruker-misbruk).

Text2Live tillater derimot sluttbrukeren å trekke ut en atlas og deretter redigere den i én omgang i høy-kontroll piksel-basert miljøer som Photoshop (og kanskje enda mer abstrakt bilde-syntese-rammeverk som NeRF), før å mata den tilbake inn i et korrekt-orientert miljø som likevel ikke avhenger av 3D-estimering eller bakover-vendte CGI-basert tilnærminger.

Text2Live, hevder forfatterne, er det første sammenlignbare rammeverket som oppnår masking og komposisjon på en fullstendig automatisk måte.

Publisert første gang 7. april 2022.