Stumm Konsistent AI Video Inhalt Editing mat Text-Guided Input - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Konsistent AI Video Inhalt Editing mat Text-Guided Input

mm
aktualiséiert on

Wärend déi professionell VFX Gemeinschaft intrigéiert ass - an heiansdo fillt e bësse menacéiert - duerch nei Innovatiounen an der Bild- a Videosynthese, de Mangel u temporärer Kontinuitéit an de meeschten AI-baséierte Videobearbechtsprojete relegéiert vill vun dësen Efforten an d''psychedelesch' Sphär, mat shimmering a séier änneren Texturen a Strukturen, inkonsistent Effekter an d'Aart vu rauem Technologie-Wrangling, déi un d'Erënnerung erënnert photochemical Ära vu visuellen Effekter.

Wann Dir eppes ganz spezifescht an engem Video wëllt änneren, deen net an d'Räich vun Deepfakes falen (dh eng nei Identitéit op existéierend Footage vun enger Persoun imposéieren), funktionnéieren déi meescht vun den aktuellen Léisungen ënner zimlech schwéieren Aschränkungen, a punkto der Präzisioun néideg fir Produktioun-Qualitéit visuell Effekter.

Eng Ausnam ass déi lafend Aarbecht vun enger locker Associatioun vun Akademiker vum Weizmann Institut fir Wëssenschaften. Am Joer 2021, dräi vu senge Fuerscher, a Verbindung mat Adobe, ugekënnegt eng nei Method fir Video ofzebauen an eng konsequent intern Kartéierung ze iwwerlageren - a Layer Neural Atlas - an e kompositéierten Output, komplett mat Alpha-Kanäl an temporär kohäsiven Output.

Vum 2021 Pabeier: eng Schätzung vun der kompletter Traversal vun der Strooss am Quellclip gëtt iwwer en neuralt Netzwierk geännert op eng Manéier déi traditionell extensiv Rotoskopéierung a Matchbewegung erfuerdert. Zënter den Hannergrond a Virdergrond Elementer gi vu verschiddene Netzwierker gehandhabt, Maske si wierklech "automatesch". Quell: https://layered-neural-atlases.github.io/

Vum 2021 Pabeier: eng Schätzung vun der kompletter Traversal vun der Strooss am Quellclip gëtt iwwer en neuralt Netzwierk geännert op eng Manéier déi traditionell extensiv Rotoskopéierung a Matchbewegung erfuerdert. Zënter den Hannergrond a Virdergrond Elementer gi vu verschiddene Netzwierker gehandhabt, Maske si wierklech "automatesch". Quell: https://layered-neural-atlases.github.io/

Obwuel et fällt iergendwou an d'Räich ofgedeckt opteschen Flux a VFX Pipelines huet de Layeratlas keen direkten Äquivalent an traditionelle CGI Workflows, well et am Wesentlechen eng 'temporal Texture Map' ausmécht, déi duerch traditionell Softwaremethoden produzéiert a geännert ka ginn. Am zweete Bild an der Illustratioun uewendriwwer ass den Hannergrond vun der Stroossefläch (figurativ) iwwer déi ganz Runtime vum Video vertrueden. Dat Basisbild änneren (drëtt Bild vu lénks an der Illustratioun hei uewen) produzéiert eng konsequent Ännerung am Hannergrond.

D'Biller vum "entfaltenen" Atlas uewen representéieren nëmmen eenzel interpretéiert Rummen; konsequent Ännerungen an all Zilvideoframe ginn zréck op den urspréngleche Frame mapéiert, behalen all néideg Okklusiounen an aner erfuerderlech Szeneffekter, sou wéi Schatten oder Reflexiounen.

D'Kärarchitektur benotzt e Multilayer Perceptron (MLP) fir déi ausgeklappt Atlassen, Alpha-Kanäl a Mappingen ze representéieren, déi all a Concert optiméiert sinn, a ganz an engem 2D Raum, vermeide NeRF-Stil Virwëssen iwwer 3D Geometriepunkten, Déiftkaarten, an ähnlechen CGI-Stil Trapp.

De Referenzatlas vun eenzelen Objeten kann och zouverlässeg geännert ginn:

Konsequent Ännerung vun engem bewegende Objet ënner dem 2021 Kader. Quell: https://www.youtube.com/watch?v=aQhakPFC4oQ

Konsequent Ännerung vun engem bewegende Objet ënner dem 2021 Kader. Quell: https://www.youtube.com/watch?v=aQhakPFC4oQ

Wesentlech kombinéiert den 2021 System Geometrie Ausrichtung, Matchbewegung, Kartéierung, nei Texturiséierung a Rotoskopéieren an en diskreten neurale Prozess.

Text2Live

Déi dräi originell Fuerscher vum 2021 Pabeier, zesumme mat der NVIDIA Fuerschung, gehéieren zu de Bäiträg zu enger neier Innovatioun iwwer d'Technik, déi d'Kraaft vu Schichten Atlassen kombinéiert mat der Aart vun Text-guidéierter CLIP Technologie, déi dës Woch zréck op Prominenz komm ass. OpenAI Fräisetzung vum DALL-E 2 Kader.

Déi nei Architektur, Titel Text2Live, erlaabt en Endbenotzer lokaliséiert Ännerungen op aktuellen Videoinhalt ze kreéieren op Basis vun Textprompts:

Zwee Beispiller vu Virdergrond Redaktioun. Fir besser Opléisung an Definitioun, kuckt d'Original Videoen op https://text2live.github.io/sm/pages/video_results_atlases.html

Zwee Beispiller vu Virdergrond Redaktioun. Fir besser Opléisung an Definitioun, kuckt d'Original Videoen op https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live bitt semantesch an héich lokaliséiert Redaktioun ouni d'Benotzung vun engem pre-trainéierten Generator, andeems Dir eng intern Datebank benotzt, déi spezifesch ass fir de Videoclip deen betraff ass.

Hannergrond a Virdergrond (Objet) Transformatiounen ënner Text2Live. Source: https://text2live.github.io/sm/pages/video_results_atlases.html

Hannergrond a Virdergrond (Objet) Transformatiounen ënner Text2Live. Source: https://text2live.github.io/sm/pages/video_results_atlases.html

D'Technik erfuerdert keng Benotzer geliwwert Masken, sou wéi en typesche Rotoscoping oder Green-Screen Workflow, awer éischter schätzt Relevanzkaarten duerch eng bootstrapping Technik baséiert op 2021 Fuerschung vun der School of Computer Science an der Tel Aviv University a Facebook AI Research (FAIR).

Ausgangskaarten generéiert iwwer e transformer-baséiert generesche Opmierksamkeetsmodell.

Ausgangskaarten generéiert iwwer e transformer-baséiert generesche Opmierksamkeetsmodell.

déi nei Pabeier heescht Text2LIVE: Text-driven Layered Image a Video Editing. D'Original 2021 Team gëtt begleet vum Weizmann's Omer Bar-Tal, an Yoni Kasten vun NVIDIA Research.

Architecture

Text2Live ëmfaasst e Generator trainéiert op engem eenzegen Input Bild an Ziltext Ufroen. E Contrastive Language-Image Pretraining (CLIP) Modell pre-trainéiert op 400 Milliounen Text-/Bildpairen liwwert assoziéiert visuellt Material, aus deem Benotzer-Input Transformatiounen interpretéiert kënne ginn.

De Generator akzeptéiert en Input-Bild (Frame) a gëtt eng Zil-RGBA-Schicht aus, déi Faarf- an Opazitéitinformatioun enthält. Dës Schicht gëtt dann an den urspréngleche Footage mat zousätzlech Augmentatiounen zesummegesat.

Den Alpha-Kanal an der generéierter RGBA-Schicht bitt eng intern Compositing-Funktioun ouni Recours op traditionell Pipelines mat Pixel-baséiert Software wéi After Effects.

Den Alpha-Kanal an der generéierter RGBA-Schicht bitt eng intern Compositing-Funktioun ouni Recours op traditionell Pipelines mat Pixel-baséiert Software wéi After Effects.

Duerch Training op intern Biller, déi relevant sinn fir den Zilvideo oder Bild, vermeit Text2Live d'Ufuerderung entweder ëmdréinen den Inputbild an de latente Raum vun engem Generative Adversarial Network (GAN), eng Praxis déi momentan ass wäit vun genee genuch fir Produktiounsvideo Redaktioun Ufuerderunge, oder soss benotzt en Diffusiounsmodell dee méi präzis a konfiguréierbar ass, awer kann net Vertrauen erhalen zum Zilvideo.

Verschidde prompt-baséiert TransformatiounsÄnnerunge vun Text2Live.

Verschidde prompt-baséiert TransformatiounsÄnnerunge vun Text2Live.

Virdrun Approche hunn entweder benotzt Verbreedung-baséiert Methoden or optesch Flux-baséiert Approchen. Well dës Techniken zu engem oder aneren Ausmooss Frame-baséiert sinn, ass weder fäeg fir e konsequent temporär Erscheinung vun Ännerungen am Outputvideo ze kreéieren. En neural Schichten Atlas, amplaz, bitt en eenzege Raum fir d'Ännerungen unzegoen, déi dann der engagéierter Ännerung trei kënne bleiwen wéi de Video weidergeet.

Keng 'sizzling' oder zoufälleg Halluzinatiounen: Text2Live kritt eng Interpretatioun vun der Textprompt 'rusty Jeep', an applizéiert se eemol op den neurale Schichtenatlas vum Auto am Video, amplaz d'Transformatioun fir all interpretéiert Frame nei unzefänken.

Keng 'sizzling' oder zoufälleg Halluzinatiounen: Text2Live kritt eng Interpretatioun vun der Textprompt 'rusty Jeep', an applizéiert se eemol op den neurale Schichtenatlas vum Auto am Video, amplaz d'Transformatioun fir all interpretéiert Frame nei unzefänken.

Workflow vum Text2Live senger konsequent Transformatioun vun engem Jeep an e rustege Reliquie.

Workflow vum Text2Live senger konsequent Transformatioun vun engem Jeep an e rustege Reliquie.

Text2Live ass méi no un engem Duerchbroch an der AI-baséierter Kompositioun, anstatt am fruchtbare Text-zu-Bild Raum, deen dës Woch sou vill Opmierksamkeet ugezunn huet mat der Verëffentlechung vum zweeter Generatioun vum OpenAI's DALL-E Kader (deen Zilbilder als Deel vum transformativen Prozess ka integréieren, awer bleift limitéiert a senger Fäegkeet fir direkt an enger Foto z'intervenéieren, zousätzlech zu der Zensur vu Quelltrainingsdaten an Imposéierung vu Filtere, entwéckelt fir Benotzermëssbrauch ze vermeiden).

Éischter, Text2Live erlaabt den Endbenotzer en Atlas ze extrahieren an dann an engem Pass an héichkontrolléiert Pixel-baséiert Ëmfeld wéi Photoshop z'änneren (a vläicht nach méi abstrakt Bildsyntheseframe wéi z. NeRF), ier et zréck an e korrekt orientéiert Ëmfeld fiddert, deen awer net op 3D Schätzung oder réckgängeg CGI-baséiert Approche vertraut.

Ausserdeem, Text2Live, behaapten d'Auteuren, ass den éischte vergläichbare Kader fir Masking a Compositing op eng ganz automatesch Manéier z'erreechen.

 

Éischt publizéiert 7. Abrëll 2022.