Andersons Blickwinkel

Konsistente AI-Videoinhaltsbearbeitung mit textgesteuerter Eingabe

Veröffentlicht am 7. April 2022

Aktualisiert am 24. Mai 2026

Von

Martin Anderson

Während die professionelle VFX-Community von neuen Innovationen in der Bild- und Videosynthese fasziniert ist – und gelegentlich ein wenig bedroht fühlt –, wird die fehlende zeitliche Kontinuität in den meisten AI-basierten Videoediting-Projekten viele dieser Bemühungen in die “psychedelische” Sphäre verweisen, mit schimmernden und schnell wechselnden Texturen und Strukturen, inkonsistenten Effekten und der Art von grober Technologie, die an die photochemische Ära der visuellen Effekte erinnert.

Wenn Sie etwas sehr Spezifisches in einem Video ändern möchten, das nicht in den Bereich der Deepfakes fällt (d. h. die Aufdrängung einer neuen Identität auf bestehende Footage einer Person), operieren die meisten aktuellen Lösungen unter ziemlich strengen Einschränkungen in Bezug auf die für die Produktion erforderliche Präzision.

Eine Ausnahme ist die laufende Arbeit einer losen Vereinigung von Akademikern des Weizmann-Instituts für Wissenschaft. Im Jahr 2021 kündigten drei seiner Forscher, in Zusammenarbeit mit Adobe, eine neue Methode für die Zerlegung von Video und die Überlagerung einer konsistenten internen Karte – ein geschichteter neuronaler Atlas – in eine komponierte Ausgabe an, komplett mit Alphakanälen und zeitlich kohärenter Ausgabe.

Aus dem Paper von 2021: Eine Schätzung der vollständigen Traversierung der Straße im Quellclip wird via neuronalem Netzwerk bearbeitet, was traditionell umfangreiche Rotoskopie und Match-Moving erfordern würde. Da Hintergrund- und Vordergrundelemente von verschiedenen Netzen verarbeitet werden, sind Masken wirklich ‘automatisch’. Quelle: https://layered-neural-atlases.github.io/

Obwohl es irgendwo im Bereich des optischen Flusses in VFX-Pipelines liegt, hat der geschichtete Atlas keine direkte Entsprechung in traditionellen CGI-Workflows, da er im Wesentlichen eine ‘zeitliche Texturkarte’ darstellt, die durch traditionelle Softwaremethoden erzeugt und bearbeitet werden kann. Im zweiten Bild in der Abbildung oben wird der Hintergrund der Straßenoberfläche (figurativ) über die gesamte Laufzeit des Videos dargestellt. Eine Änderung dieses Basisbildes (drittes Bild von links in der Abbildung oben) ergibt eine konsistente Änderung im Hintergrund.

Die Bilder des ‘entfalteten’ Atlas oben stellen nur einzelne interpretierte Frames dar; konsistente Änderungen in jedem Zielvideo-Frame werden auf den ursprünglichen Frame zurückgemappt, wobei notwendige Okklusionen und andere erforderliche Szeneneffekte wie Schatten oder Reflexionen beibehalten werden.

Die Kernarchitektur verwendet ein Multilayer-Perceptron (MLP), um die entfalteten Atlanten, Alphakanäle und Karten darzustellen, die alle gemeinsam optimiert werden und vollständig in einem 2D-Raum, wodurch NeRF-ähnliche Vorkenntnisse von 3D-Geometriepunkten, Tiefenkartierungen und ähnlichen CGI-ähnlichen Attributen entbehrlich werden.

Der Referenzatlas einzelner Objekte kann auch zuverlässig geändert werden:

Konsistente Änderung eines beweglichen Objekts unter dem Rahmenwerk von 2021. Quelle: https://www.youtube.com/watch?v=aQhakPFC4oQ

Im Wesentlichen kombiniert das System von 2021 die Geometrieausrichtung, Match-Moving, Kartierung, Neutexturierung und Rotoskopie in einem diskreten neuronalen Prozess.

Text2Live

Die drei ursprünglichen Forscher des Papers von 2021, zusammen mit NVIDIA Research, sind unter den Mitwirkenden an einer neuen Innovation auf dieser Technik, die die Kraft von geschichteten Atlanten mit der Art von textgesteuerter CLIP-Technologie kombiniert, die diese Woche mit der Veröffentlichung von OpenAI’s DALL-E 2-Framework wieder in den Vordergrund gerückt ist.

Die neue Architektur, betitelt Text2Live, ermöglicht es dem Endbenutzer, lokale Bearbeitungen an tatsächlichem Videoinhalt basierend auf Textprompts vorzunehmen:

Zwei Beispiele für die Bearbeitung des Vordergrunds. Für bessere Auflösung und Definition besuchen Sie bitte die Originalvideos unter https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live bietet semantische und hochlokale Bearbeitung ohne die Verwendung eines vorgefertigten Generators, indem es eine interne Datenbank nutzt, die spezifisch für den betroffenen Video-Clip ist.

Hintergrund- und Vordergrund-(Objekt-)Transformationen unter Text2Live. Quelle: https://text2live.github.io/sm/pages/video_results_atlases.html

Die Technik erfordert keine vom Benutzer bereitgestellten Masken, wie in einem typischen Rotoskopie- oder Green-Screen-Workflow, sondern schätzt Relevanzkarten durch eine Bootstrapping-Technik basierend auf Forschung von 2021 von der School of Computer Science an der Universität Tel Aviv und Facebook AI Research (FAIR).

Ausgabe-Karten, die via einem transformer-basierten generischen Aufmerksamkeitsmodell generiert werden.

Das neue Paper trägt den Titel Text2LIVE: Text-Driven Layered Image and Video Editing. Das ursprüngliche Team von 2021 wird von Weizmanns Omer Bar-Tal und Yoni Kasten von NVIDIA Research unterstützt.

Architektur

Text2Live besteht aus einem Generator, der auf einem einzigen Eingabebild und Ziel-Textprompts trainiert wird. Ein Contrastive Language-Image Pretraining (CLIP)-Modell, das auf 400 Millionen Text/Bild-Paaren vorgefertigt ist, liefert assoziiertes visuelles Material, aus dem Benutzereingaben interpretiert werden können.

Der Generator akzeptiert ein Eingabebild (Frame) und gibt eine Ziel-RGBA-Ebene mit Farb- und Deckkraftinformationen aus. Diese Ebene wird dann in die ursprüngliche Footage mit zusätzlichen Augmentierungen komponiert.

Der Alphakanal in der generierten RGBA-Ebene bietet eine interne Kompositions-Funktion ohne Rückgriff auf traditionelle Pipelines, die softwarebasiertes Pixel-Editing wie After Effects beinhalten.

Indem Text2Live auf interne Bilder trainiert, die für das Zielvideo oder Bild relevant sind, vermeidet es die Anforderung, das Eingabebild in den latenten Raum eines Generative Adversarial Network (GAN) umzuwandeln, eine Praxis, die derzeit weit entfernt von exakt genug für die Anforderungen der Videoedition ist, oder ein Diffusionsmodell zu verwenden, das präziser und konfigurierbarer ist, aber die Fidusität zum Zielvideo nicht aufrechterhalten kann.

Verschiedene prompt-basierte Transformationen von Text2Live.

Frühere Ansätze haben entweder propagationsbasierte Methoden oder optischen Fluss-basierte Ansätze verwendet. Da diese Techniken in irgendeiner Weise framebasiert sind, sind weder davon in der Lage, ein konsistentes zeitliches Erscheinungsbild von Änderungen im Ausgabevideo zu erstellen. Ein neuronaler geschichteter Atlas bietet stattdessen einen einzigen Raum, in dem Änderungen angesprochen werden können, die dann treu zur vorgenommenen Änderung bleiben, während das Video fortschreitet.

Kein ‘Sizzling’ oder zufällige Halluzinationen: Text2Live erhält eine Interpretation des Textprompts ‘rostiger Jeep’ und wendet es einmal auf den neuronalen geschichteten Atlas des Autos im Video an, anstatt die Transformation für jeden interpretierten Frame neu zu starten.

Workflow von Text2Lives konsistenter Transformation eines Jeeps in eine rostige Reliquie.

Text2Live ist näher an einem Durchbruch in der AI-basierten Komposition als in dem fruchtbaren text-zu-Bild-Raum, der diese Woche mit der Veröffentlichung der zweiten Generation von OpenAI’s DALL-E-Framework (das Zielbilder als Teil des transformierenden Prozesses einbeziehen kann, aber in seiner Fähigkeit, direkt in ein Foto einzugreifen, begrenzt ist, zusätzlich zu den Zensur der Quelltrainingsdaten und der Auferlegung von Filtern, die dazu dienen, Benutzermißbrauch zu verhindern).

Stattdessen ermöglicht Text2Live dem Endbenutzer, einen Atlas zu extrahieren und ihn in einem Durchgang in hochkontrollierten pixelbasierten Umgebungen wie Photoshop (und möglicherweise sogar abstrakteren Bildsynthese-Frameworks wie NeRF) zu bearbeiten, bevor er ihn in eine korrekt ausgerichtete Umgebung zurückführt, die dennoch nicht auf 3D-Schätzung oder rückwärtsgerichteten CGI-basierten Ansätzen basiert.

Im Weiteren behaupten die Autoren, dass Text2Live das erste vergleichbare Framework ist, das Maskierung und Komposition in einer vollständig automatischen Weise erreicht.

Erstveröffentlichung: 7. April 2022.