Stummel Konsistente Bearbeitung von KI-Videoinhalten mit textgeführter Eingabe – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Konsistente Bearbeitung von KI-Videoinhalten mit textgeführter Eingabe

mm
Aktualisiert on

Während die professionelle VFX-Community fasziniert ist – und gelegentlich das Gefühl hat ein wenig bedroht – Durch neue Innovationen in der Bild- und Videosynthese verbannt der Mangel an zeitlicher Kontinuität in den meisten KI-basierten Videobearbeitungsprojekten viele dieser Bemühungen in den „psychedelischen“ Bereich schimmernd und sich schnell verändernd Texturen und Strukturen, inkonsistente Effekte und die Art von grobem Technologiegerangel, das an die erinnert Photochemisches Zeitalter von visuellen Effekten.

Wenn Sie etwas ganz Bestimmtes in einem Video ändern möchten, das nicht in den Bereich der Deepfakes fällt (d. h. bestehendem Filmmaterial einer Person eine neue Identität aufzwingen), unterliegen die meisten aktuellen Lösungen in Bezug auf einige erhebliche Einschränkungen die Präzision, die für visuelle Effekte in Produktionsqualität erforderlich ist.

Eine Ausnahme bildet die laufende Arbeit einer losen Vereinigung von Wissenschaftlern des Weizmann Institute of Science. Im Jahr 2021 haben drei seiner Forscher in Zusammenarbeit mit Adobe angekündigt eine neuartige Methode zum Zerlegen von Videos und zum Überlagern einer konsistenten internen Zuordnung – a geschichteter neuronaler Atlas – in eine zusammengesetzte Ausgabe, komplett mit Alphakanälen und zeitlich zusammenhängender Ausgabe.

Aus dem Papier von 2021: Eine Schätzung der vollständigen Durchquerung der Straße im Quellclip wird über ein neuronales Netzwerk auf eine Weise bearbeitet, die traditionell umfangreiches Rotoscoping und Match-Moving erfordern würde. Da die Hintergrund- und Vordergrundelemente von unterschiedlichen Netzwerken verwaltet werden, sind Masken wirklich „automatisch“. Quelle: https://layered-neural-atlases.github.io/

Aus dem Papier von 2021: Eine Schätzung der vollständigen Durchquerung der Straße im Quellclip wird über ein neuronales Netzwerk auf eine Weise bearbeitet, die traditionell umfangreiches Rotoscoping und Match-Moving erfordern würde. Da die Hintergrund- und Vordergrundelemente von unterschiedlichen Netzwerken verwaltet werden, sind Masken wirklich „automatisch“. Quelle: https://layered-neural-atlases.github.io/

Obwohl es irgendwo in den Bereich fällt, der von abgedeckt wird optischer Fluss In VFX-Pipelines gibt es für den Ebenenatlas kein direktes Äquivalent in herkömmlichen CGI-Workflows, da es sich im Wesentlichen um eine „zeitliche Texturkarte“ handelt, die mit herkömmlichen Softwaremethoden erstellt und bearbeitet werden kann. Im zweiten Bild in der Abbildung oben wird der Hintergrund der Straßenoberfläche (im übertragenen Sinne) über die gesamte Laufzeit des Videos dargestellt. Das Ändern dieses Basisbilds (drittes Bild von links in der Abbildung oben) führt zu einer konsistenten Änderung des Hintergrunds.

Die Bilder des „entfalteten“ Atlas oben stellen lediglich einzelne interpretierte Einzelbilder dar; Konsistente Änderungen in jedem Zielvideobild werden auf das Originalbild zurückgeführt, wobei alle erforderlichen Verdeckungen und andere erforderliche Szeneneffekte wie Schatten oder Reflexionen erhalten bleiben.

Die Kernarchitektur verwendet ein Multilayer Perceptron (MLP), um die entfalteten Atlanten, Alphakanäle und Kartierungen darzustellen, die alle gemeinsam und vollständig in einem 2D-Raum optimiert werden, wodurch Vorkenntnisse im NeRF-Stil über 3D-Geometriepunkte, Tiefenkarten usw. entfallen. und ähnliches Drumherum im CGI-Stil.

Auch der Referenzatlas einzelner Objekte kann zuverlässig verändert werden:

Konsequente Änderung an einem sich bewegenden Objekt im Rahmen des Rahmenwerks 2021. Quelle: https://www.youtube.com/watch?v=aQhakPFC4oQ

Konsequente Änderung an einem sich bewegenden Objekt im Rahmen des Rahmenwerks 2021. Quelle: https://www.youtube.com/watch?v=aQhakPFC4oQ

Im Wesentlichen kombiniert das 2021-System Geometrieausrichtung, Match-Movement, Mapping, Retexturierung und Rotoscoping in einem diskreten neuronalen Prozess.

Text2Live

Die drei ursprünglichen Forscher des Papiers von 2021 gehören zusammen mit der NVIDIA-Forschung zu den Mitwirkenden einer neuen Innovation auf dem Gebiet der Technik, die die Leistungsfähigkeit geschichteter Atlanten mit der Art der textgesteuerten CLIP-Technologie kombiniert, die diese Woche wieder in den Vordergrund gerückt ist OpenAIs Release des DALL-E 2-Frameworks.

Die neue Architektur mit dem Titel Text2Liveermöglicht es einem Endbenutzer, lokalisierte Bearbeitungen an tatsächlichen Videoinhalten basierend auf Textaufforderungen zu erstellen:

Zwei Beispiele für die Vordergrundbearbeitung. Für eine bessere Auflösung und Definition schauen Sie sich die Originalvideos unter https://text2live.github.io/sm/pages/video_results_atlases.html an

Zwei Beispiele für die Vordergrundbearbeitung. Für eine bessere Auflösung und Definition schauen Sie sich die Originalvideos unter an https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live bietet eine semantische und stark lokalisierte Bearbeitung ohne die Verwendung eines vorab trainierten Generators, indem es eine interne Datenbank nutzt, die spezifisch für den betroffenen Videoclip ist.

Hintergrund- und Vordergrund-(Objekt-)Transformationen unter Text2Live. Quelle: https://text2live.github.io/sm/pages/video_results_atlases.html

Hintergrund- und Vordergrund-(Objekt-)Transformationen unter Text2Live. Quelle: https://text2live.github.io/sm/pages/video_results_atlases.html

Die Technik erfordert keine vom Benutzer bereitgestellten Masken, wie etwa ein typischer Rotoscoping- oder Greenscreen-Workflow, sondern vielmehr Schätzungen Relevanzkarten durch eine Bootstrapping-Technik basierend auf 2021-Forschung von der School of Computer Science der Universität Tel Aviv und Facebook AI Research (FAIR).

Ausgabekarten, die über ein transformatorbasiertes generisches Aufmerksamkeitsmodell generiert wurden.

Ausgabekarten, die über ein transformatorbasiertes generisches Aufmerksamkeitsmodell generiert wurden.

The new Krepppapier ist betitelt Text2LIVE: Textgesteuerte mehrschichtige Bild- und Videobearbeitung. Zum ursprünglichen Team 2021 gesellen sich Omer Bar-Tal von Weizmann und Yoni Kasten von NVIDIA Research.

Architektur

Text2Live besteht aus einem Generator, der auf ein einziges Eingabebild und Zieltext-Eingabeaufforderungen trainiert wird. Ein auf 400 Millionen Text-/Bildpaaren vorab trainiertes Contrastive Language-Image Pretraining (CLIP)-Modell stellt zugehöriges visuelles Material bereit, anhand dessen Benutzereingabetransformationen interpretiert werden können.

Der Generator akzeptiert ein Eingabebild (Rahmen) und gibt eine Ziel-RGBA-Ebene aus, die Farb- und Deckkraftinformationen enthält. Diese Ebene wird dann mit zusätzlichen Erweiterungen in das Originalmaterial eingefügt.

Der Alphakanal in der generierten RGBA-Ebene bietet eine interne Compositing-Funktion ohne Rückgriff auf herkömmliche Pipelines mit pixelbasierter Software wie After Effects.

Der Alphakanal in der generierten RGBA-Ebene bietet eine interne Compositing-Funktion ohne Rückgriff auf herkömmliche Pipelines mit pixelbasierter Software wie After Effects.

Durch das Training auf internen Bildern, die für das Zielvideo oder -bild relevant sind, vermeidet Text2Live die Anforderung, dies auch tun zu müssen umkehren das Eingabebild in den latenten Raum eines Generative Adversarial Network (GAN), eine Praxis, die derzeit praktiziert wird bei weitem nicht genau genug B. für Produktionsvideobearbeitungsanforderungen, oder verwenden Sie ein Diffusionsmodell, das präziser und konfigurierbarer ist, aber kann die Treue nicht wahren zum Zielvideo.

Verschiedene auf Eingabeaufforderungen basierende Transformationsbearbeitungen von Text2Live.

Verschiedene auf Eingabeaufforderungen basierende Transformationsbearbeitungen von Text2Live.

Frühere Ansätze haben entweder verwendet Ausbreitungsbasierte Methoden or optisch flussbasiert Ansätze. Da diese Techniken bis zu einem gewissen Grad bildbasiert sind, ist keine davon in der Lage, ein konsistentes zeitliches Erscheinungsbild von Änderungen im Ausgabevideo zu erzeugen. Ein neuronaler Schichtatlas bietet stattdessen einen einzigen Raum, in dem Änderungen adressiert werden können, der dann im Verlauf des Videos der festgeschriebenen Änderung treu bleiben kann.

Kein „Zischen“ oder zufällige Halluzinationen: Text2Live erhält eine Interpretation der Textaufforderung „rostiger Jeep“ und wendet sie einmal auf den neuronalen Schichtatlas des Autos im Video an, anstatt die Transformation für jedes interpretierte Bild neu zu starten.

Kein „Zischen“ oder zufällige Halluzinationen: Text2Live erhält eine Interpretation der Textaufforderung „rostiger Jeep“ und wendet sie einmal auf den neuronalen Schichtatlas des Autos im Video an, anstatt die Transformation für jedes interpretierte Bild neu zu starten.

Workflow der konsequenten Verwandlung eines Jeeps in ein rostiges Relikt durch Text2Live.

Workflow der konsequenten Verwandlung eines Jeeps in ein rostiges Relikt durch Text2Live.

Text2Live steht eher vor einem Durchbruch im KI-basierten Compositing als im fruchtbaren Text-zu-Bild-Bereich, der diese Woche mit der Veröffentlichung von so viel Aufmerksamkeit erregt hat zweiten Generation des DALL-E-Frameworks von OpenAI (das Zielbilder als Teil des Transformationsprozesses integrieren kann, aber in seiner Fähigkeit, zusätzlich zu den direkt in ein Foto einzugreifen, begrenzt bleibt Zensur der Quelltrainingsdaten und Einführung von Filtern, um Benutzermissbrauch vorzubeugen).

Vielmehr ermöglicht Text2Live dem Endbenutzer, einen Atlas zu extrahieren und ihn dann in einem Durchgang in pixelbasierten Umgebungen mit hoher Kontrolle wie Photoshop (und möglicherweise noch abstrakteren Bildsynthese-Frameworks wie …) zu bearbeiten Nerf), bevor es wieder in eine korrekt ausgerichtete Umgebung eingespeist wird, die dennoch nicht auf 3D-Schätzungen oder rückwärtsgerichteten CGI-basierten Ansätzen basiert.

Darüber hinaus sei Text2Live, so die Autoren, das erste vergleichbare Framework, das Maskierung und Compositing auf völlig automatische Weise erreiche.

 

Erstveröffentlichung am 7. April 2022.