Connect with us

Microsoft schlägt GODIVA vor, ein Text-To-Video-Machine-Learning-Framework

Künstliche Intelligenz

Microsoft schlägt GODIVA vor, ein Text-To-Video-Machine-Learning-Framework

mm

Eine Zusammenarbeit zwischen Microsoft Research Asia und der Duke University hat ein Machine-Learning-System hervorgebracht, das in der Lage ist, ausschließlich aus einem Textprompt Video zu generieren, ohne die Verwendung von Generative Adversarial Networks (GANs).

Das Projekt trägt den Titel GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions) und baut auf einigen Ansätzen auf, die von OpenAI’s DALL-E-Bildsynthesesystem verwendet werden, das früher in diesem Jahr enthüllt wurde.

Frühe Ergebnisse von GODIVA, mit Frames von Videos, die aus zwei Prompts erstellt wurden. Die beiden oberen Beispiele wurden aus dem Prompt 'Golf auf Gras spielen' generiert, und das untere Dritte aus dem Prompt 'Ein Baseballspiel wird gespielt'.

Frühe Ergebnisse von GODIVA, mit Frames von Videos, die aus zwei Prompts erstellt wurden. Die beiden oberen Beispiele wurden aus dem Prompt ‘Golf auf Gras spielen’ generiert, und das untere Dritte aus dem Prompt ‘Ein Baseballspiel wird gespielt’. Quelle: https://arxiv.org/pdf/2104.14806.pdf

GODIVA verwendet das Vector-Quantised-Variational-AutoEncoder-Modell (VQ-VAE), das erstmalig von Forschern des Google-DeepMind-Projekts 2018 vorgestellt wurde und auch ein wesentlicher Bestandteil der transformationalen Fähigkeiten von DALL-E ist.

Architektur des VQ-VAE-Modells, mit Einbettungsraum rechts und Encoder/Decoder, die den dimensionalalen Raum teilen, um Verluste während der Rekonstruktion zu verringern.

Architektur des VQ-VAE-Modells, mit Einbettungsraum rechts und Encoder/Decoder, die den dimensionalalen Raum teilen, um Verluste während der Rekonstruktion zu verringern. Quelle: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE wurde in einer Reihe von Projekten verwendet, um vorhergesagte Videos zu generieren, bei denen der Benutzer eine anfängliche Anzahl von Frames angibt und das System auffordert, zusätzliche Frames zu generieren:

Frühere Arbeit: VQ-VAE leitet Frames aus sehr begrenztem Quellmaterial ab. Quelle: Zusätzliche Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Frühere Arbeit: VQ-VAE leitet Frames aus sehr begrenztem Quellmaterial ab. Quelle: Zusätzliche Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Allerdings behaupten die Autoren des neuen Artikels, dass GODIVA die erste reine Text-to-Video-Implementierung (T2V) darstellt, die VQ-VAE anstelle der eher unvorhersehbaren Ergebnisse verwendet, die frühere Projekte mit GANs erzielt haben.

Seed-Punkte in Text-to-Video

Obwohl die Einreichung knapp an Details ist, wie die Ursprungsframes erstellt werden, scheint GODIVA scheinbar Seed-Bilder aus dem Nichts zu beschwören, bevor es sie in niedrigauflösende Video-Frames extrapoliert.

Eine spaltenweise Darstellung des dreidimensionalen Sparse-Attention-Systems, das GODIVA für Text-to-Bild-Aufgaben antreibt. Die Auto-Regressionsvorhersage erfolgt durch vier Faktoren: Eingabetext, relative Positionierung mit vorherigem Frame (ähnlich wie NVIDIAs SPADE und andere Methoden, die auf oder über Optischen Fluss-Ansätze aufbauen), gleiche Zeilen im gleichen Frame und gleiche Spalten in der gleichen Spalte.

Eine spaltenweise Darstellung des dreidimensionalen Sparse-Attention-Systems, das GODIVA für Text-to-Bild-Aufgaben antreibt. Die Auto-Regressionsvorhersage erfolgt durch vier Faktoren: Eingabetext, relative Positionierung mit vorherigem Frame (ähnlich wie NVIDIAs SPADE und andere Methoden, die auf oder über Optischen Fluss-Ansätze aufbauen), gleiche Zeilen im gleichen Frame und gleiche Spalten in der gleichen Spalte.

Tatsächlich stammt die Ursprung aus Labels in den verwendeten Daten: GODIVA wurde auf dem Howto100M-Dataset vor trainiert, das aus 136 Millionen untertitelten Video-Clips besteht, die über 15 Jahre von YouTube stammen und 23.000 beschriftete Aktivitäten enthalten. Dennoch ist jede mögliche Aktivität in sehr hoher Anzahl an Clips vorhanden, was mit der Verallgemeinerung zunimmt (d. h. ‘Haustiere und Tiere’ haben 3,5 Millionen Clips, während ‘Hunde’ 762.000 Clips haben), und es gibt daher immer noch eine große Auswahl an möglichen Startpunkten.

Das Modell wurde auf Microsofts MSR-Video-zu-Text- (MSR-VTT)-Dataset ausgewertet. Als weitere Tests der Architektur wurde GODIVA von Grund auf auf dem Moving-Mnist-Dataset und dem Double-Moving-Mnist-Dataset trainiert, die beide aus der ursprünglichen MNIST-Datenbank stammen, einer Zusammenarbeit zwischen Microsoft, Google und dem Courant Institute of Mathematical Sciences an der NYU.

Frame-Bewertung in kontinuierlicher Video-Synthese

In Übereinstimmung mit der IRC-GAN der Peking-Universität fügt GODIVA vier zusätzliche spaltenweise Überprüfungen zur ursprünglichen MNIST-Methode hinzu, die vorherige und nachfolgende Frames durch Bewegen nach oben/unten und dann links/rechts bewertet. IRC-GAN und GODIVA berücksichtigen auch Frames durch Bewegen der Aufmerksamkeit links/rechts, rechts/links, oben/unten und unten/oben.

Weitere generierte Frames von GODIVA.

Weitere generierte Frames von GODIVA.

Bewertung der Videoqualität und Treue zum Prompt

Um zu verstehen, wie gut die Bildgenerierung gelungen ist, verwendeten die Forscher zwei Metriken: eine basierend auf der CLIP-Ähnlichkeit und eine neue Relative-Matching- (RM)-Metrik.

OpenAIs CLIP-Framework ist in der Lage, Bilder und Texte ohne Vorbildung zu einem bestimmten Aufgabenbereich zuordnen und ermöglicht auch die Bildsynthese, indem es dieses Modell umkehrt. Die Forscher teilten den CLIP-abgeleiteten Score durch die berechnete Ähnlichkeit zwischen dem Textprompt und dem Ground-Truth-Video, um einen RM-Score zu erhalten. In einer separaten Bewertungsrunde wurde die Ausgabe von 200 Personen bewertet und die Ergebnisse mit den programmatischen Scores verglichen.

Schließlich wurde GODIVA gegen zwei vorherige Frameworks, TFGAN und die 2017er-Zusammenarbeit zwischen Duke/NEC, T2V, getestet.

T2V-vs-TFGAN-vs-GODIVA

TFGAN kann 128 Quadratpixel produzieren, im Vergleich zu den 64×64-Pixel-Ausgaben, die GODIVA und T2V in den obigen Beispielen einschränken, aber die Forscher bemerken, dass GODIVA nicht nur kühnere und engagiertere Bewegungen produziert, sondern auch Szenenwechsel ohne spezifische Aufforderung generiert und nicht vor der Generierung von Nahaufnahmen zurückschreckt.

In späteren Läufen generiert GODIVA auch 128x128px-Ausgaben, mit Änderungen in der POV:

godiva_baseball_128px

In der eigenen RM-Metrik des Projekts kann GODIVA Werte von nahezu 100 % in Bezug auf Authentizität (Bildqualität) und Treue (wie gut die generierte Inhalte dem Eingabeprompt entsprechen) erreichen.

Die Forscher räumen jedoch ein, dass die Entwicklung von video-basierten CLIP-Metriken eine willkommene Ergänzung in diesem Bereich der Bildsynthese wäre, da sie einen einheitlichen Bewertungsmaßstab für die Qualität der Ergebnisse ohne Rückgriff auf Überanpassung und mangelnde Verallgemeinerung bieten würde, die in den letzten zehn Jahren zunehmend in Bezug auf ‘Standard’-Computer-Vision-Herausforderungen kritisiert wurde.

Sie bemerken auch, dass die Generierung längerer Videos eine logistische Überlegung bei der weiteren Entwicklung des Systems sein wird, da bereits 10 Frames von 64x64px-Ausgaben 2560 visuelle Token erfordern, was zu einem Pipeline-Überlauf führen kann, der schnell teuer und unüberschaubar wird.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.