Andersons Blickwinkel

Microsoft schlägt GODIVA vor, ein Text-To-Video-Machine-Learning-Framework

mm

Eine Zusammenarbeit zwischen Microsoft Research Asia und der Duke University hat ein Machine-Learning-System hervorgebracht, das in der Lage ist, Videos ausschließlich aus einem Text-Prompt zu generieren, ohne die Verwendung von Generative Adversarial Networks (GANs).

Das Projekt trägt den Titel GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions) und baut auf einigen Ansätzen auf, die von OpenAI’s DALL-E-Bildsynthesesystem verwendet werden, das früher in diesem Jahr vorgestellt wurde.

Erste Ergebnisse von GODIVA, mit Frames aus Videos, die aus zwei Prompts erstellt wurden. Die beiden oberen Beispiele wurden aus dem Prompt 'Golf auf Gras spielen' generiert, und das untere Drittel aus dem Prompt 'Ein Baseballspiel wird gespielt'.

Erste Ergebnisse von GODIVA, mit Frames aus Videos, die aus zwei Prompts erstellt wurden. Die beiden oberen Beispiele wurden aus dem Prompt ‘Golf auf Gras spielen’ generiert, und das untere Drittel aus dem Prompt ‘Ein Baseballspiel wird gespielt’. Quelle: https://arxiv.org/pdf/2104.14806.pdf

GODIVA verwendet das Vector-Quantised-Variational-AutoEncoder-Modell (VQ-VAE), das ursprünglich von Forschern des Google-DeepMind-Projekts 2018 vorgestellt wurde und auch ein wesentlicher Bestandteil der transformationalen Fähigkeiten von DALL-E ist.

Architektur des VQ-VAE-Modells, mit Embedding-Raum rechts und Encoder/Decoder, die den dimensionalalen Raum teilen, um die Verluste während der Rekonstruktion zu verringern. Quelle: https://arxiv.org/pdf/1711.00937.pdf

Architektur des VQ-VAE-Modells, mit Embedding-Raum rechts und Encoder/Decoder, die den dimensionalalen Raum teilen, um die Verluste während der Rekonstruktion zu verringern. Quelle: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE wurde in mehreren Projekten verwendet, um vorhergesagte Videos zu generieren, bei denen der Benutzer eine anfängliche Anzahl von Frames bereitstellt und das System auffordert, zusätzliche Frames zu generieren:

Frühere Arbeit: VQ-VAE schließt Frames aus sehr begrenztem bereitgestelltem Quellmaterial. Quelle: Zusätzliche Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Frühere Arbeit: VQ-VAE schließt Frames aus sehr begrenztem bereitgestelltem Quellmaterial. Quelle: Zusätzliche Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Jedoch behaupten die Autoren des neuen Artikels, dass GODIVA die erste reine Text-To-Video-Implementierung (T2V) darstellt, die VQ-VAE anstelle der eher unvorhersehbaren Ergebnisse verwendet, die frühere Projekte mit GANs erzielt haben.

Seed-Punkte in Text-To-Video

Obwohl die Einreichung knapp mit Details über die Kriterien ist, nach denen die Ursprungsframes erstellt werden, scheint GODIVA scheinbar Seed-Bilder aus dem Nichts zu beschwören, bevor es sie in niedrigauflösende Video-Frames extrapoliert.

Eine spaltenförmige Darstellung des dreidimensionalen Sparse-Attention-Systems, das GODIVA für Text-To-Image-Aufgaben antreibt. Die Auto-Regressionsvorhersage wird durch vier Faktoren vorhergesagt: Eingabetext, relative Positionierung mit vorherigem Frame (ähnlich wie NVIDIAs SPADE und andere Methoden, die auf oder über Optical-Flow-Ansätze aufbauen), gleiche Zeilen auf dem gleichen Frame und gleiche Spalten auf der gleichen Spalte.

Eine spaltenförmige Darstellung des dreidimensionalen Sparse-Attention-Systems, das GODIVA für Text-To-Image-Aufgaben antreibt. Die Auto-Regressionsvorhersage wird durch vier Faktoren vorhergesagt: Eingabetext, relative Positionierung mit vorherigem Frame (ähnlich wie NVIDIAs SPADE und andere Methoden, die auf oder über Optical-Flow-Ansätze aufbauen), gleiche Zeilen auf dem gleichen Frame und gleiche Spalten auf der gleichen Spalte.

Tatsächlich stammt die Ursprung aus den Labels in den verwendeten Daten: GODIVA wurde auf dem Howto100M-Dataset vor trainiert, das aus 136 Millionen untertitelten Video-Clips besteht, die über 15 Jahre von YouTube stammen und 23.000 beschriftete Aktivitäten aufweisen. Dennoch ist jede mögliche Aktivität in sehr hoher Anzahl von Clips vorhanden, die mit der Verallgemeinerung zunimmt (d. h. ‘Haustiere und Tiere’ hat 3,5 Millionen Clips, während ‘Hunde’ 762.000 Clips hat), und es gibt also immer noch eine große Auswahl an möglichen Startpunkten.

Das Modell wurde auf Microsofts MSR-Video-zu-Text- (MSR-VTT)-Dataset ausgewertet. Als weitere Tests der Architektur wurde GODIVA von Grund auf auf dem Moving-Mnist-Dataset und dem Double-Moving-Mnist-Dataset trainiert, die beide aus der ursprünglichen MNIST-Datenbank stammen, einer Zusammenarbeit zwischen Microsoft, Google und dem Courant Institute of Mathematical Sciences an der NYU.

Bildauswertung in kontinuierlicher Video-Synthese

In Übereinstimmung mit der IRC-GAN von der Peking-Universität fügt GODIVA vier zusätzliche spaltenförmige Überprüfungen zum ursprünglichen MNIST-Verfahren hinzu, das vorherige und nachfolgende Frames durch Bewegen nach oben/unten und dann links/rechts auswertete. IRC-GAN und GODIVA berücksichtigen auch Frames durch Bewegen der Aufmerksamkeit von links nach rechts, von rechts nach links, von oben nach unten und von unten nach oben.

Weitere generierte Frames von GODIVA.

Weitere generierte Frames von GODIVA.

Auswertung der Videoqualität und Treue zum Prompt

Um zu verstehen, wie gut die Bildgenerierung gelungen ist, verwendeten die Forscher zwei Metriken: eine basierend auf der CLIP-Ähnlichkeit und eine neue Relative-Matching- (RM)-Metrik.

OpenAIs CLIP-Framework ist in der Lage, Bilder und Texte ohne vorherige Schulung zu einem bestimmten Thema zu matchen, sowie die Bildsynthese durch Umkehren dieses Modells zu ermöglichen. Die Forscher teilten den CLIP-abgeleiteten Score durch die berechnete Ähnlichkeit zwischen dem Text-Prompt und dem Ground-Truth-Video, um einen RM-Score zu erhalten. In einer separaten Bewertungsrunde wurde die Ausgabe von 200 Personen ausgewertet und die Ergebnisse mit den programmatischen Scores verglichen.

Schließlich wurde GODIVA gegen zwei vorherige Frameworks, TFGAN und die 2017er-Zusammenarbeit zwischen Duke und NEC, T2V, getestet.

T2V-vs-TFGAN-vs-GODIVA

TFGAN kann 128 Quadrate Pixel produzieren, im Vergleich zu den 64×64-Pixel-Ausgaben, die GODIVA und T2V in den obigen Beispielen einschränken, aber die Forscher bemerken, dass GODIVA nicht nur kühnere und engagiertere Bewegungen produziert, sondern auch Szenenwechsel ohne spezifische Aufforderung generiert und nicht vor der Generierung von Nahaufnahmen zurückschreckt.

In späteren Läufen generiert GODIVA auch 128×128-Pixel-Ausgaben, mit Änderungen in der Perspektive:

godiva_baseball_128px

In der eigenen RM-Metrik von GODIVA kann GODIVA Werte von fast 100 % in Bezug auf Authentizität (Bildqualität) und Treue (wie gut die generierten Inhalte dem Eingabeprompt entsprechen) erreichen.

Die Forscher räumen jedoch ein, dass die Entwicklung von video-basierten CLIP-Metriken eine willkommene Ergänzung in diesem Bereich der Bildsynthese wäre, da sie ein einheitliches Feld für die Auswertung der Qualität der Ergebnisse ohne Rückgriff auf Überanpassung und mangelnde Verallgemeinerung bieten würde, die in den letzten zehn Jahren zunehmend kritisiert wurde.

Sie bemerken auch, dass die Generierung längerer Videos eine logistische Überlegung in der weiteren Entwicklung des Systems sein wird, da bereits 10 Frames von 64×64-Pixel-Ausgaben 2560 visuelle Token erfordern, ein Pipeline-Aufblähen, das wahrscheinlich schnell teuer und unmanagebar wird.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.