Stummel Microsoft schlägt GODIVA vor, ein Text-to-Video-Framework für maschinelles Lernen – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Microsoft schlägt GODIVA vor, ein Text-to-Video-Framework für maschinelles Lernen

mm
Aktualisiert on

Eine Zusammenarbeit zwischen Microsoft Research Asia und der Duke University hat ein maschinelles Lernsystem entwickelt, das Videos ausschließlich aus einer Textaufforderung generieren kann, ohne den Einsatz von Generative Adversarial Networks (GANs).

Das Projekt trägt den Titel GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions) und baut auf einigen der Ansätze auf, die vom DALL-E-Bildsynthesesystem von OpenAI verwendet werden. enthüllt Anfang dieses Jahres.

Erste Ergebnisse von GODIVA, mit Frames aus Videos, die aus zwei Eingabeaufforderungen erstellt wurden. Die oberen beiden Beispiele wurden aus der Eingabeaufforderung „Golf spielen auf Rasen“ und das untere Drittel aus der Eingabeaufforderung „Ein Baseballspiel wird gespielt“ generiert. Quelle: https://arxiv.org/pdf/2104.14806.pdf

Erste Ergebnisse von GODIVA, mit Frames aus Videos, die aus zwei Eingabeaufforderungen erstellt wurden. Die oberen beiden Beispiele wurden aus der Eingabeaufforderung „Golf spielen auf Rasen“ und das untere Drittel aus der Eingabeaufforderung „Ein Baseballspiel wird gespielt“ generiert. Quelle: https://arxiv.org/pdf/2104.14806.pdf

GODIVA verwendet das Vector Quantised-Variational AutoEncoder (VQ-VAE)-Modell zuerst eingeführt von Forschern des DeepMind-Projekts von Google im Jahr 2018 und auch ein wesentlicher Bestandteil der Transformationsfähigkeiten von DALL-E.

Architektur des VQ-VAE-Modells mit Einbettungsraum auf der rechten Seite und Encoder/Decoder, der sich den Dimensionsraum teilt, um Verluste während der Rekonstruktion zu verringern. Quelle: https://arxiv.org/pdf/1711.00937.pdf

Architektur des VQ-VAE-Modells mit Einbettungsraum auf der rechten Seite und Encoder/Decoder, der sich den Dimensionsraum teilt, um Verluste während der Rekonstruktion zu verringern.  Quelle: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE wurde in einer Reihe von Projekten eingesetzt Generieren Sie ein vorhergesagtes Video, wobei der Benutzer eine anfängliche Anzahl von Frames angibt und das System auffordert, zusätzliche Frames zu generieren:

Frühere Arbeiten: VQ-VAE leitet Frames aus sehr begrenztem bereitgestelltem Quellmaterial ab. Quelle: Ergänzende Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Frühere Arbeiten: VQ-VAE leitet Frames aus sehr begrenztem bereitgestelltem Quellmaterial ab. Quelle: Ergänzende Materialien unter https://openreview.net/forum?id=bBDlTR5eDIX

Die Autoren des neuen Papiers behaupten jedoch, dass GODIVA die erste reine Text-to-Video-Implementierung (T2V) darstellt, die VQ-VAE anstelle von VQ-VAE verwendet erratisch Ergebnisse die frühere Projekte mit GANs erreicht haben.

Seed-Punkte in Text-zu-Video

Obwohl der Beitrag nur wenige Details zu den Kriterien enthält, nach denen Ursprungsbilder erstellt werden, scheint GODIVA Samenbilder aus dem Nichts heraufzubeschwören, bevor er sie in Videobilder mit niedriger Auflösung extrapoliert.

Eine säulenförmige Darstellung des dreidimensionalen Systems mit geringer Aufmerksamkeit, das GODIVA für Text-zu-Bild-Aufgaben antreibt. Die automatische Regression wird durch vier Faktoren vorhergesagt: Eingabetext, relative Positionierung zum vorherigen Frame (ähnlich zu NVIDIAs SPADE und anderen Methoden, die auf Optical-Flow-Ansätzen aufbauen oder darüber hinausgehen), gleiche Zeilen im gleichen Frame und gleiche Spalten im gleichen Spalte.

Eine säulenförmige Darstellung des dreidimensionalen Systems mit geringer Aufmerksamkeit, das GODIVA für Text-zu-Bild-Aufgaben antreibt. Die automatische Regression wird durch vier Faktoren vorhergesagt: Eingabetext, relative Positionierung zum vorherigen Frame (ähnlich wie bei NVIDIA). SPATEN und andere Methoden, die auf Optical-Flow-Ansätzen aufbauen oder darüber hinausgehen), dieselben Zeilen im selben Frame und dieselben Spalten in derselben Spalte.

Tatsächlich geht der Ursprung auf Etiketten in den verwendeten Daten zurück: GODIVA wurde auf dem vorab trainiert Howto100M Datensatz, bestehend aus 136 Millionen mit Untertiteln versehenen Videoclips, die über einen Zeitraum von 15 Jahren von YouTube stammen, und 23,000 gekennzeichneten Aktivitäten enthält. Dennoch ist jede mögliche Aktivität in einer sehr großen Anzahl von Clips vorhanden, die mit der Verallgemeinerung zunimmt (z. B. „Haustiere und Tiere“ hat 3.5 Millionen Clips, während „Hunde“ 762,000 Clips hat), und so gibt es immer noch eine große Auswahl an möglichen Ausgangspunkten .

Das Modell wurde mit MSR Video to Text von Microsoft ausgewertet (MSR-VTT) Datensatz. Als weitere Tests der Architektur wurde GODIVA von Grund auf darauf trainiert Umzugsunternehmen Datensatz und der Double Moving Mnist-Datensatz, beide vom Original abgeleitet MNIST-Datenbank, eine Zusammenarbeit zwischen Microsoft, Google und dem Courant Institute of Mathematical Sciences an der NYU.

Frame-Auswertung in der kontinuierlichen Videosynthese

Im Einklang mit der Peking-Universität IRC-GAN, GODIVA fügt der ursprünglichen MNIST-Methode vier zusätzliche Spaltenprüfungen hinzu, die vorherige und folgende Frames durch Bewegen nach oben > unten und dann nach links > rechts auswerteten. IRC-GAN und GODIVA berücksichtigen auch Frames, indem sie die Aufmerksamkeit nach links>rechts, rechts>links, oben>unten und unten>oben bewegen.

Zusätzlich generierte Frames von GODIVA.

Zusätzlich generierte Frames von GODIVA.

Bewerten der Videoqualität und der Wiedergabetreue

Um zu verstehen, wie erfolgreich die Bildgenerierung war, nutzten die Forscher zwei Metriken: eine basierend auf der CLIP-Ähnlichkeit und eine neuartige Relative Matching (RM)-Metrik.

OpenAIs CLIP Das Framework ist in der Lage, Bilder und Text im Zero-Shot-Modus abzugleichen und die Bildsynthese durch Umkehrung dieses Modells zu erleichtern. Die Forscher teilten den vom CLIP abgeleiteten Wert durch die berechnete Ähnlichkeit zwischen der Textaufforderung und dem Ground-Truth-Video, um einen RM-Wert zu erhalten. In einer separaten Scoring-Runde wurde der Output von 200 Personen bewertet und die Ergebnisse mit den programmatischen Scores verglichen.

Schließlich wurde GODIVA anhand zweier früherer Frameworks getestet: TFGAN und die Duke/NEC-Zusammenarbeit 2017, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN kann 128 Quadratpixel erzeugen im Vergleich zur 64×64-Ausgabe, die GODIVA und T2V in den obigen Beispielen einschränkt, aber die Forscher stellen fest, dass GODIVA nicht nur mutigere und engagiertere Bewegungen erzeugt, sondern auch Szenenwechsel ohne besondere Aufforderung generiert scheut sich nicht, Nahaufnahmen zu machen.

In späteren Durchläufen generiert GODIVA auch eine 128x128px-Ausgabe mit Änderungen im POV:

godiva_baseball_128px

In der projekteigenen RM-Metrik kann GODIVA in Bezug auf Authentizität (Qualität des Videos) und Wiedergabetreue (wie genau der generierte Inhalt mit der Eingabeaufforderung übereinstimmt) Werte von nahezu 100 % erreichen.

Die Forscher räumen jedoch ein, dass die Entwicklung videobasierter CLIP-Metriken eine willkommene Ergänzung zu diesem Bereich der Bildsynthese wäre, da sie gleiche Wettbewerbsbedingungen für die Bewertung der Qualität der Ergebnisse schaffen würde, ohne auf Überanpassung und Mangel zurückgreifen zu müssen der Verallgemeinerung, die in den letzten zehn Jahren im Hinblick auf „standardmäßige“ Computer-Vision-Herausforderungen zunehmend kritisiert wurde.

Sie stellen außerdem fest, dass die Erstellung längerer Videos eine logistische Überlegung bei der weiteren Entwicklung des Systems sein wird, da nur 10 Frames einer 64x64px-Ausgabe 2560 visuelle Token erfordern, eine Pipeline-Aufblähung, die wahrscheinlich schnell teuer und unüberschaubar wird.