Kunstmatige intelligentie

Microsoft Stelt GODIVA Voor, een Text-To-Video Machine Learning Framework

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Een samenwerking tussen Microsoft Research Asia en Duke University heeft een machine learning-systeem voortgebracht dat in staat is om video’s te genereren op basis van een tekstprompt, zonder het gebruik van Generative Adversarial Networks (GANs).

Het project heet GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions) en bouwt voort op enkele van de benaderingen die worden gebruikt door OpenAI’s DALL-E image synthesis systeem, onthuld eerder dit jaar.

Vroege resultaten van GODIVA, met frames van video’s die zijn gemaakt van twee prompts. De bovenste twee voorbeelden zijn gegenereerd vanuit de prompt ‘Golf spelen op gras’, en de onderste derde van de prompt ‘Een honkbalwedstrijd wordt gespeeld’. Bron: https://arxiv.org/pdf/2104.14806.pdf

GODIVA gebruikt het Vector Quantised-Variational AutoEncoder (VQ-VAE) model voor het eerst geïntroduceerd door onderzoekers van Google’s DeepMind project in 2018, en ook een essentieel onderdeel in DALL-E’s transformatiecapaciteiten.

Architectuur van het VQ-VAE model, met embedding space rechts en encoder/decoder die dimensional space delen om verlies tijdens reconstructie te verlagen. Bron: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE is gebruikt in een aantal projecten om voorspelde video te genereren, waarbij de gebruiker een initiële set frames levert en het systeem vraagt om extra frames te genereren:

Eerder werk: VQ-VAE leidt frames af van zeer beperkte bronmateriaal. Bron: Aanvullende materialen op https://openreview.net/forum?id=bBDlTR5eDIX

Echter, de auteurs van het nieuwe artikel claimen dat GODIVA de eerste pure text-to-video (T2V) implementatie is die VQ-VAE gebruikt in plaats van de meer onvoorspelbare resultaten die eerdere projecten hebben behaald met GANs.

Seed Points In Text-To-Video

Hoewel de inzending schaars is in details over de criteria waarmee originele frames worden gemaakt, lijkt GODIVA seed-beelden te creëren vanuit het niets voordat het ze uitbreidt tot lage resolutie video-frames.

Een kolomrepresentatie van het driedimensionale sparse attention-systeem dat GODIVA aandrijft voor text-to-image-taken. De auto-regressie wordt voorspeld door vier factoren: invoertekst, relatieve positie met de vorige frame (soortgelijk aan NVIDIA’s SPADE en andere methoden die voortbouwen op of evolueren voorbij Optical Flow-benaderingen), dezelfde rijen op dezelfde frame, en dezelfde kolommen op dezelfde kolom.

In feite komt de oorsprong vanuit labels in de gebruikte data: GODIVA was voorgetraind op de Howto100M dataset, bestaande uit 136 miljoen ondertitelde video-clips afkomstig van YouTube over 15 jaar, en met 23.000 gelabelde activiteiten. Niettemin is elke mogelijke activiteit aanwezig in zeer hoge aantallen clips, met toenemende generalisatie (d.w.z. ‘Huisdieren en dieren’ heeft 3,5 miljoen clips, terwijl ‘honden’ 762.000 clips heeft), en dus is er nog steeds een grote keuze aan mogelijke startpunten.

Het model werd geëvalueerd op Microsoft’s MSR Video to Text (MSR-VTT) dataset. Als verdere tests van de architectuur, werd GODIVA getraind vanaf scratch op de Moving Mnist dataset en de Double Moving Mnist dataset, beide afgeleid van de oorspronkelijke MNIST database, een samenwerking tussen Microsoft, Google en het Courant Institute of Mathematical Sciences aan NYU.

Frame Evaluatie In Continue Video Synthese

In overeenstemming met Peking University’s IRC-GAN, voegt GODIVA vier extra kolomcontroles toe aan de oorspronkelijke MNIST-methode, die eerder en volgende frames evalueert door omhoog> omlaag en vervolgens links> rechts te bewegen. IRC-GAN en GODIVA overwegen ook frames door aandacht links> rechts, rechts> links, omhoog> omlaag en omlaag> omhoog te bewegen.

Extra gegenereerde frames van GODIVA.

Evaluatie Van Video Kwaliteit En Fideliteit Tot Prompt

Om te begrijpen hoe goed de beeldgeneratie slaagde, gebruikten de onderzoekers twee metrieken: een gebaseerd op CLIP-overeenkomst, en een nieuwe Relative Matching (RM) metriek.

OpenAI’s CLIP framework is in staat om zero-shot matching van afbeeldingen tot tekst uit te voeren, evenals beeldsynthese door dit model om te keren. De onderzoekers deelden de CLIP-afgeleide score door de berekende overeenkomst tussen de tekstprompt en de grondwaarheid video om een RM-score te bereiken. In een aparte scoresessie werd de uitvoer beoordeeld door 200 mensen en werden de resultaten vergeleken met de programmascores.

Ten slotte werd GODIVA getest tegen twee eerdere frameworks, TFGAN en de samenwerking van Duke/NEC uit 2017, T2V.

TFGAN kan 128 vierkante pixels produceren in vergelijking met de 64×64 output die GODIVA en T2V beperkt in de bovenstaande voorbeelden, maar de onderzoekers merken op dat GODIVA niet alleen grotere en meer toegewijde beweging produceert, maar ook scène-wijzigingen zonder enige specifieke prompting, en schrikt niet terug voor het genereren van close-up shots.

In latere runs genereert GODIVA ook 128x128px output, met wijzigingen in POV:

In de projecteigen RM-metriek is GODIVA in staat om scores te behalen die dicht bij 100% liggen in termen van authenticiteit (kwaliteit van video) en fideliteit (hoe nauwkeurig de gegenereerde inhoud overeenkomt met de invoerprompt).

De onderzoekers geven toe dat de ontwikkeling van video-gebaseerde CLIP-metrieken een welkome toevoeging zou zijn aan dit gebied van beeldsynthese, omdat het een niveau speelveld zou bieden voor het evalueren van de kwaliteit van resultaten zonder te vervallen in over-fitting en gebrek aan generalisatie dat steeds vaker wordt bekritiseerd in verband met ‘standaard’ computer vision-uitdagingen in de afgelopen tien jaar.

Zij merken ook op dat het genereren van langere video’s een logistieke overweging zal zijn in de verdere ontwikkeling van het systeem, omdat slechts 10 frames van 64x64px output 2560 visuele tokens vereisen, een pipeline-bloat die waarschijnlijk duur en onbeheersbaar zal worden.