Artificiell intelligens

Microsoft Föreslår GODIVA, Ett Text-Till-Video Maskinlärande Ramverk

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Ett samarbete mellan Microsoft Research Asia och Duke University har resulterat i ett maskinlärande system som kan generera video enbart från en textprompt, utan användning av Generativa Adversariala Nätverk (GAN).

Projektet heter GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), och bygger på några av de metoder som används av OpenAI’s DALL-E bildsyntes system, som avslöjades tidigare i år.

Tidiga resultat från GODIVA, med ramar från videor skapade från två promptrar. De två översta exemplen genererades från prompten ‘Spela golf på gräs’, och den tredje underst från prompten ‘En basebollmatch spelas’. Källa: https://arxiv.org/pdf/2104.14806.pdf

GODIVA använder Vector Quantised-Variational AutoEncoder (VQ-VAE) modellen som först introducerades av forskare från Google’s DeepMind projekt 2018, och också en väsentlig komponent i DALL-E’s transformationella förmågor.

[caption id="attachment_175335" align="alignnone" width="900"] Arkitektur för VQ-VAE modellen, med inbäddning utrymme till höger och encoder/decoder som delar dimensionellt utrymme för att minska förluster under rekonstruktion. Källa: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE har använts i ett antal projekt för att generera förutsagd video, där användaren tillhandahåller ett initialt antal ramar och ber systemet att generera ytterligare ramar:

[caption id="attachment_175336" align="alignnone" width="800"] Tidigare arbete: VQ-VAE inför ramar från mycket begränsat tillhandahållet källmaterial. Källa: Supplementary materials at https://openreview.net/forum?id=bBDlTR5eDIX

Men författarna till den nya artikeln hävdar att GODIVA representerar den första rena text-till-video (T2V) implementeringen som använder VQ-VAE snarare än de mer erratiska resultat som tidigare projekt har erhållit med GAN.

Seed Points I Text-Till-Video

Även om inlämnandet är kort på detaljer om kriterierna för vilka origination ramar skapas, verkar GODIVA framkalla seed-bilder från ingenstans innan den fortsätter att extrapolera dem till lågupplösta video ramar.

[caption id="attachment_175337" align="alignnone" width="900"] En kolonnär representation av den tredimensionella glesa uppmärksamhetssystem som driver GODIVA för text-till-bild uppgifter. En kolonnär representation av den tredimensionella glesa uppmärksamhetssystem som driver GODIVA för text-till-bild uppgifter. Auto-regressionen förutsägs genom fyra faktorer: inmatad text, relativ positionering med föregående ram (liknande NVIDIA’s SPADE och andra metoder som bygger på eller utvecklar bortom Optical Flow tillvägagångssätt), samma rader på samma ram, och samma kolumner på samma kolumn.

I själva verket kommer ursprunget från etiketter i de data som används: GODIVA var förtränad på Howto100M dataset, som består av 136 miljoner undertextade videoklipp som hämtats från YouTube under 15 år, och som innehåller 23 000 etiketterade aktiviteter. Trots detta är varje möjlig aktivitet närvarande i mycket stora antal klipp, med ökning med generalisering (t.ex. ‘Husdjur och djur’ har 3,5 miljoner klipp, medan ‘hundar’ har 762 000 klipp), och så finns det fortfarande ett stort urval av möjliga startpunkter.

Modellen utvärderades på Microsofts MSR Video to Text (MSR-VTT) dataset. Som ytterligare tester av arkitekturen, tränades GODIVA från scratch på Moving Mnist dataset och Double Moving Mnist dataset, båda härledda från den ursprungliga MNIST databasen, ett samarbete mellan Microsoft, Google och Courant Institute of Mathematical Sciences vid NYU.

Frame Evaluation I Continuous Video Synthesis

I linje med Peking Universitys IRC-GAN, lägger GODIVA till fyra ytterligare kolumnära kontroller till den ursprungliga MNIST metoden, som utvärderade föregående och efterföljande ramar genom att flytta upp>ner och sedan vänster>höger. IRC-GAN och GODIVA överväger också ramar genom att flytta uppmärksamhet vänster>höger, höger>vänster, upp>ner och ner>upp.

Ytterligare genererade ramar från GODIVA.

Evaluating Video Quality And Fidelity To Prompt

För att förstå hur väl bildgenereringen lyckades, använde forskarna två mått: ett baserat på CLIP likhet, och ett nytt Relativ Matchning (RM) mått.

OpenAI’s CLIP ramverk kan utföra zero-shot matchning av bilder till text, samt underlätta bildsyntes genom att reversera denna modell. Forskarna delade CLIP-derivat poängen med den beräknade likheten mellan textprompten och den grundläggande videon för att komma till ett RM-poäng. I en separat poängomgång utvärderades utmatningen av 200 personer och resultaten jämfördes med de programmatiska poängen.

Slutligen testades GODIVA mot två tidigare ramverk, TFGAN och 2017 års Duke/NEC samarbete, T2V.

TFGAN kan producera 128 kvadratiska pixlar i jämförelse med den 64×64 utmatning som begränsar GODIVA och T2V i ovanstående exempel, men forskarna noterar inte bara att GODIVA producerar djärvare och mer engagerad rörelse, utan också genererar scenförändringar utan någon specifik prompt, och inte är rädd för att generera närbilder.

I senare körningar genererar GODIVA också 128x128px utmatning, med förändringar i POV:

I projektets eget RM mått kan GODIVA uppnå poäng som närmar sig 100% i termer av autenticitet (video kvalitet) och trohet (hur nära den genererade innehållet matchar inmatad prompt).

Forskarna medger dock att utvecklingen av video-baserade CLIP mått skulle vara ett välkommet tillskott till detta område av bildsyntes, eftersom det skulle ge en jämn spelplan för utvärdering av resultatkvalitet utan att behöva använda överanpassning och brist på generalisering som har blivit alltmer kritiserat i förhållande till ‘standard’ datorseende utmaningar under de senaste tio åren.

De observerar också att generering av längre videor kommer att vara en logistisk övervägning i ytterligare utveckling av systemet, eftersom bara 10 ramar av 64x64px utmatning kräver 2560 visuella token, en pipeline svullnad som sannolikt kommer att bli dyrt och svårhanterlig ganska snabbt.