Kunstig intelligens

Microsoft Forslar GODIVA, et Tekst-Til-Video Maskinlæring Ramme

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Et samarbeid mellom Microsoft Research Asia og Duke University har produsert et maskinlæringsystem som kan generere video utelukkende fra en tekstprompt, uten å bruke Generative Adversarial Networks (GANs).

Prosjektet heter GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), og bygger på noen av tilnærmingene brukt av OpenAI’s DALL-E bilde syntese system, avdekket tidligere i år.

Tidlige resultater fra GODIVA, med rammeverk fra videoer skapt fra to promter. De øverste to eksemplene ble generert fra prompten ‘Spill golf på gress’, og den nederste tredje fra prompten ‘En baseballkamp spilles’. Kilde: https://arxiv.org/pdf/2104.14806.pdf

GODIVA bruker Vector Quantised-Variational AutoEncoder (VQ-VAE) modellen først introdusert av forskere fra Google’s DeepMind prosjekt i 2018, og også en essensiell komponent i DALL-E’s transformasjonelle evner.

Arkitektur av VQ-VAE modellen, med innlejring rom til høyre og encoder/decoder deler dimensional rom for å senke tap under rekonstruksjon. Kilde: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE har blitt brukt i en rekke prosjekter for å generere forutsagt video, hvor brukeren leverer en initial mengde rammeverk og ber systemet om å generere flere rammeverk:

Tidligere arbeid: VQ-VAE infererer rammeverk fra svært begrenset leverandør materiale. Kilde: Supplerende materiale på https://openreview.net/forum?id=bBDlTR5eDIX

Men forfatterne av den nye artikkelen hevder at GODIVA representerer den første rene tekst-til-video (T2V) implementeringen som bruker VQ-VAE i stedet for de mer ujevne resultatene som tidligere prosjekter har oppnådd med GANs.

Frø Punkt I Tekst-Til-Video

Selv om innleveringen er kort på detaljer om kriteriene for hvordan opprinnelsesrammeverk skapes, ser GODIVA ut til å fremkalle seed bilde fra ingensteds før den går videre til å ekstrapolere det til lav-oppløsning video rammeverk.

En søylerpresentasjon av det tredimensjonale sparse oppmerksomhet systemet som driver GODIVA for tekst-til-bilde oppgaver. Auto-regressjonen forutsies gjennom fire faktorer: inndata tekst, relativ posisjonering med forrige rammeverk (liknende NVIDIA’s SPADE og andre metoder som bygger på eller utvikler seg beyond Optical Flow tilnærmingene), samme rader på samme rammeverk, og samme kolonner på samme kolonne.

I virkeligheten kommer opprinnelsen fra etiketter i dataene som brukes: GODIVA ble forhåndstrening på Howto100M datasettet, bestående av 136 millioner undertekstede video klipp hentet fra YouTube over 15 år, og med 23 000 merkte aktiviteter. Likevel er hver mulig aktivitet til stede i svært høye antall klipp, økende med generalisering (dvs. ‘Pets and animals’ har 3,5 millioner klipp, mens ‘hunder’ har 762 000 klipp), og så er det fortsatt et stort valg av mulige startpunkter.

Modellen ble evaluert på Microsofts MSR Video til Tekst (MSR-VTT) datasett. Som ytterligere tester av arkitekturen, ble GODIVA trent fra scratch på Moving Mnist datasettet og Double Moving Mnist datasettet, begge avledet fra det originale MNIST database, et samarbeid mellom Microsoft, Google og Courant Institute of Mathematical Sciences at NYU.

Rammeverk Evaluering I Kontinuerlig Video Syntese

I linje med Peking Universitys IRC-GAN, legger GODIVA til fire ekstra søyler sjekker til den originale MNIST metoden, som evaluerte forrige og følgende rammeverk ved å flytte opp>ned og deretter venstre>høyre. IRC-GAN og GODIVA vurderer også rammeverk ved å flytte oppmerksomhet venstre>høyre, høyre>venstre, opp>ned og ned>opp.

Ekstra genererte rammeverk fra GODIVA.

Evaluering Av Video Kvalitet Og Trofasthet Til Prompt

For å forstå hvor godt bilde genereringen lyktes, brukte forskerne to metrikker: en basert på CLIP likhet, og en ny Relativ Matching (RM) metrikk.

OpenAI’s CLIP ramme er i stand til å matche bilder til tekst uten forhåndstrening, samt å fasilitere bilde syntese ved å reversere denne modellen. Forskerne delte CLIP-avledede scoren på beregnet likhet mellom tekst prompten og grunn sannheten video for å komme til en RM score. I en separat vurderingsrunde ble utgangen evaluert av 200 personer og resultater sammenlignet med programmeringskorene.

Til slutt ble GODIVA testet mot to tidligere rammer, TFGAN og 2017’s Duke/NEC samarbeid, T2V.

TFGAN kan produsere 128 kvadrat pixels i sammenligning med 64×64 utgangen som begrenser GODIVA og T2V i ovennevnte eksempler, men forskerne bemerker ikke bare at GODIVA produserer mer dristige og mer engasjerte bevegelser, men vil generere sceneendringer uten noen spesifikke promter, og unngår ikke å generere nærbilder.

I senere kjøringer genererer GODIVA også 128x128px utgang, med endringer i POV:

I prosjektets egen RM metrikk er GODIVA i stand til å oppnå scoren nær 100% i terms of autentisitet (kvalitet av video) og trofasthet (hvor nært generert innhold matcher inndata prompten).

Forskerne innrømmer likevel at utviklingen av video-basert CLIP metrikker ville være en velkommen tillegg til dette området av bilde syntese, siden det ville gi en jevn spillende felt for å evaluere kvaliteten på resultater uten å bruke over-tilpasning og mangel på generalisering som har økt kritikk i forhold til ‘standard’ datavisningsutfordringer de siste ti årene.

De observerer også at generering av lengre videoer vil være en logistisk overveielse i videre utvikling av systemet, siden bare 10 rammeverk av 64x64px utgang krever 2560 visuelle token, en pipeline bloat som sannsynligvis vil bli dyrt og ubehandlerlig ganske raskt.