Andersons vinkel

Microsoft foreslår GODIVA, et Text-To-Video Machine Learning-rammeværk

mm

Et samarbejde mellem Microsoft Research Asia og Duke University har resulteret i et machine learning-system, der kan generere video udelukkende fra en tekstprompt, uden brug af Generative Adversarial Networks (GANs).

Projektet er titlen GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), og bygger på nogle af tilgangene brugt af OpenAI’s DALL-E billedsynthesesystem, afsløret tidligere på året.

Tidlige resultater fra GODIVA, med rammer fra videoer skabt fra to prompts. De to øverste eksempler blev genereret fra prompten 'Spil golf på græs', og den nederste tredje fra prompten 'Et baseballspil spilles'. Kilde: https://arxiv.org/pdf/2104.14806.pdf

Tidlige resultater fra GODIVA, med rammer fra videoer skabt fra to prompts. De to øverste eksempler blev genereret fra prompten ‘Spil golf på græs’, og den nederste tredje fra prompten ‘Et baseballspil spilles’. Kilde: https://arxiv.org/pdf/2104.14806.pdf

GODIVA bruger Vector Quantised-Variational AutoEncoder (VQ-VAE) modellen først introduceret af forskere fra Google’s DeepMind-projekt i 2018, og også en essentiel komponent i DALL-E’s transformationelle egenskaber.

Arkitektur af VQ-VAE-modellen, med indlejring af rum til højre og encoder/decoder, der deler dimensionelt rum for at reducere tab under rekonstruktion. Kilde: https://arxiv.org/pdf/1711.00937.pdf

Arkitektur af VQ-VAE-modellen, med indlejring af rum til højre og encoder/decoder, der deler dimensionelt rum for at reducere tab under rekonstruktion. Kilde: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE er blevet brugt i en række projekter til at generere forudsigelige video, hvor brugeren leverer en initial mængde rammer og anmoder systemet om at generere yderligere rammer:

Tidligere arbejde: VQ-VAE slutninger fra meget begrænsede leverede kilde materialer. Kilde: Supplementære materialer på https://openreview.net/forum?id=bBDlTR5eDIX

Tidligere arbejde: VQ-VAE slutninger fra meget begrænsede leverede kilde materialer. Kilde: Supplementære materialer på https://openreview.net/forum?id=bBDlTR5eDIX

Men forfatterne af den nye artikel hævder, at GODIVA repræsenterer den første rene tekst-til-video (T2V) implementering, der bruger VQ-VAE i stedet for de mere erratiske resultater, som tidligere projekter har opnået med GANs.

Frøpunkter i tekst-til-video

Selv om indsendelsen er kort på detaljer om, hvilke kriterier der bruges til at oprette oprindelsesrammer, synes GODIVA at fremkalde frøbilleder fra intet, før den går videre til at extrapolere dem til lavopløsningsvideo rammer.

<img class="wp-image-175337" src="https://www.unite.ai/wp-content/uploads/2021/05/godiva_model_workflow.png" alt="En kolonnearkitektur af den tredimensionale sparse opmærksomhedssystem, der driver GODIVA til tekst-til-billede-opgaver. Auto-regressionen forudsiges gennem fire faktorer: inputtekst, relativ positionering med forrige ramme (lignende NVIDIA's SPADE og andre metoder, der bygger på eller udvikler sig ud over optisk flow-tilgange), samme rækker på samme ramme og samme kolonner på samme kolonne.” width=”900″ height=”471″ /> En kolonnearkitektur af den tredimensionale sparse opmærksomhedssystem, der driver GODIVA til tekst-til-billede-opgaver. Auto-regressionen forudsiges gennem fire faktorer: inputtekst, relativ positionering med forrige ramme (lignende NVIDIA’s SPADE og andre metoder, der bygger på eller udvikler sig ud over optisk flow-tilgange), samme rækker på samme ramme og samme kolonner på samme kolonne.

I virkeligheden kommer oprindelsen fra mærker i de data, der bruges: GODIVA blev forudtrænet på Howto100M datasettet, der består af 136 millioner undertekstede video klip fra YouTube over 15 år og med 23.000 mærkede aktiviteter. Alligevel er hver mulig aktivitet til stede i meget høje antal klip, og der er stadig et stort valg af mulige startpunkter.

Modellen blev evaluaret på Microsofts MSR Video til Tekst (MSR-VTT) dataset. Som yderligere tests af arkitekturen blev GODIVA trænet fra scratch på Moving Mnist datasettet og Double Moving Mnist datasettet, begge afledt fra det originale MNIST database, et samarbejde mellem Microsoft, Google og Courant Institute of Mathematical Sciences ved NYU.

Rammevurdering i kontinuert video syntese

I overensstemmelse med Peking Universitets IRC-GAN, tilføjer GODIVA fire yderligere kolonnearkitektur til den originale MNIST-metode, der vurderede forrige og følgende rammer ved at flytte op>ned og derefter venstre>højre. IRC-GAN og GODIVA overvejer også rammer ved at flytte opmærksomhed venstre>højre, højre>venstre, op>ned og ned>op.

Yderligere genererede rammer fra GODIVA.

Yderligere genererede rammer fra GODIVA.

Evaluering af video kvalitet og trofasthed til prompt

For at forstå, hvor godt billedgenereringen lykkedes, brugte forskerne to metrikker: en baseret på CLIP-lighed, og en ny Relativ Matching (RM) metrik.

OpenAI’s CLIP rammeværk er i stand til zero-shot matching af billeder til tekst, samt at faciliterer billedsynthese ved at omvende denne model. Forskerne delte CLIP-afledte scoren med den beregnede lighed mellem tekstprompten og grund sandheden video for at nå en RM-score. I en separat scoring runde blev outputtet vurderet af 200 personer, og resultaterne sammenlignet med programmeringsscorene.

Til sidst blev GODIVA testet mod to tidligere rammeværker, TFGAN og 2017’s Duke/NEC-samarbejde, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN kan producere 128 kvadrat pixels i sammenligning med 64×64 output, der begrænser GODIVA og T2V i ovenstående eksempler, men forskerne bemærker, at GODIVA producerer mere dristige og mere engagerede bevægelser, og vil generere sceneændringer uden nogen specifik prompt, og ikke er bange for at generere nærbilleder.

I senere løb genererer GODIVA også 128x128px output, med ændringer i POV:

godiva_baseball_128px

I projektets egen RM-metrik kan GODIVA opnå score tæt på 100% i forhold til autenticitet (kvalitet af video) og trofasthed (hvor godt den genererede indhold matcher inputprompten).

Forskerne indrømmer dog, at udviklingen af video-baserede CLIP-metrikker ville være en velkommen tilføjelse til dette område af billedsynthese, da det ville give en niveauafspænding for at evaluere kvaliteten af resultaterne uden at ty til over-tilpasning og mangel på generalisering, der er blevet kritiseret i forhold til ‘standard’ computer vision udfordringer over de sidste ti år.

De observerer også, at generering af længere videoer vil være en logistisk overvejelse i yderligere udvikling af systemet, da blot 10 rammer af 64x64px output kræver 2560 visuelle tokens, en pipeline-opsætning, der sandsynligvis vil blive dyr og ukontrollerbar ret hurtigt.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.