Tekoäly

Microsoft ehdottaa GODIVA: a, teksti-videokoneälykkyyden kehys

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Microsoft Research Asian ja Duke Universityn yhteistyö on tuottanut koneälyjärjestelmän, joka pystyy luomaan videon pelkästään tekstipromptista ilman Generative Adversarial Networks (GAN) -verkkojen käyttöä.

Projekti on nimeltään GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), ja se perustuu joihinkin OpenAI:n DALL-E -kuvasynteesijärjestelmän käyttämiin lähestymistapoihin, julkaistu tänä vuonna.

Varhaiset tulokset GODIVA: sta, kehykset videoista, jotka on luotu kahdesta promptista. Ylin kaksi esimerkkiä luotiin promptista ‘Play golf on grass’, ja alin kolmas promptista ‘A baseball game is played’. Lähde: https://arxiv.org/pdf/2104.14806.pdf

GODIVA käyttää Vector Quantised-Variational AutoEncoder (VQ-VAE) -mallia julkaistu Google DeepMind -tutkijoilta vuonna 2018, ja se on myös tärkeä osa DALL-E:n muunnoksellisissa ominaisuuksissa.

[caption id="attachment_175335" align="alignnone" width="900"] VQ-VAE-mallin arkkitehtuuri, jossa on upotusavaruus oikealla ja kooderin/dekooderin jakavat dimensioavaruuden järjestyksessä vähentääksesi rekonstruktiovirheitä. Lähde: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE on käytetty useissa projekteissa ennustamaan videota, jossa käyttäjä antaa alkupään kehykset ja pyytää järjestelmää luomaan lisää kehyksiä:

[caption id="attachment_175336" align="alignnone" width="800"] Aikaisempi työ: VQ-VAE päättelee kehykset hyvin rajatusta lähdemateriaalista. Lähde: Liitteet osoitteessa https://openreview.net/forum?id=bBDlTR5eDIX

Kuitenkin uuden tutkimuksen tekijät väittävät, että GODIVA edustaa ensimmäistä puhtaan teksti-videototeutusta, joka käyttää VQ-VAE: ta eikä GAN:eja, joilla on saatu epävakaita tuloksia aiemmissa projekteissa.

Siemensormet teksti-videossa

Vaikka julkaisu on vajavaista yksityiskohtia siitä, miten alkuperäiset kehykset luodaan, GODIVA näyttää kutsuvan alkukuva-aineistoa tyhjästä ennen kuin se jatkaa sen laajentamista matalaresoluutioisiksi videokehyksiksi.

<img class="wp-image-175337" src="https://www.unite.ai/wp-content/uploads/2021/05/godiva_model_workflow.png" alt="Pylväsmuotoinen esitys kolmiulotteisesta harvasta huomiojärjestelmästä, joka mahdollistaa GODIVAn teksti-kuva-tehtävissä. Autoregressio ennustetaan neljällä tekijällä: syöte-teksti, suhteellinen sijoittelu edellisen kehyksen kanssa (samankaltainen kuin NVIDIA:n SPADE ja muut menetelmät, jotka perustuvat tai kehittävät eteenpäin Optisen virtausten lähestymistapoja), samat rivit samalla kehyksellä ja samat sarakkeet samalla sarakkeella.” width=”900″ height=”471″ /> Pylväsmuotoinen esitys kolmiulotteisesta harvasta huomiojärjestelmästä, joka mahdollistaa GODIVAn teksti-kuva-tehtävissä. Autoregressio ennustetaan neljällä tekijällä: syöte-teksti, suhteellinen sijoittelu edellisen kehyksen kanssa (samankaltainen kuin NVIDIA:n SPADE ja muut menetelmät, jotka perustuvat tai kehittävät eteenpäin Optisen virtausten lähestymistapoja), samat rivit samalla kehyksellä ja samat sarakkeet samalla sarakkeella.

Todellisuudessa alkuperä tulee tietojen etiketeistä, joita käytetään: GODIVA oli esikoulutettu Howto100M -tietokannassa, joka koostuu 136 miljoonasta videoklipistä, jotka on poimittu YouTubesta 15 vuoden ajan, ja siinä on 23 000 merkittyä toimintaa. Kuitenkin jokainen mahdollinen toiminta on läsnä hyvin suuressa määrässä klippejä, ja niiden yleistyminen kasvaa (ts. ‘Lemmikit ja eläimet’ on 3,5 miljoonaa klippiä, kun taas ‘koirat’ on 762 000 klippiä), ja niinpä on edelleen suuri valikoima mahdollisia aloituspisteitä.

Malli arvioitiin Microsoftin MSR Video to Text (MSR-VTT) -tietokannassa. Lisätestienä GODIVA: ta koulutettiin alusta alkaen Moving Mnist -tietokannassa ja Double Moving Mnist -tietokannassa, jotka molemmat perustuvat alkuperäiseen MNIST-tietokantaan, joka on yhteistyö Microsoftin, Googleen ja Courant-instituutin matemaattisten tieteiden laitoksen välillä New Yorkin yliopistossa.

Kehyksen arviointi jatkuvassa videonsynteesissä

Pekingin yliopiston IRC-GAN mukaisesti GODIVA lisää neljä lisäkolmioarviointia alkuperäiseen MNIST-menetelmään, joka arvioi edellisiä ja seuraavia kehyksiä siirtymällä ylös>alas ja sitten vasemmalle>oikealle. IRC-GAN ja GODIVA huomioivat myös kehykset siirtymällä huomion vasemmalle>oikealle, oikealle>vasemmalle, ylös>alas ja alhaalta>yölle.

Lisäksi luodut kehykset GODIVA: sta.

Videon laadun ja uskollisuuden arviointi

Ymmärtääkseen, miten hyvin kuvan luominen onnistui, tutkijat käyttivät kahta mittaria: yhtä, joka perustui CLIP-yhtäläisyyteen, ja uutta suhteellista vastaavuusmittaria (RM).

OpenAI:n CLIP -kehys on kykeneväinen nollauskulutukselle kuvien ja tekstin välillä, sekä mahdollistaa kuvansynteesin kääntämällä tämän mallin. Tutkijat jakauttivat CLIP-johtuvan pisteytyksen laskemalla pisteytys tekstin promptin ja perusvideon välillä saadakseen RM-pisteytyksen. Erillisessä pisteytyskierroksessa tulokset arvioitiin 200 henkilön toimesta ja vertailtiin ohjelmallisiin pisteytyksiin.

Lopulta GODIVA testattiin kahtaa aiempaa kehystä, TFGAN ja Duke/NEC-yhteistyön T2V vuodelta 2017.

TFGAN voi tuottaa 128 neliöpikseliä verrattuna 64×64-pikselin tuotantoon, joka rajoittaa GODIVA: ta ja T2V: ä edellä mainituissa esimerkeissä, mutta tutkijat huomauttavat, että GODIVA tuottaa rohkeampia ja sitoutuneempia liikkeitä, ja se tuottaa myös kohtauksenvaihdoksia ilman erityistä ohjausta, eikä se ole epäröivää lähikuvauskohtauksien tuottamisessa.

Myöhemmissä suorituksissa GODIVA tuottaa myös 128x128px:n tulosteen, jossa on muutoksia kamerakulmassa:

Oman RM-mittarin mukaan GODIVA saavuttaa lähes 100%: n tulokset aidossa (videon laadussa) ja uskollisuudessa (kuinka hyvin luotu sisältö vastaa syötteellistä promptia).

Tutkijat myöntävät kuitenkin, että videopohjaisen CLIP-mittarin kehittäminen olisi tervetullut tämän kuvansynteesin alueelle, koska se tarjoaisi tasapuolisen kentän tuloksien laadun arvioimiseksi ilman turvautumista ylikoulutukseen ja yleistymisen puutteeseen, joita on yhä enemmän kritisoitu viimeisen kymmenen vuoden aikana “standardien” tietokoneen näön haasteiden suhteen.

He myös huomauttavat, että pidempien videoiden tuottaminen on logistinen huomio järjestelmän edelleen kehittämisessä, koska vain 10 kehyksen 64×64-pikselin tuotanto vaatii 2560 visuaalista merkkiä, josta tulee kalliiksi ja hallitsematon nopeasti.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Microsoft ehdottaa GODIVA: a, teksti-videokoneälykkyyden kehys

Siemensormet teksti-videossa

Kehyksen arviointi jatkuvassa videonsynteesissä

Videon laadun ja uskollisuuden arviointi

You may like