Tekoäly
Uusi järjestelmä aikalisesti yhdenmukaisille Stable Diffusion -videohahmoille

Alibaba Groupin uusi aloite tarjoaa yhden parhaimmista menetelmistä, joita olen nähnyt, täysikasvuisen ihmishahmon luomiseen Stable Diffusion -perusmallin pohjalta.
Järjestelmä on nimeltään MIMO (MIMikkoontuminen Objektien kanssa), ja se käyttää useita suosittuja teknologioita ja moduuleja, mukaan lukien CGI-pohjaiset ihmismallit ja AnimateDiff, mahdollistaakseen aikalisesti yhdenmukaisen hahmon korvaamisen videoissa tai ohjaamalla hahmoa käyttäjän määrittelemällä luurankoposeella.
Tässä näemme hahmoja, jotka on interpoloitu yhdestä kuvasta, ja ohjattu ennalta määritellyllä liikkeellä:
[Klikkaa videota alla osoittamaan]
Yhdestä lähdekuvasarjasta kolme monipuolista hahmoa ohjataan 3D-posekuvasarjalla (kaukaisin vasen) käyttäen MIMO-järjestelmää. Katso projekti sivu ja liittyvä YouTube-video (joka on upotettu artikkelin loppuun) lisätietoja ja paremman resoluution vuoksi. Lähde: https://menyifang.github.io/projects/MIMO/index.html
Luadut hahmot, jotka voidaan myös hakea videon kehyksistä ja monista muista lähteistä, voidaan integroida todellisen maailman kuvamateriaaliin.
MIMO tarjoaa uuden järjestelmän, joka luo kolme erillistä koodausta, kunkin hahmolle, kohtaamiselle ja peittämiselle (ts. maskaukselle, kun joku esine tai henkilö kulkee hahmon edessä). Nämä koodaukset yhdistetään johtopäätöksessä.
[Klikkaa videota alla osoittamaan]
MIMO voi korvata alkuperäiset hahmot fotorealistisilla tai tyylikkäillä hahmoilla, jotka seuraavat liikettä kohdevideosta. Katso projekti sivu ja liittyvä YouTube-video (joka on upotettu artikkelin loppuun) lisätietoja ja paremman resoluution vuoksi.
Järjestelmä on koulutettu Stable Diffusion V1.5 -mallin yläpuolelle, käyttäen tutkijoiden kokoamaa mukautettua tietojoukkoa, joka koostuu yhtä suurelta osin todellisista ja simuloitujen videoista.
Diffuusiopohjaisen videon suuri ongelma on aikalisäys, jossa videon sisältö välkkyy tai “kehittyy” tavalla, joka ei ole toivottavaa yhdenmukaisen hahmon esittämiseksi.
MIMO käyttää sen sijaan tehokkaasti yhtä kuvaa karttana johdonmukaiselle ohjaukselle, jota voidaan orkesteroida ja rajoittaa väliin sijoitetun SMPL CGI-mallin avulla.
Koska lähdeviite on johdonmukainen, ja perusmalli, jolle järjestelmä on koulutettu, on täydennetty riittävällä edustavalla liikemalliesimerkeillä, järjestelmän kyky aikalisesti yhdenmukaiseen tulokseen on yleisen standardin yläpuolella diffuusiopohjaisille avatareille.
[Klikkaa videota alla osoittamaan]
Lisää esimerkkejä pose-ohjatuista MIMO-hahmoista. Katso projekti sivu ja liittyvä YouTube-video (joka on upotettu artikkelin loppuun) lisätietoja ja paremman resoluution vuoksi.
On tullut yleisemmäksi, että yksittäisiä kuvia käytetään tehokkaiden hermoverkkoedustusten lähteenä, joko itsenään tai monimuotoisesti yhdistettynä tekstiprompteihin. Esimerkiksi suosittu LivePortrait kasvojen siirtämismalli voi myös luoda erittäin uskottavia deepfaked kasvoja yhdellä kasvokuvalla.
Tutkijat uskovat, että MIMO-järjestelmässä käytetyt periaatteet voidaan laajentaa muihin ja uusiin generatiivisiin järjestelmiin ja kehyksiin.
Uusi artikkeli on nimeltään MIMO: Kontrolloitu hahmon video synteesi avaruudellisella dekomposoidulla mallinnuksella, ja se tulee neljältä tutkijalta Alibaba Groupin älykkään laskennan instituutista. Työllä on videoita täynnä oleva projektisivu ja liittyvä YouTube-video, joka on myös upotettu artikkelin loppuun.
Menetelmä
MIMO saavuttaa automaattisen ja valvomattoman erottamisen edellä mainituista kolmesta avaruudellisesta komponentista, päättymäisessä arkkitehtuurissa (ts. kaikki alaprosessit on integroitu järjestelmään, ja käyttäjän tarvitsee vain antaa syötemateriaali).

MIMO:n käsitteellinen schema. Lähde: https://arxiv.org/pdf/2409.16160
Lähdevideojen esineet käännetään 2D:sta 3D:hen aluksi käyttäen monokulaarista syvyyden arvioijaa Depth Anything. Ihmiskomponentti jokaisessa kehyksessä erottuu menetelmillä, jotka on sovellettu Tune-A-Video -projektista.
Nämä ominaisuudet käännetään sitten videoon perustuviksi tilavuusominaisuuksiksi Facebook Researchin Segment Anything 2 -arkkitehtuurin kautta.
Kohtauskerros saadaan poistamalla esineet, jotka on havaittu kahdessa muussa kerroksessa, ja tarjoamalla siten rotoskooppityylisen maskin automaattisesti.
Liikkeen osalta joukko erottuvia latenittaisia koodauksia ihmiskomponentille kiinnitetään oletusarvoiseen ihmisen CGI-pohjaiseen SMPL-malliin, jonka liikkeet tarjoavat kontekstin renderöidylle ihmiselle.
2D ominaisuuskartta ihmiselle saadaan erottuvalla rasteroijalla, joka on johdettu 2020 aloitteesta NVIDIAlta. Yhdistämällä saadun 3D-tiedon SMPL:stä ja 2D-tiedon, jonka NVIDIA:n menetelmä antaa, latentiiviset koodaukset, jotka edustavat “hermoihmistä”, ovat vahvasti yhteydessä lopulliseen kontekstiinsa.
Tässä vaiheessa on tarpeen vakiinnuttaa yleisesti tarvittava viite arkkitehtuureissa, jotka käyttävät SMPL:ää – kanoninen pose. Tämä on laajasti samankaltainen Da Vincin ‘Vitruvian miehen’ kanssa, koska se edustaa nollaposemallia, joka voi hyväksyä sisällön ja sitten muuttaa sen, tuoden (vaikuttavasti) teksturoitun sisällön mukanaan.
Nämä muodot, tai “poikkeamat normaalista”, edustavat ihmisen liikettä, kun taas SMPL-malli säilyttää latentiiviset koodaukset, jotka muodostavat ihmisen identiteetin, joka on erotettu, ja edustaa siten tulokseena olevaa avataria oikein sekä poseen että tekstuuriin nähden.

Esimerkki kanonisesta posesta SMPL-hahmossa. Lähde: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
Kysymyksessä olevan sekaannuksen (siihen asti, kuinka koulutetut tiedot voivat osoittautua joustamattomiksi, kun venytät niitä koulutusrajojen ja yhteyksien ulkopuolelle) kirjoittajat toteavat*:
‘Täydellisen erottamisen saavuttamiseksi ulkonäön ja asennetun videokehyksestä, ihannetapaus on oppia dynaaminen ihmisen edustus monokulaarisen videon kautta ja muuttaa sitä asennetusta avaruudesta kanoniseen avaruuteen.
‘Tehokkuuden vuoksi käytämme yksinkertaista menetelmää, joka muuttaa asennetun ihmiskuvan suoraan kanoniseen tulokseen standardi A-poseessa käyttäen esikoulutettua ihmisen uudelleenasettumismallia. Syntetisoitu kanoninen ulkonäkökuva syötetään ID-koodaajille saadakseen identiteetin [koodin].
‘Tämä yksinkertainen suunnittelu mahdollistaa täydellisen erottamisen identiteetin ja liikkeen ominaisuuksista. Seuraamalla [Animate Anyone], ID-koodaajat sisältävät CLIP -kuvankoodaus- ja viiteverkkorakenteen, jotta voidaan upottaa globaaliin ja paikalliseen ominaisuuteen [vastavuoroisesti].’
Kohtaus- ja peittämisosuuksien osalta jaettu ja kiinteä Variational Autoencoder (VAE – tässä tapauksessa johdettu 2013 julkaisusta) käytetään upottamaan kohtaus- ja peittämisominaisuudet latentiiviseen avaruuteen. Epäjohdonmukaisuudet käsitellään täyttämismenetelmällä 2023 ProPainter -projektista.
Kun ne on koottu ja korjattu tällä tavoin, sekä tausta että mikä tahansa peittävä esine videossa tarjoavat maskeerauksen liikkuvalle ihmisavatarille.
Nämä dekompoositut ominaisuudet syötetään sitten U-Net -rungoon, joka perustuu Stable Diffusion V1.5 -arkkitehtuuriin. Täydellinen kohtauskoodi yhdistetään isäntäjärjestelmän alkuperäiseen latentiiviseen meluun. Ihmiskomponentti yhdistetään itseään ja ristiriitaisia tarkkuuskerroksia vastaavasti.
Sitten puhdistettu tulos syötetään VAE-dekooderin kautta.
Tiedot ja testit
Koulutuksessa tutkijat loivat ihmisen videoaineiston nimeltä HUD-7K, joka koostui 5 000 todellisesta hahmovidesta ja 2 000 synthetisoidusta animaatiosta, jotka luotiin En3D -järjestelmällä. Todelliset videot eivät vaatineet mitään merkintöjä johtuen hahmon erottamismenetelmien epäsemanttisesta luonteesta MIMO:n arkkitehtuurissa. Synthetisoidut tiedot oli täysin merkitty.
Malli koulutettiin kahdeksalla NVIDIA A100 -näytönohjaimella (vaikka artikkeli ei mainitse, olivatko nämä 40GB tai 80GB VRAM -mallit), 50 iteroinnilla, käyttäen 24 videokehystä ja eräkoolle neljä, kunnes konvergenssi.
Liikemoduuli järjestelmälle koulutettiin AnimateDiff:n painoilla. Koulutusprosessin aikana VAE-koodarin/dekoodarin ja CLIP-kuvankoodaus- painot olivat jäädytetty (toisin kuin täydellinen hienosäätö, jolla on paljon laajempi vaikutus perusmalliin).
Vaikka MIMO:a ei testattu vertaamalla sitä muihin järjestelmiin, tutkijat testasivat sen haastavilla ulkopuolisilla liikemalleilla AMASS:sta ja Mixamo:sta. Nämä liikkeet sisälsivät kiipeämisen, leikkejä ja tanssimista.
He myös testasivat järjestelmää villinä ihmisten videoissa. Molemmissa tapauksissa artikkeli raportoi “korkean luotettavuuden” näille näkemättömillä 3D-liikkeillä eri näkökulmista.
Vaikka artikkeli tarjoaa useita staattisia kuvatuloksia, jotka osoittavat järjestelmän tehokkuuden, MIMO:n todellinen suorituskyky arvioidaan parhaiten laajojen video tuloksien kautta, jotka on esitetty projekti sivulla ja YouTube-videossa, joka on upotettu artikkeliin.
Kirjoittajat päättelevät:
‘Kokeelliset tulokset [osoittavat], että menetelmämme mahdollistaa sekä joustavan hahmon, liikkeen ja kohtausohjauksen, että edistyneen skaalautuvuuden mihin tahansa hahmoihin, yleisyyden uusiin 3D-liikkeisiin, ja soveltamisen interaktiivisiin kohtauksiin.
‘Uskomme myös, että ratkaisumme, joka ottaa huomioon sisäisen 3D-luonteen ja koodaa automaattisesti 2D-videon hierarkkisiin avaruudellisiin komponentteihin, voi inspiroida tulevia tutkimuksia 3D-tietoisen videon synteesiin.
‘Lisäksi kehyksemme ei ole vain sovellettavissa hahmovideojen luomiseen, vaan se voidaan myös soveltaa muihin ohjattaviin videon synteesitehtäviin.’
Johtopäätös
On virkistävää nähdä Stable Diffusion -pohjainen avatarjärjestelmä, joka näyttää pystyvän sellaisen aikalisäyksen saavuttamiseen – ei vähiten, koska Gaussian-avataarit näyttävät saavan ylemmän käden tässä tutkimusalueessa.
Stylisoidut avataarit, jotka edustetaan tuloksissa, ovat tehokkaita, ja vaikka MIMO:n tuottama fotorealismin taso ei ole tällä hetkellä samaa tasoa kuin mitä Gaussian Splatting pystyy tuottamaan, moninaiset edut aikalisesti yhdenmukaisen ihmisen luomisesta semanttisessa Latent Diffusion Network (LDM) -verkossa ovat merkittäviä.
* Minun muuntaminen kirjoittajien sisäisistä viittauksista hyperlinkkeihin, ja missä tarvitaan, ulkoisiin selittäviin hyperlinkkeihin.
Julkaistu ensimmäisen kerran keskiviikkona, 25. syyskuuta 2024






