Andersonin kulma

Kokonaisen kehon deepfakejen luominen useiden NeRFien yhdistämällä

Julkaistu 12. lokakuuta 2022

Päivitetty 23. toukokuuta 2026

Tekijä

Martin Anderson

Kuvasynteesin tutkimusala on täynnä uusia ehdotuksia järjestelmistä, jotka pystyvät luomaan täysikokoisia videoita ja kuvia nuorista ihmisistä, pääasiassa nuorista naisista, erilaisissa asusteissa. Useimmiten luodut kuvat ovat statisia; toisinaan edustukset liikkuvat, vaikka yleensä ei kovin hyvin.

Tämän tiettyä tutkimussuuntaa on edennyt hitaasti verrattuna muihin aiheisiin, kuten latenttiinfusiomalleihin; kuitenkin tutkimusryhmät, joista suurin osa on Aasiasta, jatkavat työtään täysillä tämän ongelman parissa.

Yksi kymmenistä, ellei satoista, ehdotetuista tai osittain käynnistetyistä ‘virtuaalikokeilu’-järjestelmistä viimeisen 10-15 vuoden ajan, joissa kehot arvioidaan koneoppimiseen perustuvalla objektin tunnistamisella ja sovitetaan ehdotettuihin vaatteisiin. Lähde: https://www.youtube.com/watch?v=2ZXrgGyhbak

Tavoitteena on luoda uusia järjestelmiä, jotka mahdollistavat ‘virtuaalikokeilun’ muodin ja vaatetusalan markkinoille – järjestelmiä, jotka voivat sopeutua sekä asiakkaaseen että tuotteeseen, joka on tällä hetkellä saatavilla tai tulossa ilman klumppaista reaaliaikaisen supertulostuksen vaatteita tai tarvetta pyytää asiakkailta lähettämään hieman NSFW-kuvia ML-pohjaisille rendering-piippureille.

EVA3D

EVA3D, Singaporin Nanyangin teknillisen yliopiston tuotos, on ensimmäinen osoitus lähestymistavasta, jota on odotettu pitkään – useiden Neural Radiance Field -verkkorakenteiden käytöstä, joista kunkin on omistettu eri kehon osaan, ja jotka koostetaan yhdistetyksi ja yhtenäiseksi visualisoinniksi.

Liikkuva nuori nainen koostettu useista NeRF-verkoista, EVA3D:lle. Lähde: https://hongfz16.github.io/projects/EVA3D.html

Tulokset, liikkeen suhteen, ovat…ok. Vaikka EVA3D:n visualisoinnit eivät ole ulkona uncanny valley -alueelta, ne voivat ainakin nähdä poistumisreitin, missä he seisovat.

Mikä tekee EVA3D:stä erinomaisen, on se, että tutkijat, jotka ovat vastuussa siitä, ovat lähes yksinomaan tässä alalla tajunneet, että yksittäinen verkko (GAN, NeRF tai muu) ei pysty käsittelemään muokattavaa ja joustavaa täysikokoisen kehon generointia useita vuosia – osittain tutkimuksen tahdissa ja osittain laitteistollisista ja muiden logististen rajoitusten vuoksi.

Menetelmä

SMPL-malli, jota käytetään prosessissa, on säädetty ihmisen ‘prioriin’ – henkilöön, joka on periaatteessa vapaaehtoinen EVA3D:n deepfake – ja sen skinning-painot neuvottelevat eroja kanonisen avaruuden (ts. ‘lepo’ tai ‘neutraali’ asento SMPL-mallissa) ja lopullisen ulkonäön välillä.

EVA3D:n käsitteellinen työkulku. Lähde: https://arxiv.org/pdf/2210.04888.pdf

Kuten kuvassa yllä näkyy, SMPL:n rajatunnisteet käytetään 16 verkon, jotka lopulta koostetaan kehosta, rajamäärittelyinä. Inversiivinen Lineaarinen Blend Skinning (LBS) -algoritmi SMPL:stä käytetään siirtämään näkyvät näytetyt säteet kanoniseen (passiiviseen) avaruuteen. Sitten 16 aliverkkoa kysytään näiden konfiguraatioiden perusteella ja lopulta muotoillaan lopulliseksi renderöinniksi.

Data, koulutus ja testit

EVA3D:llä on epätavallisia ongelmia datan kanssa, johtuen rajoituksista ja mallipohjaisesta tyylisuunnasta, jota on käytetty muodin perustaisissa tietokannoissa, jotka usein puuttuvat vaihtoehtoisista tai uusista näkymistä ja ovat ehkä tarkoituksella toistuvia, jotta huomio kiinnittyy vaatteisiin eikä ihmiseen, joka niitä käyttää.

Tämän epätasapuolisen asennon jakautumisen vuoksi EVA3D käyttää ihmisten etuoikeuksia (ks. yllä) SMPL-mallin geometrian perusteella, ja sitten ennustaa Signed Distance Field (SDF) -poikkeamaa tästä asennosta, eikä suoraa kohdeasentoa.

Tuetuissa kokeissa tutkijat käyttivät neljää tietokantaa: DeepFashion; SHHQ; UBCFashion; ja AIST Dance Video Database (AIST Dance DB).

Viimeksi mainitut sisältävät enemmän vaihtelevia asentoja kuin ensimmäiset kaksi, mutta edustavat samoja henkilöitä toistuvasti, mikä kumoaa tämän muuten hyödyllisen monimuotoisuuden; lyhyesti sanottuna, data on haasteellista, ottaen huomioon tehtävän.

Julkaistu ensimmäisen kerran 12. lokakuuta 2022.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Kokonaisen kehon deepfakejen luominen useiden NeRFien yhdistämällä

EVA3D

Menetelmä

Data, koulutus ja testit

Löydä lisää