Umelá inteligencia
Vytváranie Deepfakes celého tela kombináciou viacerých NeRF
Odvetvie výskumu syntézy obrazu je husto posiate novými návrhmi systémov schopných vytvárať celotelové video a obrázky mladých ľudí – najmä mladých žien – v rôznych typoch oblečenia. Väčšinou vytvorené obrázky sú statické; občas sa reprezentácie dokonca pohybujú, aj keď zvyčajne nie veľmi dobre.
Tempo tohto konkrétneho smeru výskumu je ľadovcové v porovnaní so súčasnou závratnou úrovňou pokroku v súvisiacich oblastiach, ako napr. modely latentnej difúzie; Napriek tomu výskumné skupiny, väčšina z nich v Ázii, naďalej neúnavne odstraňujú problém.
Cieľom je vytvoriť nové systémy, ktoré umožnia „virtuálne skúšanie“ pre módny a odevný trh – systémy, ktoré sa dokážu prispôsobiť zákazníkovi aj konkrétnemu produktu, ktorý je momentálne dostupný alebo ktorý sa má uviesť na trh, bez toho, aby sa museli ohýbať skutočné -čas prekrývanie of oblečenie, alebo potrebu požiadať zákazníkov o to poslať mierne NSFW obrázky pre renderovacie kanály založené na ML.
Žiadna z populárnych architektúr syntézy sa nezdá byť ľahko prispôsobiteľná tejto úlohe: latentný priestor Generative Adversarial Networks (GAN) nie je vhodný na vytváranie presvedčivého časového pohybu (alebo dokonca na úpravu všeobecne); predsa dobre schopný generovania realistického ľudského pohybu, Neurónové radiačné polia (NeRF) sú zvyčajne prirodzené odolný k druhu úprav, ktoré by boli potrebné na „výmenu“ ľudí alebo oblečenia podľa ľubovôle; automatické kódovače by si vyžadovali náročné školenie zamerané na konkrétne osoby/oblečenie; a modely latentnej difúzie, ako napríklad GAN, majú nulové natívne časové mechanizmy na generovanie videa.
EVA3D
Napriek tomu dokumenty a návrhy pokračujú. Najnovšie je nezvyčajný záujem o inak nevýrazný a výlučne biznisovo orientovaný smer výskumu.
EVA3D, zo singapurskej technologickej univerzity Nanyang, je prvým náznakom prístupu, na ktorý sa dlho čakalo – využívania násobok Siete Neural Radiance Field, z ktorých každá je venovaná samostatnej časti tela a ktoré sa potom skladajú do zostavenej a súdržnej vizualizácie.
Výsledky, pokiaľ ide o pohyb, sú...v poriadku. Aj keď vizualizácia EVA3D nie je mimo tajomného údolia, z miesta, kde stoja, môžu aspoň vidieť zjazdovú rampu.
To, čo robí EVA3D výnimočným, je to, že výskumníci za ním, takmer jedinečne v sektore syntézy obrazu celého tela, si uvedomili, že jediná sieť (GAN, NeRF alebo iná) nebude schopná zvládnuť upraviteľné a flexibilné ľudské plné. generácie tela už niekoľko rokov – čiastočne kvôli tempu výskumu a čiastočne kvôli hardvéru a iným logistickým obmedzeniam.
Preto tím Nanyang rozdelil úlohu na 16 sietí a viacero technológií – prístup, ktorý už bol prijatý na neurónové vykresľovanie mestských prostredí v Block-NeRF a CityNeRFa zdá sa, že je pravdepodobné, že sa v nasledujúcich piatich rokoch stane čoraz zaujímavejším a potenciálne plodnejším polovičným opatrením na dosiahnutie hlbokých fake celého tela v očakávaní nového koncepčného alebo hardvérového vývoja.
Nie všetky výzvy, ktoré vznikajú pri vytváraní tohto druhu „virtuálneho skúšania“, sú technické alebo logistické a dokument načrtáva niektoré problémy s údajmi, najmä pokiaľ ide o učenie bez dozoru:
„Súbory údajov [Móda] majú väčšinou veľmi obmedzené ľudské pózy (väčšina sú podobné postojom v stoji) a veľmi nevyvážené pozorovacie uhly (väčšina je pohľad spredu). Táto nevyvážená distribúcia 2D údajov by mohla brániť učeniu 3D GAN bez dozoru, čo by viedlo k ťažkostiam pri syntéze nového pohľadu/pózy. Preto je na zmiernenie tohto problému potrebná správna školiaca stratégia.“
Pracovný postup EVA3D rozdeľuje ľudské telo na 16 odlišných častí, z ktorých každá je generovaná prostredníctvom vlastnej siete NeRF. Je zrejmé, že to vytvára dostatok „nezamrazených“ sekcií na to, aby bolo možné galvanizovať postavu pomocou snímania pohybu alebo iných typov údajov o pohybe. Okrem tejto výhody však umožňuje systému prideliť maximum prostriedkov častiam tela, ktoré „predávajú“ celkový dojem.
Napríklad ľudské nohy majú veľmi obmedzený rozsah artikulácie, zatiaľ čo autentickosť tváre a hlavy, okrem kvality pohybu celého tela vo všeobecnosti, bude pravdepodobne ústredným znakom autenticity stvárnenia.
Tento prístup sa radikálne líši od projektu zameraného na NeRF, s ktorým koncepčne súvisí – rok 2021 A-NeRF, z University of British Columbia a Reality Labs Research, ktorá sa snažila pridať internú riadiacu kostru k inak konvenčne „jednodielnej“ reprezentácii NeRF, čím sa sťažilo prideľovanie zdrojov spracovania rôznym častiam tela na základe potreby. .
Podobne ako väčšina podobných projektov zameraných na človeka, ktoré sa snažia využiť latentný priestor rôznych populárnych prístupov, EVA3D používa lineárny model s viacerými osobami (skinned Multi-Person Linear Model).SMPL), „tradičná“ metóda založená na CGI na pridanie inštrumentality k všeobecnej abstrakcii súčasných metód syntézy. Začiatkom tohto roka ďalší článok, tentoraz z univerzity Zhejiang v Hangzhou a Školy kreatívnych médií na City University of Hong Kong, použili takéto metódy na vykonanie pretvarovanie nervového tela.
Metóda
Model SMPL použitý v tomto procese je naladený na ľudskú „prioritu“ – osobu, ktorá je v podstate dobrovoľne hlboko fakovaná pomocou EVA3D a jej váhy sťahujúce z kože vyjednávajú rozdiely medzi kanonickým priestorom (tj „v pokoji“ alebo „ neutrálna“ póza modelu SMPL) a spôsob, akým je vykreslený konečný vzhľad.
Ako je vidieť na obrázku vyššie, ohraničujúce rámčeky SMPL sa používajú ako definície hraníc pre 16 sietí, ktoré budú nakoniec tvoriť telo. Inverzne Lineárne miešanie kože (LBS) algoritmus SMPL sa potom používa na prenos viditeľných vzorkovaných lúčov do kanonického (pasívneho pózového) priestoru. Potom sa dopytuje 16 podsietí na základe týchto konfigurácií a nakoniec sa prispôsobí konečnému vykresleniu.
Celý kompozit NeRF sa potom použije na konštrukciu 3D ľudského GAN rámca.
Každá podsieť predstavujúca časť ľudského tela sa skladá z viacvrstvových perceptrónov (MLP) Siréna (Sinusoidal Representation Networks) aktivácia. Hoci SIREN rieši veľa problémov v pracovnom postupe, ako je tento, a v podobných projektoch má tendenciu sa skôr prepĺňať ako zovšeobecňovať a výskumníci naznačujú, že v budúcnosti by sa mohli použiť alternatívne knižnice (pozri koniec článku).
Údaje, školenia a testy
EVA3D čelí neobvyklým problémom s údajmi v dôsledku obmedzení a šablónovitého štýlu pozícií, ktoré sú k dispozícii v súboroch údajov založených na móde, ktorým zvyčajne chýbajú alternatívne alebo nové pohľady a možno zámerne sa opakujú, aby sa zamerala pozornosť na oblečenie, nie človek, ktorý ich nosí.
Kvôli tejto nevyváženej distribúcii póz používa EVA3D ľudské priority (pozri vyššie) na základe geometrie šablóny SMPL a potom predpovedá pole so znamienkom vzdialenosti (SDF) posun tejto pózy, skôr než priama cieľová póza.
Na podporné experimenty výskumníci použili štyri súbory údajov: DeepFashion; SHHQ; UBCFashion; a Databáza tanečných videí AIST (AIST Dance DB).
Posledné dve obsahujú rozmanitejšie pózy ako prvé dve, ale opakovane predstavujú tých istých jedincov, čo ruší túto inak užitočnú rozmanitosť; skrátka, dáta sú vzhľadom na úlohu viac než náročné.
Použité základné línie boli ENARF-GAN, prvý projekt na vykresľovanie vizuálov NeRF z 2D súborov údajov; Stanford a NVIDIA EG3DA StyleSDF, spolupráca medzi Washingtonskou univerzitou, Adobe Research a Stanfordskou univerzitou – všetky metódy vyžadujú knižnice s vysokým rozlíšením, aby bolo možné škálovať z pôvodného na vysoké rozlíšenie.
Prijaté metriky boli kontroverzná Frechet počiatočná vzdialenosť (FID) a Počiatočná vzdialenosť jadra (KID), spolu s percentom správnych kľúčových bodov ([chránené e-mailom]).
V kvantitatívnych hodnoteniach viedla EVA3D vo všetkých metrikách v štyroch súboroch údajov:
Výskumníci poznamenávajú, že EVA3D dosahuje najnižšiu chybovosť pri vykresľovaní geometrie, čo je kritický faktor v projekte tohto typu. Tiež pozorujú, že ich systém dokáže ovládať generovanú pózu a dosiahnuť vyššiu [chránené e-mailom] skóre, na rozdiel od EG3D, jedinej konkurenčnej metódy, ktorá dosiahla vyššie skóre, v jednej kategórii.
EVA3D funguje natívne pri už štandardnom rozlíšení 512 x 512 pixelov, hoci by sa dalo ľahko a efektívne zvýšiť na rozlíšenie HD nahromadením upscale vrstiev, ako to nedávno urobil Google so svojou ponukou textu na video s rozlíšením 1024. Obrázok Video.
Metóda nie je neobmedzená. Článok poznamenáva, že aktivácia SIREN môže spôsobiť kruhové artefakty, ktoré by bolo možné v budúcich verziách napraviť použitím alternatívnej základnej reprezentácie, ako je EG3D, v kombinácii s 2D dekodérom. Okrem toho je ťažké presne prispôsobiť SMPL zdrojom módnych údajov.
Nakoniec, systém nemôže ľahko umiestniť väčšie a tekutejšie kusy oblečenia, ako sú veľké šaty; odevy tohto typu vykazujú rovnaký druh fluidnej dynamiky, pri ktorej sa vytvárajú nervovo upravené vlasy taká výzva. Pravdepodobne by vhodné riešenie mohlo pomôcť vyriešiť oba problémy.
Prvýkrát uverejnené 12. októbra 2022.