peň Predstieranie „lepších“ tiel pomocou AI - Unite.AI
Spojte sa s nami

Umelá inteligencia

Predstieranie „lepších“ tiel pomocou AI

mm
Aktualizované on

Nový výskum akadémie Alibaba DAMO ponúka pracovný postup založený na umelej inteligencii na automatizáciu pretvárania obrazov tiel – vzácne úsilie v sektore počítačového videnia, ktorým sa v súčasnosti zaoberáme. manipulácie na základe tváre ako sú deepfakes a založené na GAN úprava tváre.

Do stĺpcov „výsledkov“ vložte vygenerované mapy pozornosti, ktoré definujú oblasti, ktoré sa majú zmeniť. Zdroj: https://arxiv.org/pdf/2203.04670.pdf

Do stĺpcov „výsledkov“ vložte vygenerované mapy pozornosti, ktoré definujú oblasti, ktoré sa majú zmeniť. Zdroj: https://arxiv.org/pdf/2203.04670.pdf

Architektúra výskumníkov využíva odhad kostry, aby sa vyrovnala s väčšou zložitosťou, ktorej čelia systémy syntézy a úpravy obrázkov pri konceptualizácii a parametrizácii existujúcich obrázkov tela, aspoň na úroveň granularity, ktorá skutočne umožňuje zmysluplné a selektívne úpravy.

Odhadované mapy kostry pomáhajú individualizovať a zamerať pozornosť na oblasti tela, ktoré by mohli byť retušované, ako napríklad oblasť nadlaktia.

Systém v konečnom dôsledku umožňuje užívateľovi nastaviť parametre, ktoré môžu zmeniť vzhľad hmotnosti, svalovej hmoty alebo rozloženia hmotnosti na fotografiách ľudí v plnej alebo strednej dĺžke a je schopný generovať ľubovoľné transformácie na časti oblečeného alebo nezaodeného tela.

Vľavo, vstupný obrázok; stred, tepelná mapa odvodených oblastí pozornosti; vpravo, transformovaný obrázok.

Vľavo, vstupný obrázok; stred, tepelná mapa odvodených oblastí pozornosti; vpravo, transformovaný obrázok.

Motiváciou pre prácu je vývoj automatizovaných pracovných postupov, ktoré by mohli nahradiť náročné digitálne manipulácie fotografov a produkčných grafikov v rôznych odvetviach médií, od módy až po výstupy v štýle časopisov a propagačný materiál.

Vo všeobecnosti autori uznávajú, že tieto transformácie sa zvyčajne aplikujú pomocou techník „warp“ vo Photoshope a iných tradičných bitmapových editoroch a takmer výlučne sa používajú na obrázky žien. V dôsledku toho vlastný súbor údajov vyvinutý na uľahčenie nového procesu pozostáva väčšinou z obrázkov ženských subjektov:

„Keďže po retušovaní tela túžia najmä ženy, väčšinu našej zbierky tvoria ženské fotografie, berúc do úvahy rôznorodosť veku, rás (Africká: Ázijská: Kaukazská = 0.33: 0.35: 0.32), póz a odevov.“

papier je s názvom Generovanie toku so zreteľom na štruktúru na pretvarovanie ľudského tela, a pochádza od piatich autorov spojených s globálnou akadémiou DAMO spoločnosti Alibaba.

Vývoj súboru údajov

Ako je to zvyčajne v prípade systémov na syntézu a úpravu obrazu, architektúra projektu si vyžadovala prispôsobený tréningový súbor údajov. Autori poverili troch fotografov, aby vytvorili štandardné manipulácie s vhodnými obrázkami z Photoshopu zo stránky Unsplash, čo viedlo k súboru údajov s názvom BR-5K* – 5,000 2 vysokokvalitných obrázkov v rozlíšení XNUMXK.

Výskumníci zdôrazňujú, že cieľom školenia na tomto súbore údajov nie je vytvoriť „idealizované“ a zovšeobecnené vlastnosti týkajúce sa indexu atraktivity alebo žiaduceho vzhľadu, ale skôr extrahovať mapovanie centrálnych funkcií spojené s profesionálnymi manipuláciami s obrázkami tela.

Pripúšťajú však, že manipulácie v konečnom dôsledku odrážajú transformačné procesy, ktoré mapujú postup od „skutočného“ k vopred stanovenému pojmu „ideál“:

„Pozývame troch profesionálnych umelcov, aby nezávisle retušovali telá pomocou Photoshopu s cieľom dosiahnuť štíhle postavy, ktoré spĺňajú populárnu estetiku, a vybrať tú najlepšiu ako základnú pravdu.“

Keďže rámec sa vôbec nezaoberá tvárami, tieto boli pred zahrnutím do súboru údajov rozmazané.

Architektúra a základné koncepty

Pracovný postup systému zahŕňa načítanie portrétu s vysokým rozlíšením, jeho prevzorkovanie na nižšie rozlíšenie, ktoré sa zmestí do dostupných výpočtových zdrojov, a extrahovanie odhadovanej pozície kostry mapy (druhý obrázok zľava na obrázku nižšie), ako aj polí afinity k častiam. (PAF), ktoré boli inovovaný v roku 2016 The Robotics Institute na Carnegie Mellon University (pozri video vložené priamo nižšie).

2D odhad ľudskej pozície pre viac osôb v reálnom čase pomocou polí afinity k dielu, CVPR 2017 ústne

Part Affinity Fields pomáhajú definovať orientáciu končatín a všeobecnú asociáciu so širším kostrovým rámcom, čím poskytujú novému projektu ďalší nástroj na upozorňovanie/lokalizáciu.

Z dokumentu Part Affinity Fields z roku 2016 predpovedané PAF kódujú orientáciu končatiny ako súčasť 2D vektora, ktorý zahŕňa aj všeobecnú polohu končatiny. Zdroj: https://arxiv.org/pdf/1611.08050.pdf

Z dokumentu Part Affinity Fields z roku 2016 predpovedané PAF kódujú orientáciu končatiny ako súčasť 2D vektora, ktorý zahŕňa aj všeobecnú polohu končatiny. Zdroj: https://arxiv.org/pdf/1611.08050.pdf

Napriek zjavnej irelevantnosti pre vzhľad hmotnosti sú mapy kostry užitočné pri nasmerovaní konečných transformačných procesov na časti tela, ktoré sa majú upraviť, ako sú nadlaktie, zadná časť a stehná.

Potom sa výsledky privedú do Structure Affinity Self-Attention (SASA) v centrálnom prekážke procesu (pozri obrázok nižšie).

SASA reguluje konzistenciu generátora toku, ktorý poháňa proces, ktorého výsledky sa potom prenášajú do deformačného modulu (druhý sprava na obrázku vyššie), ktorý aplikuje transformácie získané zo školenia na manuálne revízie zahrnuté v súbore údajov. .

Modul Structure Affinity Self-Attention (SASA) prideľuje pozornosť príslušným častiam tela, čím pomáha vyhnúť sa vonkajším alebo irelevantným transformáciám.

Modul Structure Affinity Self-Attention (SASA) prideľuje pozornosť príslušným častiam tela, čím pomáha vyhnúť sa vonkajším alebo irelevantným transformáciám.

Výstupný obraz je následne prevzorkovaný späť do pôvodného 2K rozlíšenia pomocou procesov, ktoré nie sú nepodobné štandardnej deepfake architektúre v štýle 2017, z ktorej boli odvtedy odvodené obľúbené balíky ako DeepFaceLab; proces prevzorkovania je bežný aj v GAN editačných rámcoch.

Sieť pozornosti pre schému je modelovaná podľa Compositional De-Attention Networks (chvost), akademická spolupráca medzi USA a Singapurom v roku 2019 s Amazon AI a Microsoftom.

Skúšky

Rámec založený na toku bol testovaný oproti predchádzajúcim metódam založeným na toku FAL a animácia prostredníctvom deformácie (ATW), ako aj architektúry prekladu obrázkov Pix2PixHD a GFLAS SSIM, PSNR a LPIPS ako hodnotiace metriky.

Výsledky počiatočných testov (smer šípky v záhlaví ukazuje, či sú najlepšie nižšie alebo vyššie hodnoty).

Výsledky počiatočných testov (smer šípky v záhlaví ukazuje, či sú najlepšie nižšie alebo vyššie hodnoty).

Na základe týchto prijatých metrík systém autorov prekonáva predchádzajúce architektúry.

Vybrané výsledky. Porovnania s vyšším rozlíšením nájdete v pôvodnom súbore PDF prepojenom v tomto článku.

Vybrané výsledky. Porovnania s vyšším rozlíšením nájdete v pôvodnom súbore PDF prepojenom v tomto článku.

Okrem automatizovaných metrík výskumníci vykonali používateľskú štúdiu (posledný stĺpec tabuľky s výsledkami zobrazený vyššie), v ktorej bolo 40 účastníkom zobrazených 30 náhodne vybraných otázok zo súboru 100 otázok týkajúcich sa obrázkov vytvorených rôznymi metódami. 70 % respondentov uprednostnilo novú techniku ​​ako „vizuálne príťažlivejšiu“.

Výzvy

Nový dokument predstavuje vzácnu exkurziu do manipulácie s telom založenej na AI. Sektor syntézy obrazu sa v súčasnosti oveľa viac zaujíma buď o generovanie upraviteľných tiel pomocou metód, ako sú Neural Radiance Fields (NeRF), alebo sa zameriava na skúmanie latentného priestoru GAN a potenciálu autokódovačov na manipuláciu s tvárou.

Iniciatíva autorov sa v súčasnosti obmedzuje na vytváranie zmien vo vnímanej hmotnosti a neimplementovali žiadnu techniku ​​maľovania, ktorá by obnovila pozadie, ktoré sa nevyhnutne odhalí, keď niekoho zoštíhlite.

Navrhujú však, že matovanie portrétov a prelínanie pozadia pomocou textúrnej inferencie by mohli triviálne vyriešiť problém obnovenia častí sveta, ktoré boli predtým skryté v obraze ľudskou „nedokonalosťou“.

Navrhované riešenie na obnovenie pozadia, ktoré odhalila redukcia tuku poháňaná AI.

Navrhované riešenie na obnovenie pozadia, ktoré odhalila redukcia tuku poháňaná AI.

 

* Hoci predtlač odkazuje na doplnkový materiál, ktorý poskytuje ďalšie podrobnosti o súbore údajov, ako aj ďalšie príklady z projektu, umiestnenie tohto materiálu nie je v novinách k dispozícii a príslušný autor zatiaľ neodpovedal na našu žiadosť o prístup. .

Prvýkrát publikované 10. marca 2022.