Umělá inteligence

Předstírání „lepších“ těl pomocí AI

aktualizováno on 9. prosince 2022

Nový výzkum z akademie Alibaba DAMO nabízí pracovní postup řízený umělou inteligencí pro automatizaci přetváření obrazů těl – vzácné úsilí v sektoru počítačového vidění, kterým se v současnosti zabýváme. manipulace založené na obličeji jako deepfakes a založené na GAN úprava obličeje.

Do sloupců „výsledků“ vložte vygenerované mapy pozornosti, které definují oblasti, které mají být změněny. Zdroj: https://arxiv.org/pdf/2203.04670.pdf

Architektura výzkumníků využívá odhad pozice kostry, aby se vypořádala s větší složitostí, které systémy syntézy a editace obrazu čelí při konceptualizaci a parametrizaci existujících obrazů těla, alespoň na úroveň granularity, která ve skutečnosti umožňuje smysluplné a selektivní úpravy.

Odhadované mapy koster pomáhají individualizovat a zaměřit pozornost na oblasti těla, které budou pravděpodobně retušovány, jako je oblast nadloktí.

Systém v konečném důsledku umožňuje uživateli nastavit parametry, které mohou změnit vzhled hmotnosti, svalové hmoty nebo rozložení hmotnosti na celovečerních nebo středně dlouhých fotografiích lidí, a je schopen generovat libovolné transformace na oděné nebo oděné části těla.

Vlevo vstupní obrázek; střední, tepelná mapa odvozených oblastí pozornosti; vpravo, transformovaný obrázek.

Motivací pro práci je vývoj automatizovaných pracovních postupů, které by mohly nahradit náročné digitální manipulace fotografů a produkčních grafiků v různých odvětvích médií, od módy po výstupy ve stylu časopisů a propagační materiál.

Autoři obecně uznávají, že tyto transformace jsou obvykle aplikovány pomocí „warp“ technik ve Photoshopu a dalších tradičních bitmapových editorech a jsou téměř výhradně používány na obrázcích žen. V důsledku toho vlastní datový soubor vyvinutý pro usnadnění nového procesu sestává většinou z obrázků ženských subjektů:

"Vzhledem k tomu, že retušování těla požadují především ženy, většinu naší sbírky tvoří ženské fotografie s ohledem na různorodost věku, ras (Africká:Asijská:Kavkazská = 0.33:0.35:0.32), póz a oděvů."

Projekt papír je s názvem Generování toku s vědomím struktury pro přetváření lidského těla, a pochází od pěti autorů spojených s globální akademií DAMO společnosti Alibaba.

Vývoj datové sady

Jak je to obvykle u systémů pro syntézu a úpravu obrazu, architektura projektu vyžadovala přizpůsobený tréninkový soubor dat. Autoři pověřili tři fotografy, aby vytvořili standardní Photoshop manipulace s vhodnými obrázky z webu Unsplash pro fotografie, což vedlo k datovému souboru – s názvem BR-5K* – 5,000 2 vysoce kvalitních snímků v rozlišení XNUMXK.

Výzkumníci zdůrazňují, že cílem školení na tomto datovém souboru není vytvářet „idealizované“ a zobecněné rysy související s indexem atraktivity nebo žádoucího vzhledu, ale spíše extrahovat mapování centrálních rysů spojené s profesionálními manipulacemi s obrázky těla.

Připouštějí však, že manipulace v konečném důsledku odrážejí transformační procesy, které mapují progresi od „skutečného“ k předem stanovenému pojmu „ideální“:

"Vyzýváme tři profesionální umělce, aby nezávisle na sobě retušovali těla pomocí Photoshopu s cílem dosáhnout štíhlých postav, které odpovídají populární estetice, a vybrat to nejlepší jako základní pravdu."

Vzhledem k tomu, že framework se vůbec nezabývá tvářemi, byly před zahrnutím do datové sady rozmazány.

Architektura a základní koncepty

Pracovní postup systému zahrnuje vložení portrétu s vysokým rozlišením, jeho převzorkování na nižší rozlišení, které se vejde do dostupných výpočetních zdrojů, a extrahování odhadované pozice kostry (druhý obrázek zleva na obrázku níže), stejně jako pole afinity součástí. (PAF), které byly inovovaný v roce 2016 The Robotics Institute na Carnegie Mellon University (viz video vložené přímo níže).

2D odhad lidské pozice pro více osob v reálném čase pomocí polí afinity k dílu, CVPR 2017 ústní

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

Part Affinity Fields pomáhají definovat orientaci končetin a obecnou asociaci s širší kostrou a poskytují novému projektu další nástroj pro pozornost/lokalizaci.

Z dokumentu Part Affinity Fields z roku 2016 předpokládané PAF kódují orientaci končetiny jako součást 2D vektoru, který také zahrnuje obecnou polohu končetiny. Zdroj: https://arxiv.org/pdf/1611.08050.pdf

Navzdory jejich zjevné irelevantnosti pro vzhled hmotnosti jsou mapy skeletu užitečné při nasměrování konečných transformačních procesů na části těla, které mají být upraveny, jako jsou horní paže, zadní část a stehna.

Poté jsou výsledky přiváděny do Structure Affinity Self-Attention (SASA) v centrálním úzkém hrdle procesu (viz obrázek níže).

SASA reguluje konzistenci generátoru toku, který podporuje proces, jehož výsledky jsou poté předány modulu deformace (druhý zprava na obrázku výše), který aplikuje transformace získané při školení na ruční revize zahrnuté v datové sadě. .

Modul Structure Affinity Self-Attention (SASA) přiděluje pozornost příslušným částem těla, čímž pomáhá vyhnout se vnějším nebo irelevantním transformacím.

Výstupní obraz je následně převzorkován zpět na původní rozlišení 2K pomocí procesů ne nepodobných standardní deepfake architektuře ve stylu 2017, z níž byly od té doby odvozeny oblíbené balíčky jako DeepFaceLab; proces převzorkování je také běžný v GAN editačních rámcích.

Síť pozornosti pro schéma je modelována podle Compositional De-Attention Networks (CODA), akademická spolupráce mezi USA a Singapurem v roce 2019 s Amazon AI a Microsoftem.

Zkoušky

Rámec založený na toku byl testován proti dřívějším metodám založeným na toku FAL a animace prostřednictvím pokřivení (ATW), stejně jako architektury překladu obrázků Pix2PixHD a GFLAs SSIM, PSNR a LPIPS jako hodnotící metriky.

Výsledky počátečních testů (směr šipky v záhlaví ukazuje, zda jsou nejlepší nižší nebo vyšší hodnoty).

Na základě těchto přijatých metrik systém autorů překonává předchozí architektury.

Vybrané výsledky. Porovnání s vyšším rozlišením naleznete v původním souboru PDF, na který odkazuje tento článek.

Kromě automatizovaných metrik provedli výzkumníci uživatelskou studii (poslední sloupec tabulky výsledků na obrázku výše), kde bylo každému 40 účastníkům ukázáno 30 náhodně vybraných otázek ze souboru 100 otázek týkajících se obrázků vytvořených různými metodami. 70 % respondentů preferovalo novou techniku jako „vizuálně přitažlivější“.

Výzvy

Nový článek představuje vzácnou exkurzi do manipulace s tělem na základě umělé inteligence. Sektor syntézy obrazu se v současnosti mnohem více zajímá buď o generování upravitelných těl pomocí metod, jako je Neural Radiance Fields (NeRF), nebo se zaměřuje na zkoumání latentního prostoru GAN a potenciálu autoenkodérů pro manipulaci s obličejem.

Iniciativa autorů se v současnosti omezuje na vytváření změn ve vnímané hmotnosti a neimplementovali žádnou techniku malby, která by obnovila pozadí, které se nevyhnutelně odhalí, když něčí obrázek zeštíhlíte.

Navrhují však, že matování portrétů a prolnutí pozadí prostřednictvím texturálního odvození by mohly triviálně vyřešit problém obnovy částí světa, které byly dříve v obraze skryty lidskou „nedokonalostí“.

Navrhované řešení pro obnovení pozadí, které bylo odhaleno snížením tuku řízené umělou inteligencí.

* Ačkoli předtisk odkazuje na doplňkový materiál poskytující více podrobností o datovém souboru, stejně jako další příklady z projektu, umístění tohoto materiálu není v dokumentu k dispozici a odpovídající autor dosud neodpověděl na naši žádost o přístup .

Poprvé publikováno 10. března 2022.

Související témata:deepfake Deepfakes syntéza obrazu výzkum

Nahoru Další

Generování a identifikace propagandy pomocí strojového učení

Nenechte si ujít

Výzkum naznačuje vztah mezi počítačovými čipy a genovou syntézou

Martin Anderson

Autor o strojovém učení, umělé inteligenci a velkých datech.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai

Unite.AI

Předstírání „lepších“ těl pomocí AI

Umělá inteligence