Augmented Reality

Vývojári TikTok vymazávajú tváre pre aplikácie rozšírenej reality

uverejnené

Pred 3 rokov

September 27, 2021

ByteDance, čínska nadnárodná internetová spoločnosť stojaca za TikTok, vyvinula novú metódu vymazávania tvárí vo videu, aby bolo možné ľuďom v aplikáciách rozšírenej reality vnútiť skreslenie identity a iné bizarné efekty. Spoločnosť tvrdí, že táto technika už bola integrovaná do komerčných mobilných produktov, hoci neuvádza, ktoré produkty.

Akonáhle sú tváre vo videu „vynulované“, existuje dostatok „plátna tváre“ na vytvorenie ohromujúcich skreslení, ako aj potenciálneho prekrývania iných identít. Príklady uvedené v novom článku od výskumníkov ByteDance ilustrujú možnosti vrátane obnovenia „vymazaných“ prvkov v rôznych komických (a určite aj niektorých groteskných) konfiguráciách:

Niektoré z možností pre rekonfiguráciu tváre sú zahrnuté v článku ByteDance. Zdroj: https://arxiv.org/pdf/2109.10760.pdf

Ku koncu augusta to vyšlo najavo že TikTok, prvá aplikácia mimo Facebooku dosiahnuť tri miliardy inštalácií, spustil TikTok Effect Studio (aktuálne v uzavretej beta verzii), platforma pre vývojárov rozšírenej reality (AR) na vytváranie efektov AR pre streamy obsahu TikTok.

Spoločnosť efektívne dobieha podobné komunity vývojárov na AR Studio Facebooku a Snap AR, s ctihodným Apple AR R&D komunita tiež nastavený tak, aby sa čoskoro stal pozinkovaným nový hardvér v budúcom roku.

Prázdne výrazy

papier, s názvom FaceEraser: Odstránenie častí tváre pre rozšírenú realitu, poznamenáva, že existujúce in-painting/infill algoritmy, ako napr SPADE od NVIDIA, sú viac orientované na dokončenie skrátených alebo inak poloskrytých obrázkov ako na vykonávanie tohto nezvyčajného postupu „zatemnenia“, a preto je existujúci materiál súboru údajov predvídateľne vzácny.

Keďže neexistujú žiadne dostupné súbory údajov o základnej pravde pre ľudí, ktorí majú pevnú plochu tela tam, kde by mala byť ich tvár, vedci vytvorili novú sieťovú architektúru tzv. pixel-klon, ktorý možno prekryť do existujúcich modelov neurálnej maľby a ktorý rieši problémy súvisiace s nekonzistentnosťou textúry a farieb, ktoré sa prejavujú (dosvedčuje papier) staršími metódami, ako napr. StructureFlow a EdgeConnect.

Všeobecný pracovný postup klonovania pixelov v novom potrubí.

Aby bolo možné trénovať model na „prázdnych“ tvárach, výskumníci vylúčili obrázky s okuliarmi alebo miesta, kde vlasy zakrývajú čelo, pretože oblasť medzi líniou vlasov a obočím je zvyčajne najväčšia jednotlivá skupina pixelov, ktoré môžu poskytnúť „prelepenie“. materiál pre centrálne črty tváre.

Príprava tréningových obrázkov. Oblasť čela je orezaná na základe kľúčových bodov pri rozpoznávaní zarovnania tváre, vertikálne prevrátená a zošitá.

Získa sa obrázok s rozmermi 256 × 256 pixelov, čo je dostatočne malá veľkosť na to, aby sa vložila do latentného priestoru neurónovej siete v dávkach, ktoré sú dostatočne veľké na dosiahnutie zovšeobecnenie. Neskoršie vylepšenie algoritmu obnoví rozlíšenia potrebné na prácu v priestore AR.

architektúra

Sieť sa skladá z troch vnútorných sietí, ktoré zahŕňajú dokončenie okrajov, klonovanie pixelov a sieť spresňovania. Sieť na dokončovanie okrajov využíva rovnaký druh architektúry kódovača a dekodéra, aký sa používa v EdgeConnect (pozri vyššie), ako aj v dvoch najpopulárnejších deepfake aplikáciách. Kódovače dvakrát prevzorkujú obsah obrazu a dekodéry obnovia pôvodné rozmery obrazu.

Pixel-Clone používa upravenú metodiku kódovania a dekodéra, zatiaľ čo vrstva spresňovania využíva architektúru U-Net, pôvodne vyvinutú techniku. pre biomedicínske zobrazovanie, ktorý často figuruje vo výskumných projektoch syntézy obrazu.

Počas tréningového pracovného postupu je potrebné vyhodnotiť presnosť transformácií a podľa potreby opakovať pokusy až do konvergencie. Na tento účel sa používajú dva diskriminátory na základe PatchGAN sa používajú, pričom každý z nich vyhodnocuje lokalizovaný realizmus 70 × 70 pixelov, pričom sa znižuje hodnota realizmu celého obrazu.

Školenia a údaje

Sieť dokončovania hrán je spočiatku trénovaná nezávisle, zatiaľ čo ostatné dve siete sú trénované spoločne, na základe váh, ktoré vyplynuli z trénovania dokončenia hrán, ktoré sú počas tohto postupu fixné a zmrazené.

Hoci dokument výslovne neuvádza, že jeho príklady skreslenia finálnych prvkov sú ústredným cieľom modelu, implementuje rôzne komické efekty na testovanie odolnosti systému, vrátane odstránenia obočia, zväčšených úst, zmenšených častí tváre a „toonizovaného“ efekty (ako je znázornené na predchádzajúcom obrázku vyššie).

Dokument tvrdí, že „vymazané tváre umožňujú rôzne aplikácie s rozšírenou realitou, ktoré vyžadujú umiestnenie akýchkoľvek prvkov prispôsobených používateľom“, čo naznačuje možnosť prispôsobenia tvárí pomocou prvkov tretích strán, ktoré používateľ pridal.

Model je trénovaný na maskách vytvorených spoločnosťou NVIDIA FFHQ dátový súbor, ktorý obsahuje primeranú rozmanitosť veku, etník, osvetlenia a póz a štýlov tváre na dosiahnutie užitočného zovšeobecnenia. Súbor údajov obsahuje 35,000 10,000 obrázkov a 4000 1000 tréningových masiek na vymedzenie oblastí transformácie, pričom XNUMX XNUMX obrázkov a XNUMX XNUMX masiek je vyčlenených na účely overenia.

Vzorky tréningových dát.

Natrénovaný model dokáže usudzovať na dátach z roku 2017 CelebA-HQ a VoxCeleb, neviditeľné tváre z FFHQ a akékoľvek iné neobmedzené, neviditeľné tváre, ktoré sa jej predstavia. Obrázky s rozlíšením 256 × 256 boli trénované v sieti v dávkach po 8 cez optimalizátor Adam implementovaný v PyTorch a bežiaci na GPU Tesla V100 pre „2000,000 XNUMX XNUMX epoch“.

Výsledky inferencie získané na skutočnej tvári.

Ako je bežné vo výskume syntézy obrazu na báze tváre, systém sa musí potýkať s občasnými zlyhaniami spôsobenými prekážkami alebo oklúziami, ako sú vlasy, periférne zariadenia, okuliare a ochlpenie tváre.

Správa uzatvára:

"Náš prístup bol komercializovaný a funguje dobre v produktoch pre neobmedzené vstupy používateľov."