stubs “Labāku” ķermeņa viltošana ar mākslīgo intelektu — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

“Labāku” ķermeņu viltošana ar AI

mm
Atjaunināts on

Jaunais Alibaba DAMO akadēmijas pētījums piedāvā uz mākslīgo intelektu balstītu darbplūsmu, lai automatizētu ķermeņu attēlu pārveidošanu — tas ir rets darbs datorredzes nozarē, kurā pašlaik ir sejas manipulācijas piemēram, dziļi viltojumi un GAN bāzes sejas rediģēšana.

Iekļauts 'rezultāta' kolonnās, ģenerētās uzmanības kartes, kas nosaka grozāmās jomas. Avots: https://arxiv.org/pdf/2203.04670.pdf

Iekļauts 'rezultāta' kolonnās, ģenerētās uzmanības kartes, kas nosaka grozāmās jomas. Avots: https://arxiv.org/pdf/2203.04670.pdf

Pētnieku arhitektūrā tiek izmantota skeleta pozas aplēse, lai risinātu sarežģītību, ar kādu saskaras attēlu sintēzes un rediģēšanas sistēmas, konceptualizējot un parametrizējot esošos ķermeņa attēlus, vismaz līdz tādam precizitātes līmenim, kas faktiski ļauj veikt jēgpilnu un selektīvu rediģēšanu.

Aprēķinātās skeleta kartes palīdz individualizēt un koncentrēt uzmanību uz ķermeņa daļām, kuras varētu tikt retušētas, piemēram, augšdelma zonu.

Sistēma galu galā ļauj lietotājam iestatīt parametrus, kas var mainīt svara, muskuļu masas vai svara sadalījuma izskatu cilvēku fotogrāfijās pilna garuma vai vidēja garuma, un spēj radīt patvaļīgas transformācijas uz apģērbtiem vai neapģērbtiem ķermeņa daļām.

Pa kreisi ievades attēls; vidū, atvasināto uzmanības zonu siltuma karte; pareizi, pārveidotais attēls.

Pa kreisi ievades attēls; vidū, atvasināto uzmanības zonu siltuma karte; pareizi, pārveidotais attēls.

Darba motivācija ir automatizētu darbplūsmu izstrāde, kas varētu aizstāt smagas digitālās manipulācijas, ko veic fotogrāfi un ražošanas grafiķi dažādās plašsaziņas līdzekļu nozarēs, sākot no modes līdz žurnālu stila produkcijai un reklāmas materiāls.

Kopumā autori atzīst, ka šīs transformācijas parasti tiek izmantotas ar “velku” paņēmieniem programmā Photoshop un citos tradicionālajos bitkartes redaktoros, un tās gandrīz tikai izmanto sieviešu attēliem. Līdz ar to pielāgotā datu kopa, kas izstrādāta, lai atvieglotu jauno procesu, galvenokārt sastāv no sieviešu attēliem:

"Tā kā ķermeņa retušēšanu galvenokārt vēlas sievietes, lielākā daļa mūsu kolekcijas ir sieviešu fotogrāfijas, ņemot vērā vecumu, rasu (afrikāņu: aziātu: kaukāziešu = 0.33: 0.35: 0.32), pozu un apģērbu dažādību."

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Struktūru apzinošas plūsmas ģenerēšana cilvēka ķermeņa pārveidošanai, un nāk no pieciem autoriem, kas saistīti ar Alibaba globālo DAMO akadēmiju.

Datu kopu izstrāde

Kā parasti attēlu sintēzes un rediģēšanas sistēmu gadījumā, projekta arhitektūrai bija nepieciešama pielāgota apmācības datu kopa. Autori uzdeva trim fotogrāfiem izveidot standarta Photoshop manipulācijas ar atbilstošiem attēliem no krājuma fotogrāfiju vietnes Unsplash, kā rezultātā tika izveidota datu kopa ar nosaukumu BR-5K* – 5,000 augstas kvalitātes attēlu ar 2K izšķirtspēju.

Pētnieki uzsver, ka šīs datu kopas apmācības mērķis nav radīt "idealizētas" un vispārinātas iezīmes, kas saistītas ar pievilcības indeksu vai vēlamo izskatu, bet gan iegūt galveno iezīmju kartējumu, kas saistīts ar ķermeņa attēlu profesionālām manipulācijām.

Tomēr viņi atzīst, ka manipulācijas galu galā atspoguļo transformācijas procesus, kas iezīmē progresu no “reāla” uz iepriekš noteiktu “ideālu” jēdzienu:

"Mēs aicinām trīs profesionālus māksliniekus patstāvīgi retušēt ķermeņus, izmantojot Photoshop, lai iegūtu slaidas figūras, kas atbilst populārajai estētikai, un atlasītu labāko kā pamatpatiesību."

Tā kā sistēma vispār neattiecas uz sejām, pirms iekļaušanas datu kopā tās tika izplūdušas.

Arhitektūra un pamatjēdzieni

Sistēmas darbplūsma ietver augstas izšķirtspējas portreta padevi, tā iztveršanas samazināšanu līdz zemākai izšķirtspējai, kas var iekļauties pieejamajos skaitļošanas resursos, un aptuvenās skeleta kartes pozas izņemšanu (otrais attēls no kreisās attēlā zemāk), kā arī daļu radniecības laukus. (PAF), kas bija jauninājumiem 2016. gadā veica Kārnegija Melona universitātes Robotikas institūts (skatiet video, kas iegults tieši zemāk).

Reāllaika vairāku personu 2D cilvēka pozas novērtējums, izmantojot daļu radniecības laukus, CVPR 2017 mutiski

Daļu afinitātes lauki palīdz definēt ekstremitāšu orientāciju un vispārējo saistību ar plašāku skeleta sistēmu, nodrošinot jaunajam projektam papildu uzmanības/lokalizācijas rīku.

No 2016. gada dokumenta Part Affinity Fields prognozētie PAF kodē ekstremitāšu orientāciju kā daļu no 2D vektora, kas ietver arī ekstremitātes vispārējo stāvokli. Avots: https://arxiv.org/pdf/1611.08050.pdf

No 2016. gada dokumenta Part Affinity Fields prognozētie PAF kodē ekstremitāšu orientāciju kā daļu no 2D vektora, kas ietver arī ekstremitātes vispārējo stāvokli. Avots: https://arxiv.org/pdf/1611.08050.pdf

Neskatoties uz to acīmredzamo neatbilstību svara izskatam, skeleta kartes ir noderīgas, lai virzītu galīgos transformācijas procesus uz ķermeņa daļām, kuras jāgroza, piemēram, augšdelmiem, aizmuguri un augšstilbiem.

Pēc tam rezultāti tiek ievadīti Struktūras Affinity Self-Attention (SASA) procesa centrālajā šaurumā (skatiet attēlu zemāk).

SASA regulē plūsmas ģeneratora konsekvenci, kas veicina procesu, kura rezultāti pēc tam tiek nodoti deformācijas modulim (otrais no labās attēlā iepriekš), kas izmanto transformācijas, kas iegūtas apmācībā par datu kopā iekļautajām manuālajām pārskatīšanām. .

Struktūras Affinity Self-Attention (SASA) modulis pievērš uzmanību atbilstošām ķermeņa daļām, palīdzot izvairīties no svešām vai nebūtiskām pārvērtībām.

Struktūras Affinity Self-Attention (SASA) modulis pievērš uzmanību atbilstošām ķermeņa daļām, palīdzot izvairīties no svešām vai nebūtiskām pārvērtībām.

Pēc tam izvades attēla paraugs tiek atjaunots līdz sākotnējai 2K izšķirtspējai, izmantojot procesus, kas neatšķiras no standarta 2017. gada stila dziļās viltošanas arhitektūras, no kuras kopš tā laika ir iegūtas populāras pakotnes, piemēram, DeepFaceLab; augšējo paraugu ņemšanas process ir izplatīts arī GAN rediģēšanas ietvaros.

Uzmanības tīkls shēmai ir modelēts pēc Kompozīcijas mazināšanas tīkli (KODA), 2019. gada ASV/Singapūras akadēmiskā sadarbība ar Amazon AI un Microsoft.

Testi

Uz plūsmu balstītā sistēma tika pārbaudīta ar iepriekšējām uz plūsmu balstītām metodēm FAL un animācija caur deformāciju (ATW), kā arī attēlu tulkošanas arhitektūras Pix2PixHD un GFLA, ar SSIM, PSNR un LPIPS kā novērtēšanas metriku.

Sākotnējo pārbaužu rezultāti (bultiņas virziens galvenēs norāda, vai labākie ir zemāki vai augstāki skaitļi).

Sākotnējo pārbaužu rezultāti (bultiņas virziens galvenēs norāda, vai labākie ir zemāki vai augstāki skaitļi).

Pamatojoties uz šiem pieņemtajiem rādītājiem, autoru sistēma pārspēj iepriekšējās arhitektūras.

Atlasītie rezultāti. Lai iegūtu augstākas izšķirtspējas salīdzinājumus, lūdzu, skatiet šajā rakstā norādīto sākotnējo PDF failu.

Atlasītie rezultāti. Lai iegūtu augstākas izšķirtspējas salīdzinājumus, lūdzu, skatiet šajā rakstā norādīto sākotnējo PDF failu.

Papildus automatizētajai metrikai pētnieki veica lietotāju pētījumu (iepriekš attēlotā rezultātu tabulas beigu kolonna), kurā katram 40 dalībniekiem tika parādīti 30 jautājumi, kas nejauši atlasīti no 100 jautājumu kopas saistībā ar attēliem, kas iegūti, izmantojot dažādas metodes. 70% aptaujāto jauno paņēmienu atzina par “vizuāli pievilcīgāku”.

Izaicinājumi

Jaunais dokuments ir reta ekskursija uz AI balstītu ķermeņa manipulāciju. Attēlu sintēzes sektors pašlaik ir daudz vairāk ieinteresēts vai nu rediģējamu ķermeņu ģenerēšanā, izmantojot tādas metodes kā neironu starojuma lauki (NeRF), vai arī ir vērsta uz GAN latentās telpas un autokodētāju potenciāla izpēti sejas manipulācijām.

Autoru iniciatīva pašlaik aprobežojas ar uztvertā svara izmaiņu radīšanu, un viņi nav ieviesuši nekādu krāsošanas paņēmienu, kas atjaunotu fonu, kas neizbēgami atklājas, samazinot kāda cilvēka attēlu.

Tomēr viņi ierosina, ka portreta matēšana un fona sajaukšana, izmantojot tekstūras secinājumus, varētu triviāli atrisināt problēmu, kas saistīta ar to pasaules daļu atjaunošanas problēmu, kuras agrāk bija slēptas attēlā cilvēka "nepilnības" dēļ.

Piedāvātais risinājums fona atjaunošanai, ko atklāj AI vadīta tauku samazināšana.

Piedāvātais risinājums fona atjaunošanai, ko atklāj AI vadīta tauku samazināšana.

 

* Lai gan priekšdrukājums attiecas uz papildu materiāliem, kas sniedz sīkāku informāciju par datu kopu, kā arī citus piemērus no projekta, šī materiāla atrašanās vieta rakstā nav pieejama, un atbilstošais autors vēl nav atbildējis uz mūsu piekļuves pieprasījumu. .

Pirmo reizi publicēts 10. gada 2022. martā.