Tekoäly
Väärennös ‘paremmat’ kehot AI:n avulla

Uusi tutkimus Alibaba DAMO -akatemialta tarjoaa AI-vetoinen työnkulun kehonmuotojen muokkaamiseen – harvinainen ponnistus tietokoneen näön alalla, joka on tällä hetkellä keskittynyt kasvojen perusteella tapahtuviin manipulaatioihin, kuten deepfake ja GAN-pohjaisiin kasvojen muokkauksiin.

Inset in ‘result’ columns, the generated attention maps which define the areas to be amended. Source: https://arxiv.org/pdf/2203.04670.pdf
Tutkijoiden arkkitehtuuri käyttää luurankopose-estimaattia käsitelläkseen suurempaa monimutkaisuutta, jota kuvansynteesi- ja muokkausjärjestelmät kohtaavat kehonkuville ja parametrin määrittelyssä, ainakin taso, joka sallii merkityksellisen ja valikoivan muokkaamisen.

Estimated skeleton maps help to individuate and focus attention on areas of the body likely to be retouched, such as the upper arm area.
Järjestelmä mahdollistaa lopulta käyttäjälle asettaa parametreja, jotka voivat muuttaa kehon ulkonäköä, kuten painoa, lihasmassaa tai painon jakautumista täyspitkissä tai puolipitkissä valokuvissa, ja pystyy generoimaan mielivaltaisia muodonmuutoksia vaatetusosilla tai alusvaatteilla.

Left, the input image; middle, a heat-map of the derived attention areas; right, the transformed image.
Työn motivaatio on automaattisten työnkulkujen kehittäminen, jotka voivat korvata vaativat digitaaliset manipulaatiot, joita valokuvaajat ja tuotantografiikka-artistit tekevät eri mediabranchesissa, muodista aikakauslehtien tyyppisiin julkaisuihin ja julkisuusmateriaaleihin.
Yleensä ottaen tutkijat myöntävät, että nämä muodonmuutokset sovelletaan yleensä “warp”-tekniikoilla Photoshopissa ja muissa perinteisissä bitmap-muokkausohjelmissa, ja ne käytetään lähes yksinomaan naisten kuvissa. Sen vuoksi tutkijoiden kehittämä mukautettu tietokanta koostuu pääasiassa naisten valokuvista:
‘Koska kehonmuokkaus on pääasiassa naisten toive, suurin osa kokoelmastamme on naisten valokuvia, jotka otettiin huomioon ikä, rotu, asennot ja vaatetus.’
Artikkeli on otsikoitu Rakenteen tunnistava virtausgeneraattori ihmiskehon muokkaamiseksi, ja se on kirjoitettu viideltä Alibaba:n globaalin DAMO-akatemian tutkijalta.
Tietokannan kehittäminen
Kuten yleensä tapahtuu kuvansynteesi- ja muokkausjärjestelmissä, arkkitehtuuri vaati mukautetun koulutustietokannan. Tutkijat tilasivat kolmelta valokuvaajalta, jotka tuottivat standardit Photoshop-muokkaukset soveltuville kuvista Unsplash-valokuvapalvelusta, ja tuloksena oli tietokanta – nimeltään BR-5K* – 5000 korkealaatuista kuvaa 2K-resoluutiolla.
Tutkijat korostavat, että koulutuksen tavoitteena ei ole tuottaa “ihannetun” ja yleistettyjä ominaisuuksia, jotka liittyvät esteettisiin tai toivottuihin ominaisuuksiin, vaan pikemminkin poistaa keskeiset ominaisuudet, jotka liittyvät ammattimaiseen kehonkuvien muokkaamiseen.
Kuitenkin he myöntävät, että muokkaukset lopulta heijastavat muodonmuutoksia, jotka kuvaavat siirtymisen “todellisesta” “ihannetta” kohti:
‘Kutsuimme kolme ammattitaiteilijaa muokkaamaan kehoja Photoshopilla itsenäisesti, tavoitteena saavuttaa hoikkat ja esteettiset muodot, ja valitsimme parhaan niistä alkuperäisiksi.’
Koska järjestelmä ei käsittele kasvoja lainkaan, ne peitettiin ennen kuin ne lisättiin tietokantaan.
Arkkitehtuuri ja keskeiset käsitteet
Järjestelmän työnkulku sisältää syötteen korkearesoluutioisen muotokuvan, alasäätelyn alemmaksi resoluutioksi, joka sopii saatavilla oleviin laskentaresursseihin, ja poistaa arvioitua luurankopose-kartan (toinen kuva vasemmalta), sekä Part Affinity Fields (PAF), jotka keksittiin vuonna 2016 The Robotics Institute -yliopistossa Carnegie Mellon -yliopistossa (katso video alla).
Part Affinity Fields auttavat määrittämään raajojen suunnan ja yleisen liittymisen laajempaan luurankorakenteeseen, tarjoamalla uudelle hankkeelle lisää huomion ja lokalisaatiotyökaluja.

From the 2016 Part Affinity Fields paper, predicted PAFs encode limb orientation as part of a 2D vector that also includes the general position of the limb. Source: https://arxiv.org/pdf/1611.08050.pdf
Vaikka ne näyttävät olevan merkityksettömiä kehon ulkonäön kannalta, luurankokartat ovat hyödyllisiä lopullisten muodonmuutosten ohjaamisessa kehon osiin, jotka on muutettava, kuten yläraajat, takamuksat ja reidet.
Tämän jälkeen tulokset syötetään Structure Affinity Self-Attention (SASA) -keskibottleneck-prosessiin (katso kuva alla).

SASA säätelee virtausgeneraattorin johdonmukaisuutta, jonka tulokset syötetään sitten muodonmuutosmoduuliin (toinen oikealta kuvassa), joka soveltaa opittuja muodonmuutoksia koulutusaineistosta.

The Structure Affinity Self-Attention (SASA) module allocates attention to pertinent body parts, helping to avoid extraneous or irrelevant transformations.
Lopullinen kuva upsampled takaisin alkuperäiseen 2K-resoluutioon, käyttäen prosesseja, jotka eivät ole juurikaan poikkeavia vuoden 2017 tyypillisestä deepfake-arkkitehtuurista, josta suositut paketit kuten DeepFaceLab on johdettu; upsample-prosessi on myös yleinen GAN-muokkauskehyksissä.
Huomionverkko skeemalle on mallinnettu Compositional De-Attention Networks (CODA) mukaan, joka on vuoden 2019 yhdysvaltalais-singaporelainen akateeminen yhteistyö Amazon AI:n ja Microsoftin kanssa.
Testit
Virtauspohjainen kehys testattiin aiempien virtauspohjaisten menetelmien FAL ja Animating Through Warping (ATW) kanssa, sekä kuvansiirtomenetelmien Pix2PixHD ja GFLA kanssa, SSIM, PSNR ja LPIPS arviointimittareina.

Results of initial tests (arrow direction in headers indicates whether lower or higher figures are best).
Näiden otettujen mittareiden perusteella tutkijoiden järjestelmä ylittää aiemmat arkkitehtuurit.

Selected results. Please refer to the original PDF linked in this article for higher resolution comparisons.
Lisäksi automaattisiin mittareisiin tutkijat suorittivat käyttäjätutkimuksen (viimeinen sarakkeen tulokset taulukossa), jossa 40 osanottajaa näyttiin 30 kysymystä satunnaisesti valittuna 100-kysymyksen joukosta, jotka liittyivät tuotettuihin kuviin eri menetelmillä. 70 % vastaajista suosi uutta tekniikkaa “näyttävämmäksi”.
Haasteet
Uusi artikkeli edustaa harvinaista ekskursiota AI-pohjaiseen kehon manipulaatioon. Kuvansynteesiala on tällä hetkellä enemmän kiinnostunut joko kehon luomisesta menetelmillä kuten Neural Radiance Fields (NeRF) tai sitten tutkii GANien latenttiluvun ja autoenkooderien potentiaalia kasvojen manipulaatioon.
Tutkijoiden aloite on tällä hetkellä rajoitettu tuottamaan muutoksia havaittuun painoon, eivätkä he ole toteuttaneet mitään täytäntöönpanomenetelmää, joka voisi palauttaa taustan, joka on paljastunut, kun kuva henkilöstä on “slimattu”.
Kuitenkin he ehdottavat, että muotokuvaus ja taustan sekoittaminen tekstuaalisen inferenssin kautta voisi ratkaista ongelman palauttaa maailman osat, jotka olivat aiemmin piilossa kuvassa “inhimillisen epätäydellisyyden” takia.

A proposed solution for restoring background that’s revealed by AI-driven fat reduction.
* Vaikka esipainos viittaa lisämateriaaliin, joka antaa tarkempia tietoja tietokannasta ja lisää esimerkkejä hankkeesta, tämän materiaalin sijainti ei ole saatavilla artikkelissa, ja vastaavan kirjoittajan ei ole vielä vastannut pyyntöön pääsystä.
Julkaistu ensimmäisen kerran 10. maaliskuuta 2022.










