Kunstig intelligens
Faking ‘Bedre’ Kropper Med AI

Ny forskning fra Alibaba DAMO-akademiet tilbyr en AI-drevet arbeidsflyt for automatisering av omformingen av bilder av kropper – en sjelden innsats i et datavisjonssektor som for tiden er dominert av ansiktsbaserte manipulasjoner som deepfakes og GAN-basert ansiktsredigering.

Innsatt i ‘result’ kolonner, de genererte oppmerksomhetskartene som definerer områdene som skal endres. Kilde: https://arxiv.org/pdf/2203.04670.pdf
Forskerne sin arkitektur bruker skjelett-pose-estimering for å takle den større kompleksiteten som bilde-syntese- og redigerings-systemer møter i å konseptualisere og parametrisere eksisterende kropps-bilder, til en viss grad av granularitet som faktisk tillater meningsfull og selektiv redigering.

Estimerte skjelett-kart hjelper til å individuere og fokusere oppmerksomhet på områder av kroppen som sannsynligvis vil bli retusjert, som overarm-området.
Systemet muliggjør til slutt at en bruker kan sette parametre som kan endre utseendet av vekt, muskelmasse eller vektfordeling i full-lengde eller mid-lengde bilder av mennesker, og kan generere vilkårlige transformasjoner på kledd eller ukledd kroppsdeler.

Venstre, innputt-bildet; midten, en varme-kart over de avledede oppmerksomhets-områdene; høyre, den transformerte bildet.
Motivasjonen for arbeidet er utviklingen av automatiserte arbeidsflyter som kan erstatte de omfattende digitale manipulasjoner som utføres av fotografer og produksjonsgrafikere i ulike grener av media, fra mote til magasin-stil og publisitetsmateriell.
Generelt, erkjenner forfatterne, blir disse transformasjonene vanligvis anvendt med ‘warp’-teknikker i Photoshop og andre tradisjonelle bitmap-redigeringsverktøy, og brukes nesten eksklusivt på bilder av kvinner. Derfor består den tilpassede datasetten utviklet for å muliggjøre den nye prosessen hovedsakelig av bilder av kvinnelige subjekter:
‘Ettersom kroppsretusjering hovedsakelig er ønsket av kvinner, består majoriteten av vår samling av kvinnelige fotos, med tanke på mangfoldet av alder, rase (Afrikaner:Asiater:Kaukasier = 0,33:0,35:0,32), posisjoner og klær.’
Artikkelen papiret har tittelen Structure-Aware Flow Generation for Human Body Reshaping, og kommer fra fem forfattere tilknyttet Alibabas globale DAMO-akademi.
Datasett-utvikling
Som vanlig er tilfelle med bilde-syntese- og redigerings-systemer, krevde arkitekturen for prosjektet en tilpasset trening-datasett. Forfatterne engasjerte tre fotografer til å produsere standard Photoshop-manipulasjoner av passende bilder fra stock-fotografi-nettstedet Unsplash, med resultatet av en datasett – tittel BR-5K* – på 5 000 høykvalitets-bilder i 2K-oppløsning.
Forskerne understreker at målet med trening på denne datasetten ikke er å produsere ‘idealiserende’ og generaliserte trekk relatert til en indeks av tiltrekningskraft eller ønsket utseende, men heller å trekke ut de sentrale funksjons-mappingene assosiert med profesjonelle manipulasjoner av kropps-bilder.
Men de innrømmer at manipulasjonene til slutt reflekterer transformative prosesser som kartlegger en progresjon fra ‘reell’ til en forhåndsbestemt forestilling om ‘ideell’:
‘Vi inviterer tre profesjonelle kunstnere til å retusjere kropper ved hjelp av Photoshop uavhengig, med målet om å oppnå slanke figurer som møter den populære estetikken, og velger den beste en som grunn-sannhet.’
Ettersom rammen ikke omhandler ansikter i det hele tatt, ble disse uskarpt før de ble inkludert i datasetten.
Arkitektur og kjernekonsepter
Systemets arbeidsflyt innebærer å mata inn et høyoppløst portrett, nedprøve det til en lavere oppløsning som kan passe inn i de tilgjengelige beregningsressursene, og trekke ut en estimert skjelett-kart-pose (andre figur fra venstre i bildet nedenfor), samt Part Affinity Fields (PAF), som ble innovert i 2016 av The Robotics Institute ved Carnegie Mellon University (se video innlejret direkte nedenfor).
Part Affinity Fields hjelper til å definere orienteringen av lemmer og generell assosiasjon med den bredere skjelett-rammen, og gir prosjektet med et ekstra oppmerksomhets-/lokalisering-verktøy.

Fra 2016 Part Affinity Fields-papiret, predikerte PAF-er koder lem-orientering som en del av en 2D-vektor som også inkluderer den generelle posisjonen til lemmen. Kilde: https://arxiv.org/pdf/1611.08050.pdf
Til tross for deres åpenbare irrelevans for utseendet av vekt, er skjelett-kart nyttige i å rette de endelige transformative prosessene til deler av kroppen som skal endres, som overarmer, bakre og lår.
Etter dette, mates resultatene til en Structure Affinity Self-Attention (SASA) i den sentrale flasken i prosessen (se bildet nedenfor).

SASA-regulerer konsistensen av flow-generatoren som driver prosessen, og resultatene blir deretter sendt til warp-modulen (andre fra høyre i bildet ovenfor), som anvender transformasjonene lært fra trening på de manuelle revisjonene inkludert i datasetten.

Structure Affinity Self-Attention (SASA)-modulen allokerer oppmerksomhet til relevante kroppsdelene, og hjelper til å unngå unødvendige eller irrelevante transformasjoner.
Utgangs-bildet blir deretter oppsamplet tilbake til den opprinnelige 2K-oppløsningen, ved hjelp av prosesser som ikke er så forskjellige fra standard, 2017-stil deepfake-arkitektur fra hvilken populære pakker som DeepFaceLab har siden blitt avledet; oppsampningsprosessen er også vanlig i GAN-redigerings-rammeverk.
Oppmerksomhets-nettverket for skjemaet er modellert etter Compositional De-Attention Networks (CODA), en 2019 US/Singapore-akademisk samarbeid med Amazon AI og Microsoft.
Tester
Flow-basert ramme ble testet mot tidligere flow-baserte metoder FAL og Animating Through Warping (ATW), samt bilde-oversettelses-arkitekturer Pix2PixHD og GFLA, med SSIM, PSNR og LPIPS som evaluering-mål.

Resultater av initielle tester (pil-retning i overskrifter indikerer om lavere eller høyere verdier er best).
Basert på disse adopterte målene, overgår forfatterens system de tidligere arkitekturer.

Utvalgte resultater. Vennligst se den opprinnelige PDF-lenken i denne artikkelen for høyere oppløsningssammenligninger.
I tillegg til de automatiske målene, utførte forskerne en bruker-undersøkelse (siste kolonne av resultater-tabellen avbildet tidligere), hvor 40 deltakere hver ble vist 30 spørsmål tilfeldig valgt fra en 100-spørsmåls-pool relatert til bildene produsert via de ulike metodene. 70% av respondentene foretrakk den nye teknikken som mer ‘visuelt tiltalende’.
Utlendingsproblemer
Den nye artikkelen representerer en sjelden utflukt i AI-basert kropp-manipulasjon. Bilde-syntese-sektoren er for tiden langt mer interessert i å generere editable kropper via metoder som Neural Radiance Fields (NeRF), eller er fiksert på å utforske den latente rommet til GAN-er og potensialet til auto-encodere for ansikts-manipulasjon.
Forfatterens initiativ er for tiden begrenset til å produsere endringer i oppfattet vekt, og de har ikke implementert noen form for inpainting-teknikk som ville gjenopprette bakgrunnen som uunngåelig blir avdekket når du slimmer ned et bilde av noen.
Men de foreslår at portrett-matting og bakgrunn-blanding gjennom tekstur-inferens kunne trivialt løse problemet med å gjenopprette deler av verden som tidligere var skjult i bildet av menneskelig ‘imperfeksjon’.

En foreslått løsning for å gjenopprette bakgrunn som avdekkes av AI-drevet fedme-reduksjon.
* Selv om forhånds-utgaven henviser til supplementær materiale som gir mer detaljer om datasetten, samt ytterligere eksempler fra prosjektet, er plasseringen av dette materialet ikke tilgjengelig i papiret, og den tilhørende forfatteren har ikke ennå svart på vår forespørsel om tilgang.
Publisert første gang 10. mars 2022.










