Artificiell intelligens

Fejkar "bättre" kroppar med AI

Uppdaterad on December 9, 2022

Ny forskning från Alibaba DAMO-akademin erbjuder ett AI-drivet arbetsflöde för att automatisera omformningen av bilder av kroppar – en sällsynt ansträngning i en datorseendesektor som för närvarande är sysselsatt med ansiktsbaserade manipulationer såsom deepfakes och GAN-baserade ansiktsredigering.

Infoga i 'resultatkolumner', de genererade uppmärksamhetskartorna som definierar de områden som ska ändras. Källa: https://arxiv.org/pdf/2203.04670.pdf

Forskarnas arkitektur använder skelettets ställningsuppskattning för att ta itu med den större komplexiteten som bildsyntes och redigeringssystem möter när det gäller att konceptualisera och parametrisera befintliga kroppsbilder, åtminstone till en granularitetsnivå som faktiskt tillåter meningsfull och selektiv redigering.

Uppskattade skelettkartor hjälper till att individualisera och fokusera uppmärksamheten på områden av kroppen som sannolikt kommer att retuscheras, såsom överarmsområdet.

Systemet gör det slutligen möjligt för en användare att ställa in parametrar som kan ändra utseendet på vikt, muskelmassa eller viktfördelning i fullängds- eller mellanlängdsfoton av människor, och kan generera godtyckliga transformationer på klädda eller oklädda kroppssektioner.

Till vänster, ingångsbilden; mitten, en värmekarta över de härledda uppmärksamhetsområdena; höger, den transformerade bilden.

Motivationen för arbetet är utvecklingen av automatiserade arbetsflöden som kan ersätta de mödosamma digitala manipulationer som fotografer och produktionsgrafiker utför inom olika grenar av media, från mode till tidningsliknande produktion och publicitetsmaterial.

I allmänhet, erkänner författarna, tillämpas dessa transformationer vanligtvis med "warp"-tekniker i Photoshop och andra andra traditionella bitmappsredigerare och används nästan uteslutande på bilder av kvinnor. Följaktligen består den anpassade dataset som utvecklats för att underlätta den nya processen till största delen av bilder på kvinnliga försökspersoner:

"Eftersom kroppsretuschering främst önskas av kvinnor är majoriteten av vår kollektion kvinnliga foton, med tanke på mångfalden av åldrar, raser (afrikanska:asiatiska:kaukasiska = 0.33:0.35:0.32), poser och plagg."

Smakämnen papper har titeln Strukturmedveten flödesgenerering för omformning av människokroppen, och kommer från fem författare associerade med Alibabas globala DAMO-akademi.

Datauppsättning utveckling

Som vanligtvis är fallet med bildsyntes och redigeringssystem, krävde arkitekturen för projektet en anpassad utbildningsdatauppsättning. Författarna gav tre fotografer i uppdrag att producera vanliga Photoshop-manipulationer av passande bilder från stockfotograferingssajten Unsplash, vilket resulterade i en datauppsättning – med titeln BR-5K* – av 5,000 2 högkvalitativa bilder i XNUMXK-upplösning.

Forskarna betonar att syftet med att träna på denna datauppsättning inte är att producera "idealiserade" och generaliserade egenskaper som hänför sig till ett index för attraktionskraft eller önskvärt utseende, utan snarare att extrahera de centrala kartläggningarna som är förknippade med professionella manipulationer av kroppsbilder.

Men de medger att manipulationerna i slutändan återspeglar transformativa processer som kartlägger en utveckling från "verklig" till en förinställd föreställning om "ideal":

"Vi bjuder in tre professionella artister att retuschera kroppar med Photoshop oberoende, med målet att uppnå smala figurer som möter den populära estetiken, och välja den bästa som grundsanning."

Eftersom ramverket inte behandlar ansikten alls, suddades dessa ut innan de inkluderades i datasetet.

Arkitektur och kärnkoncept

Systemets arbetsflöde innebär att mata in ett högupplöst porträtt, nedsampla det till en lägre upplösning som kan passa in i de tillgängliga datorresurserna, och extrahera en uppskattad skelettkartaposition (andra figuren från vänster i bilden nedan), såväl som delaffinitetsfält (PAFs), som var förnyat 2016 av The Robotics Institute vid Carnegie Mellon University (se video inbäddad direkt nedan).

Realtidsuppskattning av flerpersoners 2D-mänsklig position med hjälp av delaffinitetsfält, CVPR 2017 Oral

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

Del Affinity Fields hjälper till att definiera riktningen för lemmar och allmän association med det bredare skelettet, vilket ger det nya projektet ett extra uppmärksamhets-/lokaliseringsverktyg.

Från 2016 Part Affinity Fields-dokumentet kodar förutspådda PAF:er lemorientering som en del av en 2D-vektor som också inkluderar lemmens allmänna position. Källa: https://arxiv.org/pdf/1611.08050.pdf

Trots deras uppenbara irrelevans för viktens utseende, är skelettkartor användbara för att styra de sista transformativa processerna till delar av kroppen som ska ändras, såsom överarmar, bak och lår.

Efter detta matas resultaten till en Structure Affinity Self-Attention (SASA) i den centrala flaskhalsen av processen (se bilden nedan).

SASA reglerar konsistensen av flödesgeneratorn som bränsle till processen, vars resultat sedan skickas till warping-modulen (andra från höger i bilden ovan), som tillämpar de transformationer som lärts från träning på de manuella revisionerna som ingår i datasetet .

Modulen Structure Affinity Self-Attention (SASA) tilldelar uppmärksamhet till relevanta kroppsdelar, vilket hjälper till att undvika främmande eller irrelevanta transformationer.

Utdatabilden samplas sedan tillbaka till den ursprungliga 2K-upplösningen, med hjälp av processer som inte skiljer sig från standarden, 2017-stil deepfake-arkitekturen från vilken populära paket som DeepFaceLab sedan har härletts; uppsamplingsprocessen är också vanlig i GAN-redigeringsramverk.

Uppmärksamhetsnätverket för schemat är modellerat efter Kompositionella de-attention-nätverk (KODA), ett akademiskt samarbete mellan USA och Singapore 2019 med Amazon AI och Microsoft.

Tester

Det flödesbaserade ramverket testades mot tidigare flödesbaserade metoder FAL och animera genom skevning (ATW), samt bildöversättningsarkitekturer Pix2PixHD och GFLA, med SSIM, PSNR och LPIPS som utvärderingsmått.

Resultat av initiala tester (pilens riktning i rubrikerna anger om lägre eller högre siffror är bäst).

Baserat på dessa antagna mått överträffar författarnas system de tidigare arkitekturerna.

Valda resultat. Se den ursprungliga PDF-filen som länkas till i den här artikeln för jämförelser med högre upplösning.

Utöver de automatiserade mätvärdena genomförde forskarna en användarstudie (sista kolumnen i resultattabellen på bilden tidigare), där 40 deltagare fick var och en visade 30 frågor slumpmässigt utvalda från en pool med 100 frågor som rör bilderna som producerats via de olika metoderna. 70 % av de tillfrågade föredrog den nya tekniken som mer "visuellt tilltalande".

Utmaningar

Den nya uppsatsen representerar en sällsynt utflykt till AI-baserad kroppsmanipulation. Bildsyntessektorn är för närvarande mycket mer intresserad av att antingen generera redigerbara kroppar via metoder som Neural Radiance Fields (NeRF), eller så är den fixerad på att utforska det latenta utrymmet hos GAN och potentialen hos autokodare för ansiktsmanipulation.

Författarnas initiativ är för närvarande begränsat till att producera förändringar i upplevd vikt, och de har inte implementerat någon form av målningsteknik som skulle återställa bakgrunden som oundvikligen avslöjas när du bantar en bild av någon.

Men de föreslår att porträttmattning och bakgrundsblandning genom textural slutledning trivialt skulle kunna lösa problemet med att återställa de delar av världen som tidigare gömdes i bilden av mänsklig "ofullkomlighet".

En föreslagen lösning för att återställa bakgrunden som avslöjas av AI-driven fettminskning.

* Även om förtrycket hänvisar till kompletterande material som ger mer information om datamängden, såväl som ytterligare exempel från projektet, finns inte platsen för detta material tillgängligt i tidningen, och motsvarande författare har ännu inte svarat på vår begäran om åtkomst .

Första gången publicerad 10 mars 2022.