Artificiell intelligens
Fejkar "bättre" kroppar med AI
Ny forskning från Alibaba DAMO-akademin erbjuder ett AI-drivet arbetsflöde för att automatisera omformningen av bilder av kroppar – en sällsynt ansträngning i en datorseendesektor som för närvarande är sysselsatt med ansiktsbaserade manipulationer såsom deepfakes och GAN-baserade ansiktsredigering.
Forskarnas arkitektur använder skelettets ställningsuppskattning för att ta itu med den större komplexiteten som bildsyntes och redigeringssystem möter när det gäller att konceptualisera och parametrisera befintliga kroppsbilder, åtminstone till en granularitetsnivå som faktiskt tillåter meningsfull och selektiv redigering.
Systemet gör det slutligen möjligt för en användare att ställa in parametrar som kan ändra utseendet på vikt, muskelmassa eller viktfördelning i fullängds- eller mellanlängdsfoton av människor, och kan generera godtyckliga transformationer på klädda eller oklädda kroppssektioner.
Motivationen för arbetet är utvecklingen av automatiserade arbetsflöden som kan ersätta de mödosamma digitala manipulationer som fotografer och produktionsgrafiker utför inom olika grenar av media, från mode till tidningsliknande produktion och publicitetsmaterial.
I allmänhet, erkänner författarna, tillämpas dessa transformationer vanligtvis med "warp"-tekniker i Photoshop och andra andra traditionella bitmappsredigerare och används nästan uteslutande på bilder av kvinnor. Följaktligen består den anpassade dataset som utvecklats för att underlätta den nya processen till största delen av bilder på kvinnliga försökspersoner:
"Eftersom kroppsretuschering främst önskas av kvinnor är majoriteten av vår kollektion kvinnliga foton, med tanke på mångfalden av åldrar, raser (afrikanska:asiatiska:kaukasiska = 0.33:0.35:0.32), poser och plagg."
Smakämnen papper har titeln Strukturmedveten flödesgenerering för omformning av människokroppen, och kommer från fem författare associerade med Alibabas globala DAMO-akademi.
Datauppsättning utveckling
Som vanligtvis är fallet med bildsyntes och redigeringssystem, krävde arkitekturen för projektet en anpassad utbildningsdatauppsättning. Författarna gav tre fotografer i uppdrag att producera vanliga Photoshop-manipulationer av passande bilder från stockfotograferingssajten Unsplash, vilket resulterade i en datauppsättning – med titeln BR-5K* – av 5,000 2 högkvalitativa bilder i XNUMXK-upplösning.
Forskarna betonar att syftet med att träna på denna datauppsättning inte är att producera "idealiserade" och generaliserade egenskaper som hänför sig till ett index för attraktionskraft eller önskvärt utseende, utan snarare att extrahera de centrala kartläggningarna som är förknippade med professionella manipulationer av kroppsbilder.
Men de medger att manipulationerna i slutändan återspeglar transformativa processer som kartlägger en utveckling från "verklig" till en förinställd föreställning om "ideal":
"Vi bjuder in tre professionella artister att retuschera kroppar med Photoshop oberoende, med målet att uppnå smala figurer som möter den populära estetiken, och välja den bästa som grundsanning."
Eftersom ramverket inte behandlar ansikten alls, suddades dessa ut innan de inkluderades i datasetet.
Arkitektur och kärnkoncept
Systemets arbetsflöde innebär att mata in ett högupplöst porträtt, nedsampla det till en lägre upplösning som kan passa in i de tillgängliga datorresurserna, och extrahera en uppskattad skelettkartaposition (andra figuren från vänster i bilden nedan), såväl som delaffinitetsfält (PAFs), som var förnyat 2016 av The Robotics Institute vid Carnegie Mellon University (se video inbäddad direkt nedan).
Del Affinity Fields hjälper till att definiera riktningen för lemmar och allmän association med det bredare skelettet, vilket ger det nya projektet ett extra uppmärksamhets-/lokaliseringsverktyg.
Trots deras uppenbara irrelevans för viktens utseende, är skelettkartor användbara för att styra de sista transformativa processerna till delar av kroppen som ska ändras, såsom överarmar, bak och lår.
Efter detta matas resultaten till en Structure Affinity Self-Attention (SASA) i den centrala flaskhalsen av processen (se bilden nedan).
SASA reglerar konsistensen av flödesgeneratorn som bränsle till processen, vars resultat sedan skickas till warping-modulen (andra från höger i bilden ovan), som tillämpar de transformationer som lärts från träning på de manuella revisionerna som ingår i datasetet .
Utdatabilden samplas sedan tillbaka till den ursprungliga 2K-upplösningen, med hjälp av processer som inte skiljer sig från standarden, 2017-stil deepfake-arkitekturen från vilken populära paket som DeepFaceLab sedan har härletts; uppsamplingsprocessen är också vanlig i GAN-redigeringsramverk.
Uppmärksamhetsnätverket för schemat är modellerat efter Kompositionella de-attention-nätverk (KODA), ett akademiskt samarbete mellan USA och Singapore 2019 med Amazon AI och Microsoft.
Tester
Det flödesbaserade ramverket testades mot tidigare flödesbaserade metoder FAL och animera genom skevning (ATW), samt bildöversättningsarkitekturer Pix2PixHD och GFLA, med SSIM, PSNR och LPIPS som utvärderingsmått.
Baserat på dessa antagna mått överträffar författarnas system de tidigare arkitekturerna.
Utöver de automatiserade mätvärdena genomförde forskarna en användarstudie (sista kolumnen i resultattabellen på bilden tidigare), där 40 deltagare fick var och en visade 30 frågor slumpmässigt utvalda från en pool med 100 frågor som rör bilderna som producerats via de olika metoderna. 70 % av de tillfrågade föredrog den nya tekniken som mer "visuellt tilltalande".
Utmaningar
Den nya uppsatsen representerar en sällsynt utflykt till AI-baserad kroppsmanipulation. Bildsyntessektorn är för närvarande mycket mer intresserad av att antingen generera redigerbara kroppar via metoder som Neural Radiance Fields (NeRF), eller så är den fixerad på att utforska det latenta utrymmet hos GAN och potentialen hos autokodare för ansiktsmanipulation.
Författarnas initiativ är för närvarande begränsat till att producera förändringar i upplevd vikt, och de har inte implementerat någon form av målningsteknik som skulle återställa bakgrunden som oundvikligen avslöjas när du bantar en bild av någon.
Men de föreslår att porträttmattning och bakgrundsblandning genom textural slutledning trivialt skulle kunna lösa problemet med att återställa de delar av världen som tidigare gömdes i bilden av mänsklig "ofullkomlighet".
* Även om förtrycket hänvisar till kompletterande material som ger mer information om datamängden, såväl som ytterligare exempel från projektet, finns inte platsen för detta material tillgängligt i tidningen, och motsvarande författare har ännu inte svarat på vår begäran om åtkomst .
Första gången publicerad 10 mars 2022.