Anslut dig till vÄrt nÀtverk!

Andersons vinkel

Fördelarna med att bli fet genom AI

mm
Bilder av syntetiskt förÀndrade data, frÄn artikeln 'Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping' pÄ https://arxiv.org/abs/2508.13065

Ett nytt AI-system kan realistiskt omforma mÀnniskors kroppar i foton, vilket gör dem fetare, smalare eller mer muskulösa, utan att Àndra deras ansikte, klÀder eller bakgrund. Systemet Àr trÀnat pÄ en helt syntetisk datauppsÀttning som visar varje identitet över flera kroppstyper.

 

Förutom den allt vanligare anvÀndningen av AI som metod för förfina kroppsformen pÄ sociala nÀtverk, eller (potentiellt) för att Àndra kroppstyper för visuella effekter, kan anvÀndningen av maskininlÀrning för att förÀndra individers utseende fylla en viktigare funktion: att hjÀlpa individer med Àtstörningar att förstÄ deras egen dysmorfiska tolkning av sitt utseende, samt erbjuder ett potentiellt motivationsverktyg för mer allmÀnna sport- och fitnessÀndamÄl:

FrÄn artikeln "Body size estimation in women with anorexia nervosa and healthy controls using 3D avatars", ett grafiskt grÀnssnitt för att visualisera förÀndringar i kroppsform. Individer med kroppsdysmorfi kan ha svÄrt att associera en realistisk tolkning av sin kropp med en liknande bild, vilket bland annat ger kliniker ett mÄtt pÄ dysmorfiska reaktioner. KÀlla: https://www.nature.com/articles/s41598-017-15339-z.pdf

FrÄn artikeln "Body size estimation in women with anorexia nervosa and healthy controls using 3D avatars", ett grafiskt grÀnssnitt för att visualisera förÀndringar i kroppsform. Individer med kroppsdysmorfi kan ha svÄrt att associera en realistisk tolkning av sin kropp med en liknande bild, vilket bland annat ger kliniker ett mÄtt pÄ dysmorfiska reaktioner. KÀlla: https://www.nature.com/articles/s41598-017-15339-z.pdf

Dessutom mycket efterstrÀvade modeprovningar DelstrÀngen inom datorseendeforskning har ocksÄ ett intresse av att tillhandahÄlla noggranna visualiseringar över en rad olika kroppsformer. Samtidigt har ramverk som 2024 DiffBody erbjudande frÄn Japans universitet i Tsukuba, har skapat en del hÀpnadsvÀckande funktioner inom detta omrÄde:

NÄgra av de transformationer som Àr möjliga med den tidigare DiffBody-tekniken. KÀlla: https://arxiv.org/pdf/2401.02804

NÄgra av de transformationer som Àr möjliga med den tidigare DiffBody-tekniken. KÀlla: https://arxiv.org/pdf/2401.02804

Eftersom AI-grundmodeller Àr optimerade för konventionellt attraktiva eller annars vanliga kroppsformer, Àr ovanliga storlekar som "överviktiga" antingen minimalt tillgÀngliga i standardmodeller, eller sÄ... komma med nÄgra straffande fördomar.

ParnödvÀndigheter

En av de största utmaningarna med att skapa AI-system som realistiskt kan lĂ€gga till eller ta bort fett och muskler frĂ„n bilder av individer – utan att Ă€ndra deras identitet, miljöer eller klĂ€der – Ă€r att detta innebĂ€r partrĂ€ning, dĂ€r AI-systemet effektivt lĂ€r sig "före"- och "efter"-bilder som definierar vilken transformation modellen Ă€r avsedd att utföra.

Den hÀr typen av trÀning har Äterigen blivit populÀr under sommaren tack vare framgÄngarna med Black Forest Labs. sammanhang serie bildredigeringsmodeller, dÀr den hÀr typen av parade data anvÀndes för att lÀra ut en rad transformationer till modellerna:

FrÄn Flux Kontext-webbplatsen, ett exempel pÄ en transformation som Äterspeglar den typ av kÀlldata som behövs för att trÀna en modell som kan bibehÄlla bildintegritet vid införande av större Àndringar. KÀlla: https://bfl.ai/models/flux-kontext

FrÄn Flux Kontext-webbplatsen, ett exempel pÄ en transformation som Äterspeglar den typ av kÀlldata som behövs för att trÀna en modell som kan bibehÄlla bildintegritet vid införande av större Àndringar. KÀlla: https://bfl.ai/models/flux-kontext

Det Àr uppenbart att man, om man ska utveckla en modell som avsevÀrt kan förÀndra en persons utseende (utan att omforma hela bilden), behöver nÄgot som Àr helt omöjligt i den verkliga vÀrlden: radikala "före"- och "efter"-bilder tagna med bara nÄgra sekunders mellanrum.

Den enda utvÀgen Àr syntetiska dataVissa projekt av den hÀr typen har anvÀnt individuella, högpresterande kontrastpar som skapats manuellt i Photoshop; detta Àr dock orealistiskt i stor skala, och en automatiserad eller halvautomatiserad, AI-driven process för att generera paren anses nu alltmer vara att föredra.

Problemet med GAN-baserade och mest SMPL/X-baserade metoder (dÀr en virtuell CGI-figur anvÀnds som ett slags utbytesmekanism mellan verkliga bilder och de önskade transformationerna), och med metoder som anvÀnd bildförvrÀngning, Àr att bakgrunden och identiteten tenderar att bli lidande i processen.

Parametriska, vektorbaserade CGI-modeller som SMPL och SMPL-X (bland andra) tillhandahÄller definierade konventionella fysiska 3D-koordinater som kan tolkas och införlivas i datorseenderamverk. KÀlla: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Parametriska, vektorbaserade CGI-modeller som SMPL och SMPL-X (bland andra) tillhandahÄller definierade konventionella fysiska 3D-koordinater som kan tolkas och införlivas i datorseenderamverk. KÀlla: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

Eftersom det Àr viktigt att AI:n lÀr sig att bara Àndra de önskade aspekterna, istÀllet för att lÀra sig att förvrÀnga bakgrunder och replikera andra oönskade fel, har inget kroppsförÀndrande system Ànnu kommit fram till en perfekt lösning.

En fÀrsk artikel frÄn Indien föreslÄr dock ett anmÀrkningsvÀrt framsteg jÀmfört med den senaste tekniken genom anvÀndning av den Àldre Flux diffusionsmodellramverk, utökat med ett antal sekundÀra metoder som möjliggör en överlÀgsen och mer konsekvent parad datauppsÀttning:

Exempel pÄ datamÀngder frÄn det nya projektet. KÀlla: https://arxiv.org/pdf/2508.13065

Exempel pÄ datamÀngder frÄn det nya projektet. KÀlla: https://arxiv.org/pdf/2508.13065

Projektet omfattar en ny och omfattande parad datauppsÀttning; Odo, en generativ diffusionsmodell som trÀnats pÄ dessa data; och ett skrÀddarsytt nytt riktmÀrke utformat för att kvantitativt bedöma mÀnsklig formredigeringsprestanda. I tester hÀvdar författarna ett anmÀrkningsvÀrt framsteg jÀmfört med standarder som uppnÄtts av liknande jÀmförbara modeller.

Ocuco-landskapet nytt papper har titeln Odo: Djupstyrd diffusion för identitetsbevarande kroppsomformning, och kommer frÄn tre forskare pÄ Fast Code AI Pvt. Ltd i Bangalore.

Data och metod

Datasetet som skapats av forskarna innehÄller 7,615 960 högupplösta bilder (1280xXNUMXpx) för varje mÄlkroppstyp (fett, tunnoch muskulös).

Ursprungligen genererades 1,523 XNUMX mÀnskliga ansikten genom FLUX.1-dev Diffusionsmodell pÄ 12 miljarder parametrar, dock med ett ospecificerat antal licensfria referensytor frÄn Pexels och Unsplash, för att öka mÄngfalden.

För att generera helkroppsbilder som innehÄller dessa ansikten anvÀnde forskarna ByteDances 2024-erbjudande. PuLID, en kontrollpunkt finjusterad över basflux, och med en kontrasterande ID-förlust utformad för att hjÀlpa till att bevara ansiktsidentitet under transformationsprocesser:

Exempel frÄn PuLID-projektet. KÀlla: https://arxiv.org/pdf/2404.16022

Exempel frÄn PuLID-projektet. KÀlla: https://arxiv.org/pdf/2404.16022

Modellen fick en ansiktsbild och en standardiserad frĂ„ga dĂ€r de bad om kön, KLÄDER, utgör, scen, sĂ„vĂ€l som kroppstyp av tunn, fett, eller muskulös.

De tre kroppstypsbilderna för varje identitet uppvisade ibland mindre förĂ€ndringar i bakgrundsinriktning och upplevd subjektstorlek, vilket hĂ€rrörde frĂ„n stokastisk beteende hos diffusionsmodeller, dĂ€r varje generation börjar frĂ„n en ny brus fröÄven smĂ„ förĂ€ndringar i prompten, som att Ă€ndra beskrivningen av kroppstyp, kan pĂ„verka modellens bana i latent utrymmeoch orsaka visuell drift.

För att korrigera för denna variation tillÀmpades en automatisk efterbehandlingspipeline i fyra steg, med tunn bilden i varje triplett vald som referens, eftersom dess mindre silhuett exponerade mer bakgrund.

Persondetektering utfördes med hjÀlp av RT-DETRv2, följt av segmentering med SAM 2.1 att extrahera masker för alla tre kroppstyper. tunn Referensbilden skickades sedan till FLUX.1 Kontext Pro (det nyare bildredigeringssystemet) för bakgrundsmÄlning, vilket gav en ren version av scenen, med motivet borttaget.

Ocuco-landskapet fett och muskulös varianterna Àndrades i storlek med enhetlig skalning för att matcha höjden pÄ den tunna referensmasken och sammansattes pÄ den rena bakgrunden med samma bottenjustering, vilket sÀkerstÀllde enhetlig inramning över alla bilder.

Författarna sÀger:

"De resulterande transformationstripletterna (tunn, fet och muskulös) har en identisk bakgrund och en enhetlig försöksskala. Detta tar bort irrelevanta variationer som negativt kan pÄverka efterföljande trÀning eller utvÀrdering."

Varje triplett av bilder av tunna, feta och muskulösa tillÀt sex möjliga transformationspar, vilket resulterade i 45,690 7,615 teoretiska kombinationer över XNUMX XNUMX identiteter.

Efter att ha filtrerat bort exempel med omaka klĂ€der, onaturliga poser, förvrĂ€ngda lemmar, identitetsavvikelser eller minimal formförĂ€ndring, behölls 18,573 XNUMX högkvalitativa par. Även om vissa mindre poseskillnader kvarstod, skulle modellen visa sig robust mot dessa variationer.

Utbildning och tester

De resulterande bilderna anvĂ€ndes för att trĂ€na Odo-modellen – en diffusionsbaserad metod för att omforma mĂ€nniskor, med hjĂ€lp av den skinnade flerpersonslinjĂ€ra modellen (SMPL, dvs. mellanliggande CGI) kartor.

Informerad av 2024 Neurala lokaliserare metoder, anpassades data till SMPL-siffran pÄ individbasis, med de resulterande optimerade parametrarna kapabla att producera djupkartor frÄn vilka de Àndrade bilderna skulle hÀrledas:

Schema för trÀningspipelinen. VÀnster sida visar trÀningsuppsÀttningen, dÀr SMPL-djupkartor frÄn mÄlbilden vÀgleder ReshapeNet via ControlNet för att utföra kroppstransformation. Funktioner frÄn kÀllbilden extraheras av ReferenceNet och slÄs samman med ReshapeNet med hjÀlp av spatial sjÀlvuppmÀrksamhet. Höger sida visar inferens, dÀr SMPL-parametrar uppskattas frÄn inmatningsbilden, modifieras av semantiska attribut och renderas till en mÄldjupkarta som villkorar ReshapeNet under brusreducering för att producera den slutliga transformerade bilden.

Schema för trÀningspipelinen. VÀnster sida visar trÀningsuppsÀttningen, dÀr SMPL-djupkartor frÄn mÄlbilden vÀgleder ReshapeNet via ControlNet för att utföra kroppstransformation. Funktioner frÄn kÀllbilden extraheras av ReferenceNet och slÄs samman med ReshapeNet med hjÀlp av spatial sjÀlvuppmÀrksamhet. Höger sida visar inferens, dÀr SMPL-parametrar uppskattas frÄn inmatningsbilden, modifieras av semantiska attribut och Äterges till en mÄldjupkarta som villkorar ReshapeNet under brusreducering för att producera den slutliga transformerade bilden.

Modellen (se schemat ovan) omfattar ReshapeNet modul, som stöds av tre hjÀlpmoduler: ReferenceNet; en IP-adapter modul; och en djupbaserat ControlNet modul.

ReferenceNet extraherar detaljerade funktioner som bakgrund, klÀder och identitet frÄn inmatningsbilden och skickar dem till ReshapeNet. IP-adaptern bidrar med vÀgledning pÄ hög nivÄ, medan Depth ControlNet tillÀmpar SMPL-baserad konditionering för att vÀgleda kroppstransformationen. I linje med föregÄende fungerar, En SDXL-Baserade frystes UNet anvÀndes för att extrahera mellanliggande funktioner.

NĂ€r det gĂ€ller IP-adaptermodulen kodar denna inmatningsbilden via KLÄMMA, med den resulterande inbĂ€ddningar integrerad tillbaka i ReshapeNet via tvĂ€ruppmĂ€rksamhet.

NÀr det gÀller Depth ControlNet-modulen, styr denna ReshapeNet mellan- och avkodningslagren med hjÀlp av kvarvarande anslutningarDÀrefter tar den en djupkarta som renderas frÄn mÄl-SMPL-parametrarna och justerar den med mÄlbilden.

ReshapeNet, baserat pÄ SDXL UNet, Àr kÀrnnÀtverket i Odo. Under trÀning kodas mÄlbilder in i latent utrymme med en variationsautokodare, brusreducerat över tid och sedan brusreducerat av ReshapeNet med hjÀlp av funktioner frÄn ControlNet och ReferenceNet.

Kategorispecifika textmeddelanden som "Gör personen fetare", "Gör personen smalare" eller "Gör personen muskulös" lades till för att vÀgleda transformationer. Medan djupkartorna fÄngade grova kroppsformer, gav meddelandena den semantiska detalj som behövdes för förÀndringar som muskeldefinition, vilket gjorde det möjligt för modellen att producera mer exakta och realistiska modifieringar.

Utbildningsimplementering

Odo trÀnades pÄ projektets syntetiska dataset, kombinerat med en delmÀngd av DeepFashion-MultiModal datamÀngd, vilket ger totalt 20,000 XNUMX bildpar.

DeepFashion-MultiModal-datan gav variation i plagg och ansiktsdrag, med bilder parade mot varandra under trÀningen. Med alla SMPL-djupkartor förberÀknade för effektivitet pÄgick trÀningen i 60 epoker pÄ en enda NVIDIA A100 GPU med 80 GB VRAM.

Med inmatningsbildernas storlek Ă€ndrad till 768×1024, Adam optimeraren anvĂ€ndes, vid en inlĂ€rningshastighet av 1×10⁻⁔. ReshapeNet initialiserades med SDXL UNet-vikter, och finstĂ€md tillsammans med IP-adaptern frĂ„n dess kontrollpunkt.

ReferenceNet initialiserades med SDXL-vikter och förblev frysta, medan Depth ControlNet anvÀnde förtrÀnade vikter och ocksÄ förblev frysta.

Den slutliga modellen krÀvde cirka 23 GB GPU-minne, vilket tog 18 sekunder för hÀrledning av en enda bild.

En ny metrik

Bristen pÄ datamÀngder av det slag som krÀvs för den hÀr typen av projekt innebar att inga befintliga mÀtvÀrden riktigt kunde lösa utmaningen. DÀrför utformade författarna ett nytt riktmÀrke, bestÄende av 3,600 XNUMX bildpar, med bilder av verkliga ansikten och bakgrundsbeskrivningar, tillsammans med olika variationer i kroppsformer.

Andra mÀtvÀrden som anvÀndes var Strukturellt likhetsindex (SSIM); Högsta signal-till-brus-förhÄllande (PSNR); InlÀrd perceptuell bildpatchlikhet (LPIPS); och skalkorrigerat euklidiskt fel per hörn i neutral (T-)position (PVE-T-SC).

Först testade författarna sin metod kvalitativt mot verkliga bilder (bilder som modellen inte sÄg under trÀning):

Kvalitativa tester. Exemplen visar omvandlingar frÄn originalbilden till smalare, överviktiga och muskulösa kroppstyper i olika positioner, inklusive sittande och stÄende.

Kvalitativa tester. Exemplen visar omvandlingar frÄn originalbilden till smalare, överviktiga och muskulösa kroppstyper i olika positioner, inklusive sittande och stÄende. Se kÀllartikeln för bÀttre definition och detaljer.

Av dessa resultat stÄr det i tidningen:

'[VÄr] metod hanterar effektivt olika poser, bakgrunder och klÀder samtidigt som den bevarar personens identitet.'

Utöver SMPL-mĂ„lformer tillhandahĂ„ller vi textuppmaningar – 'Gör personen fetare', 'Gör personen smalare' eller 'Gör personen muskulös' – för att explicit vĂ€gleda de önskade transformationerna...

..."[Bilden nedan] visar ytterligare vÄr modells förmÄga att utföra olika formtransformationer. Modellen följer noggrant SMPL-djupkartor för att generera flera variationer av tunnare och fetare versioner frÄn referensbilden."

Ytterligare kvalitativa tester som tÀcker alla mÄlkroppstyper.

Ytterligare kvalitativa tester som tÀcker alla olika kroppstyper. Se kÀllartikeln för bÀttre definition och detaljer.

Författarna kommenterar vidare:

"VÄra resultat visar mer realistiska förÀndringar beroende pÄ mÄlvikten, eftersom vÄr modell samtidigt justerar den övergripande kroppsformen, extremiteternas proportioner och klÀdseln, vilket resulterar i anatomiskt konsekventa och visuellt övertygande modifieringar."

För kvantitativa tester jÀmförde författarna sitt system med öppen kÀllkodsmodellen Flux Kontext [dev], FLUX.1, och 2022 Ärs erbjuda Strukturmedveten flödesgenerering för omformning av mÀnniskokroppen.

För FLUX.1 Kontext [dev] utformades uppmaningar för att instruera "Gör personen fetare", "Gör personen smalare" eller "Gör personen muskulös", med specificerade mĂ„lvikter – Ă€ven om avsaknaden av finjusterade kontroller begrĂ€nsade prestandan:

JÀmförelse av Odo med Structure-Aware Flow Generation for Human Body Reshaping och FLUX.1 Kontext [dev] pÄ testmÀngden, tillsammans med ablationsresultat för modeller trÀnade utan prompt konditionering i ReshapeNet, utan ReferenceNet (med endast IP-adapter) och med trÀning begrÀnsad till BR-5K-datasetet. Tabellen innehÄller Àven material relaterat till ablationsstudier (BR-5K), vilket vi inte tÀcker hÀr.

JÀmförelse av Odo med Structure-Aware Flow Generation for Human Body Reshaping och FLUX.1 Kontext [dev] pÄ testmÀngden, tillsammans med ablationsresultat (som inte tas upp i den hÀr artikeln) för modeller trÀnade utan snabb konditionering i ReshapeNet, utan ReferenceNet (med endast IP-adapter) och med trÀning begrÀnsad till BR-5K-datasetet.

Slutsats

Tillkomsten av Flux Kontext i Är, och Ànnu mer nyligen lanseringen av de okvantiserade vikterna för Qwen Bildredigering, har Äterigen fört parade bilddata till förgrunden för hobby- och yrkesgrupper. I ett klimat av vÀxande kritik och otÄlighet nÀr det gÀller generativ AI:s oprecision Àr modeller av detta slag utformade för mycket högre Ätergivning av inmatningskÀllans bilder (Àven om mindre modeller ibland begrÀnsas av sina mycket specifika trÀningsmÄl).

I det hÀr fallet verkar nyttan av ett kroppsformande system ligga inom psykologiska, medicinska och modebaserade omrÄden. Det Àr dock fortfarande möjligt att system av detta slag kommer att uppnÄ en högre framtrÀdande nivÄ, och kanske en mer avslappnad och till och med potentiellt oroande uppsÀttning anvÀndningsomrÄden.

 

Först publicerad mÄndag 25 augusti 2025

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai