Connect with us

Intelligenza artificiale

Creare corpi ‘migliori’ con l’AI

mm

Nuove ricerche dell’Accademia Alibaba DAMO offrono un flusso di lavoro guidato dall’AI per l’automatizzazione della rimodellazione di immagini di corpi – un raro sforzo in un settore di visione computerizzata attualmente occupato da manipolazioni basate sul viso come deepfakes e modifica del viso basata su GAN.

Inserito nelle colonne 'risultato', le mappe di attenzione generate che definiscono le aree da modificare. Fonte: https://arxiv.org/pdf/2203.04670.pdf

Inserito nelle colonne ‘risultato’, le mappe di attenzione generate che definiscono le aree da modificare. Fonte: https://arxiv.org/pdf/2203.04670.pdf

L’architettura dei ricercatori utilizza la stima della posizione dello scheletro per affrontare la maggiore complessità che i sistemi di sintesi e modifica delle immagini affrontano nel concettualizzare e parametrizzare le immagini del corpo esistenti, almeno a un livello di granularità che consenta una modifica significativa e selettiva.

Le mappe dello scheletro stimate aiutano a individuare e a focalizzare l’attenzione sulle aree del corpo che probabilmente saranno ritoccate, come l’area del braccio superiore.

Il sistema consente infine all’utente di impostare parametri che possono modificare l’aspetto del peso, della massa muscolare o della distribuzione del peso in foto a figura intera o a mezza figura di persone, e può generare trasformazioni arbitrarie su sezioni del corpo vestite o svestite.

A sinistra, l'immagine di input; al centro, una mappa di calore delle aree di attenzione derivate; a destra, l'immagine trasformata.

A sinistra, l’immagine di input; al centro, una mappa di calore delle aree di attenzione derivate; a destra, l’immagine trasformata.

La motivazione per il lavoro è lo sviluppo di flussi di lavoro automatizzati che possano sostituire le manipolazioni digitali faticose svolte da fotografi e artisti grafici di produzione in vari rami dei media, dalla moda ai materiali di pubblicità e pubblicità.

In generale, gli autori riconoscono che queste trasformazioni vengono solitamente applicate con tecniche di ‘deformazione’ in Photoshop e altri editor di bitmap tradizionali, e vengono utilizzate quasi esclusivamente su immagini di donne. Di conseguenza, il set di dati personalizzato sviluppato per facilitare il nuovo processo consiste principalmente in immagini di soggetti femminili:

‘Poiché la ritoccatura del corpo è principalmente desiderata dalle donne, la maggior parte della nostra raccolta sono foto di donne, considerando la diversità di età, razze (africana: asiatica: caucasica = 0,33: 0,35: 0,32), pose e abbigliamento.’

Il documento è intitolato Structure-Aware Flow Generation for Human Body Reshaping, e proviene da cinque autori associati all’Accademia globale DAMO di Alibaba.

Sviluppo del set di dati

Come avviene di solito con i sistemi di sintesi e modifica delle immagini, l’architettura del progetto ha richiesto un set di dati personalizzato. Gli autori hanno commissionato a tre fotografi di produrre manipolazioni standard di Photoshop di immagini appropriate da un sito di fotografia stock Unsplash, risultando in un set di dati – intitolato BR-5K* – di 5.000 immagini ad alta qualità a risoluzione 2K.

I ricercatori sottolineano che l’obiettivo dell’addestramento su questo set di dati non è quello di produrre caratteristiche ‘ideali’ e generalizzate relative a un indice di attrattiva o aspetto desiderabile, ma piuttosto estrarre le mappe di caratteristiche centrali associate alle manipolazioni professionali delle immagini del corpo.

Tuttavia, ammettono che le manipolazioni riflettono in ultima analisi processi trasformativi che mappano una progressione da ‘reale’ a una nozione preimpostata di ‘ideale’:

‘Invitiamo tre artisti professionisti a ritoccare i corpi utilizzando Photoshop in modo indipendente, con l’obiettivo di ottenere figure snelle che soddisfino l’estetica popolare, e selezioniamo il migliore come verità di riferimento.’

Poiché la struttura non riguarda i visi, questi sono stati oscurati prima di essere inclusi nel set di dati.

Architettura e concetti chiave

Il flusso di lavoro del sistema coinvolge l’inserimento di un ritratto ad alta risoluzione, il campionamento a una risoluzione inferiore che possa adattarsi alle risorse di calcolo disponibili, e l’estrazione di una mappa di posizione dello scheletro stimata (seconda figura da sinistra nell’immagine in basso), nonché dei Campi di affinità di parti (PAF), che sono stati innovati nel 2016 dall’Istituto di robotica della Carnegie Mellon University (vedi video incorporato direttamente in basso).

I Campi di affinità di parti aiutano a definire l’orientamento degli arti e l’associazione generale con la struttura scheletrica più ampia, fornendo al nuovo progetto uno strumento di attenzione/localizzazione aggiuntivo.

Dalla carta dei Campi di affinità di parti del 2016, i PAF predetti codificano l'orientamento degli arti come parte di un vettore 2D che include anche la posizione generale dell'arto. Fonte: https://arxiv.org/pdf/1611.08050.pdf

Dalla carta dei Campi di affinità di parti del 2016, i PAF predetti codificano l’orientamento degli arti come parte di un vettore 2D che include anche la posizione generale dell’arto. Fonte: https://arxiv.org/pdf/1611.08050.pdf

Nonostante la loro apparente irrilevanza per l’aspetto del peso, le mappe dello scheletro sono utili per dirigere i processi trasformativi finali alle parti del corpo da modificare, come gli arti superiori, il retro e le cosce.

Dopo di ciò, i risultati vengono inviati a un’attenzione self-structurata (SASA) nel collo di bottiglia centrale del processo (vedi immagine in basso).

Il SASA regola la coerenza del generatore di flusso che alimenta il processo, i cui risultati vengono poi inviati al modulo di deformazione (secondo da destra nell’immagine in alto), che applica le trasformazioni apprese dall’addestramento sulle revisioni manuali incluse nel set di dati.

Il modulo di attenzione self-structurata (SASA) assegna l'attenzione alle parti del corpo pertinenti, aiutando a evitare trasformazioni estranee o irrilevanti.

Il modulo di attenzione self-structurata (SASA) assegna l’attenzione alle parti del corpo pertinenti, aiutando a evitare trasformazioni estranee o irrilevanti.

L’immagine di output viene successivamente campionata nuovamente alla risoluzione originale 2K, utilizzando processi non dissimili dall’architettura deepfake standard del 2017 da cui sono stati derivati pacchetti popolari come DeepFaceLab; il processo di campionamento è anche comune nei framework di modifica GAN.

La rete di attenzione per lo schema è modellata dopo Compositional De-Attention Networks (CODA), una collaborazione accademica USA/Singapore del 2019 con Amazon AI e Microsoft.

Test

Il framework basato sul flusso è stato testato contro metodi basati sul flusso precedenti FAL e Animating Through Warping (ATW), nonché architetture di traduzione di immagini Pix2PixHD e GFLA, con SSIM, PSNR e LPIPS come metriche di valutazione.

Risultati dei test iniziali (la direzione della freccia nei titoli indica se i valori più bassi o più alti sono migliori).

Risultati dei test iniziali (la direzione della freccia nei titoli indica se i valori più bassi o più alti sono migliori).

Sulla base di queste metriche adottate, il sistema degli autori supera le architetture precedenti.

Risultati selezionati. Si prega di fare riferimento al PDF originale collegato in questo articolo per confronti ad alta risoluzione.

Risultati selezionati. Si prega di fare riferimento al PDF originale collegato in questo articolo per confronti ad alta risoluzione.

In aggiunta alle metriche automatizzate, i ricercatori hanno condotto uno studio sugli utenti (ultima colonna della tabella dei risultati riportata in precedenza), in cui 40 partecipanti sono stati mostrati 30 domande selezionate casualmente da un pool di 100 domande relative alle immagini prodotte tramite i vari metodi. Il 70% dei rispondenti ha preferito la nuova tecnica come più ‘attraente visivamente’.

Sfide

Il nuovo documento rappresenta una rara escursione nella manipolazione del corpo basata sull’AI. Il settore della sintesi di immagini è attualmente molto più interessato a generare corpi modificabili tramite metodi come i campi di radianza neurali (NeRF), o è fissato sull’esplorazione dello spazio latente dei GAN e del potenziale degli autoencoder per la manipolazione del viso.

L’iniziativa degli autori è attualmente limitata a produrre cambiamenti nel peso percepito, e non hanno implementato alcuna tecnica di inpainting che possa ripristinare lo sfondo che viene inevitabilmente rivelato quando si snellisce un’immagine di qualcuno.

Tuttavia, propongono che il ritaglio del ritratto e la fusione dello sfondo attraverso l’inferenza testurale potrebbero risolvere trivialmente il problema del ripristino delle parti del mondo che erano precedentemente nascoste nell’immagine dall'”imperfezione” umana.

Una soluzione proposta per il ripristino dello sfondo rivelato dalla riduzione del peso guidata dall'AI.

Una soluzione proposta per il ripristino dello sfondo rivelato dalla riduzione del peso guidata dall’AI.

 

* Sebbene la bozza pre-stampa faccia riferimento a materiali supplementari che forniscono ulteriori dettagli sul set di dati, nonché ulteriori esempi del progetto, la posizione di questo materiale non è disponibile nel documento, e l’autore corrispondente non ha ancora risposto alla nostra richiesta di accesso.

Pubblicato per la prima volta il 10 marzo 2022.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.