Intelligenza artificiale
Ridisegnare i tipi di corpo umano con l’AI

Una nuova collaborazione di ricerca dalla Cina offre un metodo innovativo per ridisegnare il corpo umano nelle immagini, utilizzando una rete neurale gemella coordinata, guidata da un modello parametrico, che consente all’utente finale di modulare il peso, l’altezza e la proporzione del corpo in un’interfaccia grafica interattiva.

Modulazione parametrica della forma del corpo, con slider che alterano le tre funzionalità disponibili. Fonte: https://arxiv.org/pdf/2203.10496.pdf
Il lavoro offre diversi miglioramenti rispetto a un progetto simile recente di Alibaba, in quanto può alterare in modo convincente l’altezza e la proporzione del corpo, oltre al peso, e dispone di una rete neurale dedicata per il “riempimento” dello sfondo (non esistente) che può essere rivelato da immagini di corpi “più magri”. Migliora anche un metodo parametrico precedente per la ridisegnazione del corpo, eliminando la necessità di un’estesa intervento umano durante la formulazione della trasformazione.
Intitolato NeuralReshaper, la nuova architettura adatta un modello parametrico 3D umano a un’immagine sorgente, e poi utilizza le distorsioni nel modello per adattare l’immagine originale ai nuovi parametri.
Il sistema è in grado di gestire le trasformazioni del corpo su figure vestite e semivestite (ad esempio, in costume da bagno).
Trasformazioni di questo tipo sono attualmente di grande interesse per il settore di ricerca fashion AI, che ha prodotto una serie di piattaforme basate su StyleGAN/CycleGAN e reti neurali generali per prova virtuale che possono adattare gli articoli di abbigliamento disponibili alla forma e al tipo di corpo di un’immagine inviata dall’utente, o aiutare con la conformità visiva.
Il documento è intitolato Ridisegnazione del corpo umano in un’immagine con reti neurali profonde, e proviene da ricercatori dell’Università di Zhejiang a Hangzhou e della School of Creative Media alla City University di Hong Kong.
SMPL Fitting
NeuralReshaper utilizza il modello Skinned Multi-Person Linear (SMPL) sviluppato dall’Istituto Max Planck per i Sistemi Intelligenti e dalla rinomata casa di effetti visivi Industrial Light and Magic nel 2015.

Umani parametrici SMPL dalla collaborazione Planck/ILM del 2015. Fonte: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
Nel primo stadio del processo, un modello SMPL viene generato da un’immagine sorgente alla quale si desidera applicare trasformazioni del corpo. L’adattamento del modello SMPL all’immagine segue la metodologia del metodo di recupero della mesh umana (HMR) proposto da università in Germania e negli Stati Uniti nel 2018.
I tre parametri per la deformazione (peso, altezza, proporzione del corpo) vengono calcolati in questa fase, insieme a una considerazione dei parametri della camera, come la lunghezza focale. I punti chiave 2D e l’allineamento della sagoma generata forniscono l’involucro per la deformazione sotto forma di sagoma 2D, una misura di ottimizzazione aggiuntiva che aumenta l’accuratezza del bordo e consente un’autentica pittura di sfondo più avanti nella pipeline.

Fasi di adattamento SMPL: a sinistra, l’immagine sorgente; seconda, il risultato di ottimizzazione ottenuto dal metodo delineato nella ricerca del 2016 guidata dall’Istituto Max Planck per i Sistemi Intelligenti; terza, un risultato di inferenza diretta dal modello pre-addestrato per il recupero della forma e della posizione umana; quarta, i risultati ottenuti dopo l’ottimizzazione dei punti chiave 2D; e infine, quinta, l’adattamento completato dopo l’ottimizzazione della sagoma (vedi sopra).
La deformazione 3D viene quindi proiettata nello spazio dell’immagine dell’architettura per facilitare un campo di deformazione denso che definirà la deformazione. Questo processo richiede circa 30 secondi per immagine.
Architettura NeuralReshaper
NeuralReshaper esegue due reti neurali in tandem: un encoder del primo piano che genera la forma del corpo trasformata, e un encoder di sfondo che si concentra sul riempimento delle regioni di sfondo “de-occluse” (nel caso, ad esempio, di dimagrimento del corpo – vedi immagine sotto).
La struttura U-net-style integra l’output dalle funzionalità dei due encoder prima di passare il risultato a un encoder unificato che produce infine una nuova immagine dai due input. L’architettura presenta un meccanismo di guida della deformazione innovativo per abilitare l’integrazione.
Addestramento e esperimenti
NeuralReshaper è implementato in PyTorch su una sola GPU NVIDIA 1080ti con 11gb di VRAM. La rete è stata addestrata per 100 epoche sotto l’ottimizzatore Adam, con il generatore impostato su una perdita di destinazione di 0,0001 e il discriminatore su una perdita di destinazione di 0,0004. L’addestramento è avvenuto su un batch size di 8 per un dataset esterno proprietario (tratto da COCO, MPII e LSP), e 2 per l’addestramento sul dataset DeepFashion.
Di seguito sono riportati alcuni esempi esclusivamente dal dataset DeepFashion come addestrati per NeuralReshaper, con le immagini originali sempre a sinistra.
I tre attributi controllabili sono disaccoppiati e possono essere applicati separatamente.
Le trasformazioni sul dataset esterno derivato sono più impegnative, poiché richiedono frequentemente il riempimento di sfondi complessi e una chiara e convincente delimitazione dei tipi di corpo trasformati:
Necessità parametrica
Come osserva il documento, le trasformazioni della stessa immagine di questo tipo rappresentano un problema mal posto nella sintesi di immagini. Molti framework di GAN e encoder trasformativi possono utilizzare immagini accoppiate (come i diversi progetti progettati per effettuare trasformazioni da schizzo a foto e trasformazioni da foto a schizzo).
Tuttavia, nel caso in questione, ciò richiederebbe immagini accoppiate che ritraggono le stesse persone in diverse configurazioni fisiche, come le immagini “prima e dopo” nella pubblicità di diete o chirurgia plastica – dati che sono difficili da ottenere o generare.
In alternativa, le reti neurali trasformative GAN possono addestrarsi su dati più diversi e effettuare trasformazioni cercando la direzione latente tra il codice latente dell’immagine sorgente e la classe desiderata (in questo caso ‘grasso’, ‘magro’, ‘alto’, ecc.). Tuttavia, questo approccio è attualmente troppo limitato per gli scopi di ridisegnazione del corpo fine.
Le tecniche di Neural Radiance Fields (NeRF) sono molto più avanzate nella simulazione del corpo completo rispetto alla maggior parte dei sistemi basati su GAN, ma rimangono specifiche della scena e richiedono molte risorse, con attualmente una capacità molto limitata di modificare i tipi di corpo in modo granulare come NeuralReshaper e progetti precedenti stanno cercando di affrontare (a parte ridimensionare l’intero corpo rispetto al suo ambiente).
Lo spazio latente di GAN è difficile da governare; le VAE da sole non affrontano ancora le complessità della riproduzione del corpo completo; e la capacità di NeRF di rimodellare in modo coerente e realistico i corpi umani è ancora nascente. Pertanto, l’integrazione di metodologie “tradizionali” CGI come SMPL sembra destinata a continuare nel settore di ricerca della sintesi di immagini umane, come un metodo per circoscrivere e consolidare funzionalità, classi e codici latenti le cui parametri e sfruttamento non sono ancora pienamente compresi in queste tecnologie emergenti.
Pubblicato per la prima volta il 31 marzo 2022.




















