Intelligenza Artificiale

Orchestrare la sintesi facciale con la segmentazione semantica

aggiornato on Dicembre 9, 2022

Il problema di inventare volti umani con a Rete avversaria generativa (GAN) è che i dati del mondo reale che alimentano le immagini false vengono forniti con accessori sgraditi e inseparabili, come capelli sulla testa (e/o sul viso), sfondi e vari tipi di mobili per il viso, come occhiali, cappelli, e orecchini; e che questi aspetti periferici della personalità diventano inevitabilmente legati a un'identità "fusa".

Nelle architetture GAN più comuni, questi elementi non sono indirizzabili nel proprio spazio dedicato, ma sono piuttosto strettamente associati alla faccia in (o intorno) in cui sono incorporati.

Né di solito è possibile dettare o influenzare l'aspetto di sottosezioni di un volto creato da un GAN, come socchiudere gli occhi, allungare il naso o cambiare il colore dei capelli come potrebbe fare un disegnatore della polizia.

Tuttavia, il settore della ricerca sulla sintesi delle immagini ci sta lavorando:

Una nuova ricerca sulla generazione del volto basata su GAN ha separato le varie sezioni di un volto in aree distinte, ciascuna con il proprio "generatore", lavorando di concerto con altri generatori per l'immagine. Nella riga centrale, vediamo la "mappa delle caratteristiche" orchestrante che costruisce aree aggiuntive del viso. Fonte: https://arxiv.org/pdf/2112.02236.pdf

In una nuova carta, i ricercatori del ramo statunitense del colosso tecnologico multinazionale cinese ByteDance hanno utilizzato la segmentazione semantica per suddividere le parti costitutive del viso in sezioni discrete, a ciascuna delle quali è assegnato il proprio generatore, in modo che sia possibile ottenere un maggior grado di sbrogliamento. O quantomeno, percettivo districamento.

I carta è intitolato SemanticStyleGAN: Apprendimento dei precedenti generativi compositivi per la sintesi e l'editing di immagini controllabili, ed è accompagnato da un ricco di contenuti multimediali pagina del progetto con molteplici esempi delle varie trasformazioni a grana fine che possono essere ottenute quando gli elementi del viso e della testa sono isolati in questo modo.

La consistenza del viso, l'acconciatura e il colore dei capelli, la forma e il colore degli occhi e molti altri aspetti delle caratteristiche generate da GAN un tempo indissolubili possono ora essere districati, sebbene la qualità della separazione e il livello di strumentalità possano variare a seconda dei casi. Fonte: https://semanticstylegan.github.io/

Texture del viso, acconciatura e colore dei capelli, forma e colore degli occhi e molti altri aspetti delle funzionalità generate da GAN, un tempo indissolubili, ora possono essere de facto districato, anche se la qualità della separazione e il livello di strumentalità possono variare da caso a caso. Fonte: https://semanticstylegan.github.io/

Lo spazio latente ingovernabile

Un Generative Adversarial Network addestrato a generare volti – come il StileGan2 generatore che alimenta il popolare sito web thispersondoesnotexist.com – forma complesse interrelazioni tra le 'caratteristiche' (non in senso facciale) che deriva dall'analisi di migliaia di volti del mondo reale, al fine di imparare a realizzare volti umani realistici.

Questi processi clandestini sono "codici latenti", collettivamente i spazio latente. Sono difficili da analizzare, e di conseguenza difficili da strumentalizzare.

La scorsa settimana è emerso un nuovo progetto di sintesi di immagini che tenta di "mappare" questo spazio quasi occulto durante il processo di formazione stesso, e quindi di usa quelle mappe per navigare in modo interattivoe sono state proposte varie altre soluzioni per ottenere un controllo più approfondito del contenuto sintetizzato da GAN.

Sono stati compiuti alcuni progressi, con un'offerta diversificata di architetture GAN che tentano di "raggiungere" lo spazio latente in qualche modo e controllare le generazioni facciali da lì. Tali sforzi includono InterfacciaGAN, StyleFlow, GANSspacee StileRig, tra le altre offerte in un flusso costantemente produttivo di nuovi documenti.

Ciò che hanno tutti in comune è un grado limitato di districamento; gli ingegnosi cursori della GUI per varie sfaccettature (come 'capelli' o 'espressione') tendono a trascinare lo sfondo e/o altri elementi nel processo di trasformazione, e nessuno di essi (incluso il documento discusso qui) ha risolto il problema del tempo capelli neurali.

Dividere e conquistare lo spazio latente

In ogni caso, la ricerca di ByteDance adotta un approccio diverso: invece di cercare di discernere i misteri di un singolo GAN che opera su un'intera immagine del volto generata, SemanticStyleGAN formula un approccio basato sul layout, in cui i volti sono "composti" da processi di generazione separati.

Per ottenere questa distinzione di caratteristiche (facciali), SemanticStyleGAN utilizza Caratteristiche di Fourier per generare una mappa di segmentazione semantica (distinzioni grossolane della topografia facciale, mostrate in basso a destra nell'immagine sottostante) per isolare le aree facciali che riceveranno un'attenzione individuale e dedicata.

Architettura del nuovo approccio, che impone uno strato interstiziale di segmentazione semantica sul volto, trasformando di fatto la struttura in un orchestratore di più generatori per le diverse sfaccettature di un'immagine.

Le mappe di segmentazione vengono generate per le immagini false che vengono sistematicamente presentate al discriminatore del GAN per la valutazione man mano che il modello migliora e per le immagini sorgente (non false) utilizzate per l'addestramento.

All'inizio del processo, a Perceptron multistrato (MLP) mappa inizialmente codici latenti scelti casualmente, che verranno poi utilizzati per controllare i pesi dei diversi generatori che prenderanno ciascuno il controllo di una sezione dell'immagine del volto da produrre.

Ogni generatore crea una mappa delle caratteristiche e una mappa di profondità simulata dalle caratteristiche di Fourier che gli vengono fornite a monte. Questo output è la base per le maschere di segmentazione.

La rete di rendering a valle è condizionata solo dalle mappe delle caratteristiche precedenti e ora sa come generare una maschera di segmentazione a risoluzione più elevata, facilitando la produzione finale dell'immagine.

Infine, un discriminatore biforcuto sovrintende alla distribuzione concatenata sia delle immagini RGB (che sono, per noi, il risultato finale) sia delle maschere di segmentazione che ne hanno permesso la separazione.

Con SemanticStyleGAN, non ci sono perturbazioni visive indesiderate durante la "composizione" dei cambiamenti delle caratteristiche facciali, perché ogni caratteristica facciale è stata addestrata separatamente all'interno del framework di orchestrazione.

Sostituzione degli sfondi

Poiché l'intenzione del progetto è quella di ottenere un maggiore controllo dell'ambiente generato, il processo di rendering/composizione include un generatore di sfondo addestrato su immagini reali.

Un motivo convincente per cui gli sfondi non vengono trascinati nelle manipolazioni facciali in SemanticStyleGAN è che si trovano su uno strato più distante e sono completi, se parzialmente nascosti dalle facce sovrapposte.

Poiché le mappe di segmentazione daranno luogo a volti senza sfondi, questi sfondi "drop-in" non solo forniscono il contesto, ma sono anche configurati per essere appropriati, in termini di illuminazione, per i volti sovrapposti.

Formazione e dati

I modelli "realistici" sono stati addestrati sulle 28,000 immagini iniziali CelebAMask-HQ, ridimensionato a 256 × 256 pixel per accogliere lo spazio di addestramento (ovvero la VRAM disponibile, che determina una dimensione massima del batch per iterazione).

Durante il processo di sviluppo e vari test di ablazione sono stati addestrati numerosi modelli e sono stati sperimentati diversi strumenti, set di dati e architetture. Il modello produttivo più grande del progetto presentava una risoluzione di 512×512, addestrato in 2.5 giorni su otto GPU NVIDIA Tesla V100. Dopo l'addestramento, la generazione di una singola immagine impiega 0.137 secondi su una GPU a lobi senza parallelizzazione.

Gli esperimenti più in stile cartone animato/anime dimostrati nei numerosi video sulla pagina del progetto (vedi link sopra) derivano da vari set di dati popolari basati sui volti, tra cui toonificare, MetFacese Bitmoji.

Una soluzione provvisoria?

Gli autori sostengono che non vi è alcun motivo per cui SemanticStyleGAN non possa essere applicato ad altri domini, come paesaggi, automobili, chiese e tutti gli altri domini di test "predefiniti" a cui le nuove architetture sono abitualmente sottoposte all'inizio della loro carriera.

Tuttavia, il documento ammette che all'aumentare del numero di classi per un dominio (come ad esempio 'auto', 'lampione', 'pedone', 'edificio', 'auto' ecc.), questo approccio frammentario potrebbe diventare impraticabile in diversi modi, senza ulteriore lavoro sull'ottimizzazione. Il set di dati urbani di CityScapes, ad esempio, ha 30 classi in 8 categorie.

È difficile dire se l'attuale interesse a conquistare più direttamente lo spazio latente sia condannato quanto l'alchimia; o se i codici latenti alla fine saranno decifrabili e controllabili – uno sviluppo che potrebbe rendere ridondante questo tipo di approccio più “esternamente complesso”.