Intelligenza artificiale

Il Beneficio Inintenzionale della Mappatura dello Spazio Latente di un GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Mentre cercavano di migliorare la qualità e la fedeltà delle immagini generate dall’AI, un gruppo di ricercatori della Cina e dell’Australia ha scoperto involontariamente un metodo per controllare interattivamente lo spazio latente di un Generative Adversarial Network (GAN) – la misteriosa matrice calcolativa dietro la nuova ondata di tecniche di sintesi di immagini che sono pronte a rivoluzionare i film, i giochi, i social media e molti altri settori dell’intrattenimento e della ricerca.

La loro scoperta, un sottoprodotto dell’obiettivo centrale del progetto, consente all’utente di esplorare arbitrariamente e interattivamente lo spazio latente di un GAN con il mouse, come se si stesse sfogliando un video o un libro.

Un estratto dal video dei ricercatori (vedi embed alla fine dell'articolo). Nota che l'utente sta manipolando le trasformazioni con un cursore 'grab' (in alto a sinistra).

Un estratto dal video dei ricercatori (vedi embed alla fine dell’articolo per molti altri esempi). Nota che l’utente sta manipolando le trasformazioni con un cursore ‘grab’ (in alto a sinistra). Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

Il metodo utilizza ‘mappe di calore’ per indicare quali aree di un’immagine devono essere migliorate mentre il GAN esegue lo stesso set di dati migliaia (o centinaia di migliaia) di volte. Le mappe di calore sono intese a migliorare la qualità dell’immagine indicando al GAN dove sta sbagliando, in modo che il suo prossimo tentativo sia migliore; ma, incidentalmente, questo fornisce anche una ‘mappa’ dell’intero spazio latente che può essere esplorata spostando il mouse.

Attenzione visiva spaziale enfatizzata tramite GradCAM, che indica aree che richiedono attenzione imponendo colori brillanti. Source: https://arxiv.org/pdf/2112.00718.pdf

Il documento si intitola Migliorare l’Equilibrio del GAN Aumentando la Consapevolezza Spaziale, e proviene da ricercatori dell’Università cinese di Hong Kong e dell’Università Nazionale australiana. Oltre al documento, video e altro materiale possono essere trovati nella pagina del progetto.

Il lavoro è ancora in fase iniziale e attualmente limitato a immagini a bassa risoluzione (256×256), ma è una prova di concetto che promette di aprire la ‘scatola nera’ dello spazio latente e arriva in un momento in cui molti progetti di ricerca stanno cercando di ottenere un maggiore controllo sulla sintesi di immagini.

Sebbene tali immagini siano coinvolgenti (e puoi vederne molte altre, in risoluzione migliore, nel video incorporato alla fine dell’articolo), ciò che è forse più significativo è che il progetto ha trovato un modo per creare una qualità di immagine migliorata e potenzialmente farlo più velocemente, indicando al GAN specificamente dove sta sbagliando durante l’addestramento.

Ma, come Avversario indica, un GAN non è un’entità singola, ma piuttosto un conflitto disuguale tra autorità e fatica. Per capire quali miglioramenti i ricercatori hanno apportato a questo riguardo, analizziamo come questa guerra è stata caratterizzata fino a ora.

La Piteosa Situazione del Generatore

Se sei mai stato ossessionato dal pensiero che alcuni grandi articoli di abbigliamento che hai acquistato siano stati prodotti in un sweatshop in un paese sfruttato, o hai avuto un capo o un cliente che ti diceva di ‘Rifarlo!’ senza mai dirti cosa non andava nel tuo ultimo tentativo, risparmia un po’ di pietà per la parte Generatore di un Generative Adversarial Network.

Il Generatore è il lavoratore che ti ha deliziato per gli ultimi cinque anni aiutando i GAN a creare persone fotorealistiche che non esistono, aumentare la risoluzione di vecchi videogiochi a 4k, e trasformare filmati centenari in uscita a pieno colore a 60fps, tra le altre meraviglie dell’AI.

Dalla creazione di volti fotorealistici di persone inesistenti al ripristino di filmati antichi e alla rivitalizzazione di videogiochi d’archivio, il GAN è stato impegnato negli ultimi anni.

Il Generatore esegue tutti i dati di addestramento di nuovo, uno per uno (come ad esempio immagini di volti, per creare un GAN che possa creare foto di persone casuali e inesistenti), per giorni o addirittura settimane, fino a quando non è in grado di creare immagini convincenti come le foto genuine che ha studiato.

Quindi, come fa il Generatore a sapere che sta facendo progressi, ogni volta che tenta di creare un’immagine migliore del suo tentativo precedente?

Il Generatore ha un capo infernale.

L’Opacità Spietata del Discriminatore

Il lavoro del Discriminatore è dire al Generatore che non ha fatto abbastanza bene nel creare un’immagine autentica rispetto ai dati originali, e di Rifarlo. Il Discriminatore non dice al Generatore cosa non andava nel suo ultimo tentativo; si limita a prendere uno sguardo privato, confronta l’immagine generata con le immagini di origine (ancora privatamente) e assegna un punteggio all’immagine.

Il punteggio è mai abbastanza buono. Il Discriminatore non smetterà di dire ‘Rifarlo’ fino a quando i ricercatori non lo spegneranno (quando giudicano che ulteriore addestramento non migliorerà ulteriormente l’output).

In questo modo, assente qualsiasi critica costruttiva, e armato solo di un punteggio il cui metro è un mistero, il Generatore deve indovinare casualmente quali parti o aspetti dell’immagine abbiano causato un punteggio più alto del precedente. Ciò lo porterà lungo molte strade insoddisfacenti prima di cambiare qualcosa in modo positivo per ottenere un punteggio più alto.

Il Discriminatore come Tutore e Mentore

L’innovazione fornita dalla nuova ricerca è essenzialmente che il Discriminatore indica ora al Generatore quali parti dell’immagine erano insoddisfacenti, in modo che il Generatore possa concentrarsi su quelle aree nel suo prossimo tentativo, e non gettare via le sezioni che sono state valutate più alte. La natura della relazione si è trasformata da combattiva a collaborativa.

Per rimediare alla disparità di insight tra il Discriminatore e il Generatore, i ricercatori hanno utilizzato GradCAM come meccanismo in grado di formulare gli insight del Discriminatore in un aiuto di feedback visivo per il prossimo tentativo del Generatore.

Il nuovo metodo di addestramento all’equilibrio si chiama EqGAN. Per la massima riproducibilità, i ricercatori hanno incorporato tecniche e metodi esistenti con impostazioni predefinite, tra cui l’uso dell’architettura StyleGan2.

L’architettura di EqGAN. La codifica spaziale del Generatore è allineata alla consapevolezza spaziale del Discriminatore, con campioni casuali di mappe di calore (vedi immagine precedente) codificati nuovamente nel generatore tramite il livello di codifica spaziale (SEL). GradCAM è il meccanismo tramite il quale le mappe di attenzione del Discriminatore sono rese disponibili al generatore.

GradCAM produce mappe di calore (vedi immagini sopra) che riflettono la critica del Discriminatore all’ultima iterazione e le rende disponibili al Generatore.

Una volta addestrato il modello, la mappatura rimane come un artefatto di questo processo cooperativo, ma può anche essere utilizzata per esplorare il codice latente finale in modo interattivo, come dimostrato nel video del progetto dei ricercatori (vedi sotto).

EqGAN

Il progetto ha utilizzato diversi set di dati popolari, tra cui i set di dati LSUN Cat e Churches, nonché il set di dati FFHQ. Il video qui sotto presenta anche esempi di manipolazione facciale e felina utilizzando EqGAN.

Tutte le immagini sono state ridimensionate a 256×256 prima dell’addestramento di EqGAN sull’implementazione ufficiale di StyleGAN2. Il modello è stato addestrato con una dimensione del batch di 64 su 8 GPU fino a quando il Discriminatore non ha esaminato oltre 25 milioni di immagini.

Testando i risultati del sistema su campioni selezionati con la distanza di Frechet Inception (FID), gli autori hanno stabilito una metrica chiamata Indicatore di Disequilibrio (DI) – il grado in cui il Discriminatore mantiene il suo vantaggio conoscitivo sul Generatore, con l’obiettivo di ridurre quella lacuna.

Sui tre set di dati addestrati, la nuova metrica ha mostrato una diminuzione utile dopo aver codificato la consapevolezza spaziale nel Generatore, con un equilibrio migliorato dimostrato sia da FID che da DI.

I ricercatori concludono:

‘Speriamo che questo lavoro possa ispirare ulteriori lavori di revisione dell’equilibrio del GAN e sviluppare metodi più innovativi per migliorare la qualità della sintesi di immagini attraverso la manipolazione dell’equilibrio del GAN. Condurremo anche ulteriori indagini teoriche su questo problema nel lavoro futuro.’

E continuano:

‘I risultati qualitativi mostrano che il nostro metodo ha concentrato con successo il Generatore su regioni specifiche. Gli esperimenti su vari set di dati convalidano che il nostro metodo mitiga il disequilibrio nell’addestramento del GAN e migliora sostanzialmente la qualità complessiva della sintesi di immagini. Il modello risultante con consapevolezza spaziale consente anche la manipolazione interattiva dell’immagine di output.’

Guarda il video qui sotto per maggiori dettagli sul progetto e ulteriori esempi di esplorazione dinamica e interattiva dello spazio latente in un GAN.