mozzicone Il vantaggio involontario della mappatura dello spazio latente di un GAN - Unite.AI
Seguici sui social

Intelligenza Artificiale

Il vantaggio involontario della mappatura dello spazio latente di un GAN

mm
aggiornato on

Durante il tentativo di migliorare la qualità e la fedeltà delle immagini generate dall'intelligenza artificiale, un gruppo di ricercatori cinesi e australiani ha inavvertitamente scoperto un metodo per controllare in modo interattivo lo spazio latente di un Rete avversaria generativa (GAN) – la misteriosa matrice di calcolo dietro la nuova ondata di tecniche di sintesi delle immagini che rivoluzioneranno i film, i giochi, i social media e molti altri settori dell'intrattenimento e della ricerca.

La loro scoperta, un sottoprodotto dell'obiettivo centrale del progetto, consente a un utente di esplorare arbitrariamente e in modo interattivo lo spazio latente di un GAN con un mouse, come se sfogliasse un video o sfogliasse un libro.

Un estratto dal video di accompagnamento dei ricercatori (vedi incorporamento alla fine dell'articolo). Si noti che l'utente sta manipolando le trasformazioni con un cursore "afferra" (in alto a sinistra). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Un estratto dal video di accompagnamento dei ricercatori (vedere l'incorporamento alla fine dell'articolo per molti altri esempi). Si noti che l'utente sta manipolando le trasformazioni con un cursore "afferra" (in alto a sinistra). Fonte: https://www.youtube.com/watch?v=k7sG4XY5rIc

Il metodo utilizza "mappe di calore" per indicare quali aree di un'immagine dovrebbero essere migliorate mentre il GAN ​​esegue lo stesso set di dati migliaia (o centinaia di migliaia) di volte. Le mappe di calore hanno lo scopo di migliorare la qualità dell'immagine dicendo al GAN ​​dove sta andando storto, in modo che il suo prossimo tentativo sia migliore; ma, guarda caso, questo fornisce anche una 'mappa' dell'intero spazio latente che può essere sfogliata muovendo il mouse.

Attenzione visiva spaziale enfatizzata tramite GradCAM, che indica le aree che richiedono attenzione imponendo colori vivaci. Questi campioni vengono generati nel progetto dei ricercatori con un'implementazione predefinita di StyleGan2. Fonte: https://arxiv.org/pdf/2112.00718.pdf

Attenzione visiva spaziale enfatizzata tramite GradCAM, che indica le aree che richiedono attenzione imponendo colori vivaci. Fonte: https://arxiv.org/pdf/2112.00718.pdf

Il carta è chiamato Migliorare l'equilibrio GAN aumentando la consapevolezza spaziale, e proviene da ricercatori della Chinese University di Hong Kong e della Australian National University. Oltre alla carta, video e altro materiale possono essere trovati nella pagina del progetto.

Il lavoro è nascente e attualmente limitato a immagini a bassa risoluzione (256 × 256), ma è una prova di concetto che promette di rompere la "scatola nera" dello spazio latente e arriva in un momento in cui molteplici progetti di ricerca stanno martellando a quella porta alla ricerca di un maggiore controllo sulla sintesi delle immagini.

Sebbene tali immagini siano coinvolgenti (e puoi vederne di più, con una risoluzione migliore, nel video incorporato alla fine di questo articolo), ciò che forse è più significativo è che il progetto ha trovato un modo per creare una migliore qualità dell'immagine e potenzialmente per farlo più velocemente, dicendo specificamente al GAN ​​dove sta andando storto durante l'addestramento.

Ma come contraddittorio indica, un GAN non è una singola entità, ma piuttosto un conflitto ineguale tra autorità e fatica. Per capire quali miglioramenti hanno apportato i ricercatori in questo senso, diamo un'occhiata a come questa guerra è stata caratterizzata fino ad ora.

La pietosa situazione del generatore

Se sei mai stato ossessionato dal pensiero che qualche capo d'abbigliamento che hai comprato sia stato prodotto in un'officina sfruttata in un paese sfruttato, o che un capo o un cliente continuasse a dirti 'Fallo di nuovo!' senza mai dirti cosa c'era di sbagliato nel tuo ultimo tentativo, risparmia un briciolo di pietà per il Generatore parte di un Generative Adversarial Network.

Il generatore è il cavallo di battaglia che ti ha deliziato negli ultimi cinque anni circa aiutando i GAN a creare persone fotorealistiche che non esistono, vecchi videogiochi di alto livello alla risoluzione 4ke girare filmati vecchi di secoli in uscita HD a colori a 60 fps, tra le altre meravigliose novità AI.

Dalla creazione di volti fotorealistici di persone irreali al ripristino di filmati antichi e alla rinascita di videogiochi d'archivio, GAN è stato impegnato negli ultimi anni.

Dalla creazione di volti fotorealistici di persone irreali al ripristino di filmati antichi e alla rinascita di videogiochi d'archivio, GAN è stato impegnato negli ultimi anni.

Il Generatore analizza ripetutamente tutti i dati di addestramento (come le immagini dei volti, al fine di creare un GAN in grado di creare foto di persone casuali e inesistenti), una foto alla volta, per giorni o addirittura settimane, fino a quando non è in grado di creare immagini convincenti quanto le foto autentiche che ha studiato.

Quindi, come fa il Generator a sapere che sta facendo progressi, ogni volta che prova a creare un'immagine migliore del suo tentativo precedente?

Il generatore ha un capo infernale.

L'opacità spietata del discriminatore

Il lavoro del Discriminatore è dire al Generator che non ha funzionato abbastanza bene nel creare un'immagine che sia autentica rispetto ai dati originali, e per Fallo ancora. Il Discriminatore non lo dice al Generatore che cosa ha sbagliato con l'ultimo tentativo del generatore; si limita a guardarlo in privato, confronta l'immagine generata con le immagini di origine (di nuovo, in privato) e assegna all'immagine un punteggio.

Il punteggio è mai abbastanza buono. Il discriminatore non smette di dire 'Fallo ancora' fino a quando i ricercatori non lo spengono (quando ritengono che la formazione aggiuntiva non migliorerà ulteriormente il risultato).

In questo modo, assente qualsiasi critica costruttiva, e armato solo di un punteggio la cui metrica è un mistero, il Generatore deve indovinare casualmente quali parti o aspetti dell'immagine hanno causato un punteggio più alto rispetto a prima. Questo lo condurrà lungo molti altri percorsi insoddisfacenti prima che cambi qualcosa in modo abbastanza positivo da ottenere un punteggio più alto.

Il discriminatore come tutor e mentore

L'innovazione fornita dalla nuova ricerca è essenzialmente quella che ora il Discriminatore indica al Generatore quali parti dell'immagine erano insoddisfacenti, in modo che il Generatore possa concentrarsi su quelle aree nella sua successiva iterazione e non buttare via le sezioni che sono state valutate più in alto. La natura della relazione è passata da combattiva a collaborativa.

Per rimediare alla disparità di intuizione tra il Discriminatore e il Generatore, i ricercatori hanno utilizzato GradCAM come un meccanismo in grado di formulare le intuizioni del Discriminatore in un aiuto di feedback visivo per il prossimo tentativo del Generatore.

Il nuovo metodo di allenamento "equilibrio" si chiama EqGAN. Per la massima riproducibilità, i ricercatori hanno incorporato tecniche e metodi esistenti con impostazioni predefinite, incluso l'uso di StileGan2 architettura.

L'architettura di EqGAN. La codifica spaziale del generatore è allineata alla consapevolezza spaziale del discriminatore, con campioni casuali di mappe di calore spaziali (vedi l'immagine precedente) codificate nuovamente nel generatore tramite il livello di codifica spaziale (SEL). GradCAM è il meccanismo attraverso il quale le mappe di attenzione del Discriminatore vengono messe a disposizione del generatore.

L'architettura di EqGAN. La codifica spaziale del generatore è allineata alla consapevolezza spaziale del discriminatore, con campioni casuali di mappe di calore spaziali (vedi l'immagine precedente) codificate nuovamente nel generatore tramite il livello di codifica spaziale (SEL). GradCAM è il meccanismo attraverso il quale le mappe di attenzione del Discriminatore vengono messe a disposizione del generatore.

GradCAM produce mappe di calore (vedi immagini sopra) che riflettono le critiche del Discriminatore all'ultima iterazione e le mettono a disposizione del Generatore.

Una volta addestrato il modello, la mappatura rimane un artefatto di questo processo cooperativo, ma può anche essere utilizzata per esplorare il codice latente finale nel modo interattivo dimostrato nel video del progetto dei ricercatori (vedi sotto).

EqGAN

Il progetto ha utilizzato una serie di set di dati popolari, inclusi i set di dati LSUN Cat and Churches, nonché il FFHQ insieme di dati. Il video qui sotto presenta anche esempi di manipolazione facciale e felina usando EqGAN.

Tutte le immagini sono state ridimensionate a 256 × 256 prima dell'addestramento di EqGAN sull'implementazione ufficiale di StyleGAN2. Il modello è stato addestrato a una dimensione batch di 64 su 8 GPU fino a quando il Discriminator non è stato esposto a oltre 25 milioni di immagini.

Testare i risultati del sistema su campioni selezionati con Frechet Inception Distance (FID), gli autori hanno stabilito una metrica chiamata Disequilibrium Indicator (DI) – il grado in cui il Discriminatore conserva il proprio vantaggio in termini di conoscenza rispetto al Generatore, con l'obiettivo di ridurre tale divario.

Sui tre set di dati addestrati, la nuova metrica ha mostrato un utile calo dopo aver codificato la consapevolezza spaziale nel generatore, con un migliore equilibrio dimostrato sia da FID che da DI.

I ricercatori concludono:

"Speriamo che questo lavoro possa ispirare più lavori di rivisitazione dell'equilibrio GAN e sviluppare metodi più innovativi per migliorare la qualità della sintesi dell'immagine manovrando l'equilibrio GAN". Condurremo anche un'indagine più teorica su questo problema nel lavoro futuro.'

E continua:

'I risultati qualitativi mostrano che il nostro metodo ha successo [costringe il generatore] a concentrarsi su regioni specifiche. Esperimenti su vari set di dati confermano che il nostro metodo mitiga lo squilibrio nell'addestramento GAN e migliora sostanzialmente la qualità complessiva della sintesi delle immagini. Il modello risultante con consapevolezza spaziale consente anche la manipolazione interattiva dell'immagine di output.'

Dai un'occhiata al video qui sotto per maggiori dettagli sul progetto e ulteriori esempi di esplorazione dinamica e interattiva dello spazio latente in un GAN.

Migliorare l'equilibrio GAN aumentando la consapevolezza spaziale

 

 

11:12 4 dicembre 2021 - URL corretto per GradCAM e riordinato il riferimento circostante.