Connect with us

Un Sistema di Intelligenza Artificiale in Grado di Rendere le Immagini delle Persone più ‘Belle’

Intelligenza artificiale

Un Sistema di Intelligenza Artificiale in Grado di Rendere le Immagini delle Persone più ‘Belle’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

I ricercatori della Cina hanno sviluppato un nuovo sistema di miglioramento delle immagini basato sull’intelligenza artificiale in grado di rendere le immagini di una persona più ‘belle’, sulla base di un approccio innovativo all’apprendimento per rinforzo.

Il nuovo approccio utilizza una 'rete di previsione della bellezza facciale' per iterare attraverso variazioni di un'immagine in base a una serie di fattori, tra cui 'illuminazione' e pose degli occhi possono essere fattori critici. Ecco le immagini originali (a sinistra di ogni colonna) sono dal sistema EigenGAN, con i nuovi risultati a destra di questi. Source: https://arxiv.org/pdf/2208.04517.pdf

Il nuovo approccio utilizza una ‘rete di previsione della bellezza facciale’ per iterare attraverso variazioni di un’immagine in base a una serie di fattori, tra cui ‘illuminazione’ e pose degli occhi possono essere fattori critici. Ecco le immagini originali (a sinistra di ogni colonna) sono dal sistema EigenGAN, con i nuovi risultati a destra di questi. Source: https://arxiv.org/pdf/2208.04517.pdf

La tecnica si basa sulle innovazioni scoperte per il generatore EigenGAN, un altro progetto cinese, del 2021, che ha fatto notevoli passi avanti nell’identificazione e nel controllo degli attributi semantici diversi all’interno dello spazio latente delle reti generative avversarie (GAN).

Il generatore EigenGAN del 2021 è stato in grado di individuare concetti di alto livello come 'colore dei capelli' all'interno dello spazio latente di una rete generativa avversaria. Il nuovo lavoro si basa su questo strumento innovativo per fornire un sistema che possa 'migliorare' le immagini sorgente, senza cambiare l'identità riconoscibile – un problema negli approcci precedenti.

Il generatore EigenGAN del 2021 è stato in grado di individuare concetti di alto livello come ‘colore dei capelli’ all’interno dello spazio latente di una rete generativa avversaria. Il nuovo lavoro si basa su questo strumento innovativo per fornire un sistema che possa ‘migliorare’ le immagini sorgente, senza cambiare l’identità riconoscibile – un problema negli approcci precedenti. Source: https://arxiv.org/pdf/2104.12476.pdf

Il sistema utilizza una ‘rete di punteggio estetico’ derivata da SCUT-FBP5500 (SCUT), un set di dati di riferimento del 2018 per la previsione della bellezza facciale, dell’Università di Tecnologia della Cina meridionale a Guangzhou.

Dal paper del 2018 'SCUT-FBP5500: un set di dati di riferimento diversificato per la previsione della bellezza facciale multi-paradigmatica', che ha proposto una 'rete di previsione della bellezza facciale' (FBP) in grado di classificare i volti in base all'attrattiva percepita, ma che non poteva effettivamente trasformare o 'migliorare' i volti.

Dal paper del 2018 ‘SCUT-FBP5500: un set di dati di riferimento diversificato per la previsione della bellezza facciale multi-paradigmatica’, che ha proposto una ‘rete di previsione della bellezza facciale’ (FBP) in grado di classificare i volti in base all’attrattiva percepita, ma che non poteva effettivamente trasformare o ‘migliorare’ i volti. Source: https://arxiv.org/pdf/1801.06345.pdf

A differenza del nuovo lavoro, il progetto del 2018 non può effettivamente eseguire trasformazioni, ma contiene giudizi di valore algoritmici per 5.500 volti, forniti da 60 etichettatori di genere misto (una divisione 50/50). Questi sono stati incorporati nel nuovo sistema come un efficace discriminatore, per informare trasformazioni che sono probabili migliorare l’ ‘attrattiva’ di un’immagine.

In modo interessante, il nuovo paper è intitolato Generazione di volti belli caucasici controllabili da attributi mediante apprendimento per rinforzo guidato dall’estetica. Il motivo per cui tutte le razze tranne quella caucasica sono escluse dal sistema (considera anche che i ricercatori stessi sono cinesi) è che i dati sorgente per SCUT sono notevolmente distorti verso fonti asiatiche (4.000 asiatici femmine/maschi divisi in modo uniforme, 1.500 femmine/maschi caucasici divisi in modo uniforme), rendendo la ‘persona media’ in quel set di dati con capelli castani e occhi castani.

Pertanto, al fine di accommodare la variazione di colore almeno all’interno di una razza, è stato necessario escludere il componente asiatico dai dati originali, o altrimenti andare alla notevole spesa di ricostituire i dati per sviluppare un metodo che potrebbe non aver funzionato. Inoltre, la variazione nelle percezioni culturali della bellezza inevitabilmente significa che tali sistemi avranno bisogno di un certo grado di configurabilità geografica riguardo a ciò che costituisce ‘attrattiva’.

Attributi Rilevanti

Per determinare i fattori principali che contribuiscono a una ‘foto attraente’ di una persona, i ricercatori hanno anche testato l’effetto di vari cambiamenti alle immagini, in termini di come tali aumenti migliorassero la percezione algoritmica della ‘bellezza’. Hanno scoperto che almeno uno degli aspetti è più centrale per la buona fotografia che per la buona genetica:

Oltre all’illuminazione, gli aspetti che hanno avuto il maggior impatto sul punteggio di bellezza sono stati i capelli (che, nel caso degli uomini, possono spesso essere equivalenti ad avere una testa piena di capelli), la posizione del corpo e la disposizione degli occhi (dove l’interazione con il punto di vista della fotocamera è un vantaggio per l’attrattiva).

(Riguardo al ‘colore del rossetto’, il nuovo sistema, che può funzionare efficacemente su presentazioni di genere maschile e femminile, non individua l’aspetto di genere, ma si basa sul nuovo sistema discriminatorio come ‘filtro’ in questo senso)

Metodo

La funzione di ricompensa nel meccanismo di apprendimento per rinforzo nel nuovo sistema è alimentata da una regressione semplice sui dati SCUT, che produce previsioni della bellezza facciale.

Il sistema di formazione itera sui dati di input delle immagini (in basso a sinistra nello schema seguente). Inizialmente, un modello ResNet18 pre-addestrato (addestrato su ImageNet) estrae caratteristiche dalle cinque immagini identiche (‘y’). Successivamente, un’azione trasformativa potenziale viene derivata dallo stato nascosto di un strato completamente connesso (GRUCell, nell’immagine seguente), e le trasformazioni vengono applicate, portando a cinque immagini modificate che vengono inserite nella rete di punteggio estetico, le cui classifiche, in stile darwiniano, determineranno quali variazioni saranno sviluppate e quali scartate.

Un'ampia illustrazione del flusso di lavoro per il nuovo sistema.

Un’illustrazione del flusso di lavoro per il nuovo sistema.

La rete di punteggio estetico utilizza un modulo di attenzione del canale efficiente (ECA), mentre un adattamento di un’istanza pre-addestrata di EfficientNet-B4 è incaricato di estrarre 1.792 caratteristiche da ogni immagine.

Dopo la normalizzazione attraverso una funzione di attivazione ReLU, un vettore a quattro dimensioni viene ottenuto indietro dal modulo ECA, che viene quindi appiattito in un vettore unidimensionale dopo l’attivazione e la media della piscina adattiva. Infine, i risultati vengono inseriti nella rete di regressione, che recupera un punteggio estetico.

Un confronto qualitativo dell'output del sistema. Nella riga inferiore, vediamo la somma aggregata di tutti gli aspetti individuati dal metodo EigenGAN e successivamente migliorati. I punteggi FID medi per le immagini sono a sinistra delle righe di immagini (più alto è meglio).

Un confronto qualitativo dell’output del sistema. Nella riga inferiore, vediamo la somma aggregata di tutti gli aspetti individuati dal metodo EigenGAN e successivamente migliorati. I punteggi FID medi per le immagini sono a sinistra delle righe di immagini (più alto è meglio).

Test e Studio Utente

Cinque varianti del metodo proposto sono state valutate algoritmicamente (vedi immagine sopra), con punteggi di distanza di Fréchet (FID, controverso in alcuni quartieri) assegnati a un totale di 1.000 immagini passate attraverso il sistema.

I ricercatori notano che il miglioramento dell’illuminazione ha ottenuto un punteggio di attrattiva migliore per i soggetti nelle foto rispetto ad altri cambiamenti possibili (ad esempio, al vero aspetto della persona ritratta).

Per testare il sistema in questo modo è limitato dalle eccentricità dei dati SCUT, che non hanno molti ‘sorrisi luminosi’, e gli autori sostengono che ciò potrebbe sovrastimare l’aspetto più ‘enigmatico’ tipico dei dati, in confronto alle preferenze probabili degli utenti finali target (presumibilmente, in questo caso, un mercato occidentale).

Tuttavia, poiché l’intero sistema si basa sulle opinioni medie di sole 60 persone (nel paper EigenGAN), e poiché la qualità in esame è lontana dall’essere empirica, potrebbe essere argomentato che la procedura è più solida del set di dati.

Sebbene sia trattato molto brevemente nel paper, le immagini da EigenGAN e le cinque varianti del sistema sono state mostrate anche in uno studio utente limitato (otto partecipanti), che sono stati invitati a selezionare la ‘migliore immagine’ (la parola ‘attraente’ è stata evitata).

Sopra, l'interfaccia utente presentata al piccolo gruppo di studio; sotto, i risultati.

Sopra, l’interfaccia utente presentata al piccolo gruppo di studio; sotto, i risultati.

I risultati indicano che l’output del nuovo sistema ha ottenuto il tasso di selezione più alto tra i partecipanti (‘MAES’ nell’immagine sopra).

La (Vana?) Ricerca della Bellezza

L’utilità di un tale sistema è difficile da stabilire, nonostante ciò che sembra essere un notabile locus di sforzo in Cina verso questi obiettivi. Nessuno è delineato nella nuova pubblicazione.

Il paper EigenGAN precedente suggerisce* che un sistema di riconoscimento della bellezza potrebbe essere utilizzato in sistemi di raccomandazione di sintesi di trucco facciale, chirurgia estetica, miglioramento del viso, o recupero di immagini basato su contenuto.

Presumibilmente, un tale approccio potrebbe anche essere utilizzato nei siti di incontri, dagli utenti finali, per ‘migliorare’ le proprie foto di profilo in una ‘foto fortunata’ garantita, come alternativa all’uso di foto obsolete o foto di altre persone.

Allo stesso modo, i siti di incontri stessi potrebbero anche ‘valutare’ i propri clienti per creare classifiche e persino livelli di accesso restrittivi, sebbene ciò presumibilmente funzionerebbe solo tramite una cattura di autenticazione di vivacità, piuttosto che foto inviate (che potrebbero essere ‘migliorate’ dai clienti, se l’approccio dovesse diventare popolare).

Nella pubblicità, un metodo algoritmico per valutare la bellezza (una tecnologia prevista dal defunto autore di fantascienza Michael Crichton nel suo film del 1982 Looker) potrebbe essere utilizzato per selezionare l’output creativo non migliorato più probabile di coinvolgere un pubblico target, mentre la capacità di massimizzare effettivamente l’impatto estetico delle immagini del viso, senza sovrascrivere effettivamente le immagini nello stile dei deepfake, potrebbe aumentare le immagini già efficaci destinate a suscitare l’interesse del pubblico.

Il nuovo lavoro è supportato dalla National Natural Science Foundation of China, dal Progetto di apertura del Laboratorio statale per la gestione e il controllo dei sistemi complessi e dal Progetto di ricerca in filosofia e scienze sociali del Ministero dell’istruzione della Cina, tra gli altri sostenitori.

 

* Molti dei suggerimenti del paper EigenGAN puntano verso un libro commerciale del 2016 intitolato ‘Modelli di computer per l’analisi della bellezza facciale’, piuttosto che risorse accademiche.

Prima pubblicazione l’11 agosto 2022.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.