Intelligenza Artificiale
Un sistema di intelligenza artificiale che può rendere le immagini delle persone più "belle"

I ricercatori cinesi hanno sviluppato un nuovo sistema di miglioramento delle immagini basato sull'intelligenza artificiale, in grado di rendere le immagini di una persona più "belle", sfruttando un nuovo approccio all'apprendimento per rinforzo.

Il nuovo approccio utilizza una "rete di previsione della bellezza del viso" per iterare le variazioni di un'immagine in base a diversi fattori, tra cui l'illuminazione e la posizione degli occhi possono essere fattori critici. Qui le fonti originali (a sinistra di ogni colonna) provengono dal sistema EigenGAN, con i nuovi risultati a destra. Fonte: https://arxiv.org/pdf/2208.04517.pdf
La tecnica attinge alle innovazioni scoperte per il Generatore EigenGAN, un altro progetto cinese, del 2021, che ha fatto passi da gigante nell'identificare e acquisire un certo controllo sui diversi attributi semantici nello spazio latente dei Generative Adversarial Network (GAN).

Il generatore EigenGAN del 2021 è stato in grado di individuare concetti di alto livello come il "colore dei capelli" all'interno dello spazio latente di una rete generativa avversaria. Il nuovo lavoro si basa su questa strumentazione innovativa per fornire un sistema in grado di "abbellire" le immagini sorgente, senza modificarne l'identità riconoscibile, un problema riscontrato negli approcci precedenti. Fonte: https://arxiv.org/pdf/2104.12476.pdf
Il sistema utilizza una "rete di punteggio estetico" derivata da SCUT-FBP5500 (SCUT), un set di dati di riferimento del 2018 per la previsione della bellezza del viso, della South China University of Technology di Guangzhou.

Dal documento del 2018 "SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction", che proponeva una rete di "previsione della bellezza del viso" (FBP) in grado di classificare i volti in termini di attrattiva percepita, ma che non era in grado di trasformarli o "migliorarli". Fonte: https://arxiv.org/pdf/1801.06345.pdf
A differenza del nuovo lavoro, il progetto del 2018 non può effettivamente eseguire trasformazioni, ma contiene giudizi di valore algoritmici per 5,500 volti, forniti da 60 etichettatori di genere misti (una suddivisione 50/50). Questi sono stati incorporati nel nuovo sistema come efficaci discriminatore, per informare le trasformazioni che potrebbero aumentare l'"attrattiva" di un'immagine.
È interessante notare che la nuovo documento è intitolato Attributo Generazione controllabile di bei volti caucasici mediante l'apprendimento per rinforzo guidato dall'esteticaIl motivo per cui tutte le razze, eccetto quella caucasica, sono escluse dal sistema (si consideri anche che gli stessi ricercatori sono cinesi) è che i dati di origine per SCUT sono notevolmente sbilanciati verso fonti asiatiche (4000 donne/uomini asiatici equamente divisi, 1500 donne/uomini caucasici equamente divisi), rendendo la "persona media" in quel set di dati con i capelli e gli occhi castani.
Pertanto, al fine di accogliere la variazione di colorazione almeno all'interno di una razza, era necessario escludere la componente asiatica dai dati originali, oppure affrontare la notevole spesa di ricostituire i dati per sviluppare un metodo che avrebbe potuto non avere successo. Inoltre, variazioni nelle percezioni culturali della bellezza ciò significa inevitabilmente che tali sistemi necessiteranno di un certo grado di configurabilità geografica per quanto riguarda ciò che costituisce "attrattiva".
Attributi pertinenti
Per determinare i principali fattori che contribuiscono a rendere "attraente" una foto di una persona, i ricercatori hanno anche testato l'effetto di varie modifiche alle immagini, in termini di quanto tali miglioramenti aumentassero la percezione algoritmica della "bellezza". Hanno scoperto che almeno uno di questi fattori è più importante per una buona fotografia rispetto alla buona genetica:

Oltre all'illuminazione, gli aspetti che hanno avuto il maggiore impatto sul punteggio di bellezza sono stati la frangetta (che, nel caso degli uomini, può spesso equivalere ad avere una chioma folta), la posa del corpo e la disposizione degli occhi (dove l'impegno con il il punto di vista della fotocamera è un incentivo all'attrattiva).
(Per quanto riguarda il "colore del rossetto", il nuovo sistema, che può funzionare efficacemente sia sulle presentazioni di genere maschile che femminile, non individua l'aspetto di genere, ma si affida piuttosto al nuovo sistema discriminatore come "filtro" a questo riguardo)
Metodo
La funzione di ricompensa nel meccanismo di apprendimento per rinforzo nel nuovo sistema è alimentata da una semplice regressione sui dati SCUT, che genera previsioni sulla bellezza del viso.
Il sistema di addestramento itera sulle immagini di input dei dati (in basso a sinistra nello schema sottostante). Inizialmente un preaddestrato ResNet18 modello (addestrato su IMAGEnet) estrae le caratteristiche dalle cinque immagini identiche ('y'). Successivamente, una potenziale azione trasformativa viene derivata dallo stato nascosto di un strato completamente connesso (GRUCell, nell'immagine sotto), e le trasformazioni applicate, portando a cinque immagini alterate che vengono inserite nella rete di punteggi estetici, le cui classifiche, in stile Darwin, determineranno quali variazioni verranno sviluppate e quali scartate.
La rete del punteggio estetico utilizza un'attenzione efficiente del canale (ACE), mentre un adattamento di un'istanza pre-addestrata di EfficientNet-B4 ha il compito di estrarre 1,792 caratteristiche da ogni immagine.
Dopo la normalizzazione tramite a Funzione di attivazione ReLU, si ottiene un vettore quadridimensionale dal modulo ECA, che viene quindi appiattito in un vettore unidimensionale dopo l'attivazione e raggruppamento medio adattativo. Infine, i risultati vengono inseriti nel file rete di regressione, che recupera un punteggio estetico.

Un confronto qualitativo dell'output del sistema. Nella riga in basso, vediamo la somma aggregata di tutte le sfaccettature individuate che sono state identificate dal metodo EigenGAN e successivamente valorizzate. I punteggi FID medi per le immagini si trovano a sinistra delle righe delle immagini (più alto è meglio).
Test e studio degli utenti
Cinque varianti del metodo proposto sono state valutate algoritmicamente (vedi immagine sopra), con distanza di inizio Fréchet (FID, controverso in alcuni ambienti) punteggi assegnati a un totale di 1000 immagini inserite nel sistema.
I ricercatori hanno osservato che migliorando l'illuminazione si è ottenuto un punteggio di attrattiva maggiore per i soggetti nelle foto rispetto ad altri possibili cambiamenti più "ovvi" (ad esempio all'aspetto effettivo della persona ritratta).
In una certa misura, testare il sistema in questo modo è limitato dalle eccentricità dei dati SCUT, che non presentano molti "sorrisi luminosi", e gli autori sostengono che ciò potrebbe sopravvalutare eccessivamente l'aspetto "enigmatico" più tipico dei dati, rispetto alle probabili preferenze dei potenziali utenti finali target (presumibilmente, in questo caso, un mercato occidentale).
Tuttavia, poiché l'intero sistema si basa sulle opinioni medie medie di appena 60 persone (nel documento EigenGAN), e poiché la qualità studiata è tutt'altro che empirica, si potrebbe sostenere che la procedura è più solida del set di dati.
Sebbene l'argomento venga trattato molto brevemente nell'articolo, le immagini di EigenGAN e delle cinque varianti del sistema sono state mostrate anche in uno studio limitato agli utenti (otto partecipanti), ai quali è stato chiesto di selezionare la "migliore immagine" (la parola "attraente" è stata evitata).

Sopra, la GUI presentata al piccolo gruppo di studio; sotto, i risultati.
I risultati indicano che l'output del nuovo sistema ha raggiunto il tasso di selezione più elevato tra i partecipanti ('MAES' nell'immagine sopra).
La ricerca (senza scopo?) della bellezza
L'utilità di un tale sistema è difficile da stabilire, nonostante ciò che sembra essere a notevole luogo of sforzo in Cina verso questi obiettivi. Nessuno è delineato nella nuova pubblicazione.
Il precedente documento EigenGAN suggerisce* che un sistema di riconoscimento della bellezza potrebbe essere utilizzato nel viso sistemi di raccomandazione per la sintesi del trucco, chirurgia estetica, abbellimento del visoo recupero di immagini basato sul contenuto.
Presumibilmente un simile approccio potrebbe essere utilizzato anche nei siti di incontri, dagli utenti finali, per "migliorare" le proprie foto del profilo trasformandole in uno "scatto fortunato" garantito, come alternativa all'utilizzo di foto obsolete o foto di altre persone.
Allo stesso modo, i siti di incontri stessi potrebbero anche "valutare" i loro clienti per creare valutazioni e persino livelli ad accesso limitato, anche se presumibilmente ciò funzionerebbe solo tramite un'acquisizione di autenticazione in tempo reale, piuttosto che tramite foto inviate (che potrebbero essere "migliorate" dai clienti, se l'approccio dovesse diventare popolare).
Nella pubblicità , un metodo algoritmico per valutare la bellezza (una tecnologia prevista dal defunto autore di fantascienza Michael Crichton nella sua uscita cinematografica del 1982 Looker) potrebbero essere utilizzati per selezionare l'output creativo non potenziato che ha maggiori probabilità di coinvolgere un pubblico target, mentre la capacità di massimizzare effettivamente l'impatto estetico delle immagini dei volti, senza sovrascriverle effettivamente nello stile dei deepfake, potrebbe potenziare le immagini già efficaci destinate per raccogliere l’interesse del pubblico.
Il nuovo lavoro è supportato, tra gli altri, dalla National Natural Science Foundation of China, dall'Open Fund Project dello State Key Laboratory of Complex System Management and Control e dal Project of Philosophy and Social Science Research del Ministero dell'Istruzione cinese.
* Molte delle raccomandazioni contenute nel documento EigenGAN puntano più verso un libro del 2016 disponibile in commercio intitolato "Computer Models for Facial Beauty Analysis", piuttosto che verso risorse accademiche.
Pubblicato per la prima volta l'11 agosto 2022.













