Angolo di Anderson
L’inseguimento dell’intelligenza artificiale della bellezza

Un nuovo sistema di valutazione della bellezza guidato dall’intelligenza artificiale valuta quanto sono attraenti i volti, mentre si allena più velocemente dei modelli di apprendimento profondo tipici, potenzialmente rendendo più pratico il punteggio della bellezza automatizzato su larga scala.
La previsione della bellezza facciale (FBP) è un grande business e un filone abbastanza forte nella letteratura di ricerca. Anche se viola praticamente ogni principio alla base della lotta contro i pregiudizi nelle pratiche di intelligenza artificiale e apprendimento automatico, e anche se in molti modi sostiene l’oggettivazione e il riduzionismo nelle percezioni algoritmiche delle donne, attira comunque l’interesse di diverse industrie da molti miliardi di dollari, la maggior parte delle quali è rivolta direttamente alle donne, come ad esempio i cosmetici, la chirurgia facciale cosmetica, livestreaming e moda, tra gli altri:

Donne valutate da 1 a 5, dal paper ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Fonte
Oltre a questi ovvi settori commerciali centrati sulle donne, la pubblicità e molte altre industrie, tra cui l’intrattenimento e l’editoria, hanno interessi notevoli nella comprensione di ciò che sia gli uomini che le donne trovano ‘attraente’, necessariamente su base per cultura.
Il fatto che le percezioni aggregate della bellezza variino tra le regioni significa che non possono essere ottenuti dati definitivi applicabili a livello globale e che nuove ricerche devono rimanere parrocchiali o concentrarsi su metodi ‘di alto livello’ che possono essere applicati attraverso ampie porzioni di dati culturali.

Un’interfaccia per un sistema di valutazione della bellezza facciale per il progetto SCUT-FBP del 2015. Fonte
Spesso, la localizzazione geografica non è l’unico vincolo, poiché i set di dati focalizzati sull’attrattiva potrebbero avere difficoltà a fornire efficacia pari tra i generi o potrebbero essere stati curati con un’applicazione specifica in mente – e ciò potrebbe limitare l’uso della raccolta in altri domini.
Ad esempio, nel 2025 ho segnalato lo sviluppo di un set di dati relativamente su larga scala (100.000+ identità) per valutare l’attrattiva nel livestreaming, il cui standard di ritaglio potrebbe richiedere un adattamento notevole per progetti più ampi, nonostante l’enorme sforzo dietro l’iniziativa.
Rendizione facciale
Come potrebbe essere evidente dai collegamenti e dalle immagini sopra, i corpi di ricerca asiatici spesso non operano sotto gli stessi vincoli culturali dei loro omologhi occidentali, che sarebbero stati duramente colpiti se avessero osato pubblicare un’illustrazione scientifica che valuta cinque donne occidentali da meno a più attraenti, come vediamo nello studio sopra illustrato.
Potrebbe essere argomentato che dove i sistemi di questo tipo di origine asiatica sono provati efficaci in pubblico, senza paura di censura locale, gli interessi occidentali possono utilizzare o adattare tale ricerca in implementazioni private e proprietarie. Il compito di ‘valutare le donne’ in quel scenario è stato reso in un luogo in cui può essere perseguito senza critica.
Se ciò è comune o se meno pubblicizzati sistemi equivalenti occidentali tendono a essere sviluppati lontano dalla collaborazione open source e dalla supervisione pubblica, è ragionevole supporre che l’obiettivo finale sia di interesse globale, a causa del gran numero di settori professionali che possono o potrebbero trarre beneficio da valutazioni accurate dell’attrattiva.
Sopravvivenza del più adatto
Potrebbe sembrare che enormi corpora web come Tik Tok, Instagram e YouTube provino eccellenti arbitri della bellezza, correlando follower, like e traffico all’attrattiva, poiché questo è un’associazione comune e ragionevole (anche se con alcune eccezioni).
Allo stesso modo, le raccolte esistenti – come ImageNet e LAION – che presentano attori e modelli che sono ‘risaliti in cima’ – presenteranno generalmente individui attraenti (anche se spesso con troppi punti di dati di poche persone), consentendo meccanismi culturali più ampi di agire come un proxy per l’attrattiva.
Tuttavia, ciò non tiene conto dei gusti mutevoli di ciò che le persone trovano attraente nel tempo (per non parlare geograficamente). Pertanto, nuovamente, sono necessari sistemi di alto livello e agnostici dei dati, non raccolte o curate individuali e speculative che falliranno nel riflettere i gusti mutevoli.
Pelle mista
L’ultimo ingresso accademico per affrontare queste sfide proviene dalla Cina, dove l’apprendimento trasferito e Broad Learning System (BLS) sono combinati per affrontare il trade-off di lunga data tra accuratezza e costo computazionale.
Le reti neurali convenzionali tendono a raggiungere risultati forti solo con un addestramento pesante, mentre sistemi più leggeri come BLS si addestrano velocemente, ma lottano per catturare abbastanza dettagli. Il nuovo lavoro ponta questo divario utilizzando un modello visivo pre-addestrato per estrarre caratteristiche facciali, che vengono poi passate a un sistema BLS veloce per la valutazione, consentendo di riutilizzare le caratteristiche invece di impararle da zero, mantenendo al contempo l’efficienza dell’addestramento:

Immagini di esempio dal set di dati LSAFBD, che mostrano volti femminili raggruppati per punteggi di bellezza assegnati dagli esseri umani da 1 a 5. Le valutazioni sono state ottenute da più annotatori e utilizzate come etichette supervisionate per l’addestramento e la valutazione dei modelli di previsione della bellezza facciale attraverso variazioni di posa, illuminazione e aspetto. Fonte
Il primo dei due varianti introdotti nel lavoro (E-BLS, vedi sotto), alimenta le caratteristiche estratte direttamente nel sistema leggero, mentre il secondo, ER-BLS (vedi anche sotto), aggiunge un passaggio intermedio semplice che standardizza e raffina quelle caratteristiche prima della valutazione, aiutando a migliorare la coerenza senza rallentare il processo.
I test condotti dagli autori dimostrano, affermano, che il loro approccio è superiore a entrambi i metodi singolarmente e ad altri metodi concorrenti.
Il nuovo paper è intitolato Previsione della bellezza facciale che fonde l’apprendimento trasferito e il sistema di apprendimento ampio, e proviene da sei ricercatori dell’Università di Wuyi, Jiangmen.
Metodo
Il sopra menzionato Sistema di apprendimento ampio è un’alternativa leggera alle reti neurali profonde, che salta lo stacking di più strati e invece diffonde l’apprendimento attraverso un ampio set di connessioni più semplici, consentendo ai modelli di addestrarsi velocemente – ma di solito a scapito della perdita di dettagli visivi più fini.
Il primo dei due varianti, E-BLS, combina EfficientNet-basato sull’apprendimento trasferito con BLS, estraendo caratteristiche visive dettagliate da un volto e poi passandole a BLS, comportando una previsione finale che evita la necessità di addestrare una rete neurale profonda completa da zero:

Schema dell’architettura per il modello E-BLS.
EfficientNet, pre-addestrato su ImageNet-1k e mantenuto in gran parte invariato, converte ogni immagine di input in un insieme compatto di valori di caratteristiche che descrivono il volto in modo strutturato, mentre BLS prende quei valori e li elabora attraverso una rete di nodi semplici e casualmente connessi che trasformano e combinano le informazioni, prima di produrre il punteggio di attrattiva finale.
Poiché BLS non si basa su strutture a strati profondi, E-BLS può essere aggiornato aggiungendo più nodi invece di riaddestrare l’intero sistema, il che mantiene l’addestramento veloce e rende più facile migliorare il modello quando vengono introdotti nuovi dati.
Il secondo dei due varianti, ER-BLS, si basa su E-BLS aggiungendo uno stadio di elaborazione intermedio tra l’estrattore di caratteristiche EfficientNet e BLS, con l’obiettivo di migliorare come quelle caratteristiche estratte vengono preparate prima dell’utilizzo per la previsione:

Architettura del modello ER-BLS.
Invece di inviare le caratteristiche EfficientNet grezze direttamente in BLS, ER-BLS passa prima attraverso uno strato di raffinamento che standardizza e ridisegna i dati, aiutando a ridurre il rumore e rendendo le caratteristiche più coerenti attraverso diverse immagini. Questo passaggio è progettato per migliorare come il sistema generalizza, specialmente quando i volti variano in illuminazione, posa o altre condizioni visive che potrebbero altrimenti introdurre instabilità nelle previsioni.
Le caratteristiche raffinate vengono poi alimentate nella stessa struttura BLS utilizzata in E-BLS, dove i nodi di caratteristiche e i nodi di miglioramento trasformano e combinano le informazioni per produrre il punteggio di attrattiva finale.
Dati e test
Per testare il loro approccio, gli autori hanno sfruttato il set di dati SCUT-FBP5500, una raccolta di previsione della bellezza facciale dell’Università del Sud della Cina, contenente 5.500 immagini di volti frontali a 350x350px, con razze, generi e età diverse:

Immagini di esempio del set di dati SCUT-FBP5500 valutate da meno (1) a più (5) attraenti.
Ogni immagine è stata valutata con un punteggio di bellezza da 60 volontari, su una scala da 1 a 5, che va da estremamente non attraente (1) a estremamente attraente (5):

La divisione delle proporzioni di immagini per punteggio di bellezza.
L’altro database utilizzato è stato il Large-Scale Asian Female Beauty Dataset (LSAFBD) collection, un set di dati curato dagli stessi autori.

Immagini di esempio del set di dati LSAFBD valutate da meno (1) a più (5) attraenti.
La raccolta consiste in 80.000 immagini non etichettate a risoluzione 144x144px, con variazioni di posa e sfondo, nonché di età. Queste sono state valutate da 75 volontari per gli stessi criteri del set di dati precedente, questa volta su una scala da 0 a 4:

Le divisioni per il set di dati LSAFBD.
Ogni set di dati è stato diviso in segmenti di addestramento e testing in un rapporto 8/20 e cross-validation utilizzato per stabilizzare i risultati attraverso le esecuzioni. La componente BLS è stata configurata attraverso il numero di finestre di caratteristiche; il numero di nodi per finestra; e il numero di nodi di miglioramento, con Hyperopt utilizzato per cercare combinazioni efficaci.
Per stabilire una baseline, un modello BLS standard è stato addestrato in condizioni identiche, dopo di che una serie di modelli di apprendimento trasferito sono stati introdotti, tra cui ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet e Xception – tutti inizializzati con pesi ImageNet-1k e addestrati con i loro strati finali sbloccati.
L’addestramento ha utilizzato un tasso di apprendimento di 0,001 (ridotto quando il progresso si è fermato) e una dimensione del batch di 16, attraverso 50 epoche, con regolarizzazione e attivazione lineare rettificata (ReLU) applicata in tutto.
Le prestazioni sono state valutate utilizzando l’accuratezza e la correlazione di Pearson, insieme al tempo di addestramento totale, con i risultati mediati su cinque esecuzioni.
Gli autori segnalano l’impostazione di addestramento come un processore Intel-i7 3,6 GHz CPU e 64GB RAM su un ‘computer desktop’:

Confronto delle prestazioni su SCUT-FBP5500, dove E-BLS e ER-BLS raggiungono un’accuratezza competitiva contro i modelli CNN profondi, tra cui ResNet50, EfficientNetB7, InceptionV3 e Xception, mentre richiedono notevolmente meno tempo di addestramento – evidenziando i guadagni di efficienza della combinazione dell’apprendimento trasferito con un Sistema di apprendimento ampio.
I risultati hanno indicato che E-BLS ha migliorato l’accuratezza dal 65,85% al 73,13%, mentre ER-BLS ha raggiunto il 74,69%, superando tutti i modelli confrontati. Il tempo di addestramento è rimasto notevolmente inferiore ai CNN profondi, a circa 1.300 secondi, rispetto a diverse migliaia o oltre 25.000 secondi.
Per i test su LSAFBD, i risultati hanno mostrato che E-BLS ha migliorato l’accuratezza rispetto al modello BLS semplice, mentre ER-BLS ha raggiunto l’accuratezza più alta tra tutti i metodi confrontati:

Prestazioni su LSAFBD, dove ER-BLS e E-BLS consegnano un’accuratezza più alta di tutti i modelli di base e di apprendimento trasferito, mentre richiedono solo una frazione del loro tempo di addestramento, indicando un vantaggio costante in termini di efficienza senza sacrificare la qualità predittiva.
Entrambe le varianti hanno mantenuto un tempo di addestramento sostanzialmente inferiore ai modelli CNN profondi, indicando un equilibrio più efficiente tra prestazioni e costo computazionale.
Conclusione
Questo è un po’ una pubblicazione ‘di ritorno’, come evidenziato dal suo utilizzo di favoriti pre-boom come i CNN, e dal suo utilizzo del più basso livello di attrezzature di addestramento che abbia incontrato in un nuovo paper in molti anni.
Tuttavia, affronta un obiettivo sorprendentemente resiliente nel campo della visione computerizzata; un obiettivo che tocca pesantemente l’esperienza umana e l’interpretazione soggettiva, e che richiede uno schema che trascenda le mode estetiche del momento, e possa fornire una pipeline veramente resiliente per il compito.
Pubblicato per la prima volta giovedì 19 marzo 2026












