Seguici sui social

Uno strumento di intelligenza artificiale rimuove il trucco per impedire ai minorenni di eludere i controlli sull'età

L'angolo di Anderson

Uno strumento di intelligenza artificiale rimuove il trucco per impedire ai minorenni di eludere i controlli sull'età

mm
Flux, SDXL, filtri neurali di Photoshop, Firefly, Krita et al.

L'aspetto dei cosmetici per il viso sta consentendo a utenti minorenni, soprattutto ragazze, di eludere i controlli dell'età basati sui selfie su piattaforme come app di incontri e siti di e-commerce. Un nuovo strumento di intelligenza artificiale affronta questa lacuna, utilizzando un modello discriminante addestrato a cancellare il trucco preservando l'identità, rendendo più difficile per i minori eludere i sistemi automatizzati.

 

L'uso di servizi di verifica dell'età basati sui selfie di terze parti è in aumento, non da ultimo a causa di un impulso globale generale verso la verifica online basata sull'età.

Ad esempio, nel nuovo regime di applicazione che l'Online Safety Act del Regno Unito ora mandati, la verifica dell'età può essere effettuata da una varietà di terze parti servizi, utilizzando vari metodi possibili, inclusa la verifica visiva dell'età, dove l'intelligenza artificiale viene utilizzata per prevedere visivamente l'età dell'utente (solitamente da riprese in diretta di telecamere mobili). I servizi che utilizzano approcci di questo tipo includono Ondato, TrustStampe Yoti.

Tuttavia, la stima dell’età non è infallibile e la tradizionale determinazione degli adolescenti ad anticipare i diritti dell’età adulta significa che i giovani hanno sviluppato una varietà di metodi efficaci per accedere a siti di incontri, forum e altri ambienti che vietano la loro fascia d'età.

Uno di questi metodi, più comunemente utilizzato dalle donne*, è quello di truccarsi il viso, una tattica noto per ingannare sistemi automatizzati di stima dell'età, che generalmente sovrastimano l'età dei giovani e sottovalutare l'età delle persone anziane.

Non solo le ragazze

Prima che si protesti nel considerare il trucco come "incentrato sulle donne", dobbiamo notare che la presenza di cosmetici per il viso su chiunque è un indicatore molto inaffidabile di genere:

Nello studio "Impatto dei cosmetici per il viso sugli algoritmi automatici di stima di genere ed età", i ricercatori statunitensi hanno scoperto che i sistemi di verifica del genere erano compromessi dal trucco che invertiva il sesso. Fonte: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

Nel documento "Impatto dei cosmetici per il viso sugli algoritmi di stima automatica di genere ed età", i ricercatori statunitensi hanno scoperto che i sistemi di verifica del genere erano compromessi dal trucco che invertiva il sesso. Fonte: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf

Nel 2024, il 72% dei consumatori maschi statunitensi di età compresa tra 18 e 24 anni era stimato per incorporare il trucco nella loro routine di cura personale, anche se la maggior parte usa prodotti cosmetici per migliorare l'aspetto di una pelle sana, piuttosto che concedersi il tipo di performance combinazioni mascara/rossetto più associato con l'estetica visiva femminile.

Non possiamo quindi fare a meno di trattare il materiale studiato in questo articolo secondo le linee dello scenario più comune esplorato nelle nuove ricerche, ovvero quello delle minorenni che utilizzano il trucco per sovvertire i sistemi automatici di verifica visiva dell'età.

Rimozione efficace del trucco: il metodo AI

La ricerca sopra menzionata proviene da tre collaboratori della New York University, sotto forma di nuovo documento DiffClean: rimozione del trucco tramite diffusione per una stima accurata dell'età.

L'obiettivo del progetto è quello di realizzare un metodo basato sull'intelligenza artificiale per rimuovere la parvenza di trucco dalle immagini (potenzialmente comprese le immagini video), al fine di ottenere un'idea migliore della vera età della persona dietro il trucco.

Un esempio di rimozione del trucco dal nuovo articolo. Fonte: https://arxiv.org/pdf/2507.13292

Dal nuovo articolo, un esempio di come la rimozione del trucco possa alterare notevolmente la previsione dell'età. Fonte: https://arxiv.org/pdf/2507.13292

Una delle sfide nello sviluppo di un sistema di questo tipo è la potenziale delicatezza della raccolta o della gestione di immagini di ragazze minorenni che indossano trucco da adulti. Alla fine, i ricercatori hanno utilizzato un sistema di terze parti basato su una rete generativa avversaria chiamata Elegante imporre artificialmente stili di trucco, una tecnica che si è rivelata molto efficace:

Il sistema EleGANt 2022 dell'Università Tsinghua utilizza reti generative avversarie (GAN) per sovrapporre cosmetici in modo autentico alle foto originali. Fonte: https://arxiv.org/pdf/2207.09840

Il sistema EleGANt 2022 della Tsinghua University utilizza una rete generativa avversaria (GAN) per sovrapporre in modo autentico i cosmetici alle foto originali. Fonte: https://arxiv.org/pdf/2207.09840

Con l'ausilio di dati sintetici ottenuti in questo modo e con l'aiuto di una vasta gamma di progetti e set di dati ausiliari, gli autori sono stati in grado di superare i metodi più avanzati nella stima dell'età quando confrontati con una composizione performativa o "evidente".

Il documento afferma:

"DiffClean [cancella] le tracce di trucco utilizzando un modello di diffusione guidato da testo per difendersi dagli attacchi del trucco. [Migliora] la stima dell'età (accuratezza minore rispetto a quella di un adulto del 4.8%) e la verifica del volto (TMR dell'8.9% a FMR = 0.01%) rispetto ai valori di riferimento concorrenti su immagini di trucco simulate digitalmente e reali."

Diamo un'occhiata a come hanno affrontato il compito.

Metodo

Per evitare di utilizzare immagini reali di minorenni truccate, gli autori hanno utilizzato EleGANt per applicare cosmetici sintetici alle immagini provenienti dal UTKFace set di dati, producendo coppie prima e dopo per l'addestramento.

Esempi dal dataset UTKFace. Fonte: https://susanqq.github.io/UTKFace/

Esempi dal dataset UTKFace. Fonte: https://susanqq.github.io/UTKFace/

DiffClean è stato quindi addestrato per invertire questa trasformazione. Poiché gli algoritmi di stima dell'età commettono errori maggiori quando si occupano di fasce di età più giovani, i ricercatori hanno ritenuto necessario sviluppare un classificatore di età proxy. messo a punto sulle età target (10-19 anni). A tal fine hanno utilizzato il SSRNet architettura addestrata su UTKFace, con un peso Perdita L1.

Una versione ridotta dell'OpenAI del 2021 modello di diffusione ha fornito la spina dorsale per la trasformazione, con gli autori che hanno mantenuto l'architettura di base, ma l'hanno modificata con extra teste di attenzione a diverse risoluzioni, strati più profondi e BigGAN-blocchi di stile per migliorare le fasi di upsampling e downsampling.

Il controllo direzionale è stato introdotto utilizzando CLIP suggerimenti: in particolare, viso con trucco e viso senza trucco, in modo che la modella imparasse a muoversi nella direzione semantica desiderata, consentendo di rimuovere il trucco senza compromettere i dettagli del viso, i segnali dell'età o l'identità.

Trucco sintetico applicato con EleGANt. Ogni tripletta mostra l'immagine originale di UTKFace (a sinistra), lo stile di trucco di riferimento (al centro) e il risultato dopo il trasferimento dello stile (a destra).

Trucco sintetico applicato con EleGANt. Ogni tripletta mostra l'immagine originale di UTKFace (a sinistra), lo stile di trucco di riferimento (al centro) e il risultato dopo il trasferimento dello stile (a destra). Il trasferimento del trucco di questo tipo è diffuso nella letteratura sulla visione artificiale, e questa funzionalità è disponibile anche nei filtri neurali di Adobe Photoshop, che possono applicare in modo simile il trucco da un'immagine di riferimento a un'immagine di destinazione.

Quattro chiavi funzioni di perdita rimozione guidata del trucco senza alterare l'identità del viso o i segnali dell'età. Oltre alla perdita basata su CLIP sopra menzionata, l'identità è stata preservata utilizzando una coppia ponderata di ArcoFaccia perdite derivanti dalla InsightFace libreria – perdite che misuravano la somiglianza tra il volto generato e sia l'immagine originale pulita che la versione "truccata", assicurando che il soggetto rimanesse visivamente coerente prima e dopo la rimozione del trucco.

In terzo luogo, la perdita percettiva Metriche di similarità percettiva apprese (LPIPS) ha utilizzato la distanza L1 per rafforzare il realismo a livello di pixel e conservare l'aspetto generale dell'immagine originale dopo la rimozione del trucco.

Infine, l'età è stata supervisionata utilizzando una rete SSRNet ottimizzata e addestrata sul dataset UTKFace, con il modello che utilizzava una perdita L1 smussata (con penalità più elevate per gli errori nella fascia d'età 10-29 anni, dove l'errata classificazione è più comune). Una variante del modello ha sostituito questa con un prompt di età basato su CLIP, che richiedeva al modello di corrispondere all'aspetto di un'età specifica.

Per la stima dell'età al momento dell'inferenza (in contrapposizione all'uso di SSRNet al momento dell'addestramento), il 2023 MiVOLO è stato utilizzato il framework.

Dati e test

La messa a punto di UTKFace da parte di SSRNet ha utilizzato un set di addestramento di 15,364 immagini, rispetto a un set di test di 6,701 immagini. Le 20,000 immagini originali sono state filtrate per rimuovere chiunque avesse più di 70 anni, e poi divise allo stesso modo 70:30.

In conformità con il metodo precedentemente stabilito dal 2023 DiffAM progetto, la formazione è poi proseguita in due fasi, con la sessione iniziale che utilizzava 300 immagini di trucco del mondo reale (questa volta una divisione 200/100 tra formazione e convalida) da BeautyGAN set di dati MT.

Il modello è stato poi ulteriormente perfezionato utilizzando 300 immagini UTKFace aggiuntive, arricchite con trucco sintetico tramite EleGANt. Questo ha creato un set di training finale di 600 esempi, abbinati a cinque stili di riferimento di BeautyGAN. Poiché la rimozione del trucco comporta la mappatura di molti stili di trucco su un singolo viso pulito, il training si è concentrato su un'ampia gamma di generalizzazione piuttosto che coprire ogni possibile variazione estetica.

Le prestazioni sono state valutate sia su immagini sintetiche che reali. I test sintetici hanno utilizzato 2,556 Flickr-Faces-HQ Immagini del dataset (FFHQ), campionate uniformemente su nove fasce di età inferiori ai 70 anni e modificate con EleGANt.

La generalizzazione è stata valutata utilizzando 3,000 immagini da BellezzaViso e 355 da LADN, entrambi contenenti trucco autentico.

Esempi tratti dal dataset BeautyFace, che esemplificano la segmentazione semantica che definisce le varie aree della superficie del viso interessata. Fonte: https://li-chongyi.github.io/BeautyREC_files/

Esempi tratti dal dataset BeautyFace, che esemplificano la segmentazione semantica che definisce varie aree della superficie interessata del viso. Fonte: https://li-chongyi.github.io/BeautyREC_files/

Metriche e implementazione

Per le metriche, gli autori hanno utilizzato Errore assoluto medio (MAE) tra la verità di base (immagini reali con età effettive stabilite) e i valori di età previsti, dove i risultati più bassi sono migliori; precisione della fascia d'età è stato utilizzato per valutare se le età previste rientrassero nei raggruppamenti corretti (in tal caso, i risultati più bassi sono migliori); l'accuratezza minore/adulto è stata utilizzata per valutare la corretta identificazione di persone di età pari o superiore a 18 anni (in tal caso, un risultato più alto è migliore).

Inoltre, sebbene non si concentri sull'argomento specifico in questione, gli autori riportano anche metriche di verifica dell'identità sotto forma di True Match Rate (TMR) e False Match Rate (FMR), con ulteriori segnalazioni di informazioni correlate Caratteristica di funzionamento del ricevitore Valori (ROC).

SSRNet è stato ottimizzato su immagini 64×64px utilizzando un dimensione del lotto di 50 sotto il Adam ottimizzatore con un decadimento del peso di 1e−4, così come un pianificatore di ricottura del coseno, e un tasso di apprendimento di 1e−3 su 200 epoche, con arresto anticipato.

Al contrario, il modulo DiffClean ha ricevuto immagini di input di 256×256px ed è stato ottimizzato per cinque epoche utilizzando Adam, a un tasso di apprendimento più grossolano di 4e−3. Il campionamento ha utilizzato 40 Inversione DDIM e 6 passi avanti DDIM. Tutto l'addestramento è stato eseguito su una singola GPU NVIDIA A100 (non è stato specificato se con 40 GB o 80 GB di VRAM).

I sistemi rivali testati erano CLIP2Protect e il già citato DiffAM. Gli autori hanno utilizzato stili di trucco "opachi" nel flusso di lavoro, come è stato notato in CLIP2Protect come un metodo che garantisce un tasso di successo più elevato (presumibilmente aprendo una via d'uscita per coloro che cercano di sconfiggere questo approccio, ma questo è un argomento per un'altra volta).

Per replicare DiffAM come baseline, il modello pre-addestrato di BeautyGAN è stato perfezionato sul dataset MT. Per il trasferimento del trucco avversario, è stato utilizzato il checkpoint di DiffAM con parametri predefiniti per il modello target, l'immagine di riferimento e l'identità.

Prestazioni di DiffClean rispetto ai valori di riferimento nelle attività di stima dell'età, utilizzando MiVOLO. Le metriche riportate sono l'accuratezza della classificazione Minore/Adulto, l'accuratezza della fascia d'età e l'errore assoluto medio (MAE). DiffClean con perdita di età CLIP ottiene i migliori risultati in tutte le metriche.

Prestazioni di DiffClean rispetto ai valori di riferimento nelle attività di stima dell'età, utilizzando MiVOLO. Le metriche riportate sono l'accuratezza della classificazione Minore/Adulto, l'accuratezza della fascia d'età e l'errore assoluto medio (MAE). DiffClean con perdita di età CLIP ottiene i migliori risultati in tutte le metriche.

Di questi risultati, gli autori affermano:

"Il nostro metodo DIFFCLEAN supera entrambe le basi di riferimento, CLIP2Protect e DiffAM, ed è in grado di ripristinare con successo gli indizi dell'età interrotti a causa del trucco, abbassando il MAE (a 5.71) e migliorando l'accuratezza complessiva della previsione del gruppo di età (al 37%).

"Il nostro obiettivo si è concentrato sui gruppi di età minorile e i risultati indicano che abbiamo ottenuto una classificazione superiore dell'età minore rispetto a quella adulta, pari all'88.6%."

Risultati della rimozione del trucco con i metodi di base e proposti. La colonna più a sinistra mostra le immagini sorgente, le successive i risultati di CLIP2Protect e DiffAM. La terza colonna mostra i risultati di DiffClean tramite SSRNet e la perdita di età basata su CLIP. Gli autori sostengono che DiffClean rimuove il trucco in modo più efficace, evitando la distorsione dei lineamenti osservata in CLIP2Protect e i cosmetici residui non rilevati da DiffAM.

Risultati della rimozione del trucco con i metodi di base e proposti. La colonna più a sinistra mostra le immagini sorgente, le successive i risultati di CLIP2Protect e DiffAM. La terza colonna mostra i risultati di DiffClean tramite SSRNet e la perdita di età basata su CLIP. Gli autori sostengono che DiffClean rimuove il trucco in modo più efficace, evitando la distorsione dei lineamenti osservata in CLIP2Protect e i cosmetici residui non rilevati da DiffAM.

Gli autori sottolineano inoltre che il trucco non ha un effetto uniforme sull'età percepita, ma può aumentare, diminuire o lasciare invariata l'età apparente di un viso. Pertanto, DiffClean non applica una "riduzione generalizzata" dell'età prevista, ma cerca piuttosto di recuperare gli indicatori di età originali rimuovendo le tracce cosmetiche:

Esempi di rimozione del trucco dai dataset CelebA-HQ e CACD. Ogni colonna mostra una coppia di immagini prima (a sinistra) e dopo (a destra) la rimozione del trucco. Nella prima colonna, l'età prevista diminuisce dopo la rimozione del trucco; nella seconda, rimane invariata; e nella terza, aumenta.

Esempi di rimozione del trucco dai dataset CelebA-HQ e CACD. Ogni colonna mostra una coppia di immagini prima (a sinistra) e dopo (a destra) la rimozione del trucco. Nella prima colonna, l'età prevista diminuisce dopo la rimozione del trucco; nella seconda, rimane invariata; e nella terza, aumenta.

Per testare l'efficacia di DiffClean su nuovi dati, il test è stato eseguito sui dataset BeautyFace e LADN, che contengono trucco autentico, ma nessuna immagine abbinata degli stessi soggetti senza cosmetici. Sono state confrontate le previsioni sull'età effettuate prima e dopo la rimozione del trucco, per valutare l'efficacia di DiffClean nel ridurre la distorsione introdotta dal trucco:

Risultati della rimozione del trucco su immagini reali provenienti dai dataset LADN (coppia a sinistra) e BeautyFace (coppia a destra). DiffClean riduce le età previste rimuovendo i cosmetici, riducendo il divario tra età apparente e reale. I numeri bianchi mostrano l'età stimata prima e dopo l'elaborazione.

Risultati della rimozione del trucco su immagini reali provenienti dai dataset LADN (coppia a sinistra) e BeautyFace (coppia a destra). DiffClean riduce le età previste rimuovendo i cosmetici, riducendo il divario tra età apparente e reale. I numeri bianchi mostrano l'età stimata prima e dopo l'elaborazione.

I risultati hanno mostrato che DiffClean ha costantemente ridotto il divario tra età apparente e reale. In entrambi i set di dati, ha ridotto gli errori di sovrastima e sottostima di circa tre anni in media, suggerendo che il sistema si generalizza bene agli stili estetici reali.

Conclusione

È interessante, e forse inevitabile, che il trucco cosmetico performativo venga utilizzato in modo ostile. Dato che le ragazze maturano a ritmi diversi, ma maturano costantemente più velocemente come gruppo, il compito di identificare il confine tra lo status di donna minorenne e quello di donna adulta potrebbe essere uno dei più ambiziosi che la ricerca si sia mai prefissata.

Tuttavia, il tempo e i dati potrebbero alla fine individuare segnali coerenti correlati all'età, che possono essere utilizzati per ancorare i sistemi di verifica visiva dell'età.

 

* Poiché questo argomento richiede un linguaggio carico di significato e poiché "ragazze" è un termine esclusivo (mentre "donne e ragazze", il termine attualmente accettabile per le persone di genere femminile, non è una descrizione accurata in questo caso), ho optato per "femmine" come miglior compromesso che potessi escogitare, anche se non cattura tutte le sottigliezze demografiche, cosa di cui mi scuso.

In questo articolo utilizzo il termine "performativo" per indicare il trucco che è concepito per essere visto e riconosciuto come tale, come mascara, eyeliner, fard e fondotinta, in contrapposizione alle creme coprenti e ad altri tipi di applicazioni cosmetiche "furtive".

Prima pubblicazione venerdì 18 luglio 2025

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai