Intelligenza Artificiale
Come sapere quando i sistemi di sintesi delle immagini stanno producendo materiale veramente "originale".

Un nuovo studio dalla Corea del Sud ha proposto un metodo per determinare se i sistemi di sintesi delle immagini producono immagini realmente nuove o varianti "minori" sui dati di addestramento, vanificando potenzialmente l'obiettivo di tali architetture (come la produzione di immagini nuove e originali).
Molto spesso, suggerisce il documento, quest'ultimo è vero, perché le metriche esistenti che tali sistemi utilizzano per migliorare le loro capacità generative nel corso della formazione sono costrette a favorire immagini che sono relativamente vicine alle immagini di origine (non false) nel set di dati .
Dopotutto, se un'immagine generata è "visivamente vicina" ai dati di origine, è inevitabilmente probabile che ottenga un punteggio migliore per "autenticità " che per "originalità ", poiché è "fedele", anche se non ispirata.
In un settore troppo nascente e inesperto perché le sue ramificazioni legali siano ancora note, questo potrebbe rivelarsi un'importante questione legale, se emerge che il contenuto di immagini sintetiche commercializzate non differisce abbastanza dal materiale sorgente (spesso) protetto da copyright che è attualmente permesso di perfondere il settore della ricerca sotto forma di popolari set di dati scaricati dal web (il potenziale per future denunce di violazione di questo tipo ha venuto alla ribalta abbastanza di recente per quanto riguarda GitHub Co-Pilot AI di Microsoft).
In termini di output sempre più coerente e semanticamente robusto da sistemi come quello di OpenAI DALL-MI2, Immagine, e della Cina Vista a ingranaggi rilasci (così come quelli con specifiche inferiori dall-e mini), ce ne sono pochissimi post fatto modi per testare in modo affidabile l'originalità di un'immagine generata.
In effetti, la ricerca di alcune delle immagini più popolari del nuovo DALL-E 2 spesso porterà solo a ulteriori istanze di quelle stesse immagini, a seconda del motore di ricerca.

Il caricamento di un gruppo di output DALL-E 9 completo di 2 immagini porta solo a più gruppi di output DALL-E 2, perché la struttura a griglia è la caratteristica più forte. Separando e caricando la prima immagine (from questo post su Twitter dell'8 giugno 2022, dall'account "Weird Dall-E Generations") fa sì che Google si fissi sul pallone da basket nell'immagine, portando la ricerca basata sulle immagini in un vicolo cieco semantico. Per la stessa ricerca basata sulle immagini, Yandex sembra almeno effettuare una vera e propria decostruzione basata sui pixel e un abbinamento di caratteristiche.
Sebbene Yandex sia più probabile che Ricerca Google utilizzi l'effettivo Caratteristiche (ad esempio, un'immagine derivata/calcolata Caratteristiche, non necessariamente caratteristiche facciali delle persone) e visivo caratteristiche (piuttosto che semantiche) di un'immagine inviata per trovare immagini simili, che hanno tutti i motori di ricerca basati su immagini una sorta di agenda o pratica che può rendere difficile identificare le istanze di sorgente>generato plagio tramite ricerche sul web.
Inoltre, i dati di addestramento per un modello generativo potrebbero non essere disponibili pubblicamente nella loro interezza, ostacolando ulteriormente l'esame forense dell'originalità delle immagini generate.
È interessante notare che l'esecuzione di una ricerca Web basata su immagini su una delle immagini sintetiche presenti da Google al suo sito Imagen dedicato non trova assolutamente nulla di paragonabile al soggetto dell'immagine, in termini di effettiva osservazione dell'immagine e di ricerca imparziale di immagini simili. Piuttosto, semanticamente fissi come sempre, i risultati della ricerca di Google Immagini per questa immagine di Imagen non consentiranno una ricerca web basata esclusivamente sulle immagini senza aggiungere il termine di ricerca "imagen google" come parametro aggiuntivo (e limitante):
Yandex, al contrario, trova una moltitudine di immagini del mondo reale simili (o almeno visivamente correlate) dalla comunità artistica amatoriale:
In generale, sarebbe meglio se la novità o l'originalità dell'output dei sistemi di sintesi delle immagini potesse in qualche modo essere misurata, senza la necessità di estrarre caratteristiche da ogni possibile immagine web su Internet al momento in cui il modello è stato addestrato, o in set di dati non pubblici che potrebbero utilizzare materiale protetto da copyright.
In relazione a questo problema, i ricercatori della Kim Jaechul Graduate School of AI presso il Korea Advanced Institute of Science and Technology (KAIST AI) hanno collaborato con la società globale di ICT e ricerca NAVER Corp per sviluppare un Punteggio di rarità che possono aiutare a identificare le creazioni più originali dei sistemi di sintesi delle immagini.

Le immagini qui sono generate tramite StyleGAN-FFHQ. Da sinistra a destra, le colonne indicano i risultati dal peggiore al migliore. Possiamo notare che la metrica "Trucco di troncamento" (vedi sotto) e la metrica "Realismo" hanno obiettivi propri, mentre il nuovo punteggio "Rarità " (riga in alto) ricerca immagini coese ma originali (piuttosto che immagini semplicemente coese). Poiché in questo articolo sono presenti limiti di dimensione delle immagini, si prega di consultare il documento originale per maggiori dettagli e risoluzione. Fonte: https://arxiv.org/pdf/2206.08549.pdf
La nuova carta è intitolato Punteggio di rarità : una nuova metrica per valutare la rarità delle immagini sintetizzate, e proviene da tre ricercatori di KAIST e tre di NAVER Corp.
Oltre il "trucco a buon mercato"
Tra le metriche precedenti che il nuovo documento cerca di migliorare c'è il "trucco della troncatura" suggerito in 2019 in una collaborazione tra l'Università Heriot-Watt del Regno Unito e DeepMind di Google.
Il trucco del troncamento utilizza essenzialmente una distribuzione latente diversa per il campionamento rispetto a quella utilizzata per addestrare il modello generativo.
I ricercatori che hanno sviluppato questo metodo sono rimasti sorpresi dal suo funzionamento, ma nell'articolo originale ammettono che riduce la varietà dell'output generato. Ciononostante, il Truncation Trick è diventato efficace e popolare, nel contesto di quello che potrebbe essere ribattezzato "trucco a buon mercato" per ottenere risultati dall'aspetto autentico, che in realtà non assimilano tutte le possibilità insite nei dati e potrebbero assomigliare ai dati di origine più di quanto desiderato.
Per quanto riguarda il Truncation Trick, gli autori del nuovo articolo osservano:
"[Non] è destinato a generare campioni rari nei set di dati di addestramento, ma piuttosto a sintetizzare immagini tipiche in modo più stabile. Ipotizziamo che i modelli generativi esistenti saranno in grado di produrre campioni più ricchi nella distribuzione dei dati reali se il generatore può essere indotto a produrre efficacemente campioni rari".
Della tendenza generale a fare affidamento su metriche tradizionali come Frechet Inception Distance (FID, quale è stato oggetto di intense critiche a dicembre 2021), punteggio di inizio (IS) e distanza di inizio del kernel (KID) come "indicatori di progresso" durante l'addestramento di un modello generativo, gli autori commentano ulteriormente*:
"Questo schema di apprendimento porta il generatore a non sintetizzare campioni molto rari che sono unici e hanno caratteristiche forti che non rappresentano una grande percentuale della reale distribuzione dell'immagine". Esempi di campioni rari da set di dati pubblici includono persone con vari accessori in FFHQ, animali bianchi in AFHQe statue non comuni in Metfaces.
“La capacità di generare campioni rari è importante non solo perché è correlata alla capacità marginale dei modelli generativi, ma anche perché l'unicità gioca un ruolo importante nelle applicazioni creative come gli esseri umani virtuali.
Tuttavia, i risultati qualitativi di diversi studi recenti raramente contengono questi rari esempi. Ipotizziamo che la natura dello schema di apprendimento antagonista determini una distribuzione delle immagini generate simile a quella di un set di dati di addestramento. Pertanto, le immagini con una chiara individualità o rarità occupano solo una piccola parte delle immagini sintetizzate dai modelli.
Tecnica
Il nuovo Rarity Score dei ricercatori adatta un'idea presentata in prima lavori - l'utilizzo di K-vicini più vicini (KNN) per rappresentare gli array di dati genuini (formazione) e sintetici (output) in un sistema di sintesi di immagini.
Riguardo a questo nuovo metodo di analisi, gli autori affermano:
"La nostra ipotesi è che i campioni ordinari siano più vicini tra loro, mentre i campioni unici e rari siano distribuiti in modo sparso nello spazio delle caratteristiche".
L'immagine dei risultati in alto mostra le distanze dei vicini più vicini (NND) più piccole rispetto alle più grandi, in un'architettura StyleGAN addestrata su FFHQ.
"Per tutti i set di dati, i campioni con gli NND più piccoli mostrano immagini rappresentative e tipiche. Al contrario, i campioni con gli NND più grandi presentano una forte individualità e sono significativamente diversi dalle immagini tipiche con gli NND più piccoli."
In teoria, utilizzando questa nuova metrica come discriminatore, o almeno includendola in un'architettura discriminante più complessa, un sistema generativo potrebbe essere deviato dalla pura imitazione verso un algoritmo più inventivo, pur mantenendo la coesione essenziale di concetti che possono essere critici per la produzione di immagini autentiche (es 'uomo', 'donna', 'auto', 'Chiesa', Ecc.).
Confronti ed esperimenti
Nei test, i ricercatori hanno condotto un confronto delle prestazioni del Rarity Score con quelle del Truncation Trick e del 2019 di NVIDIA Punteggio di realismoe hanno scoperto che, attraverso una varietà di framework e set di dati, l'approccio è in grado di individuare risultati "unici".
Sebbene i risultati presentati nel documento siano troppo estesi per essere inclusi qui, i ricercatori sembrano aver dimostrato la capacità del nuovo metodo di identificare la rarità sia nelle immagini originali (reali) che generate (false) in una procedura generativa:

Selezionare esempi dagli estesi risultati visivi riprodotti nel documento (vedere l'URL della fonte sopra per maggiori dettagli). A sinistra, esempi autentici di FFHQ che hanno pochissimi vicini vicini (cioè sono nuovi e insoliti) nel set di dati originale; a destra, immagini false generate da StyleGAN, che la nuova metrica ha identificato come veramente nuove. Poiché in questo articolo sono previsti limiti per le dimensioni delle immagini, consultare il documento di origine per dettagli e risoluzione migliori.
La nuova metrica Rarity Score non solo consente di identificare un output generativo "nuovo" in una singola architettura, ma, sostengono i ricercatori, consente anche confronti tra modelli generativi di architetture diverse e variabili (ad esempio autoencoder, VAE, GAN, ecc.).
Il documento sottolinea che il Rarity Score si differenzia dalle metriche precedenti perché si concentra sulla capacità di un framework generativo di creare immagini uniche e rare, in contrapposizione alle metriche "tradizionali", che esaminano (in modo piuttosto miope) la diversità tra le generazioni durante l'addestramento del modello.
Oltre i compiti limitati
Sebbene i ricercatori del nuovo articolo abbiano condotto test su framework a dominio limitato (come combinazioni generatore/set di dati progettate specificamente per produrre immagini di persone o di gatti, ad esempio), il Rarity Score può potenzialmente essere applicato a qualsiasi procedura di sintesi di immagini arbitraria in cui si desidera identificare esempi generati che utilizzano le distribuzioni derivate dai dati addestrati, invece di aumentare l'autenticità (e ridurre la diversità ) interponendo distribuzioni latenti estranee o affidandosi ad altre "scorciatoie" che compromettono la novità a favore dell'autenticità .
In effetti, una metrica di questo tipo potrebbe potenzialmente distinguere istanze di output realmente nuove in sistemi come la serie DALL-E, utilizzando la distanza identificata tra un risultato apparentemente "anomalo", i dati di addestramento e i risultati di prompt o input simili (ad esempio, prompt basati su immagini).
In pratica, e in assenza di una chiara comprensione della misura in cui il sistema ha realmente assimilato concetti visivi e semantici (spesso ostacolati da una conoscenza limitata dei dati di addestramento), questo potrebbe essere un metodo valido per identificare un autentico "momento di ispirazione" in un sistema generativo, ovvero il punto in cui un numero adeguato di concetti e dati di input ha prodotto qualcosa di veramente inventivo, anziché qualcosa di eccessivamente derivativo o vicino ai dati di origine.
* Le mie conversioni delle citazioni in linea degli autori in collegamenti ipertestuali.
Pubblicato per la prima volta il 20 giugno 2022.














