mozzicone Come sapere quando i sistemi di sintesi delle immagini stanno producendo materiale veramente "originale" - Unite.AI
Seguici sui social

Intelligenza Artificiale

Come sapere quando i sistemi di sintesi delle immagini stanno producendo materiale veramente "originale".

mm
aggiornato on
"Orsi di peluche al lavoro su una nuova ricerca sull'intelligenza artificiale sott'acqua con la tecnologia degli anni '1990" – Fonte: https://www.creativeboom.com/features/meet-dall-e/
"Orsi di peluche al lavoro su una nuova ricerca sull'intelligenza artificiale sott'acqua con la tecnologia degli anni '1990" – Fonte: https://www.creativeboom.com/features/meet-dall-e/

Un nuovo studio dalla Corea del Sud ha proposto un metodo per determinare se i sistemi di sintesi delle immagini stanno producendo immagini veramente nuove o varianti "minori" sui dati di addestramento, vanificando potenzialmente l'obiettivo di tali architetture (come la produzione di immagini nuove e originali) .

Molto spesso, suggerisce il documento, quest'ultimo è vero, perché le metriche esistenti che tali sistemi utilizzano per migliorare le loro capacità generative nel corso della formazione sono costrette a favorire immagini che sono relativamente vicine alle immagini di origine (non false) nel set di dati .

Dopotutto, se un'immagine generata è "visivamente vicina" ai dati di origine, è inevitabilmente probabile che ottenga un punteggio migliore per "autenticità" piuttosto che per "originalità", poiché è "fedele", anche se priva di ispirazione.

In un settore troppo nascente e inesperto perché le sue ramificazioni legali siano ancora note, questo potrebbe rivelarsi un'importante questione legale, se emerge che il contenuto di immagini sintetiche commercializzate non differisce abbastanza dal materiale sorgente (spesso) protetto da copyright che è attualmente permesso di perfondere il settore della ricerca sotto forma di popolari set di dati scaricati dal web (il potenziale per future denunce di violazione di questo tipo ha venuto alla ribalta abbastanza di recente per quanto riguarda GitHub Co-Pilot AI di Microsoft).

In termini di output sempre più coerente e semanticamente robusto da sistemi come OpenAI DALL-MI2, di Google Immagine, e della Cina Vista a ingranaggi rilasci (così come quelli con specifiche inferiori dall-e mini), ce ne sono pochissimi post fatto modi per testare in modo affidabile l'originalità di un'immagine generata.

In effetti, la ricerca di alcune delle immagini più popolari del nuovo DALL-E 2 spesso porterà solo a ulteriori istanze di quelle stesse immagini, a seconda del motore di ricerca.

Il caricamento di un gruppo di output DALL-E 9 completo di 2 immagini porta solo a più gruppi di output DALL-E 2. Separare e caricare la prima immagine (da questo post su Twitter dell'8 giugno 2022, dall'account "Weird Dall-E Generations") fa sì che Google si fissi sulla pallacanestro nella foto, portando la ricerca basata su immagini in un vicolo cieco semantico. Per la stessa ricerca basata su immagini, Yandex sembra almeno eseguire un'effettiva decostruzione basata sui pixel e la corrispondenza delle funzionalità.

Il caricamento di un gruppo di output DALL-E 9 completo di 2 immagini porta solo a più gruppi di output DALL-E 2, perché la struttura a griglia è la caratteristica più forte. Separando e caricando la prima immagine (from questo post su Twitter dell'8 giugno 2022, dall'account "Weird Dall-E Generations") fa sì che Google si fissi sul pallone da basket nella foto, portando la ricerca basata su immagini in un vicolo cieco semantico. Per la stessa ricerca basata su immagini, Yandex sembra almeno eseguire un'effettiva decostruzione basata sui pixel e la corrispondenza delle funzionalità.

Sebbene Yandex sia più probabile che Ricerca Google utilizzi l'effettivo Caratteristiche (vale a dire un'immagine derivata/calcolata Caratteristiche, non necessariamente caratteristiche facciali delle persone) e visivo caratteristiche (piuttosto che semantiche) di un'immagine inviata per trovare immagini simili, che hanno tutti i motori di ricerca basati su immagini una sorta di agenda o pratica che può rendere difficile identificare le istanze di sorgente>generato plagio tramite ricerche sul web.

Inoltre, i dati di addestramento per un modello generativo potrebbero non essere disponibili pubblicamente nella loro interezza, ostacolando ulteriormente l'esame forense dell'originalità delle immagini generate.

È interessante notare che l'esecuzione di una ricerca Web basata su immagini su una delle immagini sintetiche presenti da Google al suo sito Imagen dedicato non trova assolutamente nulla di paragonabile al soggetto dell'immagine, in termini di guardare effettivamente l'immagine e cercare in modo imparziale immagini simili. Piuttosto, fissati semanticamente come sempre, i risultati della ricerca di immagini di Google per questa immagine di Imagen non consentiranno una pura ricerca web dell'immagine basata su immagini senza aggiungere i termini di ricerca "imagen google" come parametro aggiuntivo (e limitante):

Yandex, al contrario, trova una moltitudine di immagini del mondo reale simili (o almeno visivamente correlate) dalla comunità artistica amatoriale:

In generale, sarebbe meglio se la novità o l'originalità dell'output dei sistemi di sintesi delle immagini potesse in qualche modo essere misurata, senza la necessità di estrarre caratteristiche da ogni possibile immagine web su Internet al momento in cui il modello è stato addestrato, o in set di dati non pubblici che potrebbero utilizzare materiale protetto da copyright.

In relazione a questo problema, i ricercatori della Kim Jaechul Graduate School of AI presso il Korea Advanced Institute of Science and Technology (KAIST AI) hanno collaborato con la società globale di ICT e ricerca NAVER Corp per sviluppare un Punteggio di rarità che possono aiutare a identificare le creazioni più originali dei sistemi di sintesi delle immagini.

Le immagini qui sono generate tramite StyleGAN-FFHQ. Da sinistra a destra, le colonne indicano i risultati peggiori e migliori. Possiamo vedere che la metrica "Troncamento" (vedi sotto) e la metrica Realismo hanno le loro agende, mentre il nuovo punteggio "Rarità" (riga superiore) è alla ricerca di immagini coerenti ma originali (piuttosto che solo immagini coese). Fonte: https://arxiv.org/pdf/2206.08549.pdf

Le immagini qui sono generate tramite StyleGAN-FFHQ. Da sinistra a destra, le colonne indicano i risultati peggiori e migliori. Possiamo vedere che la metrica "Troncamento" (vedi sotto) e la metrica Realismo hanno le loro agende, mentre il nuovo punteggio "Rarità" (riga superiore) è alla ricerca di immagini coerenti ma originali (piuttosto che solo immagini coese). Poiché in questo articolo sono previsti limiti per le dimensioni delle immagini, consultare il documento di origine per dettagli e risoluzione migliori. Fonte: https://arxiv.org/pdf/2206.08549.pdf

Il nuovo carta è intitolato Punteggio di rarità: una nuova metrica per valutare la rarità delle immagini sintetizzate, e proviene da tre ricercatori di KAIST e tre di NAVER Corp.

Oltre il "trucco economico"

Tra le metriche precedenti su cui il nuovo documento sta cercando di migliorare c'è il "trucco del troncamento" suggerito in 2019 in una collaborazione tra la Heriot-Watt University del Regno Unito e DeepMind di Google.

Il trucco del troncamento utilizza essenzialmente una distribuzione latente diversa per il campionamento rispetto a quella utilizzata per addestrare il modello generativo.

I ricercatori che hanno sviluppato questo metodo sono rimasti sorpresi dal fatto che abbia funzionato, ma nel documento originale ammettono che riduce la varietà dell'output generato. Tuttavia, il trucco del troncamento è diventato efficace e popolare, nel contesto di quello che potrebbe essere probabilmente ridescritto come un "trucco da quattro soldi" per ottenere risultati dall'aspetto autentico che non assimilano realmente tutte le possibilità insite nei dati e potrebbero assomigliare ai dati di origine più di quanto si desideri.

Per quanto riguarda il Truncation Trick, gli autori del nuovo articolo osservano:

'[Non] ha lo scopo di generare campioni rari in set di dati di addestramento, ma piuttosto di sintetizzare immagini tipiche in modo più stabile. Ipotizziamo che i modelli generativi esistenti saranno in grado di produrre campioni più ricchi nella distribuzione reale dei dati se il generatore può essere indotto a produrre efficacemente campioni rari.'

Della tendenza generale a fare affidamento su metriche tradizionali come Frechet Inception Distance (FID, quale è stato oggetto di intense critiche nel dicembre 2021), Inception Score (IS) e Kernel Inception Distance (KID) come "indicatori di progresso" durante l'addestramento di un modello generativo, gli autori commentano ulteriormente*:

"Questo schema di apprendimento porta il generatore a non sintetizzare campioni molto rari che sono unici e hanno caratteristiche forti che non rappresentano una grande percentuale della reale distribuzione dell'immagine". Esempi di campioni rari da set di dati pubblici includono persone con vari accessori in FFHQ, animali bianchi in AFHQe statue non comuni in Metfaces.

“La capacità di generare campioni rari è importante non solo perché è correlata alla capacità marginale dei modelli generativi, ma anche perché l'unicità gioca un ruolo importante nelle applicazioni creative come gli esseri umani virtuali.

'Tuttavia, i risultati qualitativi di diversi studi recenti raramente contengono questi rari esempi. Ipotizziamo che la natura dello schema di apprendimento contraddittorio forzi una distribuzione dell'immagine generata simile a quella di un set di dati di addestramento. Pertanto, le immagini con una chiara individualità o rarità prendono solo una piccola parte nelle immagini sintetizzate dai modelli.'

Tecnica

Il nuovo Rarity Score dei ricercatori adatta un'idea presentata in prima lavori - l'utilizzo di K-vicini più vicini (KNN) per rappresentare gli array di dati genuini (formazione) e sintetici (output) in un sistema di sintesi di immagini.

Riguardo a questo nuovo metodo di analisi, gli autori affermano:

"Ipotizziamo che i campioni ordinari sarebbero più vicini gli uni agli altri, mentre i campioni unici e rari sarebbero localizzati in modo sparso nello spazio delle caratteristiche."

L'immagine dei risultati in alto mostra le distanze dei vicini più vicini (NND) più piccole rispetto alle più grandi, in un'architettura StyleGAN addestrata su FFHQ.

“Per tutti i set di dati, i campioni con gli NND più piccoli mostrano immagini rappresentative e tipiche. Al contrario, i campioni con gli NND più grandi hanno una forte individualità e sono significativamente diversi dalle immagini tipiche con gli NND più piccoli.'

In teoria, utilizzando questa nuova metrica come discriminatore, o almeno includendola in un'architettura discriminante più complessa, un sistema generativo potrebbe essere deviato dalla pura imitazione verso un algoritmo più inventivo, pur mantenendo la coesione essenziale di concetti che possono essere critici per la produzione di immagini autentiche (es 'Uomo', 'donna', 'auto', 'Chiesa', Ecc.).

Confronti ed esperimenti

Nei test, i ricercatori hanno condotto un confronto tra le prestazioni del Rarity Score rispetto sia al Truncation Trick che al 2019 di NVIDIA Punteggio di realismoe ha scoperto che attraverso una varietà di framework e set di dati, l'approccio è in grado di individuare risultati "unici".

Sebbene i risultati presentati nel documento siano troppo estesi per essere inclusi qui, i ricercatori sembrano aver dimostrato la capacità del nuovo metodo di identificare la rarità sia nelle immagini originali (reali) che generate (false) in una procedura generativa:

Selezionare esempi dagli estesi risultati visivi riprodotti nel documento (vedere l'URL della fonte sopra per maggiori dettagli). A sinistra, esempi autentici di FFHQ che hanno pochissimi vicini vicini (cioè sono nuovi e insoliti) nel set di dati originale; a destra, immagini false generate da StyleGAN, che la nuova metrica ha identificato come veramente nuove.

Selezionare esempi dagli estesi risultati visivi riprodotti nel documento (vedere l'URL della fonte sopra per maggiori dettagli). A sinistra, esempi autentici di FFHQ che hanno pochissimi vicini vicini (cioè sono nuovi e insoliti) nel set di dati originale; a destra, immagini false generate da StyleGAN, che la nuova metrica ha identificato come veramente nuove. Poiché in questo articolo sono previsti limiti per le dimensioni delle immagini, consultare il documento di origine per dettagli e risoluzione migliori.

La nuova metrica Rarity Score non solo consente la possibilità di identificare un output generativo "nuovo" in una singola architettura, ma, affermano i ricercatori, consente anche confronti tra modelli generativi di varie e diverse architetture (ad es. Autoencoder, VAE, GAN, ecc. ).

Il documento rileva che Rarity Score differisce dalle metriche precedenti concentrandosi sulla capacità di un framework generativo di creare immagini uniche e rare, in opposizione alle metriche "tradizionali", che esaminano (piuttosto in modo miope) la diversità tra le generazioni durante l'addestramento del modello.

Oltre i compiti limitati

Sebbene i ricercatori del nuovo documento abbiano condotto test su framework di dominio limitato (come combinazioni generatore/set di dati progettati per produrre specificamente immagini di persone o di gatti, ad esempio), il Rarity Score può potenzialmente essere applicato a qualsiasi procedura di sintesi di immagini arbitraria in cui si desidera identificare esempi generati che utilizzino le distribuzioni derivate dai dati addestrati, invece di aumentare l'autenticità (e ridurre la diversità) interponendo distribuzioni latenti straniere o affidandosi ad altre "scorciatoie" che compromettono la novità a favore dell'autenticità.

In effetti, una tale metrica potrebbe potenzialmente distinguere istanze di output veramente nuove in sistemi come la serie DALL-E, utilizzando la distanza identificata tra un apparente risultato "anomalo", i dati di addestramento e i risultati di prompt o input simili (ad es. immagine prompt basati su).

In pratica, e in assenza di una chiara comprensione della misura in cui il sistema ha realmente assimilato concetti visivi e semantici (spesso ostacolati da una conoscenza limitata dei dati di addestramento), questo potrebbe essere un metodo praticabile per identificare un vero e proprio "momento di ispirazione 'in un sistema generativo - il punto in cui un numero adeguato di concetti e dati di input ha portato a qualcosa di genuinamente inventivo, invece di qualcosa di eccessivamente derivato o vicino ai dati di origine.

 

* Le mie conversioni delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta il 20 giugno 2022.