L'angolo di Anderson

Automazione della protezione del copyright nelle immagini generate dall'intelligenza artificiale

Pubblicato il 24 Febbraio 2025

Martin Anderson

ChatGPT-4o: 'Immagine 1792x1024px di una vista frontale di un tribunale dell'Alta corte britannica composta da tre robot con parrucche giudiziarie. Stanno tutti esaminando una fotografia 8x10, ma non possiamo vedere di cosa si tratta, perché è rivolta verso di noi. HQ, fermo immagine cinematografico'

Come discusso la settimana scorsa, anche i modelli fondamentali alla base dei sistemi di intelligenza artificiale generativa più diffusi possono produrre contenuti che violano il copyright, a causa di curatela inadeguata o non allineata, così come la presenza di più versioni della stessa immagine nei dati di addestramento, che portano a overfittinge aumentando la probabilità di riproduzioni riconoscibili.

Nonostante gli sforzi per dominare lo spazio dell'intelligenza artificiale generativa e la crescente pressione per frenare la violazione della proprietà intellettuale, importanti piattaforme come MidJourney e DALL-E di OpenAI continuano a affrontare sfide nel prevenire la riproduzione involontaria di contenuti protetti da copyright:

La capacità dei sistemi generativi di riprodurre regolarmente dati protetti da copyright emerge dai media.

Mentre emergono nuovi modelli e mentre i modelli cinesi ottenere il dominio, la soppressione del materiale protetto da copyright nei modelli di fondazione è una prospettiva onerosa; infatti, il leader di mercato open.ai ha dichiarato l'anno scorso che è 'impossibile' per creare modelli efficaci e utili senza dati protetti da copyright.

Arte preesistente

Per quanto riguarda la generazione involontaria di materiale protetto da copyright, la scena della ricerca si trova ad affrontare una sfida simile a quella dell'inclusione di materiale pornografico e di altro materiale NSFW nei dati di origine: si desidera il beneficio della conoscenza (vale a dire, corretta anatomia umana, che storicamente è sempre stato basato su studi di nudo) senza la capacità di abusarne.

Allo stesso modo, i modellisti vogliono beneficiare dell'ampia gamma di materiale protetto da copyright che trova posto in set iperscalari come LAION, senza che il modello sviluppi la capacità di violare realmente la proprietà intellettuale.

Ignorando i rischi etici e legali del tentativo di nascondere l'uso di materiale protetto da copyright, il filtraggio per quest'ultimo caso è significativamente più impegnativo. I contenuti NSFW contengono spesso latenze di basso livello distinte Caratteristiche che consentono un filtraggio sempre più efficace senza richiedere confronti diretti con materiale del mondo reale. Al contrario, il incorporamenti latenti che definiscono milioni di opere protette da copyright non si riducono a un insieme di marcatori facilmente identificabili, rendendo il rilevamento automatico molto più complesso.

Giudice di copia

Il giudizio umano è una merce rara e costosa, sia nella cura dei set di dati che nella creazione di filtri di post-elaborazione e sistemi basati sulla "sicurezza" progettati per garantire che il materiale bloccato tramite IP non venga consegnato agli utenti di portali basati su API come MidJourney e la capacità di generazione di immagini di ChatGPT.

Ecco perché una nuova collaborazione accademica tra Svizzera, Sony AI e Cina sta offrendo Giudice di copia – un metodo automatizzato per orchestrare gruppi successivi di "giudici" collusi basati su ChatGPT in grado di esaminare gli input alla ricerca di segnali di probabile violazione del copyright.

CopyJudge valuta varie generazioni di AI IP-fringing. Fonte: https://arxiv.org/pdf/2502.15278

CopyJudge valuta varie generazioni di intelligenza artificiale con IP fringing. Fonte: https://arxiv.org/pdf/2502.15278

CopyJudge offre in modo efficace un framework automatizzato che sfrutta modelli di linguaggio visivo di grandi dimensioni (LVLM) per determinare una somiglianza sostanziale tra immagini protette da copyright e quelle prodotte da modelli di diffusione testo-immagine.

L'approccio CopyJudge sfrutta l'apprendimento per rinforzo per ottimizzare i prompt che violano il copyright e poi usa le informazioni provenienti da tali prompt per crearne di nuovi che hanno meno probabilità di richiamare immagini protette da copyright.

L'approccio CopyJudge sfrutta l'apprendimento per rinforzo e altri approcci per ottimizzare i prompt che violano il copyright, quindi utilizza le informazioni provenienti da tali prompt per crearne di nuovi che hanno meno probabilità di richiamare immagini protette da copyright.

Sebbene molti generatori di immagini online basati sull'intelligenza artificiale filtrino i prompt degli utenti per materiale NSFW, protetto da copyright, ricreazioni di persone reali e vari altri domini vietati, CopyJudge utilizza invece prompt "violativi" raffinati per creare prompt "puliti" che hanno meno probabilità di evocare immagini non consentite, senza l'intenzione di bloccare direttamente l'invio dell'utente.

Sebbene non si tratti di un approccio nuovo, contribuisce in qualche modo a liberare i sistemi generativi basati su API dal semplice rifiuto dell'input dell'utente (non da ultimo perché ciò consente agli utenti di sviluppare accesso backdoor alle generazioni escluse, attraverso la sperimentazione).

Una volta, un exploit di questo tipo (poi chiuso dagli sviluppatori) consentiva agli utenti di generare materiale pornografico sulla piattaforma di intelligenza artificiale generativa Kling semplicemente includendo una croce o un crocifisso ben visibile nell'immagine caricata in un flusso di lavoro da immagine a video.

In una scappatoia riparata dagli sviluppatori di Kling alla fine del 2024, gli utenti potrebbero forzare il sistema a produrre video NSFW vietati semplicemente chiedendo che una croce o un crocifisso siano ben visibili all'inizio del video. Sebbene non ci siano state spiegazioni in merito alla logica dietro questo hack ormai scaduto, si potrebbe immaginare che sia stato progettato per consentire una nudità religiosa cristiana (maschile) "accettabile" nelle rappresentazioni di una crocifissione; e che invocare un'immagine di "croce" abbia effettivamente "sbloccato" una più ampia produzione NSFW; ma potremmo non saperlo mai! Fonte: Discord

In una falla riparata dagli sviluppatori di Kling alla fine del 2024, gli utenti potevano forzare il sistema a produrre output NSFW vietati semplicemente includendo una croce o un crocifisso nell'immagine seed I2V. Non è stata fornita alcuna spiegazione in merito alla logica dietro questo hack ormai scaduto. Fonte: Discord

Casi come questo sottolineano la necessità di una rapida sanificazione nei sistemi generativi online, non da ultimo perché il disapprendimento automatico, in cui il modello di base stesso viene modificato per rimuovere i concetti vietati, può avere effetti indesiderati sull'usabilità del modello finale.

Cercando soluzioni meno drastiche, il sistema CopyJudge imita i giudizi legali basati sull'uomo utilizzando l'intelligenza artificiale per scomporre le immagini in elementi chiave come composizione e colore, per filtrare le parti non protette da copyright e confrontare ciò che rimane. Include anche un metodo basato sull'intelligenza artificiale per regolare i prompt e modificare la generazione delle immagini, aiutando a evitare problemi di copyright preservando al contempo i contenuti creativi.

I risultati sperimentali, sostengono gli autori, dimostrano l'equivalenza di CopyJudge agli approcci più avanzati in questo ambito e indicano che il sistema presenta prestazioni superiori generalizzazione e interpretabilità, rispetto ai lavori precedenti.

Migliori nuovo documento è intitolato CopyJudge: Identificazione e mitigazione automatizzate delle violazioni del copyright nei modelli di diffusione testo-immaginee proviene da cinque ricercatori dell'EPFL, della Sony AI e della Westlake University cinese.

Metodo

Sebbene CopyJudge utilizzi GPT per creare tribunali mobili di giudici automatizzati, gli autori sottolineano che il sistema non è ottimizzato per il prodotto di OpenAI e che al suo posto potrebbero essere utilizzati numerosi modelli alternativi di linguaggio di visione di grandi dimensioni (LVLM).

In primo luogo, il framework di astrazione-filtrazione-confronto degli autori è necessario per scomporre le immagini sorgente in parti costituenti, come illustrato nella parte sinistra dello schema seguente:

Schema concettuale per la fase iniziale del flusso di lavoro di CopyJudge.

Nell'angolo in basso a sinistra vediamo un agente filtrante che suddivide le sezioni dell'immagine nel tentativo di identificare caratteristiche che potrebbero essere native di un'opera protetta da copyright, ma che di per sé sarebbero troppo generiche per essere considerate una violazione.

Successivamente vengono utilizzati più LVLM per valutare gli elementi filtrati, un approccio che si è dimostrato efficace in articoli come il CSAIL del 2023 offerta Migliorare la fattualità e il ragionamento nei modelli linguistici attraverso il dibattito multiagentee ChatEval, tra i vari altri riconosciuti nel nuovo documento.

Gli autori affermano:

"[Noi] adottiamo un approccio di dibattito comunicativo sincrono completamente connesso, in cui ogni LVLM riceve le [risposte] dagli [altri] LVLM prima di esprimere il giudizio successivo. Ciò crea un ciclo di feedback dinamico che rafforza l'affidabilità e la profondità dell'analisi, poiché i modelli adattano le loro valutazioni in base alle nuove intuizioni presentate dai loro pari.

"Ogni LVLM può modificare il proprio punteggio in base alle risposte degli altri LVLM oppure mantenerlo invariato."

Anche più coppie di immagini valutate dagli esseri umani vengono incluse nel processo tramite l'apprendimento contestuale di pochi scatti.

Una volta che i "tribunali" coinvolti nel ciclo sono giunti a un punteggio consensuale che rientra nell'intervallo di accettabilità, i risultati vengono trasmessi a un "meta giudice" LVLM, che sintetizza i risultati in un punteggio finale.

Mitigazione

Successivamente, gli autori si sono concentrati sul processo di mitigazione dei prompt descritto in precedenza.

Schema di CopyJudge per mitigare la violazione del copyright tramite la rifinitura di prompt e rumore latente. Il sistema regola i prompt in modo iterativo in base al feedback iterativo e utilizza l'apprendimento di rinforzo per modificare le variabili latenti, riducendo il rischio di violazione.

Schema di CopyJudge per mitigare la violazione del copyright perfezionando i prompt e il rumore latente. Il sistema adatta i prompt in modo iterativo, utilizzando l'apprendimento per rinforzo per modificare le variabili latenti man mano che i prompt evolvono, riducendo auspicabilmente il rischio di violazione.

I due metodi utilizzati per la mitigazione immediata erano il controllo immediato basato su LVLM, in cui i prompt efficaci non violanti vengono sviluppati iterativamente su cluster GPT, un approccio che è completamente "scatola nera", che non richiede alcun accesso interno all'architettura del modello; e un insegnamento rafforzativo(basato su RL), in cui la ricompensa è concepita per penalizzare gli output che violano il copyright.

Dati e test

Per testare CopyJudge, sono stati utilizzati vari set di dati, tra cui Rappresentante D, che contiene coppie di immagini vere e false valutate dagli esseri umani su una scala da 0 a 5.

Esplorazione del dataset D-Rep su Hugging Face. Questa raccolta abbina immagini reali e generate. Fonte: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Lo schema CopyJudge ha considerato le immagini D-Rep che hanno ottenuto un punteggio pari o superiore a 4 come esempi di violazione, mentre le altre sono state tenute nascoste come non pertinenti alla proprietà intellettuale. Le 4000 immagini ufficiali nel dataset sono state utilizzate come immagini di prova. Inoltre, i ricercatori hanno selezionato e curato le immagini di 10 famosi personaggi dei cartoni animati da Wikipedia.

Le tre architetture basate sulla diffusione utilizzate per generare immagini potenzialmente lesive sono state Diffusione stabile V2; Kandinsky2-2, E Diffusione stabile XLGli autori hanno selezionato manualmente un'immagine lesiva e un'immagine non lesiva da ciascuno dei modelli, arrivando a 60 campioni positivi e 60 negativi.

I metodi di base selezionati per il confronto sono stati: L₂ norma; Somiglianza della patch dell'immagine percettiva appresa (LPIPS); SSC; RLCP, E PDF-EmbPer le metriche, accuratezza e punteggio F1 sono stati utilizzati come criteri di violazione.

GPT-4o è stato utilizzato per popolare i team di dibattito interni di CopyJudge, utilizzando tre agenti per un massimo di cinque iterazioni su qualsiasi immagine inviata. Tre immagini casuali da ogni valutazione in D-Rep sono state utilizzate come umane precedenti che gli agenti devono prendere in considerazione.

Risultati di violazione per CopyJudge nel primo round.

Di questi risultati gli autori commentano:

"[È] evidente che i metodi tradizionali di rilevamento delle copie di immagini presentano delle limitazioni nel compito di identificazione delle violazioni del copyright. Il nostro approccio supera significativamente la maggior parte dei metodi. Per il metodo all'avanguardia, PDF-Emb, che è stato addestrato su 36,000 campioni dal D-Rep, le nostre prestazioni sul D-Rep sono leggermente inferiori.

"Tuttavia, le sue scarse prestazioni sui dataset Cartoon IP e Artwork evidenziano la sua mancanza di capacità di generalizzazione, mentre il nostro metodo dimostra risultati altrettanto eccellenti su tutti i dataset."

Gli autori sottolineano inoltre che CopyJudge fornisce un confine "relativamente" più netto tra casi validi e casi di violazione:

Ulteriori esempi tratti dai cicli di test sono disponibili nel materiale supplementare del nuovo articolo.

I ricercatori hanno confrontato i loro metodi con un'intelligenza artificiale Sony collaborazione dal 2024 intitolato Rilevamento, spiegazione e mitigazione della memorizzazione nei modelli di diffusioneQuesto lavoro ha utilizzato un modello di diffusione stabile ottimizzato con 200 immagini memorizzate (ovvero sovradimensionate), per ottenere dati protetti da copyright al momento dell'inferenza.

Gli autori del nuovo lavoro hanno scoperto che il loro metodo di mitigazione tempestiva, rispetto all'approccio del 2024, è stato in grado di produrre immagini con minori probabilità di causare violazioni.

Risultati dell'attenuazione della memorizzazione con CopyJudge a confronto con il lavoro del 2024.

Gli autori commentano qui:

"[Il nostro] approccio potrebbe generare immagini che hanno meno probabilità di causare violazioni, pur mantenendo una precisione di corrispondenza comparabile, seppur leggermente ridotta. Come mostrato nell'immagine sottostante, il nostro metodo evita efficacemente le carenze del metodo precedente, tra cui la mancata mitigazione della memorizzazione o la generazione di immagini altamente deviate".

Confronto delle immagini e dei prompt generati prima e dopo aver attenuato la memorizzazione.

Gli autori hanno eseguito ulteriori test per quanto riguarda la mitigazione delle violazioni, studiando esplicito e implicito violazione.

Violazione esplicita si verifica quando i prompt fanno riferimento direttamente a materiale protetto da copyright, come 'Genera un'immagine di Topolino'Per testarlo, i ricercatori hanno utilizzato 20 campioni di fumetti e opere d'arte, generando immagini che violano i diritti d'autore in Stable Diffusion v2 con prompt che includevano esplicitamente nomi o attribuzioni di autori.

Confronto tra il metodo Latent Control (LC) degli autori e il metodo Prompt Control (PC) del lavoro precedente, in diverse varianti, che utilizza la diffusione stabile per creare immagini raffiguranti violazioni esplicite.

Un confronto tra il metodo Latent Control (LC) degli autori e il metodo Prompt Control (PC) del lavoro precedente, in diverse varianti, utilizzando la diffusione stabile per creare immagini che raffigurano violazioni esplicite.

Violazione implicita si verifica quando un prompt non contiene riferimenti espliciti al copyright ma genera comunque un'immagine che viola il copyright a causa di determinati elementi descrittivi, uno scenario particolarmente rilevante per i modelli commerciali di conversione del testo in immagine, che spesso incorporano sistemi di rilevamento dei contenuti per identificare e bloccare i prompt correlati al copyright.

Per approfondire questo aspetto, gli autori hanno utilizzato gli stessi campioni IP bloccati del test di violazione esplicita, ma hanno generato immagini che violavano il copyright senza riferimenti diretti al copyright, utilizzando DALL-E 3 (anche se il documento sottolinea che è stato osservato che il modulo di rilevamento della sicurezza integrato nel modello rifiutava determinati prompt che attivavano i suoi filtri).

Violazione implicita mediante DALLE-3, con punteggi di violazione e CLIP.

Gli autori affermano:

"[Si] può vedere che il nostro metodo riduce significativamente la probabilità di violazione, sia per violazione esplicita che implicita, con solo un leggero calo del punteggio CLIP. Il punteggio di violazione dopo solo controllo latente è relativamente più alto rispetto a dopo controllo rapido perché recuperare latenti non violanti senza modificare il prompt è piuttosto impegnativo. Tuttavia, possiamo comunque ridurre efficacemente il punteggio di violazione mantenendo una qualità di corrispondenza immagine-testo più elevata.

'[L'immagine qui sotto] mostra i risultati della visualizzazione, dove si può osservare che evitiamo la violazione della proprietà intellettuale preservando al contempo i requisiti dell'utente.'

Immagini generate prima e dopo l'attenuazione della violazione della proprietà intellettuale.

Conclusione

Sebbene lo studio presenti un approccio promettente alla protezione del copyright nelle immagini generate dall'intelligenza artificiale, il ricorso a modelli di linguaggio visivo di grandi dimensioni (LVLM) per il rilevamento delle violazioni potrebbe sollevare preoccupazioni circa parzialità e coerenza, poiché i giudizi basati sull'intelligenza artificiale potrebbero non essere sempre in linea con gli standard legali.

Forse la cosa più importante è che il progetto presuppone anche che l'applicazione del copyright possa essere automatizzata, nonostante le decisioni legali del mondo reale che spesso implicano fattori soggettivi e contestuali che l'intelligenza artificiale potrebbe avere difficoltà a interpretare.

Nel mondo reale, l'automazione del consenso legale, in particolare per quanto riguarda l'output dell'intelligenza artificiale, sembra destinata a rimanere una questione controversa ben oltre questo periodo e ben oltre l'ambito del dominio affrontato in questo lavoro.

Prima pubblicazione lunedì 24 febbraio 2025

Argomenti correlati:Immagine AI copyright Conformità al copyright