Angolo di Anderson
Metodi di IP-Washing in AI

Se ci sarà un regolamento legale da venire sull’uso della proprietà intellettuale nell’addestramento dell’AI, ci sono anche diversi metodi per oscurare tale utilizzo.
Opinione La rivoluzione attuale e in rapida evoluzione nell’AI generativa si sta svolgendo nell’ambiente legale più precario che abbia accompagnato qualsiasi sviluppo tecnologico trasformativo dal XIX secolo.
Fino a 3-4 anni fa, la comunità di ricerca sul machine learning godeva di un permesso tacito (spesso esplicito) di sfruttare materiali protetti da diritti d’autore nel corso dello sviluppo di nuovi sistemi; poiché questi sistemi non erano ancora riusciti, in termini di maturità o viabilità commerciale, i risultati erano, in ogni senso, accademici.
In quel periodo, il successo improvviso di una nuova generazione di Large Language Models basati sulla diffusione (LLM, come ChatGPT e Claude) e Vision-Language Models (VLM, come Sora) segnalò che questi filoni di ricerca astratti e fino ad allora ‘inoffensivi’ si erano sviluppati in una viabilità commerciale e avevano superato il loro ‘pass gratuito’, per quanto riguarda lo sfruttamento della proprietà intellettuale altrui.
Da ora in poi, i titolari dei diritti cercheranno una quota dei frutti dei sistemi AI addestrati in larga misura o in parte con dati protetti da diritti d’autore, portando a una valanga continua di casi legali che richiede uno sforzo per tenerne traccia.

Qui limitato solo ai casi portati negli Stati Uniti, nuovi casi emergono a un ritmo frenetico negli Stati Uniti e oltre. Fonte
Un ‘Pasto Gratis’
L’impegno finanziario attualmente in corso riguardo all’infrastruttura AI-serving è stato ipotizzato da alcune voci come un tentativo di radicare l’AI ‘pericolosa per i diritti d’autore’ così profondamente nell’economia della società da renderla non solo ‘troppo grande per fallire’, ma anche ‘troppo potente per essere citata in giudizio’ – o troppo potente, almeno, che le cause di successo potrebbero essere consentite di rovesciare la rivoluzione.
Verso questo sentimento generale, l’attuale presidente degli Stati Uniti sta impegnando nella politica la sua visione che ‘Non puoi aspettarti di avere un programma AI di successo quando ogni singolo articolo, libro o qualsiasi altra cosa che hai letto o studiato, devi pagare’.
Davvero? Nulla di simile o paragonabile è accaduto nell’era industriale occidentale, e questo rappresenta un movimento che si oppone severamente alla tradizionale cultura statunitense di lite e risarcimento; forse le posizioni più simili sono la scadenza obbligatoria dei brevetti farmaceutici dopo 20 anni (che è frequentemente sotto attacco), e la limitazione delle aspettative di privacy nei luoghi pubblici.
Tuttavia, i tempi cambiano; in assenza di qualsiasi garanzia che l’attuale tendenza verso il ‘dominio eminente’ contro le protezioni IP non vacillerà, o sarà invertita in seguito, ci sono diverse approcci secondari che stanno diventando pratica standard nello sviluppo di sistemi AI e nel trattamento dei dati di addestramento molto contestati che li alimentano.
Dataset-by-Proxy
Uno di questi approcci adotta un approccio notevolmente simile alla (non sempre riuscita) difesa dei siti di elenchi di torrent che non ospitano effettivamente alcun materiale contestato – o qualsiasi materiale.
Oltre a evitare la necessità di memorizzare e servire grandi quantità di dati di immagini o video compressibili, raccolte di questo tipo consentono un aggiornamento rapido – come la rimozione del materiale su richiesta dei titolari dei diritti d’autore – e la versione.
Proprio come i torrent sono solo segnali per indicare dove si può trovare il materiale protetto da diritti d’autore, diverse raccolte di dati molto influenti sono in sé solo elenchi ‘puntatore’ di dati esistenti; se l’utente finale desidera utilizzare questi elenchi come elenco di download per il proprio set di dati, è responsabilità dell’utente, per quanto riguarda la responsabilità dei curatori.
Tra questi c’è il set di dati Conceptual 12M di Google Research, che fornisce didascalie per immagini, ma punta solo a posizioni sul web dove queste immagini esistono (o esistevano al momento della cura):

Due esempi dalla curation di Google Research Conceptual 12M. Fonte
Un altro esempio prominente, e uno che ora ha una richiesta valida per la riverenza nella storia dell’AI, è il set di dati LAION che ha facilitato l’avvento del sistema generativo Stable Diffusion nel 2022 – il primo tale framework a offrire potenti immagini generative open source agli utenti finali, proprio mentre i sistemi proprietari sembravano stabilire tali servizi come un dominio puramente recintato e commerciale:

Una delle molte varianti del progetto LAION, con opere d’arte moderne e protette da diritti d’autore. Fonte
In molti casi le dimensioni dei file di queste ‘raccolte puntatore’ indicano l’inclusione di contenuti di immagini in un file scaricabile e ospitato; tuttavia, le dimensioni di download non banali sono spesso dovute al volume elevato di contenuto testuale e talvolta all’inclusione di estratti di embedding o funzionalità – riassunti o nodi di contenuto altrimenti applicabile estratto dai dati di origine durante il processo di addestramento.
Il Premium Video
I set di dati video presentano un caso ancora più forte per l’approccio ‘dataset-by-proxy’ o puntatore, poiché il volume elevato di dati di archiviazione richiesti per aggregare un numero significativo e utile di video in una singola raccolta scaricabile è proibitivo, e un metodo ‘distribuito’ è desiderabile.
Tuttavia, in entrambi i casi – ma particolarmente con i video – gli URL di origine scaricabile rappresentano dati che richiederanno un’attenzione significativa prima di essere utilizzati nei processi di addestramento. Sia le immagini che i video dovranno essere ridimensionati, o le decisioni di ritaglio dovranno essere prese, per creare campioni che si adattino allo spazio GPU disponibile. Anche i video molto campionati richiederanno un taglio a lunghezze molto brevi, come 3-5 secondi, tipicamente.
Degni di nota set di dati video che utilizzano riferimenti a video online (piuttosto che la cura e l’imballaggio diretto del video) includono il set di dati Kinetics Human Action Video Dataset di Google e la raccolta YouTube-8M della società di ricerca, che utilizza annotazione del segmento per indicare come trattare ogni video una volta scaricato – ma che lascia nuovamente all’utente finale l’ottenimento dei video dagli URL forniti.
Chiuso e Aperto
Infine, in questa categoria, i dati VFX ‘aperti’ possono essere generati con piattaforme chiuse che pubblicano e rendono disponibile il set di dati risultante. È ragionevole chiedersi perché ciò accada e considerare se possa essere perché l’azienda originaria desidera sanificare un modello a monte non amichevole per i diritti d’autore, per il proprio uso; o che un set ‘lavato’ sia stato richiesto da fuori.
Un tale caso di ‘lavaggio generazionale’ è, arguibile, il set di dati Omni-VFX, che incorpora molti punti di dati dal set di dati Open-VFX (che a sua volta fa riferimento a molte piattaforme chiuse e semi-chiuse, come Pika e PixVerse).
Per essere onesti, Omni-VFX non sta nemmeno cercando di nasconderlo:

Nel set di dati open source Omni-VFX, un volto familiare. Fonte
Responsabilità Ancestrale
Il secondo approccio principale per l’IP-washing è attraverso l’uso di materiale protetto da diritti d’autore a una o più rimozioni. Uno dei metodi in questa categoria è l’uso di dati sintetici che sono stati addestrati, in qualche punto a monte, su dati protetti da diritti d’autore. In tali casi, soprattutto dove i dati sintetici sono in grado di ottenere risultati autentici, il lavoro protetto da diritti d’autore fornisce trasformazioni che non potrebbero essere ragionevolmente indovinate o approssimate da modelli del mondo generale o non specializzati.
Ciò è particolarmente vero nel caso dei sistemi generativi video, che richiedono la generazione di ‘eventi impossibili’ e eventi che cadrebbero generalmente nella categoria degli ‘effetti visivi’ (VFX).
In effetti, ciò che ha portato questo argomento alla mia attenzione è stato l’ultimo di una serie di articoli di ricerca che offrono la capacità di ‘astrattizzare’ diversi tipi di effetti visivi, come la produzione di raggi laser da parti improbabili del corpo, sia addestrati su clip VFX commissionate su misura o ‘open source’ (piuttosto che la fonte più ovvia, come le molto costose riprese VFX trovate nel catalogo dei film della Marvel):
Esempi dal sito web EffectMaker, in cui l’ ‘azione’ nel clip di origine (a sinistra) viene applicata a un’immagine di origine (al centro). Fonte
Gli esempi sopra provengono dalla pagina del progetto per il progetto EffectMaker. EffectMaker non è nemmeno il primo a offrire questo tipo di servizio quest’anno, e in effetti questo sta diventando un compito discreto nella ricerca VFX AI*.
Consapevoli che i colossi dei media come Marvel hanno una probabilità superiore alla media di vincere casi legali su IP (anche nel clima di ‘tolleranza forzata’ menzionato), le società di effetti visivi e le startup stanno attualmente facendo grandi sforzi per assicurarsi che i loro framework VFX generativi siano liberi da IP aziendali altrui.
In primo luogo tra questi c’è Meta, che è stata segnalata sul subreddit r/vfx per aver fatto un’assunzione invernale ben compensata all’inizio del 2026, offrendo agli artisti VFX il lavoro di addestramento di modelli AI per produrre riprese di effetti visivi di livello Hollywood. Sebbene la retribuzione non sia stata specificata in vari post, uno l’ha descritta come ‘denaro per la pensione’.
Segui i Soldi
Tuttavia, uno si chiede quanto denaro anche i giganti come Meta siano disposti a pagare per una vera diversità e abbondanza di riprese VFX ad hoc – considerando che la singola ripresa VFX per un film di blockbuster è intorno ai 42.000 dollari – e molte sono molto più costose.
Inoltre, è ragionevole supporre che i modelli VFX generativi su misura accederanno alla domanda popolare, inclusi vari effetti standard da categorie di film più popolari e costose.
A parte il fatto che i professionisti VFX ‘rimanenti’ potrebbero finire per ricreare riprese che hanno lavorato per un catalogo di film esistente† – il che in sé contestualizza il lavoro del set di dati personalizzato come imitativo – non c’è alcuna garanzia che questi nuovi campioni costosi finiranno per essere addestrati ‘da zero’ in una nuova architettura.
In effetti, se tali ricreazioni vengono dirottate in moduli aggiuntivi come LoRAs, che si basano su un modello di base, allora il processo è solo difendibile quanto il modello di base è ‘pulito da IP’ – e non molti lo sono.
Allo stesso modo, se il ‘nuovo’ processo utilizza altre tecniche ‘ibride’ come fine-tuning, dove il valore dell’effetto visivo dipende da modelli, priors o embedding da raccolte o modelli più vecchi di integrità non dimostrata, l’originalità del lavoro è arguibile, e soggetta a sfida.
Missioni Impossibili
Il dominio dell’output VFX è un caso di studio particolarmente interessante per quanto riguarda il potenziale IP-washing nei set di dati AI, poiché le riprese degli effetti visivi spesso rappresentano ‘cose impossibili’ per le quali non ci saranno alternative open source disponibili.
Ad esempio, mentre la demolizione di un edificio potrebbe essere addestrata in un modello generativo da vari clip di stock di dominio pubblico o comunque accessibili, se si desidera addestrare un modello per produrre raggi laser umani, sarà necessario addestrare su clip VFX, rubate o commissionate; cose del genere non accadono da nessun’altra parte.
Anche nel caso di altri tipi di disastri naturali, come inondazioni drammatiche, il materiale di origine disponibile è improbabile che possa riprodurre punti di vista drammatici su eventi calamitosi, perché (con alcune eccezioni) le persone non di solito trasmettono in streaming da località catastrofiche. Pertanto, ‘viste cool’ su disastri sono rare nei set di dati del mondo reale, e qualsiasi modello AI che possa generarle probabilmente ha ottenuto le informazioni da qualche altra parte.
La maggior parte dei flussi di attività AI desiderabili non ha questo livello di specificità, e in tali casi l’oscuramento dei benefici dei dati protetti da diritti d’autore potrebbe non richiedere quasi tanto sforzo.
Conclusione: Rete Intrecciata
Solo coloro che hanno utilizzato l’AI generativa in modo estensivo e prolungato capiranno istintivamente che tali sistemi lottano per combinare più concetti quando non esistono esempi comparabili nei loro dati di addestramento.
Questa limitazione è nota come intreccio, in cui i vari aspetti dei concetti addestrati tendono a raggrupparsi con elementi correlati, piuttosto che decomporre in comodi mattoni Lego che possono essere disposti in qualsiasi nuova configurazione l’utente potrebbe desiderare.
L’intreccio è un pozzo di gravità architettonica che è praticamente impossibile da evitare, almeno per gli approcci basati sulla diffusione che caratterizzano tutti i principali framework AI attuali. Tuttavia, potrebbe essere che nuovi approcci emergano nei prossimi anni che sono migliori nel discretizzare i concetti addestrati in modo che possano essere combinati più abilmente, e offrono meno indicazioni sulla loro provenienza.
* Non faccio alcuna accusa contro EffectMaker, ma commento qui sulla generalità di una pratica emergente nella ricerca video AI.
† Perché queste riprese, in questi tipi di film, hanno generato e continuano a generare denaro.
Pubblicato per la prima volta lunedì 16 marzo 2026










