Angolo di Anderson
Quasi l’80% dei set di dati di training potrebbe essere un pericolo legale per l’AI aziendale

Un recente articolo di ricerca dell’LG AI Research suggerisce che i set di dati aperti utilizzati per l’addestramento dei modelli di intelligenza artificiale potrebbero offrire una falsa sensazione di sicurezza, poiché quasi quattro dati su cinque etichettati come “utilizzabili commercialmente” contengono in realtà rischi legali nascosti.
Tali rischi vanno dall’inclusione di materiale protetto da copyright non divulgato a termini di licenza restrittivi sepolti nelle dipendenze di un set di dati. Se le scoperte dell’articolo sono accurate, le aziende che si affidano a set di dati pubblici potrebbero dover riconsiderare le loro attuali pipeline di AI, o rischiare di essere esposte a problemi legali a valle.
I ricercatori propongono una soluzione radicale e potenzialmente controversa: agenti di conformità basati sull’intelligenza artificiale in grado di scansionare e verificare la storia dei set di dati più velocemente e con maggiore accuratezza di quanto possano fare gli avvocati umani.
L’articolo afferma:
‘Questo articolo sostiene che il rischio legale dei set di dati di training dell’AI non può essere determinato solo esaminando i termini di licenza a livello superficiale; un’analisi approfondita e completa della ridistribuzione dei set di dati è essenziale per garantire la conformità.
‘Poiché tale analisi va oltre le capacità umane a causa della sua complessità e portata, gli agenti di intelligenza artificiale possono colmare questo divario conducendola con maggiore velocità e accuratezza. Senza l’automazione, i rischi legali critici rimangono in gran parte inesaminati, mettendo in pericolo lo sviluppo etico dell’AI e la conformità normativa.’
‘Esortiamo la comunità di ricerca sull’AI a riconoscere l’analisi legale di fine-to-end come un requisito fondamentale e ad adottare approcci guidati dall’AI come il percorso praticabile per la conformità dei set di dati su larga scala.’
Esaminando 2.852 set di dati popolari che sembravano utilizzabili commercialmente in base alle loro licenze individuali, il sistema automatizzato dei ricercatori ha scoperto che solo 605 (circa il 21%) erano effettivamente sicuri per la commercializzazione una volta tracciati tutti i loro componenti e dipendenze.
Il nuovo articolo si intitola Non fidarti delle licenze che vedi — la conformità dei set di dati richiede la tracciabilità del ciclo di vita su larga scala guidata dall’AI e proviene da otto ricercatori dell’LG AI Research.
Diritti e torti
Gli autori evidenziano le sfide affrontate dalle aziende che procedono con lo sviluppo dell’AI in un paesaggio legale sempre più incerto, poiché la precedente mentalità accademica del “fair use” intorno all’addestramento dei set di dati lascia il posto a un ambiente frammentato in cui le protezioni legali sono poco chiare e il porto sicuro non è più garantito.
Come ha notato recentemente una pubblicazione , le aziende stanno diventando sempre più difensive riguardo alle fonti dei loro dati di training. L’autore Adam Buick commenta*:
‘[Mentre] OpenAI ha reso pubbliche le principali fonti di dati per GPT-3, il documento che introduce GPT-4 ha rivelato solo che i dati sui quali il modello era stato addestrato erano una miscela di ‘dati pubblicamente disponibili (come i dati di Internet) e dati licenziati da fornitori terzi’.
‘Le motivazioni dietro questo allontanamento dalla trasparenza non sono state articolate in modo particolareggiato dagli sviluppatori di AI, che in molti casi non hanno fornito alcuna spiegazione.
‘Per quanto riguarda OpenAI, ha giustificato la sua decisione di non rilasciare ulteriori dettagli riguardo a GPT-4 sulla base di preoccupazioni relative al ‘panorama competitivo e alle implicazioni di sicurezza dei modelli su larga scala’, senza ulteriori spiegazioni nel rapporto.’
La trasparenza può essere un termine ingannevole – o semplicemente errato; ad esempio, il modello generativo Firefly di Adobe, addestrato su dati di stock per i quali Adobe aveva i diritti di sfruttamento, offriva presumibilmente ai clienti rassicurazioni sulla legalità dell’utilizzo del sistema. Successivamente, sono emerse prove che il set di dati Firefly era stato “arricchito” con dati potenzialmente protetti da copyright di altre piattaforme.
Come abbiamo discusso all’inizio di questa settimana, ci sono iniziative in crescita progettate per assicurare la conformità delle licenze nei set di dati, tra cui una che acquisisce solo video di YouTube con licenze Creative Commons flessibili.
Il problema è che le licenze in sé potrebbero essere errate o concesse in errore, come sembra indicare la nuova ricerca.
Esaminare i set di dati open source
È difficile sviluppare un sistema di valutazione come quello degli autori quando il contesto è in continua evoluzione. Pertanto, l’articolo afferma che il sistema di conformità dei dati NEXUS si basa su “diversi precedenti e basi legali al momento attuale”.
NEXUS utilizza un agente guidato dall’AI chiamato AutoCompliance per la conformità dei dati automatizzata. AutoCompliance è composto da tre moduli chiave: un modulo di navigazione per l’esplorazione web; un modulo di risposta alle domande per l’estrazione di informazioni; e un modulo di punteggio per la valutazione del rischio legale.

AutoCompliance inizia con una pagina web fornita dall’utente. L’AI estrae i dettagli chiave, cerca risorse correlate, identifica i termini di licenza e le dipendenze, e assegna un punteggio di rischio legale. Fonte: https://arxiv.org/pdf/2503.02784
Questi moduli sono alimentati da modelli di intelligenza artificiale affinati, tra cui il modello EXAONE-3.5-32B-Instruct, addestrato su dati sintetici e etichettati dall’uomo. AutoCompliance utilizza anche un database per la memorizzazione dei risultati per migliorare l’efficienza.
AutoCompliance inizia con un URL del set di dati fornito dall’utente e lo tratta come un’entità radice, cercando i suoi termini di licenza e le dipendenze, e tracciando ricorsivamente i set di dati collegati per costruire un grafico di dipendenza delle licenze. Una volta che tutte le connessioni sono mappate, calcola i punteggi di conformità e assegna classificazioni di rischio.
Il quadro di conformità dei dati delineato nel nuovo lavoro identifica vari† tipi di entità coinvolti nel ciclo di vita dei dati, tra cui set di dati, che costituiscono l’input principale per l’addestramento dell’AI; software di elaborazione dei dati e modelli di AI, utilizzati per trasformare e utilizzare i dati; e Fornitori di servizi di piattaforma, che facilitano la gestione dei dati.
Il sistema valuta in modo olistico i rischi legali considerando queste varie entità e le loro interdipendenze, andando oltre la valutazione meccanica delle licenze dei set di dati per includere un ecosistema più ampio dei componenti coinvolti nello sviluppo dell’AI.

La conformità dei dati valuta il rischio legale in tutto il ciclo di vita dei dati. Assegna punteggi in base ai dettagli del set di dati e a 14 criteri, classificando le singole entità e aggregando il rischio attraverso le dipendenze.
Addestramento e metriche
Gli autori hanno estratto gli URL dei 1.000 set di dati più scaricati su Hugging Face, campionando casualmente 216 elementi per costituire un set di test.
Il modello EXAONE è stato affinato sul set di dati personalizzato degli autori, con il modulo di navigazione e il modulo di risposta alle domande che utilizzano dati sintetici, e il modulo di punteggio che utilizza dati etichettati dall’uomo.
Le etichette di verità sono state create da cinque esperti legali addestrati per almeno 31 ore in compiti simili. Questi esperti umani hanno identificato manualmente le dipendenze e i termini di licenza per 216 casi di test, poi hanno aggregato e raffinato i loro risultati attraverso la discussione.
Con il sistema AutoCompliance addestrato e calibrato dagli esperti umani testato contro ChatGPT-4o e Perplexity Pro, sono stati scoperti notevolmente più dipendenze all’interno dei termini di licenza:

Precisione nell’identificazione delle dipendenze e dei termini di licenza per 216 set di dati di valutazione.
L’articolo afferma:
‘AutoCompliance supera di gran lunga tutti gli altri agenti e gli esperti umani, raggiungendo una precisione dell’81,04% e del 95,83% in ciascun compito. Al contrario, sia ChatGPT-4o che Perplexity Pro mostrano una precisione relativamente bassa per i compiti di origine e licenza, rispettivamente.
‘Questi risultati evidenziano la prestazione superiore di AutoCompliance, dimostrando la sua efficacia nel gestire entrambi i compiti con notevole precisione, mentre anche indicano un sostanziale divario di prestazioni tra i modelli basati sull’AI e gli esperti umani in questi domini.’
In termini di efficienza, l’approccio AutoCompliance ha richiesto solo 53,1 secondi per essere eseguito, rispetto ai 2.418 secondi per la valutazione umana equivalente sui medesimi compiti.
Inoltre, la valutazione ha avuto un costo di 0,29 USD, rispetto ai 207 USD per gli esperti umani. Tuttavia, si deve notare che ciò si basa sull’affitto di un nodo GCP a2-megagpu-16gpu mensile a un tasso di 14.225 USD al mese, il che significa che questo tipo di efficienza dei costi è legato principalmente a un’operazione su larga scala.
Indagine sul set di dati
Per l’analisi, i ricercatori hanno selezionato 3.612 set di dati combinando i 3.000 set di dati più scaricati da Hugging Face con 612 set di dati dall’iniziativa Data Provenance del 2023.
L’articolo afferma:
‘A partire dalle 3.612 entità target, abbiamo identificato un totale di 17.429 entità uniche, dove 13.817 entità sono apparse come dipendenze dirette o indirette delle entità target.
‘Per la nostra analisi empirica, consideriamo un’entità e il suo grafico di dipendenza delle licenze come una struttura a un solo livello se l’entità non ha dipendenze e una struttura a più livelli se ha una o più dipendenze.
‘Dei 3.612 set di dati target, 2.086 (57,8%) avevano strutture a più livelli, mentre gli altri 1.526 (42,2%) avevano strutture a un solo livello senza dipendenze.’
I set di dati protetti da copyright possono essere ridistribuiti solo con autorità legale, che può provenire da una licenza, eccezioni alle leggi sul copyright o termini contrattuali. La ridistribuzione non autorizzata può portare a conseguenze legali, tra cui violazione del copyright o violazione del contratto. Pertanto, l’identificazione chiara della non conformità è essenziale.

Violazioni della distribuzione trovate in base al criterio 4.4 della conformità dei dati menzionato nell’articolo.
Lo studio ha scoperto 9.905 casi di ridistribuzione non conforme dei set di dati, suddivisi in due categorie: l’83,5% era espressamente proibito dai termini di licenza, rendendo la ridistribuzione una chiara violazione legale; e il 16,5% coinvolgeva set di dati con condizioni di licenza conflittuali, dove la ridistribuzione era consentita in teoria ma non soddisfaceva i termini richiesti, creando un rischio legale a valle.
Gli autori ammettono che i criteri di rischio proposti in NEXUS non sono universali e possono variare a seconda della giurisdizione e dell’applicazione dell’AI, e che i miglioramenti futuri dovrebbero concentrarsi sull’adattamento alle normative globali in evoluzione e sul raffinamento della revisione legale guidata dall’AI.
Conclusione
Questo è un articolo prolisso e in gran parte ostile, ma affronta forse il più grande fattore che rallenta l’adozione dell’AI nell’industria attuale: la possibilità che i dati aperti apparentemente “aperti” possano in seguito essere rivendicati da varie entità, individui e organizzazioni.
Sotto la DMCA, le violazioni possono comportare multe massive su base per caso. Dove le violazioni possono ammontare a milioni, come nei casi scoperti dai ricercatori, la potenziale responsabilità legale è davvero significativa.
Inoltre, le aziende che possono essere provate a aver tratto beneficio dai dati upstream non possono (come al solito) affermare l’ignoranza come scusa, almeno nel mercato statunitense influente. Inoltre, attualmente non hanno strumenti realistici con cui penetrare le implicazioni labirintiche sepolte negli accordi di licenza dei set di dati aperti.
Il problema nel formulare un sistema come NEXUS è che sarebbe sufficientemente impegnativo calibrarlo su base per stato all’interno degli Stati Uniti, o su base per nazione all’interno dell’UE; la prospettiva di creare un quadro veramente globale (una sorta di “Interpol per la provenienza dei set di dati”) è minacciata non solo dalle motivazioni conflittuali dei diversi governi coinvolti, ma anche dal fatto che sia questi governi che lo stato attuale delle loro leggi in questo regard sono costantemente in evoluzione.
* La mia sostituzione di collegamenti ipertestuali per le citazioni degli autori.
† Sei tipi sono prescritti nell’articolo, ma gli ultimi due non sono definiti.
Pubblicato per la prima volta venerdì 7 marzo 2025












