Seguici sui social

Il problema del plagio: come i modelli di intelligenza artificiale generativa riproducono contenuti protetti da copyright

Intelligenza Artificiale

Il problema del plagio: come i modelli di intelligenza artificiale generativa riproducono contenuti protetti da copyright

mm
plagio-in-AI

I rapidi progressi dell'intelligenza artificiale generativa hanno suscitato entusiasmo per il potenziale creativo della tecnologia. Tuttavia, questi potenti modelli presentano anche rischi preoccupanti legati alla riproduzione di contenuti protetti da copyright o plagio senza la dovuta attribuzione.

Come le reti neurali assorbono i dati di addestramento

I moderni sistemi di intelligenza artificiale come GPT-3 vengono addestrati attraverso un processo chiamato apprendimento per trasferimento. Assimilano enormi set di dati provenienti da fonti pubbliche come siti web, libri, articoli accademici e altro ancora. Ad esempio, i dati di addestramento di GPT-3 comprendevano 570 gigabyte di testo. Durante l'addestramento, l'intelligenza artificiale ricerca modelli e relazioni statistiche in questo vasto pool di dati. Apprende le correlazioni tra parole, frasi, paragrafi, struttura linguistica e altre caratteristiche.

Ciò consente all’intelligenza artificiale di generare nuovi testi o immagini coerenti prevedendo sequenze che probabilmente seguiranno un dato input o suggerimento. Ma significa anche che questi modelli assorbono i contenuti senza tener conto dei rischi di copyright, attribuzione o plagio. Di conseguenza, le IA generative possono riprodurre involontariamente passaggi letterali o parafrasare testi protetti da copyright dai loro corpora di formazione.

Esempi chiave di plagio dell’intelligenza artificiale

Le preoccupazioni relative al plagio dell'IA sono emerse in modo evidente a partire dal 2020, dopo la pubblicazione di GPT.

Ricerche recenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) come GPT-3 possono riprodurre passaggi letterali sostanziali dai dati di addestramento senza citazioni (Nasr et al., 2023; Carlini et al., 2022). Ad esempio, una causa del New York Times ha rivelato che il software OpenAI generava articoli del New York Times quasi alla lettera (Il New York Times, 2023).

Questi risultati suggeriscono che alcuni sistemi di intelligenza artificiale generativa potrebbero produrre output plagiari non richiesti, con il rischio di violazione del copyright. Tuttavia, la prevalenza rimane incerta a causa della natura "black box" degli LLM. La causa del New York Times sostiene che tali output costituiscano una violazione, il che potrebbe avere importanti implicazioni per lo sviluppo dell'intelligenza artificiale generativa. Nel complesso, le prove indicano che il plagio è un problema intrinseco nei modelli di reti neurali di grandi dimensioni che richiede vigilanza e misure di salvaguardia.

Questi casi rivelano due fattori chiave che influenzano i rischi di plagio dell’IA:

  1. Taglia del modello – I modelli più grandi come GPT-3.5 sono più inclini a rigenerare passaggi di testo letterali rispetto ai modelli più piccoli. I loro set di dati di addestramento più grandi aumentano l’esposizione al materiale sorgente protetto da copyright.
  2. Dati di allenamento – I modelli formati su dati Internet recuperati o opere protette da copyright (anche se concessi in licenza) hanno maggiori probabilità di plagiare rispetto ai modelli formati su set di dati attentamente curati.

Tuttavia, misurare direttamente la prevalenza dei risultati plagiari è impegnativo. La natura “scatola nera” delle reti neurali rende difficile tracciare completamente questo collegamento tra i dati di addestramento e gli output del modello. Le tariffe probabilmente dipendono fortemente dall’architettura del modello, dalla qualità del set di dati e dalla tempestiva formulazione. Ma questi casi confermano inequivocabilmente che tale plagio dell’IA si verifica, con implicazioni legali ed etiche critiche.

Sistemi emergenti di rilevamento del plagio

In risposta, i ricercatori hanno iniziato a esplorare i sistemi di intelligenza artificiale per rilevare automaticamente testo e immagini generati da modelli rispetto a quelli creati dagli esseri umani. Ad esempio, i ricercatori di Mila hanno proposto GenFace che analizza i modelli linguistici indicativi del testo scritto dall’intelligenza artificiale. La startup Anthropic ha anche sviluppato funzionalità interne di rilevamento del plagio per la sua intelligenza artificiale conversazionale Claude.

Tuttavia, questi strumenti presentano dei limiti. Gli enormi dati di addestramento di modelli come GPT-3 rendono difficile, se non impossibile, individuare le fonti originali del testo plagiato. Saranno necessarie tecniche più robuste poiché i modelli generativi continuano a evolversi rapidamente. Fino ad allora, la revisione manuale rimane essenziale per esaminare i risultati dell’intelligenza artificiale potenzialmente plagiati o in violazione prima dell’uso pubblico.

Migliori pratiche per mitigare il plagio dell’intelligenza artificiale generativa

Ecco alcune best practice che sia gli sviluppatori di intelligenza artificiale che gli utenti possono adottare per ridurre al minimo i rischi di plagio:

Per gli sviluppatori di intelligenza artificiale:

  • Esaminare attentamente le fonti di dati di formazione per escludere materiale protetto da copyright o concesso in licenza senza le dovute autorizzazioni.
  • Sviluppare una rigorosa documentazione dei dati e procedure di tracciamento della provenienza. Registra metadati come licenze, tag, creatori, ecc.
  • Implementare strumenti di rilevamento del plagio per segnalare i contenuti ad alto rischio prima del rilascio.
  • Fornire report sulla trasparenza che dettagliano le fonti dei dati di formazione, le licenze e le origini dei risultati dell'intelligenza artificiale in caso di dubbi.
  • Consenti ai creatori di contenuti di disattivare facilmente i set di dati di addestramento. Rispetta rapidamente le richieste di rimozione o esclusione.

Per gli utenti di IA generativa:

  • Esamina attentamente i risultati per individuare eventuali passaggi potenzialmente plagiati o non attribuiti prima della distribuzione su larga scala.
  • Evitare di trattare l’intelligenza artificiale come sistemi creativi completamente autonomi. Chiedi a revisori umani di esaminare il contenuto finale.
  • Preferisci la creazione umana assistita dall’intelligenza artificiale rispetto alla generazione di contenuti completamente nuovi da zero. Utilizza invece i modelli per parafrasare o ideare.
  • Prima dell'uso, consultare i termini di servizio, le policy sui contenuti e le misure di sicurezza contro il plagio del fornitore di intelligenza artificiale. Evitare modelli poco trasparenti.
  • Citare chiaramente le fonti se, nonostante i migliori sforzi, nel risultato finale appare materiale protetto da copyright. Non presentare il lavoro di intelligenza artificiale come interamente originale.
  • Limitare la condivisione dei risultati in modo privato o confidenziale fino a quando i rischi di plagio non potranno essere ulteriormente valutati e affrontati.

Potrebbero anche essere giustificate normative più rigorose sui dati di formazione poiché i modelli generativi continuano a proliferare. Ciò potrebbe comportare la richiesta del consenso esplicito da parte dei creatori prima che il loro lavoro venga aggiunto ai set di dati. Tuttavia, spetta sia agli sviluppatori che agli utenti l’onere di adottare pratiche etiche di intelligenza artificiale che rispettino i diritti dei creatori di contenuti.

Plagio nel V6 Alpha di Midjourney

Dopo un suggerimento limitato Modello V6 di Midjourney alcuni ricercatori sono stati in grado di generare immagini quasi identiche a schermate di film, programmi TV e videogiochi protetti da copyright probabilmente incluse nei dati di addestramento.

Immagini create da Midjourney che ricordano scene di film e videogiochi famosi

Immagini create da Midjourney che ricordano scene di film e videogiochi famosi

Questi esperimenti confermano ulteriormente che anche i sistemi di intelligenza artificiale visiva all’avanguardia possono plagiare inconsapevolmente i contenuti protetti se l’approvvigionamento dei dati di addestramento rimane incontrollato. Sottolinea la necessità di vigilanza, salvaguardia e supervisione umana quando si implementano modelli generativi a livello commerciale per limitare i rischi di violazione.

Risposta delle aziende di intelligenza artificiale sui contenuti protetti da copyright

I confini tra la creatività umana e quella dell’intelligenza artificiale si stanno confondendo, creando complesse questioni relative al diritto d’autore. Le opere che combinano input umani e di intelligenza artificiale possono essere protette da copyright solo negli aspetti eseguiti esclusivamente dall'essere umano.

L'Ufficio per il Copyright degli Stati Uniti ha recentemente negato il copyright alla maggior parte degli aspetti di una graphic novel basata su un'intelligenza artificiale umana, ritenendo l'arte basata sull'intelligenza artificiale non umana. Ha inoltre emanato linee guida che escludono i sistemi di intelligenza artificiale dalla "paternità". I tribunali federali hanno confermato questa posizione in un caso di copyright relativo a un'arte basata sull'intelligenza artificiale.

Nel frattempo, le cause legali denunciano la violazione dell’IA generativa, come Getty v. Stability AI e Artists v. Metà viaggio/Stabilità dell'IA. Ma senza gli "autori" dell'IA, alcuni si chiedono se le rivendicazioni di violazione siano valide.

In risposta, le principali aziende di intelligenza artificiale come Meta, Google, Microsoft e Apple hanno affermato che non dovrebbero aver bisogno di licenze o pagare royalties per addestrare modelli di intelligenza artificiale su dati protetti da copyright.

Ecco un riepilogo delle argomentazioni chiave delle principali società di intelligenza artificiale in risposta alle potenziali nuove norme statunitensi sul copyright sull'intelligenza artificiale, con citazioni:

Meta sostiene Imporre le licenze ora causerebbe il caos e fornirebbe scarsi vantaggi ai detentori dei diritti d’autore.

Google La formazione sull'intelligenza artificiale è analoga ad atti di non violazione come leggere un libro (Google, 2022).

Microsoft avverte la modifica della legge sul copyright potrebbe svantaggiare i piccoli sviluppatori di intelligenza artificiale.

Apple vuole codice generato dall'intelligenza artificiale protetto da copyright e controllato da sviluppatori umani.

Nel complesso, la maggior parte delle aziende si oppone a nuovi mandati di licenza e minimizza le preoccupazioni sui sistemi di intelligenza artificiale che riproducono opere protette senza attribuzione. Tuttavia, questa posizione è controversa date le recenti cause legali e i dibattiti sul copyright dell’IA.

Percorsi per l’innovazione responsabile dell’intelligenza artificiale generativa

Mentre questi potenti modelli generativi continuano ad avanzare, tamponare i rischi di plagio è fondamentale per l’accettazione da parte del mainstream. È necessario un approccio su più fronti:

  • Riforme politiche in materia di trasparenza dei dati di formazione, licenze e consenso dei creatori.
  • Tecnologie di rilevamento del plagio più forti e governance interna da parte degli sviluppatori.
  • Maggiore consapevolezza degli utenti sui rischi e adesione ai principi etici dell’IA.
  • Chiari precedenti legali e giurisprudenza sulle questioni relative al diritto d’autore sull’IA.

Con le giuste garanzie, la creazione assistita dall'IA può prosperare eticamente. Tuttavia, rischi di plagio incontrollati potrebbero minare significativamente la fiducia del pubblico. Affrontare direttamente questo problema è fondamentale per realizzare l'immenso potenziale creativo dell'IA generativa, nel rispetto dei diritti dei creatori. Raggiungere il giusto equilibrio richiederà di affrontare attivamente il punto cieco del plagio insito nella natura stessa delle reti neurali. Ma farlo garantirà che questi potenti modelli non compromettano l'ingegno umano che mirano ad aumentare.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.