Connect with us

Intelligenza artificiale

Il Problema della Plagio: Come i Modelli di Intelligenza Artificiale Generativa Riproducono Contenuti Protetti da Copyright

mm
plagiarism-in-AI

Le rapide avanzate nell’intelligenza artificiale generativa hanno suscitato entusiasmo per il potenziale creativo della tecnologia. Tuttavia, questi potenti modelli presentano anche rischi preoccupanti legati alla riproduzione di contenuti protetti da copyright o plagiati senza adeguata attribuzione.

Come le Reti Neurali Assorbono i Dati di Addestramento

I moderni sistemi di intelligenza artificiale come GPT-3 vengono addestrati attraverso un processo chiamato transfer learning. Essi ingeriscono enormi dataset raccolti da fonti pubbliche come siti web, libri, articoli accademici e altro. Ad esempio, i dati di addestramento di GPT-3 comprendevano 570 gigabyte di testo. Durante l’addestramento, l’AI cerca modelli e relazioni statistiche in questo vasto insieme di dati. Impara le correlazioni tra parole, frasi, paragrafi, struttura linguistica e altre caratteristiche.

Ciò consente all’AI di generare nuovo testo coerente o immagini prediligendo sequenze che probabilmente seguono un determinato input o prompt. Tuttavia, significa anche che questi modelli assorbono contenuti senza riguardo per i diritti d’autore, l’attribuzione o i rischi di plagio. Di conseguenza, le intelligenze artificiali generative possono riprodurre involontariamente passaggi verbatim o parafrasare testi protetti da copyright dai loro corpora di addestramento.

Esempi Chiave di Plagio AI

Le preoccupazioni sul plagio AI sono emerse in modo prominente dal 2020, dopo l’uscita di GPT.

Ricerche recenti hanno dimostrato che grandi modelli linguistici (LLM) come GPT-3 possono riprodurre sostanziali passaggi verbatim dai loro dati di addestramento senza citazione (Nasr et al., 2023; Carlini et al., 2022). Ad esempio, una causa legale del New York Times ha rivelato che il software OpenAI generava articoli del New York Times quasi verbatim (The New York Times, 2023).

Questi risultati suggeriscono che alcuni sistemi di intelligenza artificiale generativa possano produrre output plagiari non richiesti, rischiando la violazione del copyright. Tuttavia, la prevalenza rimane incerta a causa della natura ‘scatola nera’ dei LLM. La causa legale del New York Times sostiene che tali output costituiscono una violazione, il che potrebbe avere importanti implicazioni per lo sviluppo dell’intelligenza artificiale generativa. In generale, le prove indicano che il plagio è un problema intrinseco nei grandi modelli di rete neurale che richiede vigilanza e salvaguardie.

Questi casi rivelano due fattori chiave che influenzano i rischi di plagio AI:

  1. Dimensione del modello – Modelli più grandi come GPT-3.5 sono più propensi a rigenerare passaggi di testo verbatim rispetto ai modelli più piccoli. I loro più grandi set di dati di addestramento aumentano l’esposizione a materiali protetti da copyright.
  2. Dati di addestramento – Modelli addestrati su dati raccolti da internet o opere protette da copyright (anche se con licenza) sono più propensi a plagiare rispetto ai modelli addestrati su set di dati curati con attenzione.

Tuttavia, misurare direttamente la prevalenza di output plagiari è difficile. La natura ‘scatola nera’ delle reti neurali rende difficile tracciare completamente questo collegamento tra dati di addestramento e output del modello. I tassi probabilmente dipendono fortemente dall’architettura del modello, dalla qualità del set di dati e dalla formulazione del prompt. Ma questi casi confermano che il plagio AI si verifica inequivocabilmente, il che ha importanti implicazioni legali ed etiche.

Sistemi di Rilevamento del Plagio Emergenti

In risposta, i ricercatori hanno iniziato a esplorare sistemi di intelligenza artificiale per rilevare automaticamente testi e immagini generati da modelli rispetto a quelli creati dagli esseri umani. Ad esempio, i ricercatori di Mila hanno proposto GenFace, che analizza modelli linguistici indicativi di testo scritto da AI. La startup Anthropic ha anche sviluppato capacità di rilevamento del plagio interne per il suo AI conversazionale Claude.

Tuttavia, questi strumenti hanno limitazioni. I massicci dati di addestramento di modelli come GPT-3 rendono difficile identificare le fonti originali di testi plagiati, se non impossibile. Saranno necessarie tecniche più robuste mentre i modelli generativi continuano a evolversi rapidamente. Fino ad allora, la revisione manuale rimane essenziale per filtrare potenziali output plagiari o che violano il copyright prima dell’uso pubblico.

Migliori Pratiche per Mitigare il Plagio dell’Intelligenza Artificiale Generativa

Ecco alcune migliori pratiche che gli sviluppatori di AI e gli utenti possono adottare per minimizzare i rischi di plagio:

Per gli sviluppatori di AI:

  • Verificare attentamente le fonti dei dati di addestramento per escludere materiali protetti da copyright o con licenza senza autorizzazioni adeguate.
  • Sviluppare procedure rigorose di documentazione dei dati e tracciamento della provenienza. Registrare metadati come licenze, tag, creatori, ecc.
  • Implementare strumenti di rilevamento del plagio per segnalare contenuti ad alto rischio prima della release.
  • Fornire rapporti di trasparenza che dettagliano le fonti dei dati di addestramento, le licenze e le origini degli output dell’AI quando sorgono preoccupazioni.
  • Consentire ai creatori di contenuti di opt-out facilmente dai set di dati di addestramento. Rispondere prontamente alle richieste di rimozione o esclusione.

Per gli utenti di intelligenza artificiale generativa:

  • Esaminare attentamente gli output per eventuali passaggi plagiati o non attribuiti prima di utilizzarli su larga scala.
  • Evitare di trattare l’AI come sistemi creativi completamente autonomi. Far esaminare il contenuto finale da revisori umani.
  • Preferire la creazione assistita dall’AI rispetto alla generazione di contenuti completamente nuovi. Utilizzare modelli per parafrasi o ideazione invece.
  • Consultare i termini di servizio, le politiche dei contenuti e le salvaguardie contro il plagio dei fornitori di AI prima dell’uso. Evitare modelli opachi.
  • Citare le fonti in modo chiaro se del materiale protetto da copyright appare nel contenuto finale nonostante gli sforzi migliori. Non presentare il lavoro dell’AI come interamente originale.
  • Limitare la condivisione degli output in modo privato o confidenziale fino a quando i rischi di plagio possono essere ulteriormente valutati e affrontati.

Potrebbero essere necessarie regolamentazioni più strette sui dati di addestramento mentre i modelli generativi continuano a proliferare. Ciò potrebbe includere l’obbligo di ottenere il consenso dei creatori prima di aggiungere il loro lavoro ai set di dati. Tuttavia, l’onere ricade sia sugli sviluppatori che sugli utenti di adottare pratiche etiche di AI che rispettino i diritti dei creatori di contenuti.

Plagio in Midjourney’s V6 Alpha

Dopo una limitata promozione, il modello V6 di Midjourney alcuni ricercatori sono stati in grado di generare immagini quasi identiche a film, spettacoli televisivi e screenshot di videogiochi protetti da copyright, probabilmente inclusi nei suoi dati di addestramento.

Immagini Create da Midjourney che Somigliano a Scene di Film e Videogiochi Famosi

Immagini Create da Midjourney che Somigliano a Scene di Film e Videogiochi Famosi

Questi esperimenti confermano ulteriormente che anche i sistemi di intelligenza artificiale visiva all’avanguardia possono plagiare involontariamente contenuti protetti se la fonte dei dati di addestramento rimane incontrollata. Sottolinea la necessità di vigilanza, salvaguardie e supervisione umana quando si utilizzano modelli generativi commercialmente per limitare i rischi di violazione.

Risposta delle Società di AI sui Contenuti Protetti da Copyright

Le linee tra creatività umana e AI si stanno confondendo, creando complesse questioni di diritto d’autore. Cause legali sostengono che modelli generativi come DALL-E violano il diritto d’autore degli artisti. Ma le creazioni dell’AI possono essere protette da copyright? E l’addestramento su opere protette da copyright costituisce un uso lecito?

L’Ufficio del Copyright degli Stati Uniti ha recentemente negato il copyright alla maggior parte degli aspetti di una graphic novel AI-umana, considerando l’arte dell’AI non umana. Ha anche emesso linee guida che escludono i sistemi di intelligenza artificiale dall’autore. I tribunali federali hanno confermato questa posizione in un caso di copyright dell’arte dell’AI.

Nel frattempo, cause legali sostengono che l’intelligenza artificiale generativa viola il diritto d’autore, come Getty v. Stability AI e artisti v. Midjourney/Stability AI. Ma senza ‘autori’ AI, alcuni si chiedono se le pretese di violazione si applichino.

In risposta, grandi aziende di AI come Meta, Google, Microsoft e Apple sostengono che non dovrebbero essere necessarie licenze o pagare royalties per addestrare modelli di AI su dati protetti da copyright.

Ecco un riassunto degli argomenti chiave delle grandi aziende di AI in risposta a potenziali nuove regole sui diritti d’autore negli Stati Uniti relativi all’AI, con citazioni:

Meta sostiene che imporre licenze ora causerebbe caos e fornirebbe poco beneficio ai titolari del copyright.

Google afferma che l’addestramento dell’AI è analogo ad atti non infrangenti come leggere un libro (Google, 2022).

Microsoft avverte che cambiare la legge sul copyright potrebbe svantaggiare gli sviluppatori di AI di piccole dimensioni.

Apple vuole proteggere con copyright il codice generato dall’AI controllato da sviluppatori umani.

Nel complesso, la maggior parte delle aziende si oppone a nuove direttive di licenza e minimizza le preoccupazioni sui sistemi di intelligenza artificiale che riproducono opere protette senza attribuzione. Tuttavia, questa posizione è controversa alla luce delle recenti cause legali sull’intelligenza artificiale e dei dibattiti sui diritti d’autore.

Percorsi per l’Innovazione Responsabile dell’Intelligenza Artificiale Generativa

Mentre questi potenti modelli generativi continuano ad avanzare, è fondamentale arginare i rischi di plagio per una loro accettazione mainstream. È necessario un approccio multiforme:

  • Riforme delle politiche sui dati di addestramento, le licenze e il consenso dei creatori.
  • Tecnologie di rilevamento del plagio più solide e una governance interna più forte da parte degli sviluppatori.
  • Maggior consapevolezza degli utenti sui rischi e l’adesione ai principi etici dell’AI.
  • Precedenti legali chiari e giurisprudenza sui problemi di copyright dell’AI.

Con le giuste salvaguardie, la creazione assistita dall’AI può fiorire in modo etico. Ma i rischi incontrollati di plagio potrebbero minare significativamente la fiducia del pubblico. Affrontare direttamente questo problema è fondamentale per realizzare il grande potenziale creativo dell’intelligenza artificiale generativa mentre si rispettano i diritti dei creatori. Raggiungere il giusto equilibrio richiederà un confronto attivo con il punto cieco del plagio costruito nella natura stessa delle reti neurali. Ma facendo ciò, si assicurerà che questi potenti modelli non compromettano l’ingegno umano che mirano ad aumentare.

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.