Artificiell intelligens

Plagiatproblemet: Hur generativa AI-modeller reproducerar upphovsrÀttsskyddat innehÄll

mm
plagiarism-in-AI

De snabba framstegen inom generativ AI har väckt entusiasm för teknikens kreativa potential. Men dessa kraftfulla modeller medför också oroande risker kring reproduktion av upphovsrättsskyddat eller plagierat innehåll utan korrekt attribuering.

Hur neuronnät absorberar träningsdata

Modern AI-system som GPT-3 tränas genom en process som kallas överföringsinlärning. De intar stora datamängder som skrapats från offentliga källor som webbplatser, böcker, akademiska artiklar och mer. Till exempel omfattade GPT-3:s träningsdata 570 gigabyte text. Under träningsprocessen söker AI efter mönster och statistiska samband i denna stora datamängd. Den lär sig korrelationerna mellan ord, meningar, stycken, språkstruktur och andra funktioner.

Detta möjliggör för AI att generera nytt sammanhängande text eller bilder genom att förutsäga sekvenser som sannolikt följer en given inmatning eller prompt. Men det betyder också att dessa modeller absorberar innehåll utan hänsyn till upphovsrätt, attribuering eller plagiatrisker. Som ett resultat kan generativa AI-modeller oavsiktligt reproducera ordagrant passager eller parafraserat upphovsrättsskyddat text från sina träningskorpus.

Exempel på AI-plagiat

Oron kring AI-plagiat har varit framträdande sedan 2020 efter GPT:s release.

Nylig forskning har visat att stora språkmodeller (LLM) som GPT-3 kan reproducera betydande ordagrant passager från sina träningsdata utan citat (Nasr et al., 2023; Carlini et al., 2022). Till exempel avslöjade en stämningsansökan från The New York Times att OpenAI:s programvara genererade New York Times-artiklar nästan ordagrant (The New York Times, 2023).

Dessa fynd tyder på att vissa generativa AI-system kan producera oönskat plagierat innehåll, vilket riskerar upphovsrättsintrång. Men förekomsten är fortfarande osäker på grund av den “svarta lådan”-karaktär hos LLM. The New York Times stämningsansökan hävdar att sådana utdata utgör intrång, vilket kan ha stora konsekvenser för utvecklingen av generativ AI. Sammantaget tyder bevisen på att plagiat är ett inbyggt problem i stora neurala nätverksmodeller som kräver vaksamhet och skydd.

Dessa fall avslöjar två viktiga faktorer som påverkar AI-plagiatrisker:

  1. Modellstorlek – Större modeller som GPT-3.5 är mer benägna att reproducera ordagrant textpassager jämfört med mindre modeller. Deras större träningsdatamängder ökar exponeringen för upphovsrättsskyddat källmaterial.
  2. Träningsdata – Modeller som tränas på skrapad internetdata eller upphovsrättsskyddade verk (även om de är licensierade) är mer benägna att plagiera jämfört med modeller som tränas på noggrant kuraterade datamängder.

Men att direkt mäta förekomsten av plagierat innehåll är svårt. Den “svarta lådan”-karaktär hos neurala nätverk gör det svårt att fullständigt spåra sambandet mellan träningsdata och modellutdata. Raterna beror troligen starkt på modellarkitektur, datamängdskvalitet och promptformulering. Men dessa fall bekräftar att sådant AI-plagiat otvetydigt förekommer, vilket har kritiska juridiska och etiska konsekvenser.

Nya system för plagiatupptäckt

Som svar har forskare börjat undersöka AI-system för att automatiskt upptäcka text och bilder genererade av modeller jämfört med skapade av människor. Till exempel har forskare vid Mila föreslagit GenFace, som analyserar lingvistiska mönster som tyder på AI-skriven text. Startup-företaget Anthropic har också utvecklat interna plagiatupptäcktsförmågor för sin konversations-AI Claude.

Men dessa verktyg har begränsningar. Den stora träningsdatamängden för modeller som GPT-3 gör det svårt att identifiera ursprunget för plagierat text, om inte omöjligt. Mer robusta tekniker kommer att behövas när generativa modeller fortsätter att utvecklas snabbt. Tills dess kommer manuell granskning att förbli avgörande för att screena potentiellt plagierat eller intrångsutsatt AI-innehåll innan offentlig användning.

Bästa metoder för att minska generativ AI-plagiat

Här är några bästa metoder som både AI-utvecklare och användare kan anta för att minimera plagiatrisker:

För AI-utvecklare:

  • Granska noggrant träningsdatorkällor för att utesluta upphovsrättsskyddat eller licensierat material utan korrekt tillstånd.
  • Utveckla rigorösa datadokumenterings- och proveniensspårningsförfaranden. Dokumentera metadata som licenser, taggar, skapare osv.
  • Implementera plagiatupptäcktsverktyg för att flagga högriskinnehåll innan release.
  • Tillhandahåll transparensrapporter som detaljerar träningsdatorkällor, licensiering och ursprung för AI-utdata när det finns oro.
  • Tillåt innehållsskapare att enkelt avböja träningsdatamängder. Uppfyll snabbt begäranden om borttagning eller exkludering.

För generativ AI-användare:

  • Granska noggrant utdata för eventuellt plagierat eller oattribuerat innehåll innan distribution i stor skala.
  • Undvik att behandla AI som fullständigt autonoma kreativa system. Ha mänskliga granskare som examinerar slutinnehållet.
  • Föredra AI-assisterad mänsklig skapelse framför att generera helt nytt innehåll från scratch. Använd modeller för parafraser eller idégenerering istället.
  • Konsultera AI-leverantörens villkor, innehållspolicyer och plagiatförsvar innan användning. Undvik ogenomskinliga modeller.
  • Citera källor tydligt om upphovsrättsskyddat material förekommer i slututdata trots bästa ansträngningar. Presentera inte AI-arbete som helt origiellt.
  • Begränsa delning av utdata privat eller konfidentiellt tills plagiatrisker kan bedömas och åtgärdas ytterligare.

Strängare reglering av träningsdata kan också vara motiverad när generativa modeller fortsätter att spridas. Detta kan innefatta krav på samtycke från skapare innan deras arbete läggs till i datamängder. Men ansvaret ligger på både utvecklare och användare att tillämpa etiska AI-principer som respekterar rättigheter för innehållsskapare.

Plagiat i Midjourneys V6 Alpha

Efter begränsad promptning kunde vissa forskare generera nästan identiska bilder till upphovsrättsskyddade filmer, TV-serier och videoskärmdumpar som troligen ingick i dess träningsdata.

Bilder skapade av Midjourney som liknar scener frÄn kÀnda filmer och videospel

Bilder skapade av Midjourney som liknar scener från kända filmer och videospel

Dessa experiment bekräftar ytterligare att även de mest avancerade visuella AI-systemen kan oavsiktligt plagiera skyddat innehåll om källorna för träningsdata förblir okontrollerade. Det understryker behovet av vaksamhet, skydd och mänsklig övervakning när generativa modeller distribueras kommersiellt för att begränsa intrångsrisken.

AI-företags svar på upphovsrättsskyddat innehåll

Gränserna mellan mänsklig och AI-kreativitet suddas ut, vilket skapar komplexa upphovsrättsfrågor. Verk som kombinerar mänsklig och AI-insats kan endast vara upphovsrättsskyddade i aspekter som utförs uteslutande av människan.

USA:s upphovsrättskontor har nyligen avslagit upphovsrätt för de flesta aspekter av en AI-mänsklig grafisk roman, och bedömt AI-konsten som icke-mänsklig. Det har också utfärdat riktlinjer som utesluter AI-system från “författarskap”. Federala domstolar har bekräftat denna inställning i ett AI-konstupphovsrättsfall.

Samtidigt hävdar stämningsansökningar att generativ AI gör intrång, som Getty v. Stability AI och artister v. Midjourney/Stability AI. Men utan AI-“författare” ifrågasätter vissa om intrångskrav är tillämpliga.

Som svar har stora AI-företag som Meta, Google, Microsoft och Apple hävdat att de inte bör behöva licenser eller betala royalties för att träna AI-modeller på upphovsrättsskyddade data.

Här är en sammanfattning av de viktigaste argumenten från stora AI-företag som svar på potentiella nya amerikanska upphovsrättsregler kring AI, med citat:

Meta hävdar att införandet av licensiering nu skulle orsaka kaos och ge liten nytta till upphovsrättshavare.

Google påstår att AI-träning är analogt med icke-intrångshandlingar som att läsa en bok (Google, 2022).

Microsoft varnar att ändringar i upphovsrättslagen kunde missgynna små AI-utvecklare.

Apple vill upphovsrättsskydda AI-genererad kod kontrollerad av mänskliga utvecklare.

Sammanfattningsvis motsätter sig de flesta företagen nya licensieringskrav och nedtonade oron kring AI-system som reproducerar skyddat innehåll utan attribuering. Men denna inställning är kontroversiell med tanke på nyliga AI-upphovsrättsstämningsansökningar och debatter.

Vägar för ansvarsfull generativ AI-innovation

Medan dessa kraftfulla generativa modeller fortsätter att utvecklas är det avgörande att åtgärda plagiatrisker för att uppnå allmän acceptans. En flerfaldig strategi krävs:

  • Politiska reformer kring transparens i träningsdata, licensiering och skaparconsent.
  • Starkare plagiatupptäckts-teknologier och intern styrning av utvecklare.
  • Ökad användarmedvetenhet om risker och följsamhet till etiska AI-principer.
  • Tydliga rättsliga prejudikat och rättsfall kring AI-upphovsrättsfrågor.

Med rätt skydd kan AI-assisterad skapelse blomstra etiskt. Men outredda plagiatrisker kan allvarligt undergräva allmänhetens förtroende. Att direkt hantera detta problem är nyckeln till att förverkliga den enorma kreativa potentialen hos generativ AI samtidigt som man respekterar skaparers rättigheter. Att uppnå rätt balans kommer att kräva att man aktivt konfronterar plagiatblindfläcken som är inbyggd i själva naturen hos neurala nätverk. Men genom att göra det kommer dessa kraftfulla modeller inte att undergräva den mänskliga skaparkraft som de syftar till att förstärka.

Jag har tillbringat de senaste fem Ären med att dyka djupt in i den fascinerande vÀrlden av MaskinlÀrning och DjupinlÀrning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruprojekt, med sÀrskild fokus pÄ AI/ML. Min pÄgÄende nyfikenhet har ocksÄ lett mig mot Naturlig SprÄkbehandling, ett omrÄde som jag Àr angelÀgen om att utforska vidare.