stubs Plaģiātisma problēma: kā ģeneratīvie AI modeļi atveido ar autortiesībām aizsargātu saturu — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Plaģiātisma problēma: kā ģeneratīvie AI modeļi atveido ar autortiesībām aizsargātu saturu

mm

Izdots

 on

plaģiāts AI

Straujā attīstība ģeneratīvajā AI ir izraisījusi sajūsmu par tehnoloģijas radošo potenciālu. Tomēr šie jaudīgie modeļi rada arī riskus saistībā ar ar autortiesībām aizsargāta vai plaģiāta satura reproducēšanu bez atbilstoša attiecinājuma.

Kā neironu tīkli absorbē apmācības datus

Mūsdienu AI sistēmas, piemēram, GPT-3, tiek apmācītas, izmantojot procesu, ko sauc par pārsūtīšanas mācīšanos. Viņi uzņem milzīgas datu kopas, kas iegūtas no publiskiem avotiem, piemēram, vietnēm, grāmatām, akadēmiskiem dokumentiem un citiem. Piemēram, GPT-3 apmācības dati ietvēra 570 gigabaitus teksta. Apmācības laikā AI meklē modeļus un statistiskās attiecības šajā plašajā datu kopumā. Tā apgūst korelācijas starp vārdiem, teikumiem, rindkopām, valodas struktūru un citām iezīmēm.

Tas ļauj AI ģenerēt jaunu saskaņotu tekstu vai attēlus, paredzot secības, kas varētu sekot noteiktai ievadei vai uzvednei. Taču tas arī nozīmē, ka šie modeļi absorbē saturu, neņemot vērā autortiesību, attiecinājuma vai plaģiāta risku. Rezultātā ģeneratīvie AI var netīši reproducēt burtiskus fragmentus vai pārfrāzēt ar autortiesībām aizsargātu tekstu no saviem mācību korpusiem.

Galvenie AI plaģiātisma piemēri

Bažas par mākslīgā intelekta plaģiātismu pamanāmas parādījās kopš 2020. gada pēc GPT izlaišanas.

Nesenie pētījumi ir parādījuši, ka lielie valodu modeļi (LLM), piemēram, GPT-3, var reproducēt nozīmīgus burtiskus fragmentus no saviem apmācības datiem bez atsaucēm (Nasr et al., 2023; Carlini et al., 2022). Piemēram, The New York Times tiesā tika atklāta OpenAI programmatūra, kas gandrīz burtiski ģenerē New York Times rakstus (The New York Times, 2023).

Šie atklājumi liecina, ka dažas ģeneratīvas AI sistēmas var radīt nevēlamus plaģiātus, riskējot ar autortiesību pārkāpumiem. Tomēr izplatība joprojām ir neskaidra LLM “melnās kastes” rakstura dēļ. New York Times tiesas prāvā tiek apgalvots, ka šādi rezultāti ir pārkāpums, kas varētu būtiski ietekmēt ģeneratīvo AI attīstību. Kopumā pierādījumi liecina, ka plaģiāts ir neatņemama problēma lielos neironu tīklu modeļos, kas prasa modrību un aizsardzības pasākumus.

Šie gadījumi atklāj divus galvenos faktorus, kas ietekmē AI plaģiāta risku:

  1. Modeļa izmērs – Lielāki modeļi, piemēram, GPT-3.5, ir vairāk pakļauti burtiskā teksta fragmentu atjaunošanai, salīdzinot ar mazākiem modeļiem. Viņu lielākās apmācības datu kopas palielina ar autortiesībām aizsargāta avota materiāla pakļaušanu.
  2. Apmācības dati - Modeļi, kas apmācīti, izmantojot apkopotus interneta datus vai ar autortiesībām aizsargātus darbus (pat ja tie ir licencēti), visticamāk, tiks plaģiāti, salīdzinot ar modeļiem, kas apmācīti, izmantojot rūpīgi atlasītas datu kopas.

Tomēr plaģiātu izplatības tieša noteikšana ir sarežģīta. Neironu tīklu “melnās kastes” raksturs apgrūtina šīs saiknes pilnīgu izsekošanu starp apmācības datiem un modeļa izvadēm. Likmes, iespējams, lielā mērā ir atkarīgas no modeļa arhitektūras, datu kopas kvalitātes un ātras formulēšanas. Taču šie gadījumi apstiprina, ka šāds AI plaģiāts nepārprotami notiek, kam ir būtiskas juridiskas un ētiskas sekas.

Jaunās plaģiāta noteikšanas sistēmas

Atbildot uz to, pētnieki ir sākuši pētīt AI sistēmas, lai automātiski noteiktu tekstu un attēlus, ko ģenerējuši modeļi, salīdzinot ar cilvēku radītajiem modeļiem. Piemēram, Mila pētnieki ierosināja GenFace, kas analizē lingvistiskos modeļus, kas norāda uz AI rakstītu tekstu. Startup Anthropic ir izstrādājis arī iekšējās plaģiāta noteikšanas iespējas savam sarunvalodas AI Claude.

Tomēr šiem rīkiem ir ierobežojumi. Tādu modeļu kā GPT-3 masveida apmācības dati padara plaģiāta teksta oriģinālo avotu noteikšanu sarežģītu, ja ne neiespējamu. Būs vajadzīgas stingrākas metodes, jo ģeneratīvie modeļi turpina strauji attīstīties. Līdz tam joprojām ir būtiska manuāla pārskatīšana, lai pirms publiskas izmantošanas pārbaudītu iespējami plaģiātu vai autortiesību pārkāpumus.

Paraugprakse ģeneratīvā AI plaģiāta mazināšanai

Tālāk ir norādītas dažas paraugprakses, ko gan AI izstrādātāji, gan lietotāji var izmantot, lai samazinātu plaģiāta risku.

AI izstrādātājiem:

  • Rūpīgi pārbaudiet apmācību datu avotus, lai bez atbilstošām atļaujām izslēgtu ar autortiesībām aizsargātu vai licencētu materiālu.
  • Izstrādāt stingru datu dokumentāciju un izcelsmes izsekošanas procedūras. Ierakstiet metadatus, piemēram, licences, atzīmes, veidotājus utt.
  • Ieviesiet plaģiāta noteikšanas rīkus, lai atzīmētu augsta riska saturu pirms izlaišanas.
  • Ja rodas bažas, sniedziet pārskatāmības ziņojumus, kuros sīki aprakstīti apmācības datu avoti, licencēšana un AI izvades izcelsme.
  • Ļaujiet satura veidotājiem viegli atteikties no apmācību datu kopām. Ātri izpildiet noņemšanas vai izslēgšanas pieprasījumus.

Ģeneratīviem AI lietotājiem:

  • Pirms plašā mēroga izvietošanas rūpīgi pārmeklējiet izvades, lai atrastu potenciāli plaģiātu vai neattiecinātus fragmentus.
  • Izvairieties uzskatīt par mākslīgo intelektu kā pilnībā autonomām radošām sistēmām. Ļaujiet cilvēkiem pārbaudītājiem pārbaudīt galīgo saturu.
  • Dodiet priekšroku AI palīdzējai cilvēku radīšanai, nevis ģenerējot pilnīgi jaunu saturu no nulles. Tā vietā izmantojiet modeļus pārfrāzēšanai vai idejām.
  • Pirms lietošanas iepazīstieties ar mākslīgā intelekta nodrošinātāja pakalpojumu sniegšanas noteikumiem, satura politikām un plaģiāta aizsardzības pasākumiem. Izvairieties no necaurspīdīgiem modeļiem.
  • Skaidri norādiet avotus, ja, neskatoties uz visiem centieniem, galīgajā izlaidē parādās kāds ar autortiesībām aizsargāts materiāls. Nepasniedziet AI darbu kā pilnīgi oriģinālu.
  • Ierobežojiet datu kopīgošanu privāti vai konfidenciāli, līdz var turpināt novērtēt un novērst plaģiāta riskus.

Stingrāki apmācības datu noteikumi var būt pamatoti, jo ģeneratīvie modeļi turpina izplatīties. Tas varētu ietvert piekrišanu no satura veidotājiem, pirms viņu darbs tiek pievienots datu kopām. Tomēr gan izstrādātāju, gan lietotāju pienākums ir izmantot ētisku AI praksi, kas ievēro satura veidotāju tiesības.

Plaģiāts Midjourney V6 Alpha

Pēc ierobežotas pamudināšanas Midjourney V6 modelis daži pētnieki varēja ģenerēt gandrīz identiskus attēlus ar autortiesībām aizsargātām filmām, TV šoviem un videospēļu ekrānuzņēmumiem, kas, iespējams, ir iekļauti apmācības datos.

Midjourney izveidoti attēli, kas atgādina sižetus no slavenām filmām un videospēlēm

Midjourney izveidoti attēli, kas atgādina sižetus no slavenām filmām un videospēlēm

Šie eksperimenti vēl vairāk apstiprina, ka pat vismodernākās vizuālās AI sistēmas var neapzināti plaģiātēt aizsargātu saturu, ja apmācības datu iegūšana netiek pārbaudīta. Tas uzsver nepieciešamību pēc modrības, aizsardzības un cilvēku pārraudzības, komerciāli izvietojot ģeneratīvus modeļus, lai ierobežotu pārkāpumu risku.

AI uzņēmumi atbild par ar autortiesībām aizsargātu saturu

Robežas starp cilvēku un AI radošumu izplūst, radot sarežģītus autortiesību jautājumus. Darbi, kuros ir apvienota cilvēka un AI ievade, var būt aizsargāti ar autortiesībām tikai tādos aspektos, ko veic tikai cilvēks.

ASV Autortiesību birojs nesen noliedza autortiesības uz lielāko daļu AI cilvēka grafiskā romāna aspektu, uzskatot, ka AI māksla nav cilvēciska. Tā arī izdeva norādījumus, izslēdzot AI sistēmas no “autorības”. Federālās tiesas apstiprināja šo nostāju AI mākslas autortiesību lietā.

Tikmēr tiesas prāvās tiek apgalvots ģeneratīvs AI pārkāpums, piemēram, Getty v. Stability AI un mākslinieki pret AI. Pusceļš/Stabilitātes AI. Bet bez AI “autoriem”, daži apšauba, vai tiek piemērotas prasības par pārkāpumu.

Atbildot uz to, lielākās mākslīgā intelekta firmas, piemēram, Meta, Google, Microsoft un Apple, apgalvoja, ka tām nevajadzētu būt vajadzīgas licencēm vai honorāriem, lai apmācītu AI modeļus ar autortiesībām aizsargātiem datiem.

Šeit ir galveno AI uzņēmumu galveno argumentu kopsavilkums, reaģējot uz iespējamiem jaunajiem ASV autortiesību noteikumiem saistībā ar AI, ar citātiem:

meta apgalvo Licencēšanas uzlikšana tagad radītu haosu un sniegtu nelielu labumu autortiesību īpašniekiem.

google prasības AI apmācība ir līdzīga darbībām, kas nepārkāpj tiesības, piemēram, grāmatas lasīšanu (Google, 2022).

microsoft brīdina autortiesību likuma maiņa varētu radīt neizdevīgu stāvokli mazajiem AI izstrādātājiem.

Manzana grib autortiesību AI ģenerēts kods, ko kontrolē cilvēku izstrādātāji.

Kopumā lielākā daļa uzņēmumu iebilst pret jauniem licencēšanas mandātiem un mazina bažas par AI sistēmām, kas reproducē aizsargātus darbus bez attiecinājuma. Tomēr šī nostāja ir strīdīga, ņemot vērā nesenās AI autortiesību prāvas un debates.

Atbildīgas ģeneratīvas AI inovācijas ceļi

Tā kā šie jaudīgie ģeneratīvie modeļi turpina attīstīties, plaģiāta risku novēršana ir ļoti svarīga vispārējai pieņemšanai. Nepieciešama daudzpusīga pieeja:

  • Politikas reformas saistībā ar apmācību datu pārredzamību, licencēšanu un satura veidotāju piekrišanu.
  • Spēcīgākas plaģiāta noteikšanas tehnoloģijas un izstrādātāju iekšējā pārvaldība.
  • Lielāka lietotāju izpratne par riskiem un ētisko AI principu ievērošana.
  • Skaidri juridiski precedenti un judikatūra saistībā ar AI autortiesību jautājumiem.

Izmantojot pareizos aizsardzības pasākumus, ar AI atbalstīta radīšana var ētiski attīstīties. Taču nekontrolēti plaģiāta riski var būtiski iedragāt sabiedrības uzticību. Tieša šīs problēmas risināšana ir būtiska, lai realizētu ģeneratīvā AI milzīgo radošo potenciālu, vienlaikus ievērojot satura veidotāju tiesības. Lai sasniegtu pareizo līdzsvaru, būs aktīvi jācīnās pret plaģiātu, kas ir iebūvēts neironu tīklu būtībā. Taču šādi rīkojoties, tiks nodrošināts, ka šie jaudīgie modeļi nemazinās cilvēcisko atjautību, ko tie cenšas uzlabot.

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.