stubbur Ritstuldarvandamálið: Hvernig kynslóðar gervigreindarlíkön endurskapa höfundarréttarvarið efni - Unite.AI
Tengja við okkur

Artificial Intelligence

Ritstuldarvandamálið: Hvernig Generative AI Models endurskapa höfundarréttarvarið efni

mm

Útgefið

 on

ritstuldur-í-AI

Hinar öru framfarir í skapandi gervigreind hafa vakið spennu um skapandi möguleika tækninnar. Samt hafa þessar öflugu gerðir einnig í för með sér áhættu við að endurskapa höfundarréttarvarið eða ritstuldað efni án þess að tilgreina rétt.

Hvernig taugakerfi gleypa þjálfunargögn

Nútíma gervigreind kerfi eins og GPT-3 eru þjálfuð í gegnum ferli sem kallast flutningsnám. Þeir taka inn gríðarmikil gagnasöfn sem eru skafin úr opinberum aðilum eins og vefsíðum, bókum, fræðiritum og fleira. Til dæmis náðu þjálfunargögn GPT-3 yfir 570 gígabæta af texta. Meðan á þjálfun stendur, leitar gervigreindin að mynstrum og tölfræðilegum tengslum í þessum mikla gagnasafni. Það lærir fylgnin milli orða, setninga, málsgreina, tungumálabyggingar og annarra eiginleika.

Þetta gerir gervigreindinni kleift að búa til nýjan samhangandi texta eða myndir með því að spá fyrir um raðir sem líklegt er að fylgi tilteknu inntaki eða boðskap. En það þýðir líka að þessar gerðir gleypa efni án tillits til höfundarréttar, eigna eða ritstuldsáhættu. Þar af leiðandi geta generative AIs óviljandi endurskapað orðrétta kafla eða umorðað höfundarréttarvarinn texta úr þjálfunarhluta þeirra.

Helstu dæmi um gervigreind ritstuld

Áhyggjur af ritstuldi gervigreindar komu fram áberandi síðan 2020 eftir útgáfu GPT.

Nýlegar rannsóknir hafa sýnt að stór tungumálalíkön (LLM) eins og GPT-3 geta endurskapað verulega orðrétt úr þjálfunargögnum sínum án þess að vitnað sé í (Nasr o.fl., 2023; Carlini o.fl., 2022). Til dæmis leiddi málsókn á vegum The New York Times í ljós OpenAI hugbúnað sem myndaði New York Times greinar næstum orðrétt (New York Times, 2023).

Þessar niðurstöður benda til þess að nokkur skapandi gervigreind kerfi geti framleitt óumbeðnar ritstuldarúttak og hætta á höfundarréttarbroti. Hins vegar er algengi óvíst vegna „svarta kassans“ eðlis LLMs. New York Times málsóknin heldur því fram að slík framleiðsla feli í sér brot, sem gæti haft mikil áhrif á skapandi gervigreindarþróun. Á heildina litið benda vísbendingar til þess að ritstuldur sé innbyggt vandamál í stórum taugakerfislíkönum sem krefjast árvekni og verndar.

Þessi tilvik sýna tvo lykilþætti sem hafa áhrif á hættu á gervigreindarstuldi:

  1. Stærð líkans - Stærri gerðir eins og GPT-3.5 eru líklegri til að endurskapa orðrétta texta samanborið við smærri gerðir. Stærri þjálfunargagnasöfn þeirra auka áhrif á höfundarréttarvarið frumefni.
  2. Þjálfunargögn – Líkön sem þjálfuð eru á skraufuðum internetgögnum eða höfundarréttarvörðum verkum (jafnvel þó þau séu með leyfi) eru líklegri til að ritstulda samanborið við líkön sem þjálfaðar eru á vandlega söfnuðum gagnasöfnum.

Hins vegar er krefjandi að mæla algengi ritstuldarúttakanna beint. „Svarti kassi“ eðli tauganeta gerir það erfitt að rekja að fullu þessi tengsl milli þjálfunargagna og úttaks líkana. Verðlaun eru líklega mjög háð líkanarkitektúr, gæðum gagnasafna og skjótri mótun. En þessi tilvik staðfesta að slíkur gervigreindarstuldur eigi sér ótvírætt stað, sem hefur mikilvægar lagalegar og siðferðilegar afleiðingar.

Ný uppgötvunarkerfi fyrir ritstuld

Til að bregðast við því hafa vísindamenn byrjað að kanna gervigreind kerfi til að greina sjálfkrafa texta og myndir sem eru búnar til af líkönum á móti mönnum. Til dæmis lögðu vísindamenn hjá Mílu til GenFace sem greinir tungumálamynstur sem gefa til kynna gervigreindartexta. Startup Anthropic hefur einnig þróað innri greiningargetu á ritstuldi fyrir samtals AI Claude.

Hins vegar hafa þessi tæki takmarkanir. Mikil þjálfunargögn líkana eins og GPT-3 gera það erfitt, ef ekki ómögulegt, að finna upprunalegar heimildir ritstulds texta. Krafist verður öflugri tækni þar sem kynslóðarlíkön halda áfram að þróast hratt. Þangað til er handvirk endurskoðun nauðsynleg til að skima hugsanlega ritstulda eða brjóta gervigreind úttak fyrir almenna notkun.

Bestu aðferðir til að draga úr myndrænum gervigreindarstuldi

Hér eru nokkrar bestu starfsvenjur sem bæði gervigreindarframleiðendur og notendur geta tileinkað sér til að lágmarka hættu á ritstuldi:

Fyrir gervigreindarhönnuði:

  • Náðu varlega í dýralæknisþjálfun gagnagjafa til að útiloka höfundarréttarvarið eða leyfilegt efni án viðeigandi leyfis.
  • Þróaðu ströng gagnaskjöl og aðferðir til að rekja uppruna. Taktu upp lýsigögn eins og leyfi, merki, höfunda osfrv.
  • Innleiða ritstuldsuppgötvunartæki til að merkja áhættuefni fyrir útgáfu.
  • Gefðu gagnsæisskýrslur sem greina frá þjálfunargagnaveitum, leyfisveitingum og uppruna gervigreindarúttaks þegar áhyggjur vakna.
  • Leyfðu efnishöfundum að afþakka þjálfunargagnasöfn auðveldlega. Farðu fljótt að beiðnum um fjarlægingu eða útilokun.

Fyrir generative AI notendur:

  • Skoðaðu vandlega úttak fyrir hugsanlega ritstulda eða ótilgreinda kafla áður en þeim er dreift í stærðargráðu.
  • Forðastu að meðhöndla gervigreind sem fullkomlega sjálfstæð skapandi kerfi. Láttu mannlega gagnrýnendur skoða endanlegt efni.
  • Favor AI aðstoðaði mannlega sköpun yfir að búa til alveg nýtt efni frá grunni. Notaðu í staðinn fyrirmyndir til að umorða eða hugsa.
  • Ráðfærðu þig við þjónustuskilmála gervigreindarveitunnar, innihaldsstefnur og verndarráðstafanir um ritstuld fyrir notkun. Forðastu ógagnsæ módel.
  • Vísaðu skýrt í heimildir ef eitthvað höfundarréttarvarið efni birtist í lokaútgáfu þrátt fyrir bestu viðleitni. Ekki kynna gervigreindarverk sem algjörlega frumlegt.
  • Takmarkaðu miðlun úttaks í einkaeigu eða í trúnaði þar til hægt er að meta frekar og bregðast við áhættu um ritstuld.

Strengri reglur um þjálfunargögn geta einnig verið réttlætanlegar þar sem kynslóðarlíkön halda áfram að fjölga sér. Þetta gæti falið í sér að krefjast samþykkis höfunda áður en verkum þeirra er bætt við gagnasöfn. Hins vegar hvílir skyldan á bæði forriturum og notendum að beita siðferðilegum gervigreindaraðferðum sem virða réttindi efnishöfundar.

Ritstuldur í Midjourney's V6 Alpha

Eftir takmarkaða hvatningu V6 gerð Midjourney Sumir vísindamenn gátu búið til næstum eins myndir og höfundarréttarvarðar kvikmyndir, sjónvarpsþættir og skjáskot af tölvuleikjum sem líklega eru innifalin í þjálfunargögnum þess.

Myndir búnar til af Midjourney sem líkjast senum úr frægum kvikmyndum og tölvuleikjum

Myndir búnar til af Midjourney sem líkjast senum úr frægum kvikmyndum og tölvuleikjum

Þessar tilraunir staðfesta enn frekar að jafnvel nýjustu sjónræn gervigreind kerfi geta óafvitandi ritstýrt vernduðu efni ef uppspretta þjálfunargagna er ekki hakað. Það undirstrikar nauðsyn árvekni, öryggisráðstafana og mannlegrar eftirlits þegar verið er að beita skapandi líkönum í viðskiptalegum tilgangi til að takmarka brotaáhættu.

AI fyrirtæki Svar við höfundarréttarvarið efni

Mörkin milli sköpunargáfu manna og gervigreindar eru óljós og skapa flóknar spurningar um höfundarrétt. Verk sem blanda inn inntaki manna og gervigreindar geta aðeins verið höfundarréttarvarið á þáttum sem eingöngu eru framkvæmdir af manneskju.

Bandaríska höfundaréttarskrifstofan neitaði nýlega höfundarrétti á flestum þáttum grafískrar skáldsögu með gervigreind og manneskju og taldi gervigreindarlistina ekki mannlega. Það gaf einnig út leiðbeiningar sem útilokuðu gervigreindarkerfi frá „höfundarrétti“. Alríkisdómstólar staðfestu þessa afstöðu í höfundarréttarmáli um gervigreind.

Á sama tíma, málshöfðun meina generative AI brot, eins og Getty v. Stability AI og listamenn v. Miðferð/Stöðugleiki AI. En án gervigreindar „höfunda“, spyrja sumir hvort brotakröfur eigi við.

Til að bregðast við, héldu helstu gervigreindarfyrirtæki eins og Meta, Google, Microsoft og Apple því fram að þau ættu ekki að þurfa leyfi eða greiða þóknanir til að þjálfa gervigreindarlíkön á höfundarréttarvörðum gögnum.

Hér er samantekt á helstu rökum frá helstu gervigreindarfyrirtækjum til að bregðast við hugsanlegum nýjum bandarískum höfundarréttarreglum um gervigreind, með tilvitnunum:

Meta segir að setja á leyfi núna myndi valda glundroða og gera höfundarréttarhöfum lítinn ávinning.

Google kröfur Gervigreind þjálfun er hliðstæð athöfnum sem ekki brjóta gegn lögum eins og að lesa bók (Google, 2022).

Microsoft Varar við Breyting á höfundarréttarlögum gæti komið litlum gervigreindarframleiðendum í óhag.

Apple vill höfundarréttar gervigreindarkóði sem stjórnað er af mannlegum verktaki.

Á heildina litið eru flest fyrirtæki á móti nýjum leyfisumboðum og gera lítið úr áhyggjum af gervigreindarkerfum sem endurskapa vernduð verk án tilvísunar. Hins vegar er þessi afstaða umdeild í ljósi nýlegra AI höfundarréttarmála og rökræðna.

Leiðir fyrir ábyrga kynslóð gervigreindar nýsköpunar

Þar sem þessi öflugu kynslóðarlíkön halda áfram að þróast, er mikilvægt að stinga upp á ritstuldsáhættu fyrir almenna viðurkenningu. Það er þörf á margþættri nálgun:

  • Umbætur á stefnu varðandi þjálfun gagnsæis gagna, leyfisveitingar og samþykki höfunda.
  • Sterkari tækni til uppgötvunar á ritstuldi og innri stjórnunarhætti þróunaraðila.
  • Meiri meðvitund notenda um áhættu og að fylgja siðferðilegum AI meginreglum.
  • Skýr lagafordæmi og dómaframkvæmd varðandi höfundarréttarmál gervigreindar.

Með réttum verndarráðstöfunum getur gervigreind sköpun blómstrað siðferðilega. En óheft áhætta af ritstuldi gæti grafið verulega undan trausti almennings. Að taka beint á þessu vandamáli er lykillinn að því að átta sig á gríðarlegum sköpunarmöguleikum kynslóðar gervigreindar á sama tíma og höfundarréttindi eru virt. Til að ná réttu jafnvægi þarf að horfast í augu við ritstuldsblindinn sem er innbyggður í eðli tauganeta. En með því að gera það mun tryggja að þessar öflugu gerðir grafi ekki undan mjög mannlegu hugviti sem þau miða að því að auka.

Ég hef eytt síðustu fimm árum í að sökkva mér niður í heillandi heim vélanáms og djúpnáms. Ástríða mín og sérfræðiþekking hefur leitt mig til að leggja mitt af mörkum til yfir 50 fjölbreyttra hugbúnaðarverkefna, með sérstakri áherslu á gervigreind/ML. Áframhaldandi forvitni mín hefur einnig dregið mig að náttúrulegri málvinnslu, svið sem ég er fús til að kanna frekar.