Inteligjenca artificiale

Problemi i plagjiaturës: Si modelet gjeneruese të AI riprodhojnë përmbajtjen e mbrojtur nga e drejta e autorit

Publikuar

muaj 4 më parë

Janar 9, 2024

Përparimet e shpejta në AI gjeneruese kanë ndezur entuziazëm për potencialin krijues të teknologjisë. Megjithatë, këto modele të fuqishme paraqesin gjithashtu rreziqe në lidhje me riprodhimin e përmbajtjes me të drejtë autori ose plagjiaturë pa atribuimin e duhur.

Si i përthithin rrjetet nervore të dhënat e trajnimit

Sistemet moderne të AI si GPT-3 trajnohen përmes një procesi të quajtur transferimi i të mësuarit. Ata thithin grupe të dhënash masive të gërvishtura nga burime publike si faqet e internetit, librat, punimet akademike dhe më shumë. Për shembull, të dhënat e trajnimit të GPT-3 përfshinin 570 gigabajt tekst. Gjatë trajnimit, AI kërkon modele dhe marrëdhënie statistikore në këtë grup të madh të dhënash. Ai mëson lidhjet midis fjalëve, fjalive, paragrafëve, strukturës së gjuhës dhe veçorive të tjera.

Kjo i mundëson AI të gjenerojë tekst ose imazhe të reja koherente duke parashikuar sekuenca që mund të ndjekin një hyrje ose kërkesë të caktuar. Por kjo gjithashtu do të thotë që këto modele thithin përmbajtje pa marrë parasysh të drejtat e autorit, atributet ose rreziqet e plagjiaturës. Si rezultat, AI-të gjeneruese mund të riprodhojnë pa dashje pasazhe fjalë për fjalë ose të parafrazojnë tekstin me të drejtë autori nga korpuset e tyre të trajnimit.

Shembuj kryesorë të plagjiaturës së AI

Shqetësimet rreth plagjiaturës së AI u shfaqën dukshëm që nga viti 2020 pas lëshimit të GPT.

Hulumtimet e fundit kanë treguar se modelet e mëdha gjuhësore (LLM) si GPT-3 mund të riprodhojnë pasazhe të konsiderueshme fjalë për fjalë nga të dhënat e tyre të trajnimit pa citim (Nasr et al., 2023; Carlini et al., 2022). Për shembull, një padi nga The New York Times zbuloi softuerin OpenAI që gjeneronte artikuj të New York Times pothuajse fjalë për fjalë (New York Times, 2023).

Këto gjetje sugjerojnë se disa sisteme gjeneruese të AI mund të prodhojnë rezultate plagjiaturë të pakërkuara, duke rrezikuar shkeljen e të drejtave të autorit. Megjithatë, prevalenca mbetet e pasigurt për shkak të natyrës së 'kutisë së zezë' të LLM-ve. Padia e New York Times argumenton se rezultate të tilla përbëjnë shkelje, të cilat mund të kenë implikime të mëdha për zhvillimin gjenerues të AI. Në përgjithësi, provat tregojnë se plagjiatura është një çështje e natyrshme në modelet e rrjeteve të mëdha nervore që kërkon vigjilencë dhe masa mbrojtëse.

Këto raste zbulojnë dy faktorë kyç që ndikojnë në rreziqet e plagjiaturës së AI:

Madhësia e modelit – Modelet më të mëdha si GPT-3.5 janë më të prirur për të rigjeneruar pasazhe teksti fjalë për fjalë në krahasim me modelet më të vogla. Të dhënat e tyre më të mëdha të trajnimit rrisin ekspozimin ndaj materialit burimor me të drejtë autori.
Të dhënat e trajnimit – Modelet e trajnuara mbi të dhënat e skrapuara të internetit ose veprat me të drejtë autori (edhe nëse janë të licencuara) kanë më shumë gjasa të plagjiaturën në krahasim me modelet e trajnuara në grupe të dhënash të kuruara me kujdes.

Megjithatë, matja e drejtpërdrejtë e prevalencës së rezultateve plagjiaturë është sfiduese. Natyra e "kutisë së zezë" të rrjeteve nervore e bën të vështirë gjurmimin e plotë të kësaj lidhjeje midis të dhënave të trajnimit dhe rezultateve të modelit. Tarifat ka të ngjarë të varen shumë nga arkitektura e modelit, cilësia e të dhënave dhe formulimi i shpejtë. Por këto raste konfirmojnë se një plagjiaturë e tillë e IA-së ndodh pa mëdyshje, e cila ka implikime kritike ligjore dhe etike.

Sistemet e reja për zbulimin e plagjiaturës

Si përgjigje, studiuesit kanë filluar të eksplorojnë sistemet e AI për të zbuluar automatikisht tekstin dhe imazhet e krijuara nga modelet kundrejt të krijuara nga njerëzit. Për shembull, studiuesit në Mila propozuan GenFace i cili analizon modelet gjuhësore që tregojnë tekstin e shkruar me AI. Startup Anthropic ka zhvilluar gjithashtu aftësi të brendshme për zbulimin e plagjiaturës për AI Claude bisedore.

Sidoqoftë, këto mjete kanë kufizime. Të dhënat masive të trajnimit të modeleve si GPT-3 e bëjnë të vështirë, në mos të pamundur përcaktimin e burimeve origjinale të tekstit të plagjiaturës. Do të nevojiten teknika më të forta pasi modelet gjeneruese vazhdojnë të zhvillohen me shpejtësi. Deri atëherë, rishikimi manual mbetet thelbësor për të kontrolluar rezultatet e inteligjencës artificiale të mundshme të plagjiaturës ose shkeljes para përdorimit publik.

Praktikat më të mira për të zbutur plagjiaturën gjeneruese të AI

Këtu janë disa praktika më të mira që si zhvilluesit ashtu edhe përdoruesit e AI mund të adoptojnë për të minimizuar rreziqet e plagjiaturës:

Për zhvilluesit e AI:

Kontrolloni me kujdes burimet e të dhënave të trajnimit për të përjashtuar materialet me të drejtë autori ose të licencuar pa lejet e duhura.
Zhvilloni dokumentacion rigoroz të të dhënave dhe procedura të gjurmimit të origjinës. Regjistroni meta të dhënat si licencat, etiketat, krijuesit, etj.
Zbatoni mjete për zbulimin e plagjiaturës për të shënuar përmbajtjen me rrezik të lartë përpara publikimit.
Siguroni raporte transparence që detajojnë burimet e të dhënave të trajnimit, licencimin dhe origjinën e rezultateve të AI kur lindin shqetësime.
Lejoni krijuesit e përmbajtjes që të tërhiqen lehtësisht nga grupet e të dhënave të trajnimit. Pajtohuni shpejt me kërkesat për heqje ose përjashtim.

Për përdoruesit gjenerues të AI:

Ekranizoni tërësisht rezultatet për çdo pasazh potencialisht të plagjiaturës ose të paatribuuar përpara se të vendoset në shkallë.
Shmangni trajtimin e AI si sisteme krijuese plotësisht autonome. Bëjini rishikuesit njerëzorë të shqyrtojnë përmbajtjen përfundimtare.
Favor AI ndihmoi krijimin njerëzor për të krijuar përmbajtje krejtësisht të re nga e para. Në vend të kësaj, përdorni modele për parafrazim ose ide.
Konsultohuni me kushtet e shërbimit të ofruesit të AI, politikat e përmbajtjes dhe masat mbrojtëse të plagjiaturës përpara përdorimit. Shmangni modelet opake.
Citoni qartë burimet nëse ndonjë material me të drejtë autori shfaqet në produktin përfundimtar, pavarësisht përpjekjeve më të mira. Mos e paraqisni punën e AI si krejtësisht origjinale.
Kufizoni ndarjen e rezultateve private ose konfidenciale derisa rreziqet e plagjiaturës të mund të vlerësohen dhe adresohen më tej.

Mund të garantohen gjithashtu rregullore më të rrepta për të dhënat e trajnimit, pasi modelet gjeneruese vazhdojnë të përhapen. Kjo mund të përfshijë kërkesën e pëlqimit për zgjedhjen nga krijuesit përpara se puna e tyre të shtohet në grupet e të dhënave. Megjithatë, barra i takon si zhvilluesve ashtu edhe përdoruesve për të përdorur praktika etike të AI që respektojnë të drejtat e krijuesit të përmbajtjes.

Plagjiaturë në Midjourney's V6 Alpha

Pas nxitjes së kufizuar Modeli V6 i Midjourney disa studiues ishin në gjendje të gjeneronin imazhe pothuajse identike me filmat me të drejtë autori, shfaqje televizive dhe pamje nga video lojërat që mund të përfshiheshin në të dhënat e trajnimit.

Imazhe të krijuara nga Midjourney që ngjajnë me skena nga filma të famshëm dhe lojëra video

Këto eksperimente konfirmojnë më tej se edhe sistemet më të avancuara të inteligjencës artificiale vizuale mund të plagjiaturën pa e ditur përmbajtjen e mbrojtur nëse burimi i të dhënave të trajnimit mbetet i pakontrolluar. Ai nënvizon nevojën për vigjilencë, masa mbrojtëse dhe mbikëqyrje njerëzore gjatë vendosjes së modeleve gjeneruese në mënyrë komerciale për të kufizuar rreziqet e shkeljes.

Kompanitë e AI-së Përgjigjja ndaj përmbajtjes me të drejtë autori

Linjat midis krijimtarisë njerëzore dhe AI po mjegullohen, duke krijuar pyetje komplekse për të drejtat e autorit. Punimet që kombinojnë të dhëna njerëzore dhe AI mund të kenë të drejtë autori vetëm në aspekte të ekzekutuara vetëm nga njeriu.

Zyra e Shteteve të Bashkuara për të Drejtat e Autorit kohët e fundit mohoi të drejtën e autorit për shumicën e aspekteve të një romani grafik të AI-njerëzor, duke e konsideruar artin e AI-së jo-njerëzore. Ai gjithashtu lëshoi udhëzime që përjashtojnë sistemet e AI nga 'autorësia'. Gjykatat federale e pohuan këtë qëndrim në një çështje të të drejtës së autorit të artit të AI.

Ndërkohë, paditë pretendojnë shkelje gjenerative të AI, si Getty v. Stability AI dhe artists v. Mesi i udhëtimit/Stabiliteti AI. Por pa "autorë" të AI, disa pyesin nëse aplikohen pretendimet për shkelje.

Si përgjigje, firmat e mëdha të AI si Meta, Google, Microsoft dhe Apple argumentuan se nuk duhet të kenë nevojë për licenca ose të paguajnë honorare për të trajnuar modelet e AI mbi të dhënat e mbrojtura nga të drejtat e autorit.

Këtu është një përmbledhje e argumenteve kryesore nga kompanitë kryesore të AI në përgjigje të rregullave të reja të mundshme të të drejtave të autorit në SHBA rreth AI, me citate:

Meta argumenton imponimi i licencimit tani do të shkaktonte kaos dhe do të ofronte pak përfitim për mbajtësit e të drejtave të autorit.

Google Pretendimet Trajnimi i inteligjencës artificiale është analoge me veprimet jo-shkelëse si leximi i një libri (Google, 2022).

microsoft paralajmëron Ndryshimi i ligjit për të drejtën e autorit mund të dëmtojë zhvilluesit e vegjël të AI.

mollë dëshiron të Kodi i krijuar nga AI i të drejtave të autorit i kontrolluar nga zhvilluesit njerëzorë.

Në përgjithësi, shumica e kompanive kundërshtojnë mandatet e reja të licencimit dhe minimizojnë shqetësimet rreth sistemeve të AI që riprodhojnë vepra të mbrojtura pa atribut. Sidoqoftë, ky qëndrim është i diskutueshëm duke pasur parasysh paditë dhe debatet e fundit për të drejtat e autorit të AI.

Rrugët për Inovacionin e Përgjegjshëm Gjenerativ të AI

Ndërsa këto modele gjeneruese të fuqishme vazhdojnë të përparojnë, mbyllja e rreziqeve të plagjiaturës është kritike për pranimin e zakonshëm. Kërkohet një qasje e shumëanshme:

Reformat e politikave rreth transparencës së të dhënave të trajnimit, licencimit dhe pëlqimit të krijuesit.
Teknologjitë më të forta të zbulimit të plagjiaturës dhe qeverisja e brendshme nga zhvilluesit.
Ndërgjegjësim më i madh i përdoruesit për rreziqet dhe respektimi i parimeve etike të AI.
Qartë precedentë ligjorë dhe praktikë gjyqësore rreth çështjeve të së drejtës së autorit të AI.

Me masat e duhura mbrojtëse, krijimi i ndihmuar nga AI mund të lulëzojë në aspektin etik. Por rreziqet e pakontrolluara të plagjiaturës mund të minojnë ndjeshëm besimin e publikut. Trajtimi i drejtpërdrejtë i këtij problemi është thelbësor për realizimin e potencialit të jashtëzakonshëm krijues të AI gjeneruese duke respektuar të drejtat e krijuesit. Arritja e ekuilibrit të duhur do të kërkojë përballjen aktive me pikën e verbër të plagjiaturës të ndërtuar në vetë natyrën e rrjeteve nervore. Por duke vepruar kështu do të sigurohet që këto modele të fuqishme të mos minojnë vetë zgjuarsinë njerëzore që synojnë të rrisin.

Temat e ngjashme:GPT Mesi i udhëtimit plagjiaturë

E rradhes

Imazhi Splatter: Rindërtim ultra i shpejtë 3D me një pamje të vetme

Mos e humbas

Blerjet e AI: Kush e udhëheq tarifën dhe pse?

Aayush Mittal

Kam kaluar pesë vitet e fundit duke u zhytur në botën magjepsëse të Mësimit të Makinerisë dhe Mësimit të Thellë. Pasioni dhe ekspertiza ime më kanë shtyrë të kontribuoj në mbi 50 projekte të ndryshme inxhinierike softuerike, me një fokus të veçantë në AI/ML. Kurioziteti im i vazhdueshëm më ka tërhequr gjithashtu drejt Përpunimit të Gjuhëve Natyrore, një fushë që mezi pres ta eksploroj më tej.

Bashkohu.AI

Problemi i plagjiaturës: Si modelet gjeneruese të AI riprodhojnë përmbajtjen e mbrojtur nga e drejta e autorit

Inteligjenca artificiale

Problemi i plagjiaturës: Si modelet gjeneruese të AI riprodhojnë përmbajtjen e mbrojtur nga e drejta e autorit

Përmbajtje

Si i përthithin rrjetet nervore të dhënat e trajnimit

Shembuj kryesorë të plagjiaturës së AI

Sistemet e reja për zbulimin e plagjiaturës

Praktikat më të mira për të zbutur plagjiaturën gjeneruese të AI

Plagjiaturë në Midjourney's V6 Alpha

Kompanitë e AI-së Përgjigjja ndaj përmbajtjes me të drejtë autori

Rrugët për Inovacionin e Përgjegjshëm Gjenerativ të AI

Postimet e fundit

Bashkohu.AI

Problemi i plagjiaturës: Si modelet gjeneruese të AI riprodhojnë përmbajtjen e mbrojtur nga e drejta e autorit

Përmbajtje

Si i përthithin rrjetet nervore të dhënat e trajnimit

Shembuj kryesorë të plagjiaturës së AI

Sistemet e reja për zbulimin e plagjiaturës

Praktikat më të mira për të zbutur plagjiaturën gjeneruese të AI

Plagjiaturë në Midjourney's V6 Alpha

Kompanitë e AI-së Përgjigjja ndaj përmbajtjes me të drejtë autori

Rrugët për Inovacionin e Përgjegjshëm Gjenerativ të AI

Ju mund të dëshironi

Postimet e fundit