csonk A plágiumprobléma: Hogyan reprodukálják a generatív mesterséges intelligencia modellek a szerzői jog által védett tartalmat - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A plágiumprobléma: Hogyan reprodukálják a generatív AI-modellek a szerzői jog által védett tartalmat

mm

Közzététel:

 on

plágium az AI-ban

A generatív mesterséges intelligencia gyors fejlődése izgalmat váltott ki a technológia kreatív potenciáljával kapcsolatban. Ezek a hatékony modellek azonban kockázatot is jelentenek a szerzői joggal védett vagy plagizált tartalom megfelelő forrásmegjelölés nélküli reprodukálásával kapcsolatban.

Hogyan szívják el a neurális hálózatok a képzési adatokat

A modern AI-rendszereket, például a GPT-3-at, egy transzfertanulásnak nevezett folyamaton keresztül képezik. Hatalmas adatkészleteket nyelnek be nyilvános forrásokból, például webhelyekről, könyvekből, tudományos közleményekből és egyebekből. Például a GPT-3 tanítási adatai 570 gigabájt szöveget tartalmaztak. A képzés során az MI mintákat és statisztikai összefüggéseket keres ebben a hatalmas adattárban. Megtanulja a szavak, mondatok, bekezdések, nyelvi szerkezet és egyéb jellemzők közötti összefüggéseket.

Ez lehetővé teszi a mesterséges intelligencia számára, hogy új koherens szöveget vagy képeket generáljon azáltal, hogy előrejelzi azokat a szekvenciákat, amelyek valószínűleg követnek egy adott bevitelt vagy promptot. De ez azt is jelenti, hogy ezek a modellek a szerzői jogokra, a forrásmegjelölésre vagy a plágium kockázatára való tekintet nélkül felszívják a tartalmat. Ennek eredményeként a generatív mesterséges intelligencia nem szándékosan szó szerint reprodukálhat vagy átfogalmazhatja a szerzői joggal védett szövegeket a képzési korpuszukból.

Főbb példák a mesterséges intelligencia plágiumára

A mesterséges intelligencia plágiumával kapcsolatos aggodalmak 2020 óta, a GPT megjelenése után kerültek előtérbe.

A közelmúltban végzett kutatások kimutatták, hogy a nagy nyelvi modellek (LLM-ek), mint például a GPT-3, lényeges szó szerint reprodukálhatnak a képzési adataikból idézés nélkül (Nasr et al., 2023; Carlini et al., 2022). Például a The New York Times perében kiderült, hogy az OpenAI szoftver szinte szó szerint generál New York Times cikkeket (The New York Times, 2023).

Ezek az eredmények arra utalnak, hogy egyes generatív AI-rendszerek kéretlen plágiumot produkálhatnak, ami a szerzői jogok megsértését kockáztatja. Az elterjedtség azonban továbbra is bizonytalan az LLM-ek „fekete doboz” jellege miatt. A New York Times keresete azt állítja, hogy az ilyen kimenetek jogsértésnek minősülnek, ami jelentős következményekkel járhat a generatív mesterséges intelligencia fejlesztésére. Összességében a bizonyítékok azt mutatják, hogy a plágium a nagy neurális hálózati modellek velejárója, amely éberséget és biztosítékokat igényel.

Ezek az esetek két kulcsfontosságú tényezőt tárnak fel, amelyek befolyásolják a mesterséges intelligencia plágium kockázatát:

  1. Modellméret – A nagyobb modellek, mint a GPT-3.5, hajlamosabbak a szó szerinti szövegrészek újragenerálására, mint a kisebb modellek. Nagyobb képzési adatkészleteik növelik a szerzői joggal védett forrásanyagoknak való kitettséget.
  2. Képzési adatok – Az összegyűjtött internetes adatokra vagy szerzői joggal védett művekre kiképzett modellek (még ha licenccel is rendelkeznek) nagyobb valószínűséggel plagizálnak, mint a gondosan összeállított adatkészleteken betanított modellek.

A plágiumok elterjedtségének közvetlen mérése azonban kihívást jelent. A neurális hálózatok „fekete doboz” jellege megnehezíti a betanítási adatok és a modellkimenetek közötti kapcsolat teljes nyomon követését. Az árak valószínűleg nagymértékben függnek a modell architektúrától, az adatkészlet minőségétől és a gyors megfogalmazástól. De ezek az esetek megerősítik, hogy ilyen mesterséges intelligencia plágium egyértelműen előfordul, aminek kritikus jogi és etikai vonatkozásai vannak.

Feltörekvő plágiumészlelő rendszerek

Válaszul a kutatók elkezdték feltárni az AI-rendszereket, hogy automatikusan felismerjék a modellek által generált szöveget és képeket az emberek által létrehozott modellekkel szemben. A Mila kutatói például a GenFace-et javasolták, amely elemzi a mesterséges intelligencia által írt szövegekre utaló nyelvi mintákat. A Startup Anthropic belső plágiumészlelési képességeket is kifejlesztett társalgási AI Claude számára.

Ezeknek az eszközöknek azonban vannak korlátai. Az olyan modellek tömeges betanítási adatai, mint a GPT-3, megnehezítik, ha nem lehetetlenek a plagizált szöveg eredeti forrásainak azonosítását. Robusztusabb technikákra lesz szükség, mivel a generatív modellek továbbra is gyorsan fejlődnek. Addig is elengedhetetlen a kézi ellenőrzés, hogy nyilvános használat előtt kiszűrjük a potenciálisan plagizált vagy jogsértő AI-kimeneteket.

A generatív mesterséges intelligencia plágium elleni küzdelem legjobb gyakorlatai

Íme néhány bevált gyakorlat, amelyet a mesterséges intelligencia fejlesztői és a felhasználók egyaránt alkalmazhatnak a plágiumkockázat minimalizálása érdekében:

AI fejlesztők számára:

  • Gondosan ellenőrizze a képzési adatforrásokat, hogy kizárja a szerzői joggal védett vagy licencelt anyagokat megfelelő engedélyek nélkül.
  • Szigorú adatdokumentáció és eredetkövetési eljárások kidolgozása. Rögzítsen metaadatokat, például licenceket, címkéket, alkotókat stb.
  • Alkalmazzon plágiumészlelő eszközöket a magas kockázatú tartalom megjelölésére a kiadás előtt.
  • Ha aggályok merülnek fel, készítsen átláthatósági jelentéseket, amelyek részletezik a képzési adatforrásokat, a licenceket és az AI-kimenetek eredetét.
  • Lehetővé teszi a tartalomkészítők számára, hogy egyszerűen leiratkozhassanak a képzési adatkészletekről. Gyorsan teljesítse az eltávolítási vagy kizárási kérelmeket.

Generatív AI felhasználók számára:

  • A nagyszabású üzembe helyezés előtt alaposan szűrje át a kimeneteket az esetlegesen plagizált vagy fel nem tüntetett szövegrészekre.
  • Ne kezelje az AI-t teljesen autonóm kreatív rendszerként. Az emberi felülvizsgálók vizsgálják meg a végső tartalmat.
  • A Favor AI segítette az emberi teremtést, mint teljesen új tartalmat a semmiből. Ehelyett használjon modelleket átfogalmazásra vagy ötletelésre.
  • Használat előtt tájékozódjon a mesterséges intelligencia szolgáltatójának szolgáltatási feltételeiről, tartalomszabályzatáról és a plágium elleni védelemről. Kerülje az átlátszatlan modelleket.
  • Világosan hivatkozzon a forrásokra, ha minden igyekezet ellenére szerzői joggal védett anyag jelenik meg a végső kimenetben. Ne mutasd be az AI-munkát teljesen eredetiként.
  • Korlátozza a kimenetek privát vagy bizalmas megosztását mindaddig, amíg a plágiumkockázatot tovább nem értékelik és kezelik.

Szigorúbb képzési adatok szabályozása is indokolt lehet, mivel a generatív modellek tovább terjednek. Ez magában foglalhatja az alkotók hozzájárulását, mielőtt munkájukat hozzáadnák az adatkészletekhez. Mindazonáltal a fejlesztőkre és a felhasználókra is hárul a felelősség, hogy olyan etikus mesterséges intelligencia-gyakorlatot alkalmazzanak, amely tiszteletben tartja a tartalomkészítői jogokat.

Plágium a Midjourney V6 Alpha-jában

Korlátozott felszólítás után A Midjourney V6-os modellje egyes kutatók szinte teljesen azonos képeket tudtak generálni a szerzői jog által védett filmekkel, tévéműsorokkal és videojátékok képernyőképeivel, amelyek valószínűleg szerepelnek a képzési adatokban.

A Midjourney által készített képek, amelyek híres filmek és videojátékok jeleneteire emlékeztetnek

A Midjourney által készített képek, amelyek híres filmek és videojátékok jeleneteire emlékeztetnek

Ezek a kísérletek tovább erősítik, hogy még a legkorszerűbb vizuális AI-rendszerek is képesek tudtukon kívül plagizálni a védett tartalmat, ha a képzési adatok beszerzését nem ellenőrizzük. Hangsúlyozza az éberség, biztosítékok és emberi felügyelet szükségességét generatív modellek kereskedelmi forgalomba hozatalakor a jogsértési kockázatok korlátozása érdekében.

Az AI-cégek válasza a szerzői joggal védett tartalomra

Az emberi és a mesterséges intelligencia kreativitása közötti határvonalak elmosódnak, és összetett szerzői jogi kérdéseket vet fel. Az emberi és mesterséges intelligencia inputot ötvöző művek csak olyan vonatkozásokban lehetnek szerzői jogi védelem alatt, amelyeket kizárólag az ember hajt végre.

Az Egyesült Államok Szerzői Jogi Hivatala a közelmúltban megtagadta a szerzői jogot egy mesterséges intelligencia-humán képregény legtöbb aspektusára vonatkozóan, mivel a mesterséges intelligencia művészetét nem emberinek minősítette. Kiadott egy iránymutatást is, amely kizárja az AI-rendszereket a „szerzői jogkörből”. A szövetségi bíróságok megerősítették ezt az álláspontot egy mesterséges intelligencia művészeti jogi ügyben.

Mindeközben perek generatív mesterségesintelligencia-bitorlást állítanak, például a Getty kontra Stabilitás AI és az artists v. középút/Stabilitás AI. De AI „szerzők” nélkül néhányan megkérdőjelezik, hogy jogsértési követelések érvényesek-e.

Válaszul a nagy mesterségesintelligencia-cégek, például a Meta, a Google, a Microsoft és az Apple azzal érveltek, hogy nem kellene licencekre vagy jogdíjakra fizetniük a mesterséges intelligencia modellek szerzői joggal védett adatokon való képzéséhez.

Íme egy összefoglaló a nagy mesterségesintelligencia-vállalatok kulcsfontosságú érveiről, válaszul az Egyesült Államok mesterséges intelligencia körüli lehetséges új szerzői jogi szabályaira, idézetekkel:

meta érvel az engedélyezés most káoszt okozna, és kevés hasznot hozna a szerzői jogok birtokosai számára.

Google követelések A mesterséges intelligencia képzése hasonló a jogsértő cselekedetekhez, mint például a könyvolvasás (Google, 2022).

microsoft figyelmeztet A szerzői jogi törvény megváltoztatása hátrányosan érintheti a kis mesterséges intelligencia-fejlesztőket.

Apple akar szerzői joggal védett mesterséges intelligencia által generált kód, amelyet emberi fejlesztők irányítanak.

Összességében a legtöbb vállalat ellenzi az új engedélyezési felhatalmazást, és lekicsinyli az aggodalmakat azzal kapcsolatban, hogy az AI-rendszerek forrásmegjelölés nélkül reprodukálják a védett műveket. Ez az álláspont azonban vitatott, tekintettel a közelmúltban lezajlott AI szerzői jogi perekre és vitákra.

Útvonalak a felelős generatív AI-innovációhoz

Ahogy ezek az erőteljes generatív modellek tovább fejlődnek, a plágiumkockázatok megszüntetése kritikus fontosságú az általános elfogadottság szempontjából. Sokoldalú megközelítésre van szükség:

  • Irányelvreformok a képzési adatok átláthatóságával, a licenceléssel és az alkotói hozzájárulással kapcsolatban.
  • Erősebb plágiumészlelési technológiák és a fejlesztők belső irányítása.
  • A felhasználók fokozottabb tudatossága a kockázatokkal és az etikus mesterséges intelligencia elveinek betartása.
  • Világos jogi precedensek és esetjog a mesterséges intelligencia szerzői jogi kérdéseivel kapcsolatban.

A megfelelő biztosítékokkal az AI által támogatott alkotás etikailag virágozhat. Az ellenőrizetlen plágiumkockázat azonban jelentősen alááshatja a közbizalmat. Ennek a problémának a közvetlen kezelése kulcsfontosságú a generatív mesterséges intelligencia óriási kreatív potenciáljának megvalósításához, miközben tiszteletben tartja az alkotói jogokat. A megfelelő egyensúly eléréséhez aktívan szembe kell nézni a neurális hálózatok természetébe épített plágium vakfolttal. Ezzel azonban biztosítható, hogy ezek a nagy teljesítményű modellek ne ássák alá azt az emberi találékonyságot, amelyet növelni kívánnak.

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.