Inteligență artificială

Problema plagiatului: Cum modelele de inteligență artificială generativă reproduc conținutul protejat prin copyright

mm
plagiarism-in-AI

Avansurile rapide în domeniul inteligenței artificiale generative au declanșat entuziasm cu privire la potențialul creativ al tehnologiei. Cu toate acestea, aceste modele puternice prezintă și riscuri îngrijorătoare legate de reproducerea conținutului protejat prin copyright sau a plagiatului fără atribuire corespunzătoare.

Cum rețelele neuronale absorb datele de antrenare

Sistemele moderne de inteligență artificială, cum ar fi GPT-3, sunt antrenate prin intermediul unui proces numit transfer de învățare. Acestea ingerează cantități masive de date extrase din surse publice, cum ar fi site-uri web, cărți, articole științifice și multe altele. De exemplu, datele de antrenare ale GPT-3 au cuprins 570 de gigabiți de text. În timpul antrenamentului, inteligența artificială caută modele și relații statistice în această cantitate vastă de date. Ea învață corelațiile dintre cuvinte, propoziții, paragrafe, structura limbajului și alte caracteristici.

Acest lucru îi permite inteligenței artificiale să genereze text sau imagini noi coerente prin predicția secvențelor care sunt probabil să urmeze unui anumit input sau prompt. Dar acest lucru înseamnă și că aceste modele absorb conținut fără a ține cont de drepturile de autor, atribuire sau riscurile de plagiat. Ca urmare, inteligența artificială generativă poate reproduce involuntar pasaje identice sau parafrazează textul protejat prin copyright din corpurile de date de antrenament.

Exemple cheie de plagiat în inteligența artificială

Îngrijorările legate de plagiatul în inteligența artificială au apărut în mod evident începând cu anul 2020, după lansarea GPT.

Cercetările recente au arătat că modelele de limbaj mare (LLM) cum ar fi GPT-3 pot reproduce pasaje substanțiale identice din datele de antrenament fără citare (Nasr et al., 2023; Carlini et al., 2022). De exemplu, un proces intentat de The New York Times a dezvăluit faptul că software-ul OpenAI a generat articole din The New York Times aproape identic (The New York Times, 2023).

Aceste descoperiri sugerează că anumite sisteme de inteligență artificială generativă pot produce ieșiri plagiate neautorizate, riscând încălcarea drepturilor de autor. Cu toate acestea, prevalența rămâne incertă din cauza naturii “cutii negre” a LLM. Procesul intentat de The New York Times susține că astfel de ieșiri constituie încălcări, ceea ce ar putea avea implicații majore pentru dezvoltarea inteligenței artificiale generative. În general, dovezi indică faptul că plagiatul este o problemă inerentă a modelelor de rețele neuronale mari care necesită vigilență și măsuri de protecție.

Aceste cazuri dezvăluie două factori cheie care influențează riscurile de plagiat în inteligența artificială:

  1. Mărimea modelului – Modelele mai mari, cum ar fi GPT-3.5, sunt mai predispuse să regenereze pasaje de text identice comparativ cu modelele mai mici. Datele lor de antrenament mai mari cresc expunerea la materialul sursă protejat prin copyright.
  2. Datele de antrenament – Modelele antrenate pe date extrase de pe internet sau pe lucrări protejate prin copyright (chiar dacă sunt licențiate) sunt mai susceptibile de a plagia comparativ cu modelele antrenate pe seturi de date atent curate.

Cu toate acestea, măsurarea directă a prevalenței ieșirilor plagiate este dificilă. Natura “cutie neagră” a rețelelor neuronale face dificilă urmărirea legăturii dintre datele de antrenament și ieșirile modelului. Ratele probabil depind puternic de arhitectura modelului, calitatea setului de date și formularea promptului. Dar aceste cazuri confirmă faptul că plagiatul în inteligența artificială are loc în mod neechivoc, ceea ce are implicații critice din punct de vedere legal și etic.

Sisteme de detectare a plagiatului în curs de dezvoltare

Ca răspuns, cercetătorii au început să exploreze sisteme de inteligență artificială pentru a detecta automat textul și imaginile generate de modele versus cele create de oameni. De exemplu, cercetătorii de la Mila au propus GenFace, care analizează modelele lingvistice indicative pentru textul scris de inteligența artificială. Startup-ul Anthropic a dezvoltat, de asemenea, capacități interne de detectare a plagiatului pentru inteligența sa conversațională Claude.

Cu toate acestea, aceste unelte au limitări. Datele masive de antrenament ale modelelor cum ar fi GPT-3 fac dificilă identificarea surselor originale ale textului plagiat, dacă nu este imposibil. Tehnici mai robuste vor fi necesare pe măsură ce modelele generative continuă să evolueze rapid. Până atunci, revizuirea manuală rămâne esențială pentru a verifica ieșirile potențial plagiate sau care încălcă drepturile de autor ale inteligenței artificiale înainte de utilizarea publică.

Cele mai bune practici pentru a reduce plagiatul în inteligența artificială generativă

Iată câteva cele mai bune practici pe care atât dezvoltatorii de inteligență artificială, cât și utilizatorii le pot adopta pentru a minimiza riscurile de plagiat:

Pentru dezvoltatorii de inteligență artificială:

  • Verificați cu atenție sursele de date de antrenament pentru a exclude materialul protejat prin copyright sau licențiat fără permisiune corespunzătoare.
  • Dezvoltați proceduri riguroase de documentare a datelor și de urmărire a provenienței. Înregistrați metadate cum ar fi licențe, etichete, creatori etc.
  • Implementați unelte de detectare a plagiatului pentru a semnala conținutul cu risc ridicat înainte de lansare.
  • Furnizați rapoarte de transparență care detaliază sursele de date de antrenament, licențierea și originea ieșirilor inteligenței artificiale atunci când apar îngrijorări.
  • Permiteți creatorilor de conținut să se retragă ușor din seturile de date de antrenament. Răspundeți rapid la solicitările de retragere sau excludere.

Pentru utilizatorii de inteligență artificială generativă:

  • Examinați cu atenție ieșirile pentru orice pasaje plagiate sau neatribuite înainte de a le utiliza la scară largă.
  • Evitați să tratați inteligența artificială ca sisteme creative complet autonome. Aveți recenzori umani care examinează conținutul final.
  • Preferați creația asistată de inteligența artificială umană în loc de generarea de conținut complet nou de la zero. Utilizați modele pentru parafrazare sau idei în loc de generare directă.
  • Consultați termenii și condițiile furnizorului de inteligență artificială, politica de conținut și măsurile de protecție împotriva plagiatului înainte de utilizare. Evitați modelele opace.
  • Citați sursele clar dacă apare material protejat prin copyright în ieșirea finală, în ciuda eforturilor de a preveni plagiatul. Nu prezentați lucrările inteligenței artificiale ca fiind complet originale.
  • Limitați partajarea ieșirilor în mod privat sau confidențial până când riscurile de plagiat pot fi evaluate și abordate în mod corespunzător.

Reglementările mai stricte ale datelor de antrenament pot fi, de asemenea, justificate pe măsură ce modelele generative continuă să prolifereze. Acest lucru ar putea implica necesitatea de a obține consimțământul creatorilor înainte de a adăuga lucrările lor în seturile de date. Cu toate acestea, responsabilitatea revine atât dezvoltatorilor, cât și utilizatorilor de a adopta practici etice de inteligență artificială care respectă drepturile creatorilor de conținut.

Plagiatul în Midjourney V6 Alpha

După o serie limitată de prompturi, modelul V6 al Midjourney a generat imagini aproape identice cu filme, emisiuni TV și capturi de ecran din jocuri video protejate prin copyright, probabil incluse în datele sale de antrenament.

Imagini create de Midjourney care semănă cu scene din filme și jocuri video cunoscute

Imagini create de Midjourney care semănă cu scene din filme și jocuri video cunoscute

Aceste experimente confirmă și mai mult faptul că chiar și sistemele vizuale de inteligență artificială de ultimă generație pot plagia conținut protejat fără să știe, dacă sursele datelor de antrenament rămân necontrolate. Acest lucru subliniază nevoia de vigilență, măsuri de protecție și supraveghere umană atunci când se utilizează modele generative în mod comercial pentru a limita riscurile de încălcare a drepturilor de autor.

Răspunsul companiilor de inteligență artificială cu privire la conținutul protejat prin copyright

Linia dintre creativitatea umană și cea a inteligenței artificiale se estompează, creând întrebări complexe cu privire la drepturile de autor. Lucrările care combină input uman și inteligență artificială pot fi protejate prin copyright doar în aspectele realizate exclusiv de om.

Biroul de drepturi de autor al Statelor Unite a refuzat recent acordarea drepturilor de autor pentru majoritatea aspectelor unei cărți grafice create de om și inteligență artificială, considerând arta inteligenței artificiale ca fiind neumană. De asemenea, a emis îndrumări care exclud sistemele de inteligență artificială de la “autorat”. Instanțele federale au confirmat această poziție într-un caz de drepturi de autor al artei create de inteligență artificială.

Între timp, procesele intentate aleg că modelele de inteligență artificială generativă încălcă drepturile de autor, cum ar fi Getty vs. Stability AI și artiști vs. Midjourney/Stability AI. Dar fără “autori” ai inteligenței artificiale, unii se întreabă dacă pretențiile de încălcare a drepturilor de autor se aplică.

Ca răspuns, companii majore de inteligență artificială, cum ar fi Meta, Google, Microsoft și Apple, au susținut că nu ar trebui să necesite licențe sau să plătească redevențe pentru a antrena modele de inteligență artificială pe date protejate prin copyright.

Iată o sinteză a principalelor argumente prezentate de companiile majore de inteligență artificială în legătură cu potențialele reguli de drepturi de autor din Statele Unite cu privire la inteligența artificială, împreună cu citate:

Meta argumentează că impunerea de licențe în acest moment ar provoca haos și ar oferi puține beneficii deținătorilor de drepturi de autor.

Google susține că antrenamentul inteligenței artificiale este analog actelor neîncălcătoare, cum ar fi citirea unei cărți (Google, 2022).

Microsoft avertizează că modificarea legilor drepturilor de autor ar putea defavoriza dezvoltatorii mici de inteligență artificială.

Apple dorește să protejeze prin drepturi de autor codul generat de inteligența artificială controlat de dezvoltatori umani.

În general, majoritatea companiilor se opun noilor mandate de licențiere și minimalizează îngrijorările cu privire la sistemele de inteligență artificială care reproduc lucrări protejate fără atribuire. Cu toate acestea, această poziție este controversată având în vedere procesele recente de drepturi de autor ale inteligenței artificiale și dezbaterile în curs.

Căi pentru inovarea responsabilă a inteligenței artificiale generative

Pe măsură ce aceste modele generative puternice continuă să evolueze, este esențial să se acopere riscurile de plagiat pentru acceptarea lor pe scară largă. O abordare multiplă este necesară:

  • Reformele politice privind transparența datelor de antrenament, licențierea și consimțământul creatorilor.
  • Tehnologii mai puternice de detectare a plagiatului și guvernanță internă a dezvoltatorilor.
  • O mai mare conștientizare a utilizatorilor cu privire la riscuri și respectarea principiilor etice de inteligență artificială.
  • Precedente legale clare și jurisprudență în jurul problemelor de drepturi de autor ale inteligenței artificiale.

Cu măsurile de protecție adecvate, creația asistată de inteligență artificială poate prospera în mod etic. Dar riscurile necontrolate de plagiat ar putea submina în mod semnificativ încrederea publică. Abordarea directă a acestei probleme este cheia pentru a realiza potențialul creativ imens al inteligenței artificiale generative, respectând în același timp drepturile creatorilor. Realizarea echilibrului corect va necesita confruntarea activă a punctului orb al plagiatului încorporat în natura însăși a rețelelor neuronale. Dar, prin a face acest lucru, se vor asigura că aceste modele puternice nu subminează ingeniozitatea umană pe care încearcă să o sprijine.

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Machine Learning și Deep Learning. Pasinea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un focus deosebit pe AI/ML. Curiozitatea mea în continuare m-a atras și spre Natural Language Processing, un domeniu pe care sunt dornic să îl explorez mai departe.