Արհեստական բանականություն

Գրագողության խնդիրը. Ինչպես են գեներատիվ AI մոդելները վերարտադրում հեղինակային իրավունքով պաշտպանված բովանդակությունը

Հրատարակված է

1 ամիս առաջ

Հունվար 9, 2024

Գեներատիվ AI-ի արագ առաջընթացը ոգևորություն է առաջացրել տեխնոլոգիայի ստեղծագործական ներուժի վերաբերյալ: Այնուամենայնիվ, այս հզոր մոդելները նաև վտանգներ են ներկայացնում հեղինակային իրավունքով պաշտպանված կամ գրագող բովանդակության վերարտադրման շուրջ՝ առանց պատշաճ վերագրման:

Ինչպես են նյարդային ցանցերը կլանում վերապատրաստման տվյալները

Ժամանակակից AI համակարգերը, ինչպիսիք են GPT-3-ը, վերապատրաստվում են գործընթացի միջոցով, որը կոչվում է ուսուցման փոխանցում. Նրանք կլանում են հանրային աղբյուրներից հավաքված զանգվածային տվյալների հավաքածուներ, ինչպիսիք են կայքերը, գրքերը, ակադեմիական փաստաթղթերը և այլն: Օրինակ, GPT-3-ի ուսուցման տվյալները ներառում էին 570 գիգաբայթ տեքստ: Դասընթացների ընթացքում AI-ն որոնում է օրինաչափություններ և վիճակագրական հարաբերություններ տվյալների այս հսկայական լողավազանում: Այն սովորում է բառերի, նախադասությունների, պարբերությունների, լեզվի կառուցվածքի և այլ հատկանիշների փոխհարաբերությունները:

Սա թույլ է տալիս AI-ին ստեղծել նոր համահունչ տեքստ կամ պատկերներ՝ կանխատեսելով հաջորդականությունները, որոնք հավանաբար կհետևեն տվյալ մուտքագրմանը կամ հուշմանը: Բայց դա նաև նշանակում է, որ այս մոդելները կլանում են բովանդակությունը՝ հաշվի չառնելով հեղինակային իրավունքները, վերագրումը կամ գրագողության ռիսկերը: Արդյունքում, գեներացնող AI-ները կարող են ակամա վերարտադրել բառացի հատվածներ կամ վերափոխել հեղինակային իրավունքով պաշտպանված տեքստն իրենց ուսումնական կորպուսից:

AI-ի գրագողության հիմնական օրինակներ

Արհեստական ինտելեկտի գրագողության վերաբերյալ մտահոգություններն ակնհայտորեն ի հայտ եկան 2020 թվականից՝ GPT-ի թողարկումից հետո:

Վերջին հետազոտությունները ցույց են տվել, որ GPT-3-ի նման մեծ լեզվական մոդելները (LLM) կարող են վերարտադրել զգալի բառացի հատվածներ իրենց ուսուցման տվյալներից առանց մեջբերումների (Nasr et al., 2023; Carlini et al., 2022): Օրինակ, The New York Times-ի հայցը բացահայտեց OpenAI ծրագրակազմը, որը ստեղծում է New York Times-ի հոդվածները գրեթե բառացի (The New York Times, 2023 թ).

Այս բացահայտումները ցույց են տալիս, որ արհեստական ինտելեկտի որոշ գեներացնող համակարգեր կարող են չպահանջված գրագողության արդյունքներ առաջացնել՝ վտանգելով հեղինակային իրավունքի խախտում: Այնուամենայնիվ, տարածվածությունը մնում է անորոշ՝ LLM-ների «սև արկղի» բնույթի պատճառով: New York Times-ի հայցում ասվում է, որ նման արդյունքները խախտում են, ինչը կարող է մեծ հետևանքներ ունենալ գեներատիվ AI զարգացման վրա: Ընդհանուր առմամբ, ապացույցները ցույց են տալիս, որ գրագողությունը նեյրոնային ցանցերի խոշոր մոդելների բնորոշ խնդիր է, որը պահանջում է զգոնություն և երաշխիքներ:

Այս դեպքերը բացահայտում են AI-ի գրագողության ռիսկի վրա ազդող երկու հիմնական գործոն.

Մոդելի չափը – Ավելի մեծ մոդելները, ինչպիսիք են GPT-3.5-ը, ավելի հակված են բառացի տեքստի հատվածները վերածնելու՝ համեմատած փոքր մոդելների հետ: Նրանց ավելի մեծ ուսուցման տվյալների հավաքածուները մեծացնում են հեղինակային իրավունքով պաշտպանված սկզբնաղբյուր նյութի ազդեցությունը:
Ուսուցման տվյալներ – Մոդելները, որոնք վերապատրաստվել են քերծված ինտերնետ տվյալների կամ հեղինակային իրավունքով պաշտպանված աշխատանքների վրա (նույնիսկ եթե լիցենզավորված են) ավելի հավանական է, որ գրագողություն անեն՝ համեմատած մանրակրկիտ մշակված տվյալների հավաքածուների վրա վերապատրաստված մոդելների հետ:

Այնուամենայնիվ, գրագողության արդյունքների տարածվածության ուղղակի չափումը դժվար է: Նյարդային ցանցերի «սև արկղի» բնույթը դժվարացնում է ուսուցման տվյալների և մոդելի արդյունքների միջև այս կապի ամբողջական հայտնաբերումը: Գները, հավանաբար, մեծապես կախված են մոդելի ճարտարապետությունից, տվյալների բազայի որակից և արագ ձևակերպումից: Բայց այս դեպքերը հաստատում են, որ արհեստական ինտելեկտի նման գրագողությունը միանշանակորեն տեղի է ունենում, ինչը կրիտիկական իրավական և էթիկական հետևանքներ ունի:

Գրագողությունների հայտնաբերման ձևավորվող համակարգեր

Ի պատասխան՝ հետազոտողները սկսել են ուսումնասիրել արհեստական ինտելեկտի համակարգերը, որպեսզի ավտոմատ կերպով հայտնաբերեն մոդելների և մարդկանց կողմից ստեղծված տեքստերն ու պատկերները: Օրինակ, Mila-ի հետազոտողները առաջարկել են GenFace-ը, որը վերլուծում է AI-ով գրված տեքստի լեզվական օրինաչափությունները: Startup Anthropic-ը նաև մշակել է գրագողության ներքին հայտնաբերման հնարավորություններ իր խոսակցական AI Claude-ի համար:

Այնուամենայնիվ, այս գործիքներն ունեն սահմանափակումներ: GPT-3-ի նման մոդելների ուսուցման հսկայական տվյալները դժվարացնում են, եթե ոչ անհնարին, գրագող տեքստի սկզբնական աղբյուրների հայտնաբերումը: Ավելի ամուր տեխնիկա կպահանջվի, քանի որ գեներատիվ մոդելները շարունակում են արագ զարգանալ: Մինչ այդ, ձեռքով վերանայումը մնում է կարևոր՝ պոտենցիալ գրագողություն կամ խախտող AI արդյունքները զննելու համար հանրային օգտագործումից առաջ:

Արհեստական ինտելեկտի գեներատիվ գրագողությունը մեղմելու լավագույն փորձը

Ահա մի քանի լավագույն պրակտիկա, որոնք կարող են ընդունել ինչպես արհեստական ինտելեկտի մշակողները, այնպես էլ օգտատերերը՝ գրագողության ռիսկերը նվազագույնի հասցնելու համար.

AI մշակողների համար.

Զգուշորեն ստուգեք վերապատրաստման տվյալների աղբյուրները՝ բացառելու հեղինակային իրավունքով պաշտպանված կամ լիցենզավորված նյութերը՝ առանց համապատասխան թույլտվությունների:
Մշակել տվյալների խիստ փաստաթղթավորում և ծագման հետագծման ընթացակարգեր: Գրանցեք մետատվյալներ, ինչպիսիք են լիցենզիաները, պիտակները, ստեղծողները և այլն:
Ներդրեք գրագողության հայտնաբերման գործիքներ՝ նախքան թողարկումը բարձր ռիսկային բովանդակությունը նշելու համար:
Տրամադրել թափանցիկության հաշվետվություններ, որոնք մանրամասնում են վերապատրաստման տվյալների աղբյուրները, արտոնագրումը և AI արդյունքների ծագումը, երբ մտահոգություններ են առաջանում:
Թույլ տվեք բովանդակություն ստեղծողներին հեշտությամբ հրաժարվել ուսումնական տվյալների հավաքածուներից: Արագորեն կատարեք հեռացման կամ բացառման հայտերը:

Արտադրական AI օգտագործողների համար.

Նախքան մասշտաբով տեղակայելը, մանրակրկիտ ցուցադրեք ցանկացած պոտենցիալ գրագողության կամ չվերագրված հատվածի արդյունքները:
Խուսափեք AI-ին վերաբերվել որպես լիովին ինքնավար ստեղծագործ համակարգեր: Հանձնարարեք մարդկային վերանայողներին ուսումնասիրել վերջնական բովանդակությունը:
Favor AI-ն օգնեց մարդկային ստեղծագործությանը զրոյից ամբողջովին նոր բովանդակություն ստեղծելու հարցում: Փոխարենը օգտագործեք մոդելներ վերափոխման կամ մտահղացման համար:
Օգտագործելուց առաջ խորհրդակցեք AI մատակարարի ծառայության պայմանների, բովանդակության քաղաքականության և գրագողության երաշխիքների հետ: Խուսափեք անթափանց մոդելներից:
Հստակորեն մեջբերեք աղբյուրները, եթե հեղինակային իրավունքով պաշտպանված որևէ նյութ հայտնվում է վերջնական արդյունքում՝ չնայած լավագույն ջանքերին: Մի ներկայացրեք արհեստական ինտելեկտի աշխատանքը որպես ամբողջովին օրիգինալ:
Սահմանափակեք արդյունքների փոխանակումը մասնավոր կամ գաղտնի, մինչև գրագողության ռիսկերը հնարավոր լինի հետագա գնահատել և լուծել:

Ուսուցման տվյալների ավելի խիստ կանոնակարգերը նույնպես կարող են երաշխավորված լինել, քանի որ գեներատիվ մոդելները շարունակում են տարածվել: Սա կարող է ներառել ստեղծողների կողմից միանալու համաձայնության պահանջը՝ նախքան նրանց աշխատանքը տվյալների շտեմարաններում ավելացնելը: Այնուամենայնիվ, ինչպես մշակողների, այնպես էլ օգտատերերի վրա է դրված էթիկական AI պրակտիկաներ կիրառելը, որը հարգում է բովանդակություն ստեղծողի իրավունքները:

Գրագողություն Midjourney's V6 Alpha-ում

Սահմանափակ հուշումից հետո Midjourney-ի V6 մոդելը Որոշ հետազոտողներ կարողացել են ստեղծել գրեթե նույնական պատկերներ հեղինակային իրավունքով պաշտպանված ֆիլմերի, հեռուստաշոուների և տեսախաղերի սքրինշոթների հետ, որոնք հավանաբար ներառված են նրա ուսումնական տվյալների մեջ:

Midjourney-ի կողմից ստեղծված պատկերներ, որոնք նման են հայտնի ֆիլմերի և տեսախաղերի տեսարաններին

Այս փորձերը հետագայում հաստատում են, որ նույնիսկ ժամանակակից տեսողական AI համակարգերը կարող են անգիտակցաբար գրագողություն անել պաշտպանված բովանդակության վրա, եթե վերապատրաստման տվյալների աղբյուրը մնա չստուգված: Այն ընդգծում է զգոնության, երաշխիքների և մարդկային վերահսկողության անհրաժեշտությունը, երբ գեներատիվ մոդելները առևտրային առումով կիրառում են խախտումների ռիսկերը սահմանափակելու համար:

AI ընկերություններ Պատասխանում են հեղինակային իրավունքով պաշտպանված բովանդակությանը

Մարդու և արհեստական ինտելեկտի ստեղծարարության միջև սահմանները լղոզվում են՝ ստեղծելով հեղինակային իրավունքի վերաբերյալ բարդ հարցեր: Մարդկանց և արհեստական ինտելեկտի ներդրումը համադրող ստեղծագործությունները կարող են հեղինակային իրավունքով պաշտպանված լինել միայն այն ասպեկտներով, որոնք կատարվում են բացառապես մարդու կողմից:

ԱՄՆ-ի հեղինակային իրավունքի գրասենյակը վերջերս մերժեց հեղինակային իրավունքը AI-մարդկային գրաֆիկական վեպի շատ ասպեկտների նկատմամբ՝ համարելով AI արվեստը ոչ մարդկային: Այն նաև ուղեցույց է տվել, որը բացառում է AI համակարգերը «հեղինակությունից»: Դաշնային դատարանները հաստատել են այս դիրքորոշումը AI արվեստի հեղինակային իրավունքի գործով:

Միևնույն ժամանակ, դատական հայցերը վերաբերում են արհեստական ինտելեկտի գեներատիվ խախտմանը, օրինակ՝ Getty v. Stability AI-ն և Artists v. Միջին ճանապարհորդություն/Stability AI. Բայց առանց արհեստական ինտելեկտի «հեղինակների» որոշ հարց կա, թե արդյոք խախտման վերաբերյալ պահանջները կիրառվում են:

Ի պատասխան՝ AI խոշոր ընկերությունները, ինչպիսիք են Meta-ն, Google-ը, Microsoft-ը և Apple-ը պնդում էին, որ իրենց չպետք է լիցենզիաներ կամ հոնորարներ վճարեն՝ հեղինակային իրավունքով պաշտպանված տվյալների վրա AI մոդելներին վերապատրաստելու համար:

Ահա արհեստական ինտելեկտի խոշոր ընկերությունների հիմնական փաստարկների ամփոփումը՝ ի պատասխան AI-ի շուրջ ԱՄՆ-ի հեղինակային իրավունքի նոր կանոնների՝ մեջբերումներով.

Meta պնդում այժմ լիցենզավորման սահմանումը քաոս կառաջացնի և քիչ օգուտ կբերի հեղինակային իրավունքի սեփականատերերին.

Google պահանջներ AI ուսուցումը նման է ոչ խախտող գործողություններին, ինչպիսին է գիրք կարդալը (Google, 2022):

Microsoft զգուշացնում է Հեղինակային իրավունքի մասին օրենքի փոփոխությունը կարող է վնասել փոքր արհեստական ինտելեկտի մշակողներին.

Apple ցանկանում է հեղինակային իրավունքի AI-ի կողմից ստեղծված կոդը, որը վերահսկվում է մարդկային ծրագրավորողների կողմից.

Ընդհանուր առմամբ, ընկերությունների մեծամասնությունը դեմ է նոր լիցենզավորման մանդատներին և նսեմացնում է մտահոգությունները AI համակարգերի վերաբերյալ, որոնք վերարտադրում են պաշտպանված աշխատանքները առանց վերագրման: Այնուամենայնիվ, այս դիրքորոշումը վիճելի է՝ հաշվի առնելով AI-ի հեղինակային իրավունքի վերաբերյալ վերջին հայցերը և բանավեճերը:

Պատասխանատու գեներատիվ AI նորարարության ուղիներ

Քանի որ այս հզոր գեներատիվ մոդելները շարունակում են զարգանալ, գրագողության ռիսկերը փակելը կարևոր է հիմնական ընդունման համար: Պահանջվում է բազմակողմ մոտեցում.

Վերապատրաստման տվյալների թափանցիկության, լիցենզավորման և ստեղծողի համաձայնության շուրջ քաղաքականության բարեփոխումներ:
Գրագողության հայտնաբերման ավելի ուժեղ տեխնոլոգիաներ և մշակողների կողմից ներքին կառավարում:
Օգտագործողների ավելի մեծ իրազեկվածություն ռիսկերի և էթիկական AI սկզբունքներին հավատարմություն:
Հստակ իրավական նախադեպեր և նախադեպային իրավունք AI հեղինակային իրավունքի խնդիրների շուրջ:

Ճիշտ երաշխիքների դեպքում արհեստական ինտելեկտի օգնությամբ ստեղծումը կարող է բարգավաճել բարոյապես: Սակայն գրագողության չստուգված ռիսկերը կարող են զգալիորեն խաթարել հանրային վստահությունը: Այս խնդրին ուղղակիորեն անդրադառնալը առանցքային է գեներատիվ AI-ի հսկայական ստեղծագործական ներուժն իրացնելու համար՝ միաժամանակ հարգելով ստեղծողների իրավունքները: Ճիշտ հավասարակշռության հասնելու համար կպահանջվի ակտիվորեն դիմակայել նեյրոնային ցանցերի էության մեջ ներկառուցված գրագողության կույր կետին: Բայց դա անելը կապահովի, որ այս հզոր մոդելները չխաթարեն մարդկային հնարամտությունը, որը նրանք մտադիր են ավելացնել:

Հարակից թեմաներ.GPT Միջին ճանապարհորդություն Գրագողություն

Հաջորդը

Splatter Image. Գերարագ մեկ դիտմամբ 3D վերակառուցում

Բաց մի թողեք

AI ձեռքբերումներ. ով է ղեկավարում մեղադրանքը և ինչու:

Աայուշ Միթտալ

Ես անցկացրել եմ վերջին հինգ տարիները՝ ընկղմվելով մեքենայական ուսուցման և խորը ուսուցման հետաքրքրաշարժ աշխարհում: Իմ կիրքն ու փորձառությունը ստիպել են ինձ ներդրում ունենալ ավելի քան 50 տարբեր ծրագրային ապահովման ինժեներական նախագծերում՝ հատուկ ուշադրություն դարձնելով AI/ML-ին: Իմ շարունակական հետաքրքրասիրությունը նաև ինձ ձգում է դեպի Բնական լեզվի մշակումը, մի ոլորտ, որը ես ցանկանում եմ հետագայում ուսումնասիրել:

Unite.AI

Գրագողության խնդիրը. Ինչպես են գեներատիվ AI մոդելները վերարտադրում հեղինակային իրավունքով պաշտպանված բովանդակությունը

Արհեստական բանականություն

Գրագողության խնդիրը. Ինչպես են գեներատիվ AI մոդելները վերարտադրում հեղինակային իրավունքով պաշտպանված բովանդակությունը

Բովանդակություն

Ինչպես են նյարդային ցանցերը կլանում վերապատրաստման տվյալները

AI-ի գրագողության հիմնական օրինակներ

Գրագողությունների հայտնաբերման ձևավորվող համակարգեր

Արհեստական ինտելեկտի գեներատիվ գրագողությունը մեղմելու լավագույն փորձը

Գրագողություն Midjourney's V6 Alpha-ում

AI ընկերություններ Պատասխանում են հեղինակային իրավունքով պաշտպանված բովանդակությանը

Պատասխանատու գեներատիվ AI նորարարության ուղիներ

Վերջին գրառումներ

Unite.AI

Գրագողության խնդիրը. Ինչպես են գեներատիվ AI մոդելները վերարտադրում հեղինակային իրավունքով պաշտպանված բովանդակությունը

Բովանդակություն

Ինչպես են նյարդային ցանցերը կլանում վերապատրաստման տվյալները

AI-ի գրագողության հիմնական օրինակներ

Գրագողությունների հայտնաբերման ձևավորվող համակարգեր

Արհեստական ​​ինտելեկտի գեներատիվ գրագողությունը մեղմելու լավագույն փորձը

Գրագողություն Midjourney's V6 Alpha-ում

AI ընկերություններ Պատասխանում են հեղինակային իրավունքով պաշտպանված բովանդակությանը

Պատասխանատու գեներատիվ AI նորարարության ուղիներ

Դուք կարող եք հավանել

Վերջին գրառումներ

Արհեստական ինտելեկտի գեներատիվ գրագողությունը մեղմելու լավագույն փորձը