სტუბი პლაგიატის პრობლემა: როგორ ახდენენ გენერაციული AI მოდელები საავტორო უფლებებით დაცული კონტენტის რეპროდუცირებას - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

პლაგიატის პრობლემა: როგორ ამრავლებენ გენერაციული AI მოდელები საავტორო უფლებებით დაცულ კონტენტს

mm

გამოქვეყნებულია

 on

პლაგიატი AI-ში

გენერაციული AI-ს სწრაფმა მიღწევებმა აღფრთოვანება გამოიწვია ტექნოლოგიის შემოქმედებითი პოტენციალის შესახებ. თუმცა ეს მძლავრი მოდელები ასევე ქმნიან რისკებს საავტორო უფლებებით დაცული ან პლაგიატირებული შინაარსის რეპროდუცირების შესახებ სათანადო ატრიბუტის გარეშე.

როგორ შთანთქავს ნერვული ქსელები ტრენინგის მონაცემებს

თანამედროვე AI სისტემები, როგორიცაა GPT-3, წვრთნიან პროცესის მეშვეობით, რომელსაც ეწოდება გადაცემის სწავლა. ისინი იღებენ მონაცემთა მასიურ კომპლექტს, რომელიც ამოღებულია საჯარო წყაროებიდან, როგორიცაა ვებსაიტები, წიგნები, აკადემიური ნაშრომები და სხვა. მაგალითად, GPT-3-ის სასწავლო მონაცემები მოიცავდა 570 გიგაბაიტ ტექსტს. ტრენინგის დროს ხელოვნური ინტელექტი ეძებს შაბლონებს და სტატისტიკურ კავშირებს მონაცემთა ამ უზარმაზარ აუზში. ის სწავლობს სიტყვებს, წინადადებებს, აბზაცებს, ენის სტრუქტურასა და სხვა მახასიათებლებს შორის კორელაციას.

ეს საშუალებას აძლევს AI-ს შექმნას ახალი თანმიმდევრული ტექსტი ან გამოსახულებები იმ თანმიმდევრობის პროგნოზირებით, რომელიც სავარაუდოდ მოჰყვება მოცემულ შეყვანას ან მოთხოვნას. მაგრამ ეს ასევე ნიშნავს, რომ ეს მოდელები შთანთქავს შინაარსს საავტორო უფლებების, მიკუთვნების ან პლაგიატის რისკების გათვალისწინების გარეშე. შედეგად, გენერაციულ AI-ებს შეუძლიათ უნებლიედ გაამრავლონ სიტყვასიტყვითი პასაჟები ან საავტორო უფლებებით დაცული ტექსტის პერიფრაზირება მათი სასწავლო კორპუსებიდან.

AI პლაგიატის ძირითადი მაგალითები

AI პლაგიატის შესახებ შეშფოთება აშკარად გაჩნდა 2020 წლიდან GPT-ის გამოქვეყნების შემდეგ.

ბოლოდროინდელმა კვლევამ აჩვენა, რომ მსხვილ ენობრივ მოდელებს (LLMs), როგორიცაა GPT-3, შეუძლიათ არსებითი სიტყვასიტყვითი პასაჟების რეპროდუცირება მათი სასწავლო მონაცემებიდან ციტირების გარეშე (Nasr et al., 2023; Carlini et al., 2022). მაგალითად, The New York Times-ის სარჩელმა გამოავლინა OpenAI პროგრამული უზრუნველყოფა, რომელიც აწარმოებს New York Times-ის სტატიებს თითქმის სიტყვასიტყვით (The New York Times, 2023 წელი).

ეს დასკვნები ვარაუდობს, რომ ზოგიერთმა გენერაციულმა AI სისტემამ შეიძლება გამოიწვიოს არასასურველი პლაგიატის შედეგები, საავტორო უფლებების დარღვევის რისკის ქვეშ. თუმცა, პრევალენტობა გაურკვეველი რჩება LLM-ების „შავი ყუთის“ ბუნების გამო. New York Times-ის სარჩელი ამტკიცებს, რომ ასეთი შედეგები წარმოადგენს დარღვევას, რამაც შეიძლება სერიოზული გავლენა იქონიოს გენერაციულ AI განვითარებაზე. საერთო ჯამში, მტკიცებულებები მიუთითებს იმაზე, რომ პლაგიატი არის თანდაყოლილი პრობლემა დიდი ნერვული ქსელის მოდელებში, რომელიც მოითხოვს სიფხიზლეს და დაცვას.

ეს შემთხვევები გამოავლენს ორ ძირითად ფაქტორს, რომლებიც გავლენას ახდენენ ხელოვნური ინტელექტის პლაგიატის რისკებზე:

  1. მოდელის ზომა – უფრო დიდი მოდელები, როგორიცაა GPT-3.5, უფრო მიდრეკილია სიტყვიერი ტექსტის პასაჟების რეგენერაციისკენ, ვიდრე მცირე მოდელებთან შედარებით. მათი უფრო დიდი სასწავლო მონაცემთა ნაკრები ზრდის საავტორო უფლებებით დაცულ წყაროს მასალას.
  2. ტრენინგის მონაცემები – მოდელები, რომლებიც გაწვრთნილნი არიან სკრიპირებული ინტერნეტის მონაცემებზე ან საავტორო უფლებებით დაცულ ნამუშევრებზე (თუნდაც ლიცენზირებულნი) უფრო მეტად მოახდენენ პლაგიატს, ვიდრე მოდელებს, რომლებიც გაწვრთნილნი არიან საგულდაგულოდ დამუშავებულ მონაცემთა ნაკრებებზე.

თუმცა, პლაგიატის პრევალენტობის უშუალოდ გაზომვა რთულია. ნერვული ქსელების „შავი ყუთის“ ბუნება ართულებს ტრენინგის მონაცემებსა და მოდელის შედეგებს შორის ამ კავშირის სრულად დადგენას. ტარიფები, სავარაუდოდ, დიდად არის დამოკიდებული მოდელის არქიტექტურაზე, მონაცემთა ხარისხზე და სწრაფ ფორმულირებაზე. მაგრამ ეს შემთხვევები ადასტურებს, რომ ასეთი AI პლაგიატი ცალსახად ხდება, რომელსაც აქვს კრიტიკული სამართლებრივი და ეთიკური შედეგები.

პლაგიატის აღმოჩენის განვითარებადი სისტემები

ამის საპასუხოდ, მკვლევარებმა დაიწყეს ხელოვნური ინტელექტის სისტემების შესწავლა, რათა ავტომატურად აღმოაჩინონ მოდელების მიერ შექმნილი ტექსტები და სურათები ადამიანების მიერ შექმნილი მოდელებისგან. მაგალითად, Mila-ს მკვლევარებმა შემოგვთავაზეს GenFace, რომელიც აანალიზებს ენობრივ შაბლონებს, რომლებიც მიუთითებს ხელოვნური ინტელექტის მიერ დაწერილი ტექსტის შესახებ. Startup Anthropic-მა ასევე შეიმუშავა შიდა პლაგიატის გამოვლენის შესაძლებლობები მისი სასაუბრო AI Claude-სთვის.

თუმცა, ამ ინსტრუმენტებს აქვთ შეზღუდვები. მოდელების ტრენინგის მასიური მონაცემები, როგორიცაა GPT-3, ართულებს, თუ არა შეუძლებელს, ართულებს პლაგიატირებული ტექსტის ორიგინალური წყაროების დადგენას. საჭირო იქნება უფრო ძლიერი ტექნიკა, რადგან გენერაციული მოდელები განაგრძობენ სწრაფად განვითარებას. მანამდე, ხელით განხილვა არსებითი რჩება პოტენციურად პლაგიატის ან AI შედეგების გამოსაკვლევად საჯარო გამოყენებამდე.

საუკეთესო პრაქტიკა გენერაციული AI პლაგიატის შესამცირებლად

აქ მოცემულია რამდენიმე საუკეთესო პრაქტიკა, რომელსაც შეუძლია გამოიყენოს როგორც ხელოვნური ინტელექტის შემქმნელებმა, ასევე მომხმარებლებმა პლაგიატის რისკების შესამცირებლად:

AI დეველოპერებისთვის:

  • ყურადღებით დააკვირდით ტრენინგის მონაცემთა წყაროებს, რათა გამორიცხოთ საავტორო უფლებებით დაცული ან ლიცენზირებული მასალა სათანადო ნებართვის გარეშე.
  • შეიმუშავეთ მონაცემთა მკაცრი დოკუმენტაცია და წარმოშობის თვალთვალის პროცედურები. ჩაწერეთ მეტამონაცემები, როგორიცაა ლიცენზიები, ტეგები, შემქმნელები და ა.შ.
  • განახორციელეთ პლაგიატის გამოვლენის ხელსაწყოები, რათა მონიშნოთ მაღალი რისკის შემცველი კონტენტი გამოშვებამდე.
  • მიაწოდეთ გამჭვირვალობის ანგარიშები, სადაც დეტალურად იქნება აღწერილი ტრენინგის მონაცემთა წყაროები, ლიცენზირება და AI შედეგების წარმოშობა, როდესაც შეშფოთება წარმოიქმნება.
  • მიეცით საშუალება კონტენტის შემქმნელებს, მარტივად უარი თქვან სასწავლო მონაცემთა ნაკრებებზე. სწრაფად შეასრულეთ წაშლის ან გამორიცხვის მოთხოვნები.

გენერაციული AI მომხმარებლებისთვის:

  • საფუძვლიანად გადახედეთ ყველა პოტენციურად პლაგიატირებულ ან არაატრიბუტულ პასაჟს, სანამ მასშტაბით განათავსებთ.
  • მოერიდეთ AI-ს, როგორც სრულად ავტონომიურ შემოქმედებით სისტემებს. სთხოვეთ მიმომხილველებს, შეამოწმონ საბოლოო შინაარსი.
  • Favor AI დაეხმარა ადამიანის შექმნას სრულიად ახალი შინაარსის გენერირებაში ნულიდან. გამოიყენეთ მოდელები პერიფრაზირებისთვის ან იდეებისთვის.
  • გამოყენებამდე გაეცანით ხელოვნური ინტელექტის პროვაიდერის მომსახურების პირობებს, შიგთავსის პოლიტიკას და პლაგიატის დაცვას. მოერიდეთ გაუმჭვირვალე მოდელებს.
  • მკაფიოდ მიუთითეთ წყაროები, თუ საავტორო უფლებებით დაცული მასალა გამოჩნდება საბოლოო გამოშვებაში, მიუხედავად საუკეთესო ძალისხმევისა. არ წარმოადგინოთ ხელოვნური ინტელექტის ნამუშევარი, როგორც მთლიანად ორიგინალური.
  • შეზღუდეთ შედეგების გაზიარება პირადად ან კონფიდენციალურად, სანამ პლაგიატის რისკები არ იქნება შემდგომი შეფასება და განხილვა.

ტრენინგის მონაცემების უფრო მკაცრი რეგულაციები ასევე შეიძლება იყოს გარანტირებული, რადგან გენერაციული მოდელები კვლავ მრავლდება. ეს შეიძლება მოიცავდეს შემქმნელებისგან თანხმობის მოთხოვნას, სანამ მათი ნამუშევარი დაემატება მონაცემთა ნაკრებებს. თუმცა, მოვალეობა ეკისრება როგორც დეველოპერებს, ასევე მომხმარებლებს, გამოიყენონ ეთიკური AI პრაქტიკა, რომელიც პატივს სცემს კონტენტის შემქმნელების უფლებებს.

პლაგიატი Midjourney's V6 Alpha-ში

შეზღუდული მოთხოვნის შემდეგ Midjourney's V6 მოდელი ზოგიერთმა მკვლევარმა შეძლო თითქმის იდენტური სურათების გენერირება საავტორო უფლებებით დაცული ფილმების, სატელევიზიო შოუებისა და ვიდეო თამაშების სკრინშოტებისთვის, რომლებიც, სავარაუდოდ, მის სასწავლო მონაცემებში შედის.

Midjourney-ის მიერ შექმნილი სურათები, რომლებიც წააგავს ცნობილი ფილმებისა და ვიდეო თამაშების სცენებს

Midjourney-ის მიერ შექმნილი სურათები, რომლებიც წააგავს ცნობილი ფილმებისა და ვიდეო თამაშების სცენებს

ეს ექსპერიმენტები დამატებით ადასტურებს, რომ უახლესი ვიზუალური ხელოვნური ინტელექტის სისტემებმაც კი შეიძლება გაუცნობიერებლად მოახდინოს დაცული შინაარსის პლაგიატი, თუ ტრენინგის მონაცემების მოძიება შეუმოწმებელი დარჩება. იგი ხაზს უსვამს სიფხიზლის, დაცვისა და ადამიანის ზედამხედველობის აუცილებლობას გენერაციული მოდელების კომერციულად გამოყენებისას დარღვევის რისკების შეზღუდვის მიზნით.

AI კომპანიები პასუხობენ საავტორო უფლებებით დაცულ შინაარსს

ხაზები ადამიანისა და ხელოვნური ინტელექტის შემოქმედებას შორის ბუნდოვანია, რაც ქმნის საავტორო უფლებების რთულ კითხვებს. ნამუშევრები, რომლებიც აერთიანებს ადამიანის და ხელოვნური ინტელექტის შეყვანას, შეიძლება იყოს საავტორო უფლება მხოლოდ ადამიანის მიერ შესრულებულ ასპექტებზე.

აშშ-ს საავტორო ოფისმა ახლახან უარყო საავტორო უფლებები ხელოვნური ინტელექტის მქონე ადამიანების გრაფიკული რომანის უმეტეს ასპექტებზე და მიიჩნია, რომ ხელოვნური ინტელექტის ხელოვნება არაადამიანურია. მან ასევე გამოსცა ინსტრუქცია, რომელიც გამორიცხავს AI სისტემების "ავტორობას". ფედერალურმა სასამართლოებმა დაადასტურეს ეს პოზიცია ხელოვნური ინტელექტის ხელოვნების საავტორო უფლებების საქმეში.

იმავდროულად, სარჩელი ამტკიცებს ხელოვნური ინტელექტის გენერაციულ დარღვევას, როგორიცაა Getty v. Stability AI და Arts v. შუა მოგზაურობა/სტაბილურობის AI. მაგრამ ხელოვნური ინტელექტის "ავტორების" გარეშე, გარკვეული კითხვის ნიშნის ქვეშ დგას, ვრცელდება თუ არა დარღვევის პრეტენზიები.

საპასუხოდ, AI-ის მსხვილი ფირმები, როგორიცაა Meta, Google, Microsoft და Apple ამტკიცებდნენ, რომ მათ არ უნდა სჭირდებოდნენ ლიცენზიები ან ჰონორარი გადაიხადონ ხელოვნური ინტელექტის მოდელების საავტორო უფლებებით დაცულ მონაცემებზე.

აქ მოცემულია ძირითადი AI კომპანიების ძირითადი არგუმენტების შეჯამება AI-ს შესახებ შეერთებული შტატების საავტორო უფლებების პოტენციური ახალი წესების საპასუხოდ, ციტატებით:

Meta ამტკიცებს ახლა ლიცენზირების დაწესება გამოიწვევს ქაოსს და მცირე სარგებელს მოუტანს საავტორო უფლებების მფლობელებს.

Google პრეტენზიები ხელოვნური ინტელექტის სწავლება ანალოგიურია არადამრღვევი ქმედებებისა, როგორიცაა წიგნის კითხვა (გუგლი, 2022).

microsoft აფრთხილებს საავტორო უფლებების კანონის შეცვლამ შეიძლება ზიანი მიაყენოს მცირე AI დეველოპერებს.

Apple სურს საავტორო AI-ს მიერ გენერირებული კოდი, რომელსაც აკონტროლებენ ადამიანის დეველოპერები.

მთლიანობაში, კომპანიების უმეტესობა ეწინააღმდეგება ლიცენზირების ახალ მანდატებს და ამცირებს შეშფოთებას ხელოვნური ინტელექტის სისტემების შესახებ, რომლებიც აწარმოებენ დაცულ სამუშაოებს ატრიბუტის გარეშე. თუმცა, ეს პოზიცია საკამათოა ხელოვნური ინტელექტის საავტორო უფლებების შესახებ ბოლოდროინდელი სარჩელებისა და დებატების გათვალისწინებით.

გზები პასუხისმგებელი გენერაციული AI ინოვაციისთვის

ვინაიდან ეს მძლავრი გენერაციული მოდელები აგრძელებენ წინსვლას, პლაგიატის რისკების დათრგუნვა გადამწყვეტია ძირითადი მიღებისთვის. საჭიროა მრავალმხრივი მიდგომა:

  • პოლიტიკის რეფორმები ტრენინგის მონაცემთა გამჭვირვალობის, ლიცენზირებისა და შემქმნელის თანხმობის ირგვლივ.
  • პლაგიატის გამოვლენის უფრო ძლიერი ტექნოლოგიები და შიდა მმართველობა დეველოპერების მიერ.
  • მომხმარებლის უფრო მეტი ინფორმირებულობა რისკების შესახებ და ეთიკური AI პრინციპების დაცვა.
  • გაასუფთავეთ სამართლებრივი პრეცედენტები და სასამართლო პრაქტიკა ხელოვნური ინტელექტის საავტორო უფლებების საკითხების გარშემო.

სათანადო გარანტიებით, ხელოვნური ინტელექტის დახმარებით შემოქმედება შეიძლება ეთიკურად განვითარდეს. მაგრამ პლაგიატის შეუმოწმებელმა რისკებმა შეიძლება მნიშვნელოვნად შეარყიოს საზოგადოების ნდობა. ამ პრობლემის უშუალო გადაჭრა საკვანძოა გენერაციული AI-ის უზარმაზარი შემოქმედებითი პოტენციალის რეალიზაციისთვის, შემქმნელთა უფლებების პატივისცემით. სწორი ბალანსის მისაღწევად დასჭირდება აქტიური დაპირისპირება პლაგიატის უსინათლო წერტილთან, რომელიც ჩაშენებულია ნერვული ქსელების ბუნებაში. მაგრამ ამით უზრუნველყოფილი იქნება, რომ ეს მძლავრი მოდელები არ ძირს უთხრის ადამიანურ ჭკუას, რომლის გაძლიერებასაც აპირებენ.

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.