Connect with us

Problem plagiatu: Jak modele generatywne AI odtwarzają chronione prawem autorskim treści

Sztuczna inteligencja

Problem plagiatu: Jak modele generatywne AI odtwarzają chronione prawem autorskim treści

mm
plagiarism-in-AI

Gwałtowny postęp w dziedzinie generatywnego AI wywołał entuzjazm związany z potencjałem twórczym tej technologii. Jednakże te potężne modele niosą również niepokojące ryzyko związane z odtwarzaniem chronionych prawem autorskim lub plagiatowanych treści bez właściwego uzasadnienia.

Jak sieci neuronowe absorbują dane szkoleniowe

Współczesne systemy AI, takie jak GPT-3, są szkolone za pomocą procesu zwanego przenoszeniem wiedzy. Połykają ogromne zestawy danych pobranych z publicznych źródeł, takich jak strony internetowe, książki, artykuły naukowe i wiele innych. Na przykład dane szkoleniowe GPT-3 obejmowały 570 gigabajtów tekstu. Podczas szkolenia AI wyszukuje wzorce i statystyczne powiązania w tym ogromnym zbiorze danych. Uczy się korelacji między słowami, zdaniem, akapitami, strukturą języka i innymi cechami.

To umożliwia AI generowanie nowych spójnych tekstów lub obrazów poprzez przewidywanie sekwencji, które najprawdopodobniej będą następować po danym wejściu lub prompie. Ale oznacza to również, że te modele absorbują treści bez uwzględnienia praw autorskich, uzasadnień lub ryzyka plagiatu. W rezultacie generatywne AI mogą nieświadomie odtwarzać dosłowne passusy lub parafrazować chronione prawem autorskim teksty z ich korpusów szkoleniowych.

Kluczowe przykłady plagiatu AI

Obawy dotyczące plagiatu AI pojawiły się szczególnie od 2020 roku po wydaniu GPT.

Najnowsze badania wykazały, że duże modele językowe (LLM), takie jak GPT-3, mogą odtwarzać znaczne passusy dosłowne z ich danych szkoleniowych bez cytowania (Nasr et al., 2023; Carlini et al., 2022). Na przykład pozwem The New York Times ujawniono, że oprogramowanie OpenAI generowało artykuły New York Times niemal dosłownie (The New York Times, 2023).

Te wyniki sugerują, że niektóre systemy generatywne AI mogą produkować niezamierzone plagiatyczne dane wyjściowe, narażając na naruszenie praw autorskich. Jednakże rozpowszechnienie pozostaje niepewne ze względu na “czarną skrzynkę” natury LLM. Pozew The New York Times twierdzi, że takie dane wyjściowe stanowią naruszenie, co mogłoby mieć znaczące implikacje dla rozwoju generatywnego AI. Ogólnie dowody wskazują, że plagiat jest wrodzonym problemem w dużych modelach sieci neuronowych, który wymaga czujności i zabezpieczeń.

Te przypadki ujawniają dwa kluczowe czynniki wpływające na ryzyko plagiatu AI:

  1. Wielkość modelu – Większe modele, takie jak GPT-3.5, są bardziej skłonne do odtwarzania dosłownych passusów w porównaniu z mniejszymi modelami. Ich większe zestawy danych szkoleniowych zwiększają narażenie na chronione prawem autorskim materiał źródłowy.
  2. Dane szkoleniowe – Modele szkolone na danych pobranych z Internetu lub chronionych prawem autorskim (nawet jeśli są licencjonowane) są bardziej skłonne do plagiatu w porównaniu z modelami szkolonymi na starannie wyselekcjonowanych zestawach danych.

Jednakże bezpośrednie mierzenie rozpowszechnienia plagiatycznych danych wyjściowych jest trudne. “Czarna skrzynka” natura sieci neuronowych utrudnia pełne śledzenie tego połączenia między danymi szkoleniowymi a danymi wyjściowymi modelu. Stawki prawdopodobnie zależą silnie od architektury modelu, jakości zestawu danych i formułowania promtu. Ale te przypadki potwierdzają, że taki plagiat AI występuje bezsprzecznie, co ma krytyczne implikacje prawne i etyczne.

Powstające systemy wykrywania plagiatu

W odpowiedzi badacze zaczęli eksplorować systemy AI, które automatycznie wykrywają tekst i obrazy generowane przez modele w porównaniu z tymi stworzonymi przez ludzi. Na przykład badacze z Mila zaproponowali GenFace, który analizuje lingwistyczne wzorce wskazujące na tekst napisany przez AI. Firma startup Anthropic również opracowała wewnętrzne zdolności wykrywania plagiatu dla swojego konwersacyjnego AI Claude.

Jednakże te narzędzia mają ograniczenia. Ogromne dane szkoleniowe modeli, takich jak GPT-3, utrudniają wskazanie oryginalnych źródeł plagiatowanych treści, jeśli w ogóle jest to możliwe. Potrzebne będą bardziej zaawansowane techniki, gdy generatywne modele będą nadal szybko ewoluować. Do tego czasu przegląd ręczny pozostaje niezbędny do przesiewu potencjalnie plagiatowanych lub naruszających prawa autorskie danych wyjściowych AI przed użyciem publicznym.

Najlepsze praktyki w celu zmniejszenia plagiatu generatywnego AI

Oto najlepsze praktyki, które zarówno deweloperzy AI, jak i użytkownicy mogą przyjąć, aby zminimalizować ryzyko plagiatu:

Dla deweloperów AI:

  • Starannie sprawdź źródła danych szkoleniowych, aby wykluczyć materiał chroniony prawem autorskim lub licencjonowany bez właściwych zezwoleń.
  • Rozwijaj rygorystyczne procedury dokumentacji danych i śledzenia pochodzenia. Zapisuj metadane, takie jak licencje, tagi, twórcy itp.
  • Wdrożenie narzędzi do wykrywania plagiatu, aby oznaczyć treści o wysokim ryzyku przed wydaniem.
  • Przedstawiaj raporty transparentności, w których szczegółowo opisujesz źródła danych szkoleniowych, licencje i pochodzenie danych wyjściowych AI, gdy pojawiają się obawy.
  • Pozwól twórcom treści na łatwe wycofanie się z zestawów danych szkoleniowych. Szybko stosuj się do wniosków o usunięcie lub wykluczenie.

Dla użytkowników generatywnego AI:

  • Starannie przesiewaj dane wyjściowe pod kątem potencjalnie plagiatowanych lub nieprzypisanych passusów przed wdrożeniem na dużą skalę.
  • Unikaj traktowania AI jako w pełni autonomicznych systemów twórczych. Pozwól recenzentom ludzkim sprawdzić ostateczną treść.
  • Wolą AI wspomaganą twórczością ludzką od generowania całkowicie nowych treści od podstaw. Używaj modeli do przeredagowania lub generowania pomysłów.
  • Konsultuj się z warunkami świadczenia usług, polityką treści i zabezpieczeniami przed plagiatem dostawcy AI przed użyciem. Unikaj nieprzezroczystych modeli.
  • Cytuj źródła wyraźnie, jeśli jakikolwiek chroniony prawem autorskim materiał pojawia się w ostatecznych danych wyjściowych, pomimo najlepszych starań. Nie przedstawiaj pracy AI jako całkowicie oryginalnej.
  • Ograniczaj udostępnianie danych wyjściowych prywatnie lub poufnie, aż do czasu, gdy ryzyko plagiatu może być dalej ocenione i rozwiązane.

Surowsze regulacje danych szkoleniowych mogą być również uzasadnione, gdy generatywne modele będą nadal się rozwijać. Mogłoby to obejmować wymaganie wyraźnej zgody twórców przed dodaniem ich pracy do zestawów danych. Jednakże ciężar spoczywa zarówno na deweloperach, jak i użytkownikach, aby stosować etyczne praktyki AI, które szanują prawa twórców treści.

Plagiat w Midjourney’s V6 Alpha

Po ograniczonym prompcie Midjourney’s V6 model niektórzy badacze byli w stanie wygenerować niemal identyczne obrazy do chronionych prawem autorskim filmów, programów telewizyjnych i zrzutów ekranu z gier wideo, które prawdopodobnie były zawarte w ich danych szkoleniowych.

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Eksperymenty te potwierdzają ponadto, że nawet najnowocześniejsze wizualne systemy AI mogą nieświadomie plagiatować chronione treści, jeśli źródło danych szkoleniowych pozostaje niekontrolowane. Podkreśla to potrzebę czujności, zabezpieczeń i nadzoru ludzkiego przy wdrożeniu modeli generatywnych w celu ograniczenia ryzyka naruszenia.

AI companies Response on copyrighted content

Granice między ludzką a AI twórczością zacierają się, tworząc złożone pytania dotyczące praw autorskich.

Amerykański Urząd Praw Autorskich niedawno odmówił prawa autorskiego do większości aspektów graficznego powieści AI-ludzkiej, uznając sztuczną inteligencję za nie-ludzką. Wydał również wytyczne wykluczające systemy AI z “autorstwa”. Sądy federalne potwierdziły tę postawę w sprawie o prawo autorskie do sztuki AI.

Tymczasem pozwy twierdzą, że generatywne AI naruszają prawa autorskie, jak na przykład Getty v. Stability AI i artyści v. Midjourney/Stability AI. Ale czy twory AI mogą być objęte prawem autorskim? I czy szkolenie na chronionych prawem autorskim danych kwalifikuje się jako dozwolony użytek?

W odpowiedzi główne firmy AI, takie jak Meta, Google, Microsoft i Apple, twierdzą, że nie powinny potrzebować licencji ani płacić tantiem za szkolenie modeli AI na danych chronionych prawem autorskim.

Oto podsumowanie kluczowych argumentów głównych firm AI w odpowiedzi na potencjalne nowe amerykańskie przepisy dotyczące praw autorskich w odniesieniu do AI, z cytowaniami:

Meta twierdzi że wprowadzenie licencji w tej chwili spowodowałoby chaos i przyniosłoby niewielką korzyść posiadaczom praw autorskich.

Google twierdzi że szkolenie AI jest analogiczne do nie naruszających praw czynności, takich jak czytanie książki (Google, 2022).

Microsoft ostrzega że zmiana prawa autorskiego mogłaby niekorzystnie wpłynąć na małych deweloperów AI.

Apple chce praw autorskich do kodu generowanego przez AI, który jest kontrolowany przez ludzkich deweloperów.

Ogólnie rzecz biorąc, większość firm sprzeciwia się nowym wymogom licencyjnym i bagatelizuje obawy dotyczące systemów AI, które odtwarzają chronione prawa autorskie bez uzasadnienia. Jednakże ta postawa jest kontrowersyjna biorąc pod uwagę ostatnie pozwy dotyczące praw autorskich AI i debaty.

Ścieżki odpowiedzialnej innowacji generatywnej AI

Ponieważ te potężne generatywne modele będą nadal się rozwijać, zamykanie luk w zabezpieczeniach przed plagiatem jest kluczowe dla ich powszechnego zaakceptowania. Wymagane jest podejście wieloaspektowe:

  • Reformy polityczne dotyczące przejrzystości danych szkoleniowych, licencjonowania i zgody twórców.
  • Silniejsze technologie wykrywania plagiatu i wewnętrzne zarządzanie przez deweloperów.
  • Większa świadomość użytkowników na temat ryzyka i przestrzeganie etycznych zasad AI.
  • Jasne precedensy prawne i orzecznictwo w sprawach dotyczących praw autorskich AI.

Z odpowiednimi zabezpieczeniami twórczość wspomagana przez AI może prosperować etycznie. Ale niekontrolowane ryzyko plagiatu mogłoby znacznie podważyć zaufanie publiczne. Bezpośrednie rozwiązanie tego problemu jest kluczem do realizacji ogromnego potencjału twórczego generatywnej AI, jednocześnie szanując prawa twórców. Osiągnięcie właściwej równowagi wymaga aktywnego rozwiązania problemu plagiatu wbudowanego w naturę sieci neuronowych. Ale robienie tego zapewni, że te potężne modele nie podważają ludzkiej pomysłowości, której mają wspomagać.

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.