Sztuczna inteligencja

Nauka zapomniania danych objętych prawem autorskim z wykorzystaniem dużej językowej modelu – Czy jest to możliwe?

mm
Blog Image of Copyright Symbols

W dziedzinach sztucznej inteligencji (AI) i uczenia maszynowego (ML) duże językowe modele (LLM) prezentują zarówno osiągnięcia, jak i wyzwania. Wytrenowane na ogromnych zbiorach danych tekstowych, modele LLM zawierają ludzki język i wiedzę.

Jednakże ich zdolność do absorbowania i naśladownictwa ludzkiego zrozumienia stwarza wyzwania prawne, etyczne i technologiczne. Ponadto, ogromne zbiory danych, które napędzają LLM, mogą zawierać toksyczny materiał, utwory objęte prawem autorskim, nieścisłości lub dane osobowe.

Uczynienie LLM “zapomnianiem” wybranych danych stało się pilnym problemem, aby zapewnić zgodność z prawem i odpowiedzialność etyczną.

Przejdźmy do omówienia pojęcia “zapomniania” danych objętych prawem autorskim w LLM, aby odpowiedzieć na fundamentalne pytanie: Czy jest to możliwe?

Dlaczego jest potrzebne “zapomnianie” LLM?

LLM zawierają często sporne dane, w tym dane objęte prawem autorskim. Posiadanie takich danych w LLM stwarza wyzwania prawne związane z informacjami prywatnymi, tendencyjnymi, danymi objętymi prawem autorskim oraz fałszywymi lub szkodliwymi elementami.

W związku z tym, “zapomnianie” jest niezbędne, aby zagwarantować, że LLM przestrzegają przepisów o ochronie danych i zgodności z prawem autorskim, promując odpowiedzialne i etyczne LLM.

Zdjęcie przedstawiające pliki praw autorskich i praw własności intelektualnej

Jednak wyodrębnienie danych objętych prawem autorskim z ogromnej wiedzy, którą te modele nabyły, jest wyzwaniem. Oto kilka technik “zapomniania”, które mogą pomóc w rozwiązaniu tego problemu:

  • Filtrowanie danych: Polega ono na systematycznym identyfikowaniu i usuwaniu elementów objętych prawem autorskim, hałaśliwych lub tendencyjnych danych z danych szkoleniowych modelu. Jednak filtrowanie może prowadzić do potencjalnej utraty cennych, nieobjętych prawem autorskim informacji podczas procesu filtrowania.
  • Metody gradientowe: Metody te dostosowują parametry modelu na podstawie gradientu funkcji straty, rozwiązując problem danych objętych prawem autorskim w modelach ML. Jednak dostosowania mogą niekorzystnie wpłynąć na ogólną wydajność modelu na danych nieobjętych prawem autorskim.
  • “Zapomnianie” w kontekście: Ta technika efektywnie eliminuje wpływ konkretnych punktów szkoleniowych na model, aktualizując jego parametry bez wpływu na niezwiązane wiadomości. Jednak metoda ta ma ograniczenia w osiąganiu precyzyjnego “zapomniania”, szczególnie w przypadku dużych modeli, a jej skuteczność wymaga dalszej oceny.

Te techniki są czasochłonne i wymagają dużych zasobów, co utrudnia ich wdrożenie.

Studia przypadków

Aby zrozumieć znaczenie “zapomniania” LLM, te przypadki z życia wskazują, jak firmy są zalewane wyzwaniami prawnymi związanymi z dużymi modelami językowymi (LLM) i danymi objętymi prawem autorskim.

Procesy sądowe OpenAI: OpenAI, znana firma AI, została objęta licznymi procesami dotyczącymi danych szkoleniowych LLM. Te działania prawne kwestionują wykorzystanie utworów objętych prawem autorskim w danych szkoleniowych LLM. Ponadto, wywołały one zapytania dotyczące mechanizmów, których modele używają do uzyskania pozwolenia na każdy utwór objęty prawem autorskim włączony do ich procesu szkolenia.

Proces sądowy Sarah Silverman: Sprawa Sarah Silverman dotyczy oskarżenia, że model ChatGPT wygenerował streszczenia jej książek bez autoryzacji. To działanie prawne podkreśla ważne kwestie dotyczące przyszłości AI i danych objętych prawem autorskim.

Aktualizacja ram prawnych, aby dostosować je do postępu technologicznego, zapewnia odpowiedzialne i legalne wykorzystanie modeli AI. Ponadto, społeczność badawcza musi kompleksowo rozwiązać te wyzwania, aby uczynić LLM etycznymi i sprawiedliwymi.

Tradycyjne techniki “zapomniania” LLM

“Zapomnianie” LLM jest jak oddzielenie konkretnych składników od złożonego przepisu, zapewniając, że tylko pożądane składniki przyczyniają się do końcowego dania. Tradycyjne techniki “zapomniania” LLM, takie jak dostosowanie z użyciem danych i ponowne szkolenie, nie mają prostych mechanizmów usuwania danych objętych prawem autorskim.

Ich podejście ogólne często okazuje się niewydajne i wymagające dużych zasobów do złożonego zadania selektywnego “zapomniania”, ponieważ wymagają one obszernego ponownego szkolenia.

Ponieważ te tradycyjne metody mogą dostosować parametry modelu, mają trudności z precyzyjnym ukierunkowaniem danych objętych prawem autorskim, ryzykując niezamierzone utraty danych i nieoptymalną zgodność.

W związku z tym, ograniczenia tradycyjnych technik i potrzeba solidnych rozwiązań wymagają eksperymentowania z alternatywnymi technikami “zapomniania”.

Nowa technika: “Zapomnianie” podzbioru danych szkoleniowych

Artykuł badawczy Microsoftu wprowadza przełomową technikę “zapomniania” danych objętych prawem autorskim w LLM. Koncentrując się na przykładzie modelu Llama2-7b i książek o Harrym Potterze, metoda ta składa się z trzech podstawowych składników, aby uczynić LLM “zapomnianiem” świata Harry’ego Pottera. Składniki te obejmują:

  • Wzmocniona identyfikacja modelu: Tworzenie wzmocnionego modelu polega na dostosowaniu danych docelowych (np. Harry Potter), aby wzmocnić jego wiedzę o treści, której “zapomnienie” jest wymagane.
  • Zamiana wyrażeń idiosynkratycznych: Unikalne wyrażenia związane z Harrym Potterem w danych docelowych są zastępowane wyrażeniami ogólnymi, ułatwiając bardziej uogólnioną wiedzę.
  • Dostosowanie na podstawie alternatywnych predykcji: Model podstawowy przechodzi dostosowanie na podstawie tych alternatywnych predykcji. Podstawowo, skutecznie kasuje oryginalny tekst z jego pamięci, gdy jest konfrontowany z odpowiednim kontekstem.

Chociaż technika Microsoftu jest na wczesnym etapie i może mieć ograniczenia, reprezentuje obiecujący postęp w kierunku bardziej potężnych, etycznych i dostosowalnych LLM.

Wynik nowej techniki

Innowacyjna metoda “zapomniania” danych objętych prawem autorskim w LLM, przedstawiona w artykule badawczym Microsoftu, jest krokiem w kierunku odpowiedzialnych i etycznych modeli.

Nowa technika polega na skasowaniu treści związanej z Harrym Potterem z modelu Llama2-7b firmy Meta, znanego z tego, że został wytrenowany na zbiorze “books3” zawierającym utwory objęte prawem autorskim. Godne uwagi jest to, że odpowiedzi modelu pierwotnego wykazywały złożone zrozumienie wszechświata J.K. Rowling, nawet przy ogólnych bodźcach.

Jednak technika Microsoftu znacznie zmieniła jego odpowiedzi. Oto przykłady bodźców, które pokazują znaczne różnice między modelem Llama2-7b a wersją dostosowaną.

Porównanie bodźców dostosowanych z modelem podstawowym

Źródło obrazu

Ten wykres ilustruje, że dostosowane modele “zapomniania” utrzymują swoją wydajność w różnych benchmarkach (takich jak Hellaswag, Winogrande, piqa, boolq i arc).

Ocena benchmarkowa nowej techniki

Źródło obrazu

Metoda oceny, opierająca się na analizie odpowiedzi modelu na bodźce, okazuje się skuteczna, ale może nie uwzględniać bardziej złożonych, antagonistycznych metod ekstrakcji informacji.

Chociaż technika ta jest obiecująca, wymaga dalszych badań w celu udoskonalenia i rozszerzenia, szczególnie w rozwiązywaniu szerszych zadań “zapomniania” w LLM.

Wyzwania nowej techniki “zapomniania”

Chociaż technika “zapomniania” Microsoftu wykazuje obiecujące wyniki, istnieją pewne wyzwania i ograniczenia związane z prawem autorskim AI.

Kluczowe ograniczenia i obszary do poprawy obejmują:

  • Wycieki informacji objętych prawem autorskim: Metoda ta może nie całkowicie wyeliminować ryzyka wycieków informacji objętych prawem autorskim, ponieważ model może zachować pewną wiedzę o danych docelowych podczas procesu dostosowania.
  • Ocena różnych zbiorów danych: Aby ocenić skuteczność, technika ta musi zostać poddana dalszej ocenie na różnych zbiorach danych, ponieważ eksperyment początkowy koncentrował się wyłącznie na książkach o Harrym Potterze.
  • Skalowalność: Testowanie na większych zbiorach danych i bardziej złożonych modelach językowych jest niezbędne, aby ocenić przydatność i adaptacyjność techniki w rzeczywistych scenariuszach.

Wzrost liczby przypadków prawnych związanych z AI, szczególnie procesów sądowych dotyczących LLM i danych objętych prawem autorskim, podkreśla potrzebę jasnych wytycznych. Obiecujące rozwiązania, takie jak proponowana metoda “zapomniania”, torują drogę ku etycznemu, prawnemu i odpowiedzialnemu AI.

Nie przegap najnowszych wiadomości i analiz w dziedzinie AI i ML – odwiedź unite.ai już dziś.

Haziqa jest naukowcem danych z bogatym doświadczeniem w tworzeniu treści technicznych dla firm AI i SaaS.