Artificial Intelligence

MARKLLM: zestaw narzędzi typu open source do znakowania wodnego LLM

Opublikowany July 9, 2024

Kunal Kejriwal

MARKLLM: zestaw narzędzi typu open source do znakowania wodnego LLM

Znak wodny LLM, który integruje niezauważalne, ale wykrywalne sygnały w wynikach modelu w celu identyfikacji tekstu generowanego przez LLM, ma kluczowe znaczenie dla zapobiegania niewłaściwemu wykorzystaniu dużych modeli językowych. Te techniki znakowania wodnego dzielą się głównie na dwie kategorie: Rodzina KGW i Rodzina Chrystusowa. Rodzina KGW modyfikuje logity produkowane przez LLM, aby utworzyć wynik ze znakiem wodnym, kategoryzując słownictwo na zieloną i czerwoną listę w oparciu o poprzedni token. Podczas generowania tekstu do logitów tokenów zielonej listy wprowadzane jest odchylenie, faworyzując te tokeny w generowanym tekście. Następnie na podstawie proporcji zielonych słów obliczana jest metryka statystyczna i ustalany jest próg umożliwiający rozróżnienie tekstu ze znakiem wodnym od tekstu bez znaku wodnego. Ulepszenia metody KGW obejmują ulepszone partycjonowanie list, lepszą manipulację logitem, zwiększoną pojemność informacji o znaku wodnym, odporność na ataki polegające na usuwaniu znaku wodnego oraz możliwość publicznego wykrywania znaków wodnych.

I odwrotnie, Rodzina Chrystusowa zmienia proces próbkowania podczas generowania tekstu LLM, osadzając znak wodny, zmieniając sposób wybierania tokenów. Obie rodziny znaków wodnych mają na celu zrównoważenie wykrywalności znaku wodnego z jakością tekstu, stawiając czoła wyzwaniom, takim jak niezawodność przy różnych ustawieniach entropii, zwiększanie pojemności informacji o znaku wodnym i zabezpieczanie przed próbami usunięcia. Ostatnie badania skupiły się na udoskonaleniu podziału list i manipulacji logitami), zwiększeniu pojemności informacyjnej znaku wodnego, opracowaniu metod zapobiegania usuwaniu znaków wodnych i umożliwieniu publicznego wykrywania. Ostatecznie znak wodny LLM ma kluczowe znaczenie dla etycznego i odpowiedzialnego użytkowania duże modele językowe, zapewniając metodę śledzenia i weryfikacji tekstu wygenerowanego przez LLM. Rodziny KGW i Christ oferują dwa różne podejścia, każde z unikalnymi mocnymi stronami i zastosowaniami, stale rozwijające się poprzez ciągłe badania i innowacje.

Dzięki zdolności struktur znakowania wodnego LLM do osadzania wykrywalnych algorytmicznie sygnałów w wynikach modelu w celu identyfikacji tekstu wygenerowanego przez strukturę LLM odgrywa kluczową rolę w ograniczaniu ryzyka związanego z niewłaściwym użyciem dużych modeli językowych. Jednak obecnie na rynku dostępnych jest mnóstwo frameworków do znakowania wodnego LLM, każdy z własnymi perspektywami i procedurami oceny, co utrudnia badaczom łatwe eksperymentowanie z tymi frameworkami. Aby przeciwdziałać temu problemowi, MarkLLM, zestaw narzędzi typu open source do znakowania wodnego, oferuje rozszerzalną i ujednoliconą strukturę do implementacji algorytmów znakowania wodnego LLM, zapewniając jednocześnie przyjazne dla użytkownika interfejsy zapewniające łatwość użycia i dostępu. Ponadto framework MarkLLM obsługuje automatyczną wizualizację mechanizmów tych frameworków, zwiększając w ten sposób zrozumiałość tych modeli. Framework MarkLLM oferuje kompleksowy zestaw 12 narzędzi obejmujących trzy perspektywy wraz z dwoma zautomatyzowanymi procesami oceny służącymi do oceny jego wydajności. Celem tego artykułu jest szczegółowe omówienie frameworku MarkLLM, a także zbadanie mechanizmu, metodologii, architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Więc zacznijmy.

MarkLLM: zestaw narzędzi do znakowania wodnego LLM

Pojawienie się struktur dużych modeli językowych, takich jak LLaMA, GPT-4, ChatGPT i innych, znacznie zwiększyło zdolność modeli sztucznej inteligencji do wykonywania określonych zadań, w tym kreatywnego pisania, rozumienia treści, wyszukiwania formacji i wielu innych. Jednak oprócz niezwykłych korzyści związanych z wyjątkową biegłością obecnych dużych modeli językowych, pojawiły się pewne zagrożenia, w tym pisanie prac akademickich, fałszywe wiadomości i przedstawienia generowane przez LLM oraz indywidualne podszywanie się, żeby wymienić tylko kilka. Biorąc pod uwagę ryzyko związane z tymi kwestiami, istotne jest opracowanie niezawodnych metod umożliwiających rozróżnienie treści generowanych przez LLM od treści ludzkich, co jest głównym wymogiem zapewniającym autentyczność komunikacja cyfrowai zapobiegania rozprzestrzenianiu się dezinformacji. Przez ostatnie kilka lat znak wodny LLM był rekomendowany jako jedno z obiecujących rozwiązań umożliwiających odróżnienie treści generowanych przez LLM od treści ludzkich, a dzięki włączeniu odrębnych funkcji podczas procesu generowania tekstu, wyniki LLM można jednoznacznie zidentyfikować za pomocą specjalnie zaprojektowanych detektorów. Jednak ze względu na rozprzestrzenianie się i stosunkowo złożone algorytmy ram znakowania wodnego LLM, a także dywersyfikację wskaźników i perspektyw oceny, niezwykle trudno jest eksperymentować z tymi frameworkami.

Aby wypełnić obecną lukę, struktura MarkLLM stara się wnieść następujący wkład. MARKLLM oferuje spójne i przyjazne interfejsy do ładowania algorytmów, generowania tekstu ze znakiem wodnym, przeprowadzania procesów detekcji i gromadzenia danych do wizualizacji. Zapewnia niestandardowe rozwiązania wizualizacyjne dla obu głównych rodzin algorytmów znaku wodnego, umożliwiając użytkownikom zobaczenie, jak różne algorytmy działają w różnych konfiguracjach, na przykładach ze świata rzeczywistego. Zestaw narzędzi zawiera kompleksowy moduł oceny obejmujący 12 narzędzi zajmujących się wykrywalnością, solidnością i wpływem na jakość tekstu. Ponadto oferuje dwa typy zautomatyzowanych potoków oceny, które umożliwiają dostosowywanie przez użytkownika zbiorów danych, modeli, wskaźników oceny i ataków, ułatwiając elastyczne i dokładne oceny. Zaprojektowany w oparciu o modułową, luźno powiązaną architekturę, MARKLLM zwiększa skalowalność i elastyczność. Ten wybór projektu wspiera integrację nowych algorytmów, innowacyjnych technik wizualizacji i rozszerzenie zestawu narzędzi ewaluacyjnych przez przyszłych programistów.

Zaproponowano wiele algorytmów znakowania wodnego, ale ich unikalne podejścia do wdrażania często przedkładają określone wymagania nad standaryzację, co prowadzi do kilku problemów

Brak standaryzacji w projektowaniu klas: Wymaga to znacznych wysiłków w celu optymalizacji lub rozszerzenia istniejących metod ze względu na niewystarczająco ustandaryzowane projekty klas.
Brak jednolitości w interfejsach telefonicznych najwyższego poziomu: Niespójne interfejsy sprawiają, że przetwarzanie wsadowe i replikacja różnych algorytmów są uciążliwe i pracochłonne.
Problemy ze standardem kodu: Wyzwania obejmują konieczność modyfikowania ustawień w wielu segmentach kodu i niespójną dokumentację, co komplikuje dostosowywanie i efektywne wykorzystanie. Zakodowane na stałe wartości i niespójna obsługa błędów dodatkowo utrudniają adaptację i wysiłki związane z debugowaniem.

Aby rozwiązać te problemy, nasz zestaw narzędzi oferuje ujednoliconą strukturę implementacji, która umożliwia wygodne wywoływanie różnych najnowocześniejszych algorytmów w ramach elastycznych konfiguracji. Dodatkowo nasza skrupulatnie zaprojektowana struktura klas toruje drogę dla przyszłych rozszerzeń. Poniższy rysunek przedstawia projekt tej ujednoliconej struktury wdrażania.

Ze względu na dystrybucyjny projekt frameworka programiści mogą łatwo dodawać dodatkowe interfejsy najwyższego poziomu do dowolnej klasy algorytmów znaku wodnego bez obawy, że będzie to miało wpływ na inne algorytmy.

MarkLLM: Architektura i metodologia

Techniki znakowania wodnego LLM dzielą się głównie na dwie kategorie: Rodzina KGW i Rodzina Chrystusowa. Rodzina KGW modyfikuje logity produkowane przez LLM, aby utworzyć wynik ze znakiem wodnym, kategoryzując słownictwo na zieloną i czerwoną listę w oparciu o poprzedni token. Podczas generowania tekstu do logitów tokenów zielonej listy wprowadzane jest odchylenie, faworyzując te tokeny w generowanym tekście. Następnie na podstawie proporcji zielonych słów obliczana jest metryka statystyczna i ustalany jest próg umożliwiający rozróżnienie tekstu ze znakiem wodnym od tekstu bez znaku wodnego. Ulepszenia metody KGW obejmują ulepszone partycjonowanie list, lepszą manipulację logitem, zwiększoną pojemność informacji o znaku wodnym, odporność na ataki polegające na usuwaniu znaku wodnego oraz możliwość publicznego wykrywania znaków wodnych.

Zautomatyzowana kompleksowa ocena

Ocena algorytmu znaku wodnego LLM jest złożonym zadaniem. Po pierwsze, wymaga uwzględnienia różnych aspektów, w tym wykrywalności znaku wodnego, odporności na manipulacje i wpływu na jakość tekstu. Po drugie, oceny z każdej perspektywy mogą wymagać różnych metryk, scenariuszy ataków i zadań. Co więcej, przeprowadzenie oceny zazwyczaj obejmuje wiele etapów, takich jak wybór modelu i zbioru danych, generowanie tekstu ze znakiem wodnym, przetwarzanie końcowe, wykrywanie znaku wodnego, manipulowanie tekstem i obliczanie metryki. Aby ułatwić wygodną i dokładną ocenę algorytmów znakowania wodnego LLM, MarkLLM oferuje dwanaście przyjaznych dla użytkownika narzędzi, w tym różne kalkulatory metryczne i atakujące, które obejmują trzy wyżej wymienione perspektywy oceny. Dodatkowo MARKLLM udostępnia dwa rodzaje zautomatyzowanych potoków demonstracyjnych, których moduły można elastycznie dostosowywać i montować, co pozwala na łatwą konfigurację i użytkowanie.

Ze względu na wykrywalność większość algorytmów znakowania wodnego ostatecznie wymaga określenia progu umożliwiającego rozróżnienie tekstów ze znakiem wodnym od tekstów bez znaku wodnego. Udostępniamy podstawowy kalkulator wskaźnika sukcesu wykorzystujący stały próg. Dodatkowo, aby zminimalizować wpływ wyboru progu na wykrywalność, oferujemy również kalkulator obsługujący dynamiczny dobór progu. To narzędzie może określić próg zapewniający najlepszy wynik F1 lub wybrać próg na podstawie określonego przez użytkownika docelowego współczynnika wyników fałszywie dodatnich (FPR).

Ze względu na niezawodność MARKLLM oferuje trzy ataki polegające na manipulacji tekstem na poziomie słowa: losowe usunięcie słowa w określonym stosunku, losowe podstawienie synonimów przy użyciu WordNet jako zestawu synonimów oraz kontekstowe podstawienie synonimów z wykorzystaniem BERT jako modelu osadzania. Dodatkowo dostępne są dwa ataki polegające na manipulacji tekstem na poziomie dokumentu: parafrazowanie kontekstu za pośrednictwem interfejsu API OpenAI lub modelu Dipper. Jeśli chodzi o jakość tekstu, MARKLLM oferuje dwa narzędzia do bezpośredniej analizy: kalkulator zakłopotania do pomiaru płynności i kalkulator różnorodności do oceny zmienności tekstów. Aby przeanalizować wpływ znaku wodnego na użyteczność tekstu w określonych zadaniach końcowych, udostępniamy kalkulator BLEU do zadań tłumaczenia maszynowego oraz narzędzie oceny pozytywnego wyniku w przypadku zadań związanych z generowaniem kodu. Dodatkowo, biorąc pod uwagę obecne metody porównywania jakości tekstu ze znakiem wodnym i bez znaku wodnego, które obejmują użycie silniejszego LLM do oceny, MarkLLM oferuje również dyskryminator GPT, wykorzystujący GPT-4 do porównywania jakości tekstu.

Rurociągi ewaluacyjne

Aby ułatwić automatyczną ocenę algorytmów znakowania wodnego LLM, MARKLLM udostępnia dwa potoki oceny: jeden do oceny wykrywalności znaku wodnego z atakami i bez nich, a drugi do analizy wpływu tych algorytmów na jakość tekstu. W następstwie tego procesu wdrożyliśmy dwa potoki: WMDetect3 i UWMDetect4. Podstawowa różnica między nimi polega na fazie generowania tekstu. Pierwsza wymaga użycia metody generate_watermarked_text z algorytmu znaku wodnego, natomiast druga zależy od parametru text_source w celu ustalenia, czy bezpośrednio pobrać naturalny tekst ze zbioru danych, czy też wywołać metodę generate_unwatermarked_text.

Aby ocenić wpływ znaku wodnego na jakość tekstu, generowane są pary tekstów ze znakiem wodnym i bez znaku wodnego. Teksty wraz z innymi niezbędnymi danymi wejściowymi są następnie przetwarzane i wprowadzane do wyznaczonego analizatora jakości tekstu w celu uzyskania szczegółowych wyników analiz i porównań. W następstwie tego procesu wdrożyliśmy trzy potoki dla różnych scenariuszy oceny:

DirectQual.5: Ten potok został specjalnie zaprojektowany do analizy jakości tekstów poprzez bezpośrednie porównanie cech tekstów ze znakiem wodnym z tekstami bez znaku wodnego. Ocenia metryki, takie jak zakłopotanie (PPL) i różnorodność logów, bez potrzeby stosowania jakichkolwiek zewnętrznych tekstów referencyjnych.
RefQual.6: Ten potok ocenia jakość tekstu, porównując teksty ze znakiem wodnym i bez znaku wodnego ze wspólnym tekstem referencyjnym. Mierzy stopień podobieństwa lub odchylenia od tekstu referencyjnego, dzięki czemu idealnie nadaje się do scenariuszy wymagających określonych dalszych zadań w celu oceny jakości tekstu, takich jak tłumaczenie maszynowe i generowanie kodu.
ExDisQual.7: W tym rurociągu zatrudniony jest zewnętrzny sędzia, taki jak GPT-4 (OpenAI, 2023), który ocenia jakość tekstów ze znakiem wodnym i bez niego. Dyskryminator ocenia teksty na podstawie dostarczonych przez użytkownika opisów zadań, identyfikując potencjalne pogorszenie lub zachowanie jakości spowodowane znakiem wodnym. Metoda ta jest szczególnie cenna, gdy wymagana jest zaawansowana analiza subtelnych efektów znaku wodnego oparta na sztucznej inteligencji.

MarkLLM: Eksperymenty i wyniki

Aby ocenić swoją wydajność, platforma MarkLLM przeprowadza ocenę dziewięciu różnych algorytmów i ocenia ich wpływ, solidność i wykrywalność na jakość tekstu.

Powyższa tabela zawiera wyniki oceny oceny wykrywalności dziewięciu algorytmów obsługiwanych w MarkLLM. Do oceny wykrywalności znaku wodnego wykorzystywana jest dynamiczna regulacja progu, z trzema ustawieniami: przy docelowym FPR wynoszącym 10%, przy docelowym FPR wynoszącym 1% oraz w warunkach zapewniających optymalną wydajność wyniku F1. Generowanych jest 200 tekstów ze znakiem wodnym, a 200 tekstów bez znaku wodnego służy jako przykłady negatywne. Zapewniamy wynik TPR i F1 w ramach dynamicznej korekty progu dla 10% i 1% FPR, wraz z TPR, TNR, FPR, FNR, P, R, F1, ACC przy optymalnej wydajności. Poniższa tabela zawiera wyniki oceny odporności dziewięciu algorytmów obsługiwanych w MarkLLM. W przypadku każdego ataku generowanych jest 200 tekstów ze znakiem wodnym, które następnie są modyfikowane, a dodatkowe 200 tekstów bez znaku wodnego służy jako negatywne przykłady. Podajemy wyniki TPR i F1 przy optymalnej wydajności w każdych okolicznościach.

Uwagi końcowe

W tym artykule omówiliśmy MarkLLM, zestaw narzędzi typu open source do znakowania wodnego, który oferuje rozszerzalną i ujednoliconą platformę do implementacji algorytmów znakowania wodnego LLM, zapewniając jednocześnie przyjazne dla użytkownika interfejsy zapewniające łatwość użytkowania i dostępu. Ponadto framework MarkLLM obsługuje automatyczną wizualizację mechanizmów tych frameworków, zwiększając w ten sposób zrozumiałość tych modeli. Framework MarkLLM oferuje kompleksowy zestaw 12 narzędzi obejmujących trzy perspektywy wraz z dwoma zautomatyzowanymi procesami oceny służącymi do oceny jego wydajności.

W przyszłym

Pionierskie modele otwarte: Nvidia, Alibaba i stabilność AI przekształcają krajobraz sztucznej inteligencji

Nie przegap

Kompilator LLM firmy Meta: innowacyjna optymalizacja kodu dzięki projektowi kompilatora opartego na sztucznej inteligencji

Kunal Kejriwal

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.