Kąt Andersona

Spersonalizowane modele językowe są łatwe do stworzenia – ale trudniejsze do wykrycia

Opublikowany 19 czerwca 2025 r.

Martin Anderson

Ręka robota na wolności w gabinecie lekarskim - Flux, Krita (GENEROWANE PRZEZ SI).

Otwarte klony ChatGPT można precyzyjnie dostrajać na dużą skalę i przy ograniczonej lub zerowej wiedzy specjalistycznej, co ułatwia tworzenie „prywatnych” modeli językowych, które unikają wykrycia. Większość narzędzi nie potrafi śledzić pochodzenia tych modeli ani ich przeznaczenia, co pozwala studentom i innym użytkownikom na generowanie tekstu AI bez ryzyka wykrycia. Nowa metoda twierdzi jednak, że potrafi identyfikować te ukryte warianty, wykrywając wspólne „cechy rodzinne” w wynikach modeli.

Według Nowe badania Kanadyjskie, dostosowane do użytkownika modele czatów oparte na sztucznej inteligencji, podobne do ChatGPT, są w stanie tworzyć treści społecznościowe, które do złudzenia przypominają pisane przez ludzi pismo, i które potrafią oszukać zarówno najnowocześniejsze algorytmy wykrywania, jak i ludzi.

Artykuł stwierdza:

Realistycznie zmotywowany atakujący prawdopodobnie dostosuje model do swojego specyficznego stylu i przypadku użycia, ponieważ jest to tanie i łatwe. Przy minimalnym wysiłku, czasie i pieniądzach stworzyliśmy precyzyjnie dostrojone generatory, które są w stanie generować znacznie bardziej realistyczne tweety w mediach społecznościowych, oparte zarówno na cechach językowych, jak i dokładności wykrywania, a także zweryfikowane za pomocą adnotacji tworzonych przez ludzi.

Autorzy podkreślają, że tego typu niestandardowe modele nie ograniczają się wyłącznie do krótkich treści w mediach społecznościowych:

„Choć motywacją jest rozpowszechnianie treści dotyczących sztucznej inteligencji w mediach społecznościowych i związane z tym ryzyko astroturfingu i kampanii wpływu, podkreślamy, że główne ustalenia dotyczą wszystkich domen tekstowych.

„Rzeczywiście, dostrajanie modeli do generowania treści w określonym stylu to metoda powszechnie stosowana, z której prawdopodobnie korzystają już liczni użytkownicy sztucznej inteligencji. Poddaje to w wątpliwość, czy istniejące metody wykrywania AIGT są tak samo skuteczne w świecie rzeczywistym, jak w laboratoriach badawczych”.

Jak zauważono w artykule, metoda stosowana do tworzenia tych niestandardowych modeli językowych jest strojenie, w którym użytkownicy sami wybierają ograniczoną ilość danych docelowych i wprowadzają je do coraz większej liczby łatwych w użyciu i tanich narzędzi szkoleniowych online.

Na przykład popularne repozytorium Hugging Face oferuje Dostrajanie Dużego Modelu Językowego (LLM) za pomocą uproszczonego interfejsu, przy użyciu systemu AutoTrain Advanced, który można uruchomić za kilka dolarów za pomocą internetowego procesora graficznego lub bezpłatnie, lokalnie, jeżeli użytkownik posiada odpowiedni sprzęt:

Różne struktury cenowe w zakresie GPU dostępnych dla systemu Hugging Face AutoTrain. Źródło: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Różne struktury cenowe dla różnych procesorów graficznych dostępnych dla systemu Hugging Face AutoTrain. Źródło: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Inne uproszczone metody i platformy obejmują Axolotl, Nielenistwoi bardziej zdolnych, ale wymagających TorchTune.

Przykładem zastosowania może być student, który jest zmęczony pisaniem własnych esejów, ale boi się, że zostanie złapany przez internetowe narzędzia do wykrywania AI, które mogą wykorzystać jego własne prawdziwe eseje historyczne jako dane treningowe do dostrojenia naprawdę skutecznego popularnego modelu open source, takiego jak Mistral series.

Chociaż dostrajanie modelu ma tendencję do przechylania się jego wydajność w stosunku do dodatkowych danych szkoleniowych i pogorszenie ogólnej wydajności, „spersonalizowane” modele mogą być używane do „od-AI” coraz bardziej charakterystycznych wyników z systemów takich jak ChatGPT, w sposób odzwierciedlający własny historyczny styl użytkownika (oraz, dla zwiększenia autentyczności, jego niedociągnięcia).

Można jednak używać wyłącznie dostrojonego modelu, który został specjalnie wyszkolony do wąskiego zadania lub zakresu zadań, takiego jak LLM dostrojony do zajęć z konkretnego modułu uniwersyteckiego. Model tak szczegółowy jak ten miałby krótkowzroczny, ale znacznie głębszy wgląd w tę domenę niż uniwersalny LLM, taki jak ChatGPT, i prawdopodobnie kosztowałby mniej niż 10-20 USD do przeszkolenia.

Góra lodowa LLM

Trudno powiedzieć, jaka jest skala tej praktyki. Anegdotycznie rzecz biorąc, na różnych platformach mediów społecznościowych ostatnio natknąłem się na wiele przykładów dostrajania LLM zorientowanych na biznes – z pewnością znacznie więcej takich przykładów niż rok temu; w jednym przypadku firma dostroiła model językowy we własnych opublikowanych artykułach o przywództwie myślowym, co pozwoliło jej przekształcić chaotyczną rozmowę na Zoomie z nowym klientem w dopracowany post B2B niemal za jednym razem, na żądanie.

Model tego rodzaju wymaga sparowane dane (przykłady przed i po, w skali), podczas gdy stworzenie spersonalizowanego „glosy” cech konkretnego pisarza jest łatwiejszym zadaniem, bardziej zbliżonym do przeniesienie stylu.

Choć jest to tajne działanie (pomimo licznych nagłówki oraz studia akademickie na ten temat), w przypadku których nie są dostępne żadne dane liczbowe, ten sam zdrowy rozsądek, który doprowadził do ZDEMONTUJ TO, wprowadź ustawę w tym roku obowiązuje tutaj: działalność docelowa jest możliwa i opłacalna, a wśród zdroworozsądkowych przesłanek panuje przekonanie, że potencjalni użytkownicy są wysoce zmotywowani.

W najbardziej „ogłupionych” internetowych systemach precyzyjnego dostrajania pozostało wystarczająco dużo tarcia, aby praktyka nieszczerze szkolenie i korzystanie z precyzyjnie dostrojonych modeli pozostaje na razie stosunkowo niszowym przypadkiem użycia – choć z pewnością nie wykracza poza tradycyjną pomysłowość studentów.

Łowca Widm

Prowadzi nas to do głównego interesującego nas artykułu – nowego podejścia z Chin, które łączy szeroką gamę technik w jedną całość – zwanego Łowca Widm – która rości sobie prawo do identyfikowania wyników udoskonalonych modeli językowych, które w innym przypadku mogłyby zostać uznane za oryginalne dzieło człowieka.

System zaprojektowano tak, aby działał nawet wtedy, gdy nigdy wcześniej nie natrafiono na konkretny, precyzyjnie dostrojony model, bazując zamiast tego na resztkowych śladach pozostawionych przez oryginalny model bazowy – które autorzy określają mianem „cech rodzinnych”, które przetrwały proces precyzyjnego dostrajania.

W testach artykuł zatytułowany PhantomHunter: wykrywanie niewidocznego, prywatnie dostrojonego tekstu generowanego przez LLM za pomocą uczenia się uwzględniającego rodzinę – raportuje wysoką dokładność wykrywania, a system przewyższa ocenę GPT-4-mini bez użycia strzałów^† w śledzeniu powiązania próbki tekstu z jej rodziną modeli.

Sugeruje to, że im bardziej model jest dopracowany, tym więcej ujawnia o swoim pochodzeniu, co przeczy założeniu, że prywatne dostrajanie zawsze maskuje pochodzenie modelu; zamiast tego proces dostrajania może pozostawić wykrywalny odcisk palca, który jeśli zostanie odczytany prawidłowo, zdradzi grę – przynajmniej w oczekiwaniu na dalsze postępy, które zdają się pojawiać co tydzień.

W artykule napisano*:

'[Wykrywanie tekstu generowanego maszynowo] na ogół rozróżnia tekst generowany przez LLM i tekst pisany przez człowieka za pomocą klasyfikacji binarnej. Istniejące metody albo poznaj typowe cechy tekstu współdzielone między LLM-ami przy użyciu uczenia się reprezentacji lub projektowania rozróżnialnych metryk między tekstami ludzkimi i LLM-ami w oparciu o wewnętrzne sygnały LLM-ów (np. prawdopodobieństwo tokena).

'W przypadku obu kategorii testy przeprowadzono głównie na danych z publicznie dostępnych modeli nauczania języka angielskiego (LLM), zakładając, że użytkownicy generują tekst za pomocą publicznych, gotowych usług.

"Uważamy, że sytuacja ta ulega zmianie dzięki niedawnemu rozwojowi społeczności open-source LLM. Dzięki platformom takim jak Przytulanie twarzy i skuteczne techniki szkolenia LLM, takie jak adaptacja niskiego szczebla (LoRA), tworzenie precyzyjnie dostrojonych modeli LLM z wykorzystaniem dostosowanych prywatnych zestawów danych stało się o wiele łatwiejsze niż kiedykolwiek wcześniej.

Na przykład było ponad 60 tys. modeli pochodnych opartych na lamie na HuggingFace. Po prywatnym dostrojeniu na nieznanym korpusie, poznane cechy modeli bazowych mogłyby się zmienić, a detektory LLMGT [zawiodłyby], co stworzyłoby nowe ryzyko, że złośliwi użytkownicy mogą generować szkodliwe teksty prywatnie, nie będąc wykrytymi przez detektory LLMGT.

„Pojawia się nowe wyzwanie: Jak wykryć tekst generowany przez prywatnie dostrojone programy nauczania LLM oparte na otwartym kodzie źródłowym?"

Metoda i trening

System PhantomHunter wykorzystuje świadomy rodziny strategia uczenia się, łącząca trzy komponenty: ekstraktor cech, przechwytując prawdopodobieństwa wyjściowe ze znanych modeli bazowych; koder kontrastowy przeszkoleni w rozróżnianiu rodzin; i (jak szczegółowo opisano poniżej) klasyfikator mieszanki ekspertów który przypisuje etykiety rodzinne do nowych próbek tekstu:

Schemat systemu. PhantomHunter przetwarza próbkę tekstu, najpierw wyodrębniając cechy prawdopodobieństwa z wielu modeli bazowych, które są następnie kodowane za pomocą warstw CNN i transformatora. Oszacowuje rodzinę modeli, aby obliczyć wagi bramkowania, które kierują modułem mix-of-experts w przewidywaniu, czy tekst jest generowany przez LLM. Podczas treningu stosowana jest strata kontrastowa w celu udoskonalenia separacji między rodzinami modeli. Źródło: https://arxiv.org/pdf/2506.15683

PhantomHunter działa poprzez przepuszczanie fragmentu tekstu przez kilka znanych modeli bazowych i rejestrowanie, jak prawdopodobne jest, że każdy z nich myśli, że następne słowo jest, na każdym kroku. Następnie te wzorce są wprowadzane do sieci neuronowej, która uczy się wyróżniających cech każdej rodziny modeli.

Podczas szkolenia system porównuje teksty z tej samej rodziny i uczy się je grupować, jednocześnie rozróżniając teksty z różnych rodzin, co pomaga w identyfikowaniu ukrytych powiązań między dopracowanymi modelami a ich modelami bazowymi.

MOE

Aby ustalić, czy dany fragment tekstu został napisany przez człowieka czy sztuczną inteligencję, PhantomHunter używa mieszanka ekspertów system, w którym każdy „ekspert” jest dostrojony do wykrywania tekstu z określonej rodziny modeli.

Gdy system zgadnie, z której rodziny pochodzi tekst, na podstawie tego zgadnięcia decyduje, jaką wagę nadać opinii każdego eksperta. Te ważone opinie są następnie łączone, aby podjąć ostateczną decyzję: AI czy człowiek.

Szkolenie systemu obejmuje wiele celów: naukę rozpoznawania rodzin modeli, naukę odróżniania tekstu sztucznej inteligencji od tekstu ludzkiego oraz naukę oddzielania różnych rodzin za pomocą uczenia kontrastywnego — cele te są równoważone w trakcie szkolenia za pomocą konfigurowalnych parametrów.

Koncentrując się na wzorcach wspólnych dla każdej rodziny, a nie na dziwactwach poszczególnych modeli, PhantomHunter powinien teoretycznie być w stanie wykryć nawet precyzyjnie dostrojone modele, których nigdy wcześniej nie widział.

Dane i testy

Aby opracować dane do testów, autorzy skupili się na dwóch najczęstszych scenariuszach akademickich: pisaniu i odpowiadaniu na pytania. W przypadku pisania zebrali 69,297 XNUMX streszczeń z bazy Arxiv archiwum, podzielone na domeny podstawowe. Do pytań i odpowiedzi wybrano 2,062 pary z Zestaw danych HC3 w trzech przedmiotach: ELI5; finansowaćOraz lekarstwo:

Lista źródeł danych i ich numerów w danych wyselekcjonowanych na potrzeby badania.

W sumie do testu wytrenowano dwanaście modeli. Trzy modele bazowe były LLaMA-2 7B-Czat; Mistral 7B-Instrukcja-v0.1Oraz Gemma 7B-it), z których wyłoniono dziewięć udoskonalonych wariantów, z których każdy dostosowano do naśladowania innej domeny lub stylu autorskiego, wykorzystując dane specyficzne dla danej domeny:

Statystyki zestawu danych ewaluacyjnych, gdzie „domena FT” odnosi się do domeny użytej podczas dostrajania, a „baza” oznacza brak dostrajania.

Statystyki zbioru danych ewaluacyjnych, gdzie „domena FT” odnosi się do domeny użytej podczas dostrajania, a „baza” oznacza brak dostrajania.

Łącznie zatem dopracowano trzy modele bazowe, wykorzystując zarówno pełne parametry, jak i LoRA techniki w trzech różnych domenach w każdym z dwóch scenariuszy użycia: pisanie streszczeń akademickich oraz odpowiadanie na pytaniaAby odzwierciedlić wyzwania związane z wykrywaniem w świecie rzeczywistym, modele dostrojone na podstawie danych informatycznych nie zostały uwzględnione w testach pisemnych, a te dostrojone na podstawie danych finansowych nie zostały uwzględnione w ocenach pytań i odpowiedzi.

Wybrano konkurencyjne ramy Roberta; T5-Strażnik; Sekwencja XGPT; DNA-GPT; WykryjGPT; Szybkie wykrywanie GPTOraz Detektyw.

PhantomHunter został wytrenowany przy użyciu dwóch typów warstw sieci neuronowej: trzech warstwy splotowe w maksymalne łączenie do przechwytywania lokalnych wzorców tekstowych i dwóch warstwa transformatoraz czterema głowicami uwagi każda, aby modelować relacje na dłuższy dystans.

Dla litu szacuje się uczenie kontrastowe, który zachęca system do rozróżniania różnych rodzin modeli, temperatura parametr ustawiono na 0.07.

Cel szkolenia łączył trzy terminy strat: L1 (do klasyfikacji rodzinnej) i L2 (do wykrywania binarnego), każdy z wagą 1.0, oraz L3 (do uczenia kontrastywnego), ważony 0.5.

Model zoptymalizowano przy użyciu Adam z szybkość uczenia się z 2e-5 i a wielkość partii z 32. Szkolenie odbyło się dla dziesięciu pełnych epoki, przy czym najlepiej działający punkt kontrolny został wybrany przy użyciu zestaw walidacyjnyWszystkie eksperymenty przeprowadzono na serwerze z czterema procesorami graficznymi NVIDIA A100.

Użyto następujących wskaźników: Punktacja F1 dla każdego podzbioru testowego, wraz z prawdziwie pozytywny współczynnik, w celu porównania z detektorami komercyjnymi.

Wyniki F1 za wykrywanie tekstu z niewidocznych, dostrojonych modeli językowych. Dwa najlepsze wyniki w każdej kategorii są pogrubione i podkreślone. „BFE” odnosi się do ekstrakcji cech prawdopodobieństwa bazowego, „CL” do uczenia kontrastywnego, a „MoE” do modułu mieszanki ekspertów.

Wyniki F1 za wykrywanie tekstu z niewidocznych, precyzyjnie dostrojonych modeli językowych. Dwa najlepsze wyniki w każdej kategorii są pogrubione/podkreślone. „BFE” odnosi się do ekstrakcji cech na podstawie prawdopodobieństwa bazowego, „CL” do uczenia kontrastywnego, a „MoE” do modułu obejmującego ekspertów.

Wyniki wstępnego testu, przedstawione w tabeli powyżej, pokazują, że PhantomHunter przewyższył wszystkie systemy bazowe, utrzymując wyniki F1 powyżej dziewięćdziesięciu procent zarówno dla tekstu generowanego przez człowieka, jak i maszynę, nawet gdy oceniano je na podstawie wyników z dostrojonych modeli wyłączonych z treningu.

Autorzy komentują:

Dzięki pełnemu dostrojeniu PhantomHunter poprawia wynik MacF1 w stosunku do najlepszego wyniku bazowego o odpowiednio 3.65% i 2.96% w obu zbiorach danych; po dostrojeniu LoRA poprawa ta wynosi odpowiednio 2.01% i 6.09%.

„Wyniki te dowodzą, że PhantomHunter ma potężne możliwości wykrywania tekstów generowanych przez niewidoczne, precyzyjnie dostrojone modele LLM”.

Przeprowadzono badania ablacji, aby ocenić rolę każdego głównego komponentu w PhantomHunter. Po usunięciu poszczególnych elementów, takich jak ekstraktor cech, koder kontrastowy lub klasyfikator mieszany ekspertów, zaobserwowano stały spadek dokładności, co wskazuje, że architektura opiera się na koordynacji wszystkich części.

Autorzy sprawdzili również, czy PhantomHunter może generalizować poza rozkładem treningowym i stwierdzili, że nawet po zastosowaniu do wyników z modeli bazowych całkowicie nieobecnych podczas treningu, nadal przewyższał konkurencyjne metody – co sugeruje, że sygnatury na poziomie rodziny pozostają wykrywalne w przypadku wszystkich precyzyjnie dostrojonych wariantów.

Podsumowanie

Jeden argument w faworyzować W przypadku generatywnych modeli języka szkolonych przez użytkowników, przynajmniej te niejasne drobne dostrojenia i LoRA zachowują indywidualny styl i ekscentryczność autora w klimacie, w którym panuje ogólny, inspirowany SEO idiom chatbotów AI grozi uogólnieniem każdy język, w którym sztuczna inteligencja odgrywa znaczącą lub dominującą rolę.

Z dewaluacja eseju na studia, a teraz ze studentami screencast ogromne sesje pisarskie, aby udowodnić, że nie użyli sztucznej inteligencji w swoich pracach, więcej nauczycieli spoza Europy (gdzie znormalizowano egzaminy ustne) biorąc pod uwagę egzaminy twarzą w twarz jako alternatywa dla tekstów przesłanych. Ostatnio, powrót do pracy pisanej ręcznie został zaproponowany.

Można argumentować, że oba te rozwiązania są lepsze od tego, co grozi powtórką LLM wyścig zbrojeń deepfake; choć odbywa się to kosztem ludzkiego wysiłku i uwagi, które kultura technologiczna stara się obecnie zautomatyzować.

^† Więcej szczegółów na ten temat można znaleźć w końcowej części artykułu źródłowego, po głównych wynikach.

* Moja konwersja cytatów autorów na hiperłącza. Podkreślenia w tekście autorów, nie moje.

Pierwsze opublikowanie: czwartek, 19 czerwca 2025 r.

W przyszłym

Ograniczenia pamięci LLM: kiedy sztuczna inteligencja pamięta zbyt wiele

Nie przegap

Wielojęzyczna detekcja stronniczości AI z SHADES: budowanie sprawiedliwych i inkluzywnych systemów AI