Connect with us

Duże modele językowe zapamiętują zestawy danych przeznaczone do ich testowania

Kąt Andersona

Duże modele językowe zapamiętują zestawy danych przeznaczone do ich testowania

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Jeśli polegasz na AI, aby polecić, co obejrzeć, przeczytać lub kupić, nowe badania wskazują, że niektóre systemy mogą opierać się na tych wynikach z pamięci, a nie z umiejętności: zamiast uczyć się, aby składać przydatne sugestie, modele często przypominają elementy z zestawów danych wykorzystywanych do ich oceny, co prowadzi do przeszacowania ich wydajności i rekomendacji, które mogą być nieaktualne lub słabo dopasowane do użytkownika.

 

W uczeniu maszynowym test-split jest wykorzystywany, aby sprawdzić, czy wytrenowany model nauczył się rozwiązywać problemy podobne, ale nie identyczne z materiałem, na którym został wytrenowany.

Wiadomo, że jeśli nowy model rozpoznawania ras psów jest wytrenowany na zestawie 100 000 zdjęć psów, zwykle będzie miał podział 80/20 – 80 000 zdjęć dostarczonych do wytrenowania modelu; i 20 000 zdjęć wykorzystanych jako materiał do testowania ukończonego modelu.

Oczywiste jest, że jeśli dane szkoleniowe AI zawierają przypadkowo “tajną” 20% sekcję test-split, model uzyska najwyższe wyniki w tych testach, ponieważ już zna odpowiedzi (zobaczył 100% danych z tego zakresu). Oczywiście, nie odzwierciedla to dokładnie, jak model będzie działał później, na nowych “na żywo” danych, w środowisku produkcyjnym.

Spoilery filmowe

Problem oszukiwania AI na egzaminach wzrasta wraz ze skalą samych modeli. Ponieważ dzisiejsze systemy są wytrenowane na ogromnych, niechlujnych korpusach sieciowych, takich jak Common Crawl, możliwość, że zestawy danych testowych (tj. odłożone 20%) dostaną się do mieszanki treningowej, nie jest już przypadkiem, ale normą – zjawisko znane jako zanieczyszczenie danych; a w tej skali ręczna kuracja, która mogłaby wyłapać takie błędy, jest logistycznie niemożliwa.

Przypadek ten jest badany w nowym artykule z Politecnico di Bari we Włoszech, gdzie badacze koncentrują się na nieproporcjonalnej roli jednego zestawu danych rekomendacji filmów, MovieLens-1M, których twierdzą, że zostały częściowo zapamiętane przez kilka wiodących modeli AI podczas treningu.

Ponieważ ten konkretny zestaw danych jest tak powszechnie wykorzystywany w testowaniu systemów rekomendacji, jego obecność w pamięci modeli potencjalnie czyni te testy bezsensownymi: to, co wydaje się inteligencją, może w rzeczywistości być prostą pamięcią, a to, co wygląda na umiejętność rekomendacji, może być po prostu statystycznym echem odbicia wcześniejszego narażenia.

Autorzy stwierdzają:

‘Nasze wyniki dowodzą, że LLMs posiadają obszerną wiedzę na temat zestawu danych MovieLens-1M, obejmując elementy, atrybuty użytkowników i historie interakcji. Godne uwagi jest to, że prosta wskazówka umożliwia GPT-4o odzyskanie prawie 80% rekordów MovieID::Tytuł.

‘Żaden z badanych modeli nie jest wolny od tej wiedzy, co sugeruje, że dane MovieLens-1M są prawdopodobnie zawarte w ich zestawach treningowych. Zaobserwowaliśmy podobne trendy w odzyskiwaniu atrybutów użytkowników i historii interakcji.’

Krótki nowy artykuł nosi tytuł Czy LLMs zapamiętują zestawy danych rekomendacji? Wstępne badanie na MovieLens-1M i pochodzi od sześciu badaczy z Politecnico. Potok do odtworzenia ich pracy został udostępniony na GitHub.

Metoda

Aby zrozumieć, czy modele w questionie naprawdę się uczyły, czy po prostu przypominały, badacze zaczęli od zdefiniowania, co oznacza zapamiętywanie w tym kontekście, i zaczęli od testowania, czy model był w stanie odzyskać określone kawałki informacji z zestawu danych MovieLens-1M, gdy został poproszony w odpowiedni sposób.

Jeśli model mógł wyświetlić tytuł i gatunek filmu po jego ID, liczyło się to jako zapamiętanie elementu; jeśli mógł wygenerować szczegóły dotyczące użytkownika (takie jak wiek, zawód lub kod pocztowy) z ID użytkownika, również liczyło się to jako zapamiętanie użytkownika; i jeśli mógł odtworzyć ocenę filmu użytkownika z znanej sekwencji poprzednich ocen, uznawano to za dowód, że model może przypominać konkretne dane interakcji, a nie uczyć się ogólnych wzorców.

Każda z tych form przypomnienia była testowana przy użyciu starannie napisanych wskazówek, opracowanych, aby pobudzić model bez udzielania nowych informacji. Im bardziej dokładna odpowiedź, tym bardziej prawdopodobne było, że model już wcześniej spotkał te dane podczas treningu:

Zero-shot prompting for the evaluation protocol used in the new paper. Source: https://arxiv.org/pdf/2505.10212

Zero-shot prompting for the evaluation protocol used in the new paper. Source: https://arxiv.org/pdf/2505.10212

Dane i testy

Aby wyselekcjonować odpowiedni zestaw danych, autorzy przeprowadzili ankietę wśród niedawnych prac z dwóch głównych konferencji w tej dziedzinie, ACM RecSys 2024 , i ACM SIGIR 2024. MovieLens-1M pojawił się najczęściej, cytowany w nieco ponad jednej piątej zgłoszeń. Ponieważ wcześniejsze badania doszły do podobnych wniosków, nie było to zaskakujące, ale raczej potwierdzenie dominacji tego zestawu danych.

MovieLens-1M składa się z trzech plików: Movies.dat, który wylistowuje filmy według ID, tytułu i gatunku; Users.dat, który mapuje ID użytkowników na podstawowe pola biograficzne; i Ratings.dat, który rejestruje, kto ocenił co i kiedy.

Aby dowiedzieć się, czy te dane zostały zapamiętane przez duże modele językowe, badacze skorzystali z technik wskazówek po raz pierwszy wprowadzonych w artykule Extracting Training Data from Large Language Models, a później dostosowanych w późniejszej pracy Bag of Tricks for Training Data Extraction from Language Models.

Metoda jest prosta: zadaj pytanie, które odbija format zestawu danych, i zobacz, czy model odpowie poprawnie. Zero-shot, Chain-of-Thought, i few-shot prompting były testowane, i stwierdzono, że ostatnia metoda, w której model jest pokazywany kilka przykładów, była najbardziej skuteczna; nawet jeśli bardziej elaborowane podejścia mogłyby dać wyższy odzysk, uznano to za wystarczające, aby ujawnić, co zostało zapamiętane.

Few-shot prompt used to test whether a model can reproduce specific MovieLens-1M values when queried with minimal context.

Few-shot prompt used to test whether a model can reproduce specific MovieLens-1M values when queried with minimal context.

Aby zmierzyć zapamiętywanie, badacze zdefiniowali trzy formy przypomnienia: element, użytkownik, i interakcja. Te testy sprawdziły, czy model może odzyskać tytuł filmu z jego ID, wygenerować szczegóły użytkownika z ID użytkownika, czy przewidzieć ocenę filmu użytkownika na podstawie wcześniejszych ocen. Każdy z nich był oceniany przy użyciu metryki pokrycia*, która odzwierciedlała, jak dużo zestawu danych można odtworzyć za pomocą wskazówek.

Modele testowe były GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; i Llama-3.1 8B. Wszystkie były uruchomione z temperaturą ustawioną na zero, top_p ustawiony na jeden, i zarówno kary częstotliwości i obecności wyłączone. Stały losowy nasion zapewnił spójne dane wyjściowe w różnych przebiegach.

Proportion of MovieLens-1M entries retrieved from movies.dat, users.dat, and ratings.dat, with models grouped by version and sorted by parameter count.

Proportion of MovieLens-1M entries retrieved from movies.dat, users.dat, and ratings.dat, with models grouped by version and sorted by parameter count.

Aby sprawdzić, jak głęboko MovieLens-1M został wchłonięty, badacze poprosili każdy model o dokładne wpisy z trzech (wspomnianych) plików zestawu danych: Movies.dat, Users.dat, i Ratings.dat.

Wyniki z początkowych testów, pokazane powyżej, ujawniają wyraźne różnice nie tylko między rodzinami GPT i Llama, ale także wśród modeli o różnej wielkości. Podczas gdy GPT-4o i GPT-3.5 turbo odzyskują duże części zestawu danych z łatwością, większość modeli open-source odzyskuje tylko ułamek tego samego materiału, co sugeruje nierównomierne narażenie na ten benchmark w trakcie wytrenowania.

To nie są małe marginesy. Przez wszystkie trzy pliki najmocniejsze modele nie tylko przewyższały słabsze, ale także odzyskiwały całe części MovieLens-1M.

W przypadku GPT-4o pokrycie było na tyle wysokie, aby sugerować, że znaczna część zestawu danych została bezpośrednio zapamiętana.

Autorzy stwierdzają:

‘Nasze wyniki dowodzą, że LLMs posiadają obszerną wiedzę na temat zestawu danych MovieLens-1M, obejmując elementy, atrybuty użytkowników i historie interakcji.

‘Godne uwagi jest to, że prosta wskazówka umożliwia GPT-4o odzyskanie prawie 80% rekordów MovieID::Tytuł. Żaden z badanych modeli nie jest wolny od tej wiedzy, co sugeruje, że dane MovieLens-1M są prawdopodobnie zawarte w ich zestawach treningowych.

‘Zaobserwowaliśmy podobne trendy w odzyskiwaniu atrybutów użytkowników i historii interakcji.’

Następnie autorzy przetestowali wpływ zapamiętywania na zadania rekomendacji, poprosili każdy model, aby działał jako system rekomendacji. Aby zmierzyć wydajność, porównali dane wyjściowe z siedmiu standardowych metod: UserKNN; ItemKNN; BPRMF; EASER; LightGCN; MostPop; i Random.

Zestaw danych MovieLens-1M został podzielony 80/20 na zestaw treningowy i testowy, przy użyciu strategii leave-one-out, aby symulować rzeczywiste użycie. Metryki użyte były Hit Rate (HR@[n]); i nDCG(@[n]):

Recommendation accuracy on standard baselines and LLM-based methods. Models are grouped by family and ordered by parameter count. Bold values indicate the highest score within each group.

Recommendation accuracy on standard baselines and LLM-based methods. Models are grouped by family and ordered by parameter count, with bold values indicating the highest score within each group.

Tutaj kilka dużych modeli językowych przewyższa tradycyjne punkty odniesienia we wszystkich metrykach, z GPT-4o ustanawiającym wyraźną przewagę we wszystkich kolumnach, a nawet średniej wielkości modele, takie jak GPT-3.5 turbo i Llama-3.1 405B, konsekwentnie przewyższające metody benchmarkowe, takie jak BPRMF i LightGCN.

Wśród mniejszych wariantów Llama, wydajność różniła się znacznie, ale Llama-3.2 3B wyróżnia się, z najwyższym HR@1 w swojej grupie.

Wyniki, jak stwierdzają autorzy, wskazują, że zapamiętane dane mogą przekładać się na wymierne korzyści w zadaniach rekomendacji, szczególnie dla najsilniejszych modeli.

W dodatkowym spostrzeżeniu badacze kontynuują:

‘Chociaż wydajność rekomendacji wydaje się wyjątkowa, porównanie Tabeli 2 z Tabelą 1 ujawnia interesujący wzorzec. Wewnątrz każdej grupy model z wyższym zapamiętywaniem również wykazuje lepszą wydajność w zadaniu rekomendacji.

‘Na przykład GPT-4o przewyższa GPT-4o mini, a Llama-3.1 405B przewyższa Llama-3.1 70B i 8B.

‘Te wyniki podkreślają, że ocena LLM na danych, które wyciekły do ich zestawów treningowych, może prowadzić do optymistycznej wydajności, napędzanej przez zapamiętywanie, a nie uogólnianie.’

W odniesieniu do wpływu skali modelu na ten problem, autorzy zaobserwowali wyraźną korelację między rozmiarem, zapamiętywaniem i wydajnością rekomendacji, z większymi modelami nie tylko zapamiętującymi więcej zestawu danych MovieLens-1M, ale także osiągającymi lepsze wyniki w zadaniach podrzędnych.

Llama-3.1 405B, na przykład, wykazała średni wskaźnik zapamiętywania 12,9%, podczas gdy Llama-3.1 8B zapamiętała tylko 5,82%. Ten prawie 55% spadek w odzysku odpowiadał 54,23% spadkowi w nDCG i 47,36% spadkowi w HR w punktach oceny.

Wzorzec utrzymywał się na całym obszarze – gdzie zapamiętywanie maleje, maleje również wydajność:

‘Te wyniki sugerują, że zwiększanie skali modelu prowadzi do większego zapamiętywania zestawu danych, w efekcie poprawiając wydajność.

‘W związku z tym, większe modele wykazują lepszą wydajność rekomendacji, ale również niosą ze sobą ryzyko potencjalnego wycieku danych treningowych.’

Ostateczny test sprawdził, czy zapamiętywanie odzwierciedla popularity bias wbudowany w MovieLens-1M. Elementy zostały pogrupowane według częstotliwości interakcji, a poniższy wykres pokazuje, że większe modele konsekwentnie faworyzowały najbardziej popularne wpisy:

Item coverage by model across three popularity tiers: top 20% most popular; middle 20% moderately popular; and the bottom 20% least interacted items.

Item coverage by model across three popularity tiers: top 20% most popular; middle 20% moderately popular; and the bottom 20% least interacted items.

GPT-4o odzyskał 89,06% najwyżej sklasyfikowanych elementów, ale tylko 63,97% najmniej popularnych. GPT-4o mini i mniejsze modele Llama wykazały znacznie niższe pokrycie we wszystkich pasmach. Badacze stwierdzają, że ten trend sugeruje, że zapamiętywanie nie tylko skaluje się z rozmiarem modelu, ale także nasila istniejące nierównowagi w danych treningowych.

Kontynuują:

‘Nasze wyniki ujawniają wyraźny bias popularności w LLM, z którym najwyżej 20% popularnych elementów jest znacznie łatwiejszych do odzyskania niż dolne 20%.

‘Ten trend podkreśla wpływ dystrybucji danych treningowych, gdzie popularne filmy są przereprezentowane, co prowadzi do ich nieproporcjonalnego zapamiętywania przez modele.’

Wnioski

Dylemat nie jest już nowy: wraz ze wzrostem zestawów treningowych maleje perspektywa ich kuracji. MovieLens-1M, być może wśród wielu innych, wchodzi do tych ogromnych korpusów bez nadzoru, anonimowo wśród ogromnej ilości danych.

Problem powtarza się na każdej skali i opiera się automatyzacji. Jakakolwiek rozwiązanie wymaga nie tylko wysiłku, ale także ludzkiej oceny – powolnej, podatnej na błędy, której maszyny nie mogą dostarczyć. W tym względzie nowy artykuł nie oferuje żadnej drogi do przodu.

 

* Metryka pokrycia w tym kontekście jest procentem, który pokazuje, jak dużo oryginalnego zestawu danych model językowy jest w stanie odtworzyć, gdy zostanie poproszony o odpowiednie pytanie. Jeśli model jest poproszony o ID filmu i odpowiada poprawnym tytułem i gatunkiem, liczy się to jako pomyślne przypomnienie. Łączna liczba pomyślnych przypomnień jest następnie dzielona przez łączną liczbę wpisów w zestawie danych, aby wyprodukować wynik pokrycia. Na przykład, jeśli model zwraca poprawne informacje dla 800 z 1000 elementów, jego pokrycie wynosi 80 procent.

Publikowany po raz pierwszy w piątek, 16 maja 2025

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.