Andersons Blickwinkel

Große Sprachmodelle merken sich die Datensätze, die dazu dienen, sie zu testen

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Wenn Sie auf künstliche Intelligenz vertrauen, um zu empfehlen, was Sie sehen, lesen oder kaufen sollen, deutet neue Forschung darauf hin, dass einige Systeme diese Ergebnisse möglicherweise aus Erinnerung ableiten, anstatt nützliche Vorschläge zu erlernen: Anstatt zu lernen, nützliche Vorschläge zu machen, erinnern sich die Modelle oft an Elemente aus den Datensätzen, die zur Bewertung verwendet werden, was zu einer Überschätzung der Leistung und Empfehlungen führt, die möglicherweise veraltet oder schlecht auf den Benutzer abgestimmt sind.

In der maschinellen Lernen wird ein Test-Split verwendet, um zu sehen, ob ein trainiertes Modell gelernt hat, Probleme zu lösen, die ähnlich, aber nicht identisch mit dem Material sind, auf dem es trainiert wurde.

Wenn also ein neues AI-Modell zur Erkennung von Hunderassen auf einem Datensatz von 100.000 Bildern von Hunden trainiert wird, wird es in der Regel einen Split von 80/20 aufweisen – 80.000 Bilder, die dem Modell zur Verfügung gestellt werden, um es zu trainieren, und 20.000 Bilder, die zurückgehalten und als Material für die Tests des fertigen Modells verwendet werden.

Es ist offensichtlich, dass, wenn die Trainingsdaten des AI-Modells unbeabsichtigt den “geheimen” 20-Prozent-Anteil des Test-Splits enthalten, das Modell diese Tests bestehen wird, weil es bereits die Antworten kennt (es hat bereits 100 Prozent der Domänen-Daten gesehen). Natürlich spiegelt dies nicht genau wider, wie das Modell später in einem Produktionsumfeld mit neuen “Live”-Daten abschneiden wird.

Movie Spoilers

Das Problem des AI-Betrugs bei seinen Prüfungen ist mit der Größe der Modelle selbst gewachsen. Da heutige Systeme auf riesigen, undiskriminierenden Web-Scraping-Korpora wie Common Crawl trainiert werden, ist die Möglichkeit, dass Benchmark-Datensätze (d. h. die zurückgehaltene 20 Prozent) in die Trainingsmischung geraten, kein Randfall mehr, sondern der Standard – ein Syndrom, das als Datenkontamination bekannt ist; und in diesem Maßstab ist die manuelle Kuratierung, die solche Fehler auffangen könnte, logistisch unmöglich.

Dieser Fall wird in einer neuen Studie der italienischen Politecnico di Bari erforscht, in der die Forscher den übermäßigen Einfluss eines einzelnen Movie-Empfehlungs-Datensatzes, MovieLens-1M, untersuchen, den sie dafür halten, dass er von mehreren führenden AI-Modellen während des Trainings teilweise memorisiert wurde.

Da dieser spezielle Datensatz so häufig bei der Überprüfung von Empfehlungssystemen verwendet wird, macht seine Anwesenheit im Gedächtnis der Modelle diese Tests möglicherweise sinnlos: Was wie Intelligenz erscheint, kann in Wirklichkeit einfache Erinnerung sein, und was wie eine intuitive Empfehlungsfähigkeit aussieht, kann nur ein statistischer Echo sein, das frühere Expositionen widerspiegelt.

Die Autoren erklären:

‘Unsere Ergebnisse zeigen, dass LLMs umfassende Kenntnisse des MovieLens-1M-Datensatzes besitzen, einschließlich Elemente, Benutzereigenschaften und Interaktionsverläufe.

‘Bemerkenswerterweise ermöglicht ein einfacher Prompt GPT-4o, fast 80 Prozent der MovieID-Titel-Records wiederzuerlangen.

‘Keines der untersuchten Modelle ist frei von diesem Wissen, was darauf hindeutet, dass MovieLens-1M-Daten wahrscheinlich in ihren Trainingssets enthalten sind.

Die kurze neue Studie trägt den Titel Merken sich LLMs Empfehlungsdatensätze? Eine vorläufige Studie zu MovieLens-1M und stammt von sechs Forschern der Politecnico. Die Pipeline, um ihre Arbeit zu reproduzieren, wurde auf GitHub verfügbar gemacht.

Methode

Um zu verstehen, ob die Modelle tatsächlich lernen oder einfach nur erinnern, begannen die Forscher damit, zu definieren, was Memorierung in diesem Kontext bedeutet, und begannen damit, zu testen, ob ein Modell in der Lage war, spezifische Informationen aus dem MovieLens-1M-Datensatz abzurufen, wenn es auf die richtige Weise angestoßen wurde.

Wenn ein Modell einem Film-ID-Nummer gezeigt wurde und den Titel und das Genre produzieren konnte, zählte das als Memorierung eines Elements; wenn es Details über einen Benutzer (wie Alter, Beruf oder Postleitzahl) aus einer Benutzer-ID generieren konnte, zählte das auch als Benutzermemorierung; und wenn es eine Benutzers nächste Film-Bewertung aus einer bekannten Sequenz von vorherigen reproduzieren konnte, wurde das als Beweis dafür angesehen, dass das Modell möglicherweise spezifische Interaktionsdaten abruft, anstatt allgemeine Muster zu lernen.

Jede dieser Formen der Erinnerung wurde mit sorgfältig formulierten Prompts getestet, die so konzipiert waren, dass sie das Modell ohne neue Informationen anzubieten, anstoßen sollten. Je genauer die Antwort war, desto wahrscheinlicher war es, dass das Modell diese Daten bereits während des Trainings gesehen hatte:

Zero-Shot-Prompting für das Evaluierungsprotokoll, das in der neuen Studie verwendet wird. Quelle: https://arxiv.org/pdf/2505.10212

Daten und Tests

Um einen geeigneten Datensatz zu kuratieren, untersuchten die Autoren aktuelle Studien aus zwei der wichtigsten Konferenzen des Fachgebiets, ACM RecSys 2024 und ACM SIGIR 2024. MovieLens-1M erschien am häufigsten, in über einem Fünftel der Einreichungen. Da frühere Studien ähnliche Schlussfolgerungen gezogen hatten, war dies nicht überraschend, sondern eine Bestätigung der Dominanz des Datensatzes.

MovieLens-1M besteht aus drei Dateien: Movies.dat, die Filme nach ID, Titel und Genre auflistet; Users.dat, die Benutzer-IDs mit grundlegenden biografischen Feldern verknüpft; und Ratings.dat, die aufzeichnet, wer was bewertet hat und wann.

Um herauszufinden, ob diese Daten von großen Sprachmodellen memorisiert worden waren, wandten sich die Forscher Promoting-Techniken zu, die erstmals in der Studie Extrahieren von Trainingsdaten aus großen Sprachmodellen vorgestellt und später in der folgenden Arbeit Bag of Tricks für die Extraktion von Trainingsdaten aus Sprachmodellen angepasst wurden.

Die Methode ist direkt: Stellen Sie eine Frage, die dem Datensatzformat entspricht, und sehen Sie, ob das Modell richtig antwortet. Zero-Shot, Chain-of-Thought und Few-Shot-Prompting wurden getestet, und es wurde festgestellt, dass die letzte Methode, bei der dem Modell einige Beispiele gezeigt werden, die effektivste war; selbst wenn anspruchsvollere Ansätze möglicherweise höhere Wiedererinnerungsraten liefern könnten, wurde dies als ausreichend angesehen, um zu zeigen, was memorisiert worden war.

Few-Shot-Prompt, um zu testen, ob ein Modell spezifische MovieLens-1M-Werte bei minimalem Kontext reproduzieren kann.

Um die Memorierung zu messen, definierten die Forscher drei Formen der Erinnerung: Element, Benutzer und Interaktion. Diese Tests untersuchten, ob ein Modell einen Film-Titel aus seiner ID abrufen, Benutzerdetails aus einer Benutzer-ID generieren oder eine Benutzers nächste Bewertung auf der Grundlage früherer vorhersagen konnte. Jeder wurde mit einer Abdeckungsmetrik* bewertet, die widerspiegelte, wie viel des Datensatzes durch Prompting rekonstruiert werden konnte.

Die getesteten Modelle waren GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; und Llama-3.1 8B. Alle wurden mit Temperatur auf Null gesetzt, top_p auf eins gesetzt und sowohl Häufigkeits- und Präsenzstrafen deaktiviert. Ein fester Zufallsseed gewährleistete konsistente Ausgaben über Läufe hinweg.

Anteil der MovieLens-1M-Einträge, die aus movies.dat, users.dat und ratings.dat abgerufen werden, mit Modellen, die nach Version und Parameteranzahl sortiert sind.

Um zu untersuchen, wie tief MovieLens-1M aufgenommen worden war, forderten die Forscher jedes Modell auf, genaue Einträge aus den drei (vorher erwähnten) Dateien des Datensatzes abzurufen: Movies.dat, Users.dat und Ratings.dat.

Die Ergebnisse der ersten Tests, oben gezeigt, zeigen deutliche Unterschiede nicht nur zwischen GPT- und Llama-Familien, sondern auch zwischen Modellgrößen. Während GPT-4o und GPT-3.5 turbo große Teile des Datensatzes mühelos abrufen, können die meisten Open-Source-Modelle nur einen Bruchteil desselben Materials abrufen, was darauf hindeutet, dass die Exposition gegenüber diesem Benchmark während des Trainings ungleichmäßig war.

Diese sind keine kleinen Margen. Über alle drei Dateien hinweg übertrafen die stärksten Modelle die schwächeren nicht nur, sondern erinnerten sich auch an ganze Teile von MovieLens-1M.

Im Fall von GPT-4o war die Abdeckung hoch genug, um zu suggerieren, dass ein nicht unwesentlicher Anteil des Datensatzes direkt memorisiert worden war.

Die Autoren erklären:

‘Unsere Ergebnisse zeigen, dass LLMs umfassende Kenntnisse des MovieLens-1M-Datensatzes besitzen, einschließlich Elemente, Benutzereigenschaften und Interaktionsverläufe.

‘Bemerkenswerterweise ermöglicht ein einfacher Prompt GPT-4o, fast 80 Prozent der MovieID-Titel-Records wiederzuerlangen.

‘Keines der untersuchten Modelle ist frei von diesem Wissen, was darauf hindeutet, dass MovieLens-1M-Daten wahrscheinlich in ihren Trainingssets enthalten sind.

Als nächstes testeten die Autoren die Auswirkungen der Memorierung auf Empfehlungsaufgaben, indem sie jedes Modell aufforderten, als Empfehlungssystem zu agieren. Um die Leistung zu bewerten, verglichen sie die Ausgabe mit sieben Standardmethoden: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; und Random.

Der MovieLens-1M-Datensatz wurde im Verhältnis 80/20 in Trainings- und Testsets aufgeteilt, wobei eine Leave-One-Out-Stichprobenerhebung verwendet wurde, um die reale Nutzung zu simulieren. Die verwendeten Metriken waren Hit Rate (HR@[n]); und nDCG(@[n]):

Empfehlungsgenauigkeit bei Standard-Baselines und LLM-basierten Methoden. Modelle sind nach Familie und Parameteranzahl sortiert, wobei fett gedruckte Werte den höchsten Score innerhalb jeder Gruppe anzeigen.

Hier übertrafen mehrere große Sprachmodelle traditionelle Baselines in allen Metriken, wobei GPT-4o eine breite Führung in jeder Spalte etablierte und sogar mittelgroße Modelle wie GPT-3.5 turbo und Llama-3.1 405B konsistent die Benchmark-Methoden wie BPRMF und LightGCN übertrafen.

Unter den kleineren Llama-Varianten variierte die Leistung stark, aber Llama-3.2 3B ragte heraus, mit dem höchsten HR@1 in seiner Gruppe.

Die Ergebnisse, so die Autoren, deuten darauf hin, dass memorisierte Daten zu messbaren Vorteilen bei Empfehlungsaufgaben führen können, insbesondere für die stärksten Modelle.

In einer zusätzlichen Beobachtung fahren die Forscher fort:

‘Obwohl die Empfehlungsleistung hervorragend erscheint, zeigt ein Vergleich von Tabelle 2 mit Tabelle 1 ein interessantes Muster. Innerhalb jeder Gruppe zeigt das Modell mit höherer Memorierung auch eine bessere Leistung bei der Empfehlungsaufgabe.

‘Beispielsweise übertrifft GPT-4o GPT-4o mini, und Llama-3.1 405B übertrifft Llama-3.1 70B und 8B.

‘Diese Ergebnisse betonen, dass die Bewertung von LLMs anhand von Datensätzen, die in ihren Trainingsdaten durchgesickert sind, zu überoptimistischen Leistungen führen kann, die durch Memorierung und nicht durch Verallgemeinerung getrieben werden.’

In Bezug auf die Auswirkungen der Modellgröße auf dieses Problem beobachteten die Autoren eine klare Korrelation zwischen Größe, Memorierung und Empfehlungsleistung, wobei größere Modelle nicht nur mehr des MovieLens-1M-Datensatzes behielten, sondern auch besser in Downstream-Aufgaben abschnitten.

Llama-3.1 405B zeigte beispielsweise eine durchschnittliche Memorierungsrate von 12,9 %, während Llama-3.1 8B nur 5,82 % behielt. Dieser Rückgang der Wiedererinnerung um fast 55 % korrespondierte mit einem Rückgang der nDCG um 54,23 % und einem Rückgang der HR um 47,36 % über die Bewertungsschwellen hinweg.

Das Muster hielt überall – wo die Memorierung abnahm, nahm auch die scheinbare Leistung ab:

‘Diese Ergebnisse deuten darauf hin, dass eine Erhöhung der Modellgröße zu einer stärkeren Memorierung des Datensatzes führt, was zu einer besseren Leistung führt.

‘Folglich zeigen größere Modelle nicht nur eine bessere Empfehlungsleistung, sondern bergen auch Risiken im Zusammenhang mit möglichen Lecks von Trainingsdaten.’

Der letzte Test untersuchte, ob die Memorierung den Popularitätsbias widerspiegelt, der in MovieLens-1M angelegt ist. Elemente wurden nach Interaktionshäufigkeit gruppiert, und die folgende Grafik zeigt, dass größere Modelle konsistent die beliebtesten Einträge bevorzugen:

Elementabdeckung nach Modell über drei Popularitätsstufen: Top 20 % der beliebtesten, mittlere 20 % der moderat beliebten und die unteren 20 % der am wenigsten interagierten Elemente.

GPT-4o konnte 89,06 % der Top-Ranked-Elemente abrufen, aber nur 63,97 % der am wenigsten beliebten. GPT-4o mini und kleinere Llama-Modelle zeigten eine viel geringere Abdeckung über alle Bänder hinweg. Die Forscher erklären, dass dieser Trend darauf hindeutet, dass die Memorierung nicht nur mit der Modellgröße skaliert, sondern auch bestehende Ungleichgewichte in den Trainingsdaten verstärkt.

Sie fahren fort:

‘Unsere Ergebnisse zeigen einen deutlichen Popularitätsbias in LLMs, wobei die Top 20 % der beliebtesten Elemente erheblich einfacher abzurufen sind als die unteren 20 %.

‘Dieser Trend unterstreicht den Einfluss der Verteilung der Trainingsdaten, bei der beliebte Filme überrepräsentiert sind, was zu ihrer unverhältnismäßigen Memorierung durch die Modelle führt.’

Schlussfolgerung

Das Dilemma ist nicht mehr neu: Wenn die Trainingssets wachsen, nimmt die Aussicht auf ihre Kuratierung umgekehrt proportional ab. MovieLens-1M, vielleicht unter vielen anderen, tritt in diese riesigen Korpora ohne Aufsicht ein, anonym unter der schieren Menge an Daten.

Das Problem wiederholt sich in jedem Maßstab und widersteht der Automatisierung. Jede Lösung erfordert nicht nur Anstrengung, sondern auch menschliches Urteilsvermögen – die langsame, fehlerhafte Art, die Maschinen nicht liefern können. In dieser Hinsicht bietet die neue Studie keinen Weg nach vorne.

* Eine Abdeckungsmetrik in diesem Kontext ist ein Prozentsatz, der zeigt, wie viel des ursprünglichen Datensatzes ein Sprachmodell reproduzieren kann, wenn es die richtige Art von Frage gestellt wird. Wenn ein Modell einem Film-ID-Nummer gezeigt wird und den Titel und das Genre produzieren kann, zählt das als erfolgreiche Erinnerung. Die Gesamtzahl der erfolgreichen Erinnerungen wird dann durch die Gesamtzahl der Einträge im Datensatz geteilt, um einen Abdeckungsscore zu erzeugen. Wenn beispielsweise ein Modell Informationen für 800 von 1.000 Elementen richtig zurückgibt, beträgt seine Abdeckung 80 Prozent.

Erstveröffentlicht am Freitag, den 16. Mai 2025