Взгляд Anderson

Большие языковые модели запоминают наборы данных, предназначенные для их тестирования

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Если вы полагаетесь на ИИ для рекомендаций того, что посмотреть, прочитать или купить, новые исследования указывают на то, что некоторые системы могут основывать эти результаты на памяти, а не на умении: вместо того, чтобы учиться делать полезные предложения, модели часто вспоминают элементы из наборов данных, используемых для их оценки, что приводит к переоценке производительности и рекомендациям, которые могут быть устаревшими или плохо подобранными для пользователя.

В машинном обучении используется тестовый раздел, чтобы увидеть, научилась ли обученная модель решать проблемы, подобные, но не идентичные материалу, на котором она была обучена.

Так, если новая модель ИИ для распознавания пород собак обучена на наборе из 100 000 картинок собак, она обычно имеет раздел 80/20 – 80 000 картинок, предоставленных для обучения модели, и 20 000 картинок, отложенных и использованных в качестве материала для тестирования готовой модели.

Очевидно, что если в обучающих данных ИИ случайно включен “секретный” 20% раздел тестового раздела, модель пройдет эти тесты на отлично, потому что она уже знает ответы (она уже видела 100% области данных). Конечно, это не точно отражает, как модель будет работать позже, на новых “живых” данных, в производственной среде.

Спойлеры фильмов

Проблема с тем, что ИИ жульничает на своих экзаменах, выросла вместе с масштабом самих моделей. Поскольку современные системы обучаются на огромных, безразличных веб-скраппированных корпорах, таких как Common Crawl, возможность того, что наборы данных для оценки (т.е. отложенные 20%) попадут в тренировочную смесь, больше не является редким случаем, а является нормой – синдромом, известным как загрязнение данных; и в этом масштабе ручная курирование, которое могло бы поймать такие ошибки, логистически невозможно.

Этот случай исследуется в новой работе из Политехнического университета Бари, где исследователи фокусируются на чрезмерной роли одного набора данных для рекомендаций фильмов, MovieLens-1M, который они утверждают, был частично вспомнен несколькими ведущими моделями ИИ во время обучения.

Поскольку этот конкретный набор данных используется так широко при тестировании систем рекомендаций, его присутствие в памяти моделей потенциально делает эти тесты бессмысленными: то, что кажется интеллектом, может на самом деле быть простым воспоминанием, а то, что выглядит как интуитивное умение давать рекомендации, может быть просто статистическим эхом, отражающим более раннее воздействие.

Авторы утверждают:

‘Наши результаты демонстрируют, что БЯМ обладают обширными знаниями набора данных MovieLens-1M, охватывающими элементы, атрибуты пользователей и истории взаимодействий. Заметно, что простой запрос позволяет GPT-4o восстановить почти 80% записей MovieID::Title.

‘Ни одна из исследованных моделей не свободна от этих знаний, что предполагает, что данные MovieLens-1M, вероятно, включены в их наборы для обучения. Мы наблюдали подобные тенденции при извлечении атрибутов пользователей и историй взаимодействий.’

Краткая новая работа озаглавлена Запоминают ли БЯМ наборы данных для рекомендаций? Предварительное исследование MovieLens-1M, и исходит от шести исследователей Политехнического университета Бари. Конвейер для воспроизведения их работы был опубликован на GitHub.

Метод

Чтобы понять, действительно ли модели учатся или просто вспоминают, исследователи начали с определения того, что значит запоминание в этом контексте, и начали с проверки способности модели извлекать конкретные фрагменты информации из набора данных MovieLens-1M, когда она получает соответствующий запрос.

Если модель могла выдать название и жанр фильма по его ID, это считалось запоминанием элемента; если она могла сгенерировать подробности о пользователе (такие как возраст, профессия или почтовый индекс) по ID пользователя, это также считалось запоминанием пользователя; и если она могла воспроизвести рейтинг пользователя для следующего фильма из известной последовательности предыдущих, это считалось доказательством того, что модель может вспоминать конкретные данные о взаимодействии, а не учиться общим закономерностям.

Каждая из этих форм воспоминания проверялась с помощью тщательно составленных запросов, созданных для того, чтобы подтолкнуть модель без предоставления ей новой информации. Чем более точным был ответ, тем более вероятно было то, что модель уже встречала эти данные во время обучения:

Zero-shot prompting для протокола оценки, использованного в новой работе. Источник: https://arxiv.org/pdf/2505.10212

Данные и тесты

Чтобы создать подходящий набор данных, авторы провели опрос недавних работ из двух крупных конференций в этой области, ACM RecSys 2024 и ACM SIGIR 2024. MovieLens-1M появился наиболее часто, упомянутый в чуть более чем одной пятой заявок. Поскольку предыдущие исследования достигли подобных выводов, это не было неожиданным результатом, а скорее подтверждением доминирования набора данных.

MovieLens-1M состоит из трех файлов: Movies.dat, который перечисляет фильмы по ID, названию и жанру; Users.dat, который сопоставляет ID пользователей с основными биографическими полями; и Ratings.dat, который записывает, кто оценил что и когда.

Чтобы выяснить, была ли эта информация запомнена большими языковыми моделями, исследователи обратились к методам запросов, впервые представленным в работе Извлечение обучающих данных из больших языковых моделей, и позже адаптированным в последующей работе Набор трюков для извлечения обучающих данных из языковых моделей.

Метод прямой: задайте вопрос, который отражает формат набора данных, и посмотрите, ответит ли модель правильно. Zero-shot, Chain-of-Thought и few-shot prompting были протестированы, и было обнаружено, что последний метод, при котором модели показывают несколько примеров, был наиболее эффективным; даже если более сложные подходы могли бы дать более высокий recall, это было сочтено достаточным для раскрытия того, что было запомнено.

Few-shot prompt, используемый для тестирования способности модели воспроизвести конкретные значения MovieLens-1M при запросе с минимальным контекстом.

Чтобы измерить запоминание, исследователи определили три формы воспоминания: элемент, пользователь и взаимодействие. Эти тесты проверяли способность модели извлечь название фильма из его ID, сгенерировать подробности о пользователе из ID пользователя или предсказать рейтинг пользователя на основе предыдущих. Каждый был оценен с помощью метрики покрытия*, которая отражала, сколько набора данных можно было восстановить с помощью запросов.

Модели, протестированные в работе, были GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; и Llama-3.1 8B. Все они были запущены с температурой, установленной на ноль, top_p, установленным на один, и обоими частотой и присутствием штрафов, отключенных. Фиксированный случайный ключ обеспечил последовательный вывод на протяжении всех запусков.

Доля записей MovieLens-1M, извлеченных из movies.dat, users.dat и ratings.dat, с моделями, сгруппированными по версии и отсортированными по количеству параметров.

Чтобы проверить, насколько глубоко MovieLens-1M был усвоен, исследователи запросили каждую модель для точных записей из трех (вышеупомянутых) файлов набора данных: Movies.dat, Users.dat и Ratings.dat.

Результаты из начальных тестов, показанные выше, раскрывают резкие различия не только между семействами GPT и Llama, но и между моделями разных размеров. Хотя GPT-4o и GPT-3.5 turbo легко извлекают большие части набора данных, большинство открытых моделей вспоминают только часть того же материала, что предполагает неравномерное воздействие этого эталонного набора данных во время предварительного обучения.

Это не небольшие маржи. На протяжении всех трех файлов сильнейшие модели не просто превосходят более слабые, но и вспоминают целые части MovieLens-1M.

В случае GPT-4o покрытие было достаточно высоким, чтобы предположить, что значительная часть набора данных была直接 запомнена.

Авторы утверждают:

‘Заметно, что простой запрос позволяет GPT-4o восстановить почти 80% записей MovieID::Title. Ни одна из исследованных моделей не свободна от этих знаний, что предполагает, что данные MovieLens-1M, вероятно, включены в их наборы для обучения. Мы наблюдали подобные тенденции при извлечении атрибутов пользователей и историй взаимодействий.’

Далее исследователи проверили влияние запоминания на задачи рекомендаций, запросив каждую модель выступить в качестве системы рекомендаций. Чтобы оценить производительность, они сравнили вывод с семью стандартными методами: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; и Random.

Набор данных MovieLens-1M был разделен на 80/20 в обучающие и тестовые наборы, используя стратегию leave-one-out для имитации реального использования. Метрики, использованные для оценки, были Hit Rate (HR@[n]); и nDCG(@[n]):

Точность рекомендаций на стандартных базах и методах, основанных на БЯМ. Модели сгруппированы по семейству и упорядочены по количеству параметров, с жирными значениями, указывающими на最高 балл в каждой группе.

Здесь несколько больших языковых моделей превосходят традиционные базы по всем метрикам, с GPT-4o, устанавливающим широкий лидерство в каждом столбце, и даже средние модели, такие как GPT-3.5 turbo и Llama-3.1 405B, постоянно превосходят базовые методы, такие как BPRMF и LightGCN.

Среди более мелких вариантов Llama производительность варьировалась резко, но Llama-3.2 3B выделяется, с наивысшим HR@1 в своей группе.

Результаты, по мнению авторов, указывают на то, что запомненная информация может переводиться в измеримые преимущества в задачах рекомендаций, особенно для сильнейших моделей.

В дополнительном наблюдении исследователи продолжают:

‘Хотя производительность рекомендаций кажется исключительной, сравнение таблицы 2 с таблицей 1 раскрывает интересную закономерность. В каждой группе модель с более высоким запоминанием также демонстрирует лучшую производительность в задаче рекомендаций.

‘Например, GPT-4o превосходит GPT-4o mini, и Llama-3.1 405B превосходит Llama-3.1 70B и 8B.

‘Эти результаты подчеркивают, что оценка БЯМ на наборах данных, просочившихся в их обучающие данные, может привести к чрезмерно оптимистичной производительности, обусловленной запоминанием, а не обобщением.’

Что касается влияния масштаба модели на эту проблему, авторы наблюдали четкую корреляцию между размером, запоминанием и производительностью рекомендаций, при которой более крупные модели не только запоминали больше набора данных MovieLens-1M, но и демонстрировали более сильную производительность в задачах, следующих за обучением.

Llama-3.1 405B, например, показала среднюю скорость запоминания 12,9%, в то время как Llama-3.1 8B сохранила только 5,82%. Это почти 55% сокращение воспоминания соответствовало 54,23% падению nDCG и 47,36% падению HR на протяжении всех оценочных порогов.

Закономерность сохранялась на протяжении всего – где запоминание уменьшалось, так и производительность казалась:

‘Эти результаты предполагают, что увеличение масштаба модели приводит к большему запоминанию набора данных, в результате чего улучшается производительность.

‘Следовательно, хотя более крупные модели демонстрируют лучшую производительность рекомендаций, они также представляют риски, связанные с потенциальным утечкой обучающих данных.’

Окончательный тест проверил, отражает ли запоминание предвзятость популярности, встроенную в MovieLens-1M. Элементы были сгруппированы по частоте взаимодействия, и график ниже показывает, что более крупные модели последовательно отдают предпочтение наиболее популярным записям:

Покрытие элементов по модели в трех уровнях популярности: верхние 20% наиболее популярных; средние 20% умеренно популярных; и нижние 20% наименее взаимодействующих элементов.

GPT-4o извлекла 89,06% верхних элементов, но только 63,97% наименее популярных. GPT-4o mini и более мелкие модели Llama показали гораздо более низкое покрытие во всех диапазонах. Исследователи утверждают, что эта тенденция предполагает, что запоминание не только масштабируется с размером модели, но и усиливает пред существующие дисбалансы в обучающих данных.

Они продолжают:

‘Наши результаты раскрывают выраженную предвзятость популярности в БЯМ, где верхние 20% популярных элементов значительно легче извлекаются, чем нижние 20%.

‘Эта тенденция подчеркивает влияние распределения обучающих данных, где популярные фильмы пере представлены, что приводит к их непропорциональному запоминанию моделями.’

Вывод

Дилемма больше не нова: по мере роста обучающих наборов перспектива их курирования уменьшается в обратной пропорции. MovieLens-1M, возможно, среди многих других, входит в эти огромные корпорации без надзора, анонимно среди огромного объема данных.

Проблема повторяется на каждом масштабе и сопротивляется автоматизации. Любое решение требует не только усилий, но и человеческого суждения – медленного, ошибочного, которого машины не могут обеспечить. В этом отношении новая работа не предлагает никакого пути вперед.

* Метрика покрытия в этом контексте представляет собой процент, показывающий, сколько исходного набора данных языковая модель может воспроизвести, когда ей задается правильный вопрос. Если модель показана ID фильма и может выдать его название и жанр, это считается успешным воспоминанием. Общее количество успешных воспоминаний затем делится на общее количество записей в наборе данных, чтобы произвести оценку покрытия. Например, если модель правильно возвращает информацию для 800 из 1000 элементов, ее покрытие составит 80 процентов.

Опубликовано впервые в пятницу, 16 мая 2025 года