Погляд Anderson

Великі мови моделі запам’ятовують набори даних, призначені для їх тестування

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Якщо ви покладаєтесь на штучний інтелект, щоб порекомендувати, що дивитися, читати чи купувати, нове дослідження вказує на те, що деякі системи можуть базувати ці результати на пам’яті, а не на умі: замість того, щоб навчатися давати корисні поради, моделі часто згадують елементи з наборів даних, використаних для їх оцінки, що призводить до переоцінки результатів і рекомендацій, які можуть бути застарілими або погано підходити користувачеві.

У машинному навчанні використовується тестове розділення, щоб побачити, чи навчена модель навчилася розв’язувати проблеми, подібні, але не ідентичні матеріалу, на якому вона була навчена.

Так, якщо нова модель розпізнавання порід собак навчена на наборі з 100 000 зображень собак, вона зазвичай має розбивку 80/20 – 80 000 зображень надаються для навчання моделі; і 20 000 зображень утримуються та використовуються як матеріал для тестування готової моделі.

Очевидно, що якщо навчальні дані штучного інтелекту випадково включають “таємну” 20% частину тестового розділення, модель буде успішно проходити ці тести, оскільки вона вже знає відповіді (вона вже бачила 100% даних домену). Очевидно, що це не точно відображає, як модель буде працювати пізніше, на нових “живих” даних, у виробничому контексті.

Спойлери фільмів

Проблема того, що штучний інтелект здуває на своїх іспитах, виросла разом з масштабом самих моделей. Через те, що сучасні системи тренуються на величезних, нерозбірливих веб-корпусах, таких як Common Crawl, можливість того, що набори даних для оцінки (тобто утримані 20%) потрапляють у навчальний мікс, вже не є винятковим випадком, а нормою – синдромом, відомим як забруднення даних; і у цьому масштабі ручна кураторія, яка могла б викрити такі помилки, логістично неможлива.

Цей випадок досліджується у новій роботі Італійського політехнічного університету Барі, де дослідники фокусуються на надмірній ролі одного набору рекомендацій фільмів, MovieLens-1M, який вони стверджують, був частково запам’ятований декількома провідними моделями штучного інтелекту під час навчання.

Через те, що цей конкретний набір даних використовується дуже широко при тестуванні систем рекомендацій, його присутність у пам’яті моделей потенційно робить ці тести безсенсними: те, що здається інтелектом, може бути просто запам’ятовуванням, а те, що виглядає як інтуїтивна рекомендаційна здібність, може бути просто статистичним ехом, що відображає попереднє знання.

Автори заявляють:

‘Наші висновки демонструють, що великі мови моделі володіють широкими знаннями набору даних MovieLens-1M, що охоплює елементи, атрибути користувачів та історії взаємодій.

‘Помітно, що проста підказка дозволяє GPT-4o відновити майже 80% записів MovieID::Title. Жодна з досліджених моделей не вільна від цих знань, що свідчить про те, що дані MovieLens-1M, ймовірно, включені до їхніх навчальних наборів.

‘Ми спостерігали подібні тенденції при відновленні атрибутів користувачів та історій взаємодій.’

Нова робота названа Чи запам’ятовують великі мови моделі набори рекомендацій? Попереднє дослідження MovieLens-1M, і походять від шести дослідників Політехнічного університету Барі. Потік для відтворення їхньої роботи доступний на GitHub.

Метод

Щоб зрозуміти, чи дійсно моделі навчаються, чи просто згадують, дослідники почали з визначення того, що означає запам’ятовування в цьому контексті, і почали з тестування того, чи може модель відновити конкретні частини інформації з набору даних MovieLens-1M, коли її запитують правильним чином.

Якщо модель могла повернути назву фільму та жанр за його ідентифікатором, це вважалося запам’ятовуванням елементу; якщо вона могла згенерувати деталі про користувача (такі як вік, професія чи поштовий індекс) з ідентифікатора користувача, це також вважалося запам’ятовуванням користувача; і якщо вона могла відновити рейтинг користувача за відомою послідовністю попередніх рейтингів, це вважалося свідченням того, що модель може згадувати конкретні дані взаємодій, а не навчатися загальних закономірностей.

Кожен з цих форм згадування тестувався за допомогою спеціально написаних підказок, створених для того, щоб підштовхнути модель без надання їй нової інформації. Чим точніша відповідь, тим більша ймовірність того, що модель вже зустрічала ці дані під час навчання:

Zero-shot prompting for the evaluation protocol used in the new paper. Source: https://arxiv.org/pdf/2505.10212

Дані та тести

Щоб створити відповідний набір даних, автори провели опитування недавніх робіт з двох основних конференцій галузі, ACM RecSys 2024 , і ACM SIGIR 2024. MovieLens-1M з’явився найчастіше, згаданий у понад одному з п’яти підходів. Оскільки ранішні дослідження прийшли до подібних висновків, це не був несподіваний результат, а скоріше підтвердження домінування набору даних.

MovieLens-1M складається з трьох файлів: Movies.dat, який перелічує фільми за ідентифікатором, назвою та жанром; Users.dat, який відображає ідентифікатори користувачів на базові біографічні поля; і Ratings.dat, який реєструє, хто оцінював що, і коли.

Щоб дізнатися, чи було це дані запам’ятовані великими мовними моделями, дослідники звернулися до методів підказок, вперше введених у роботі Вилучення навчальних даних з великих мовних моделей, і пізніше адаптованих у пізнішій роботі Колекція трюків для витягування навчальних даних з мовних моделей.

Метод прямий: поставте питання, яке відображає формат набору даних, і подивіться, чи відповідає модель правильно. Zero-shot, Chain-of-Thought, і few-shot prompting були протестовані, і було виявлено, що останній метод, при якому модель показується кілька прикладів, був найефективнішим; навіть якщо більш складні підходи могли б дати вищу згадку, це було достатньо, щоб показати, що було запам’ятовано.

Few-shot prompt used to test whether a model can reproduce specific MovieLens-1M values when queried with minimal context.

Щоб виміряти запам’ятовування, дослідники визначили три форми згадування: елемент, користувач, і взаємодія. Ці тести перевіряли, чи може модель відновити назву фільму з його ідентифікатора, згенерувати деталі про користувача з ідентифікатора користувача, або передбачити рейтинг користувача на основі попередніх рейтингів. Кожен був оцінений за допомогою метрики покриття*, яка відображала, яку частину набору даних можна було відновити за допомогою підказок.

Моделі, які були протестовані, були GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; і Llama-3.1 8B. Всі вони були запущені з температурою, встановленою на нуль, top_p, встановленим на один, і обома частотою та присутністю штрафів, відключених. Фіксований випадковий засів забезпечував послідовний вивід на всіх проходах.

Пропорція записів MovieLens-1M, відновлених з movies.dat, users.dat та ratings.dat, з моделями, згрупованими за версією та відсортованими за кількістю параметрів.

Щоб з’ясувати, наскільки глибоко MovieLens-1M був засвоєний, дослідники підказали кожній моделі точні записи з трьох (вище згаданих) файлів: Movies.dat, Users.dat, і Ratings.dat.

Результати початкових тестів, показані вище, розкривають різкі відмінності не тільки між сім’ями GPT і Llama, але також між моделями різних розмірів. Хоча GPT-4o і GPT-3.5 turbo легко відновлюють великі частини набору даних, більшість відкритих моделей відновлює лише частину матеріалу, що свідчить про нерівномірну експозицію цього бенчмарку під час попереднього навчання.

Ці результати не є малими. По всім трьом файлам найсильніші моделі не просто перевершували слабші, а відновлювали цілі частини MovieLens-1M.

У випадку з GPT-4o покриття було достатньо високим, щоб припустити, що суттєва частина набору даних була безпосередньо запам’ятована.

Автори заявляють:

‘Ми спостерігали подібні тенденції при відновленні атрибутів користувачів та історій взаємодій.’

Далі автори протестували вплив запам’ятовування на завдання рекомендацій, підказавши кожній моделі виступити як система рекомендацій. Для оцінки продуктивності вони порівняли вивід проти семи стандартних методів: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; і Random.

Набір даних MovieLens-1M був розділений на 80/20 на навчальні та тестові набори, використовуючи стратегію leave-one-out для імітації реального використання. Метрики, які були використані, були Hit Rate (HR@[n]); і nDCG(@[n]):

Точність рекомендацій на стандартних базових лініях і методах, заснованих на LLM. Моделі згруповані за сім’єю та впорядковані за кількістю параметрів, з жирними значеннями, що вказують на найвищий бал у кожній групі.

Тут кілька великих мовних моделей перевершують традиційні базові лінії по всіх метриках, причому GPT-4o встановлює широкий лідерство у кожному стовпчику, а навіть середні моделі, такі як GPT-3.5 turbo і Llama-3.1 405B, постійно перевершують базові методи, такі як BPRMF і LightGCN.

У числі менших варіантів Llama性能 різко змінюється, але Llama-3.2 3B виділяється найвищим HR@1 у своїй групі.

Результати, стверджують автори, свідчать про те, що запам’ятовані дані можуть перекладатися у вимірювані переваги у завданнях рекомендацій, особливо для найсильніших моделей.

У додатковому спостереженні дослідники продовжують:

‘Хоча продуктивність рекомендацій здається видатною, порівняння таблиці 2 з таблицею 1 розкриває цікавий шаблон. У кожній групі модель з вищим запам’ятовуванням також демонструє вищу продуктивність у завданнях рекомендацій.

‘Наприклад, GPT-4o перевершує GPT-4o mini, а Llama-3.1 405B перевершує Llama-3.1 70B і 8B.

‘Ці результати підкреслюють, що оцінка великих мовних моделей на наборах даних, виточених у їхніх навчальних даних, може привести до надто оптимістичної продуктивності, спричиненої запам’ятовуванням, а не узагальненням.’

Щодо впливу масштабу моделі на цю проблему, автори спостерігали чітку кореляцію між розміром, запам’ятовуванням і продуктивністю рекомендацій, причому більші моделі не тільки зберігали більше даних набору MovieLens-1M, але також виконували сильніше у задачах нижнього рівня.

Llama-3.1 405B, наприклад, показала середній рівень запам’ятовування 12,9%, тоді як Llama-3.1 8B зберігала лише 5,82%. Це майже 55% зниження запам’ятовування відповідало 54,23% зниженню nDCG і 47,36% зниженню HR по всіх оціночним межам.

Цей шаблон зберігався на всіх рівнях – де запам’ятовування знижувалося, там же знижувалася і очевидна продуктивність:

‘Ці висновки свідчать про те, що збільшення масштабу моделі призводить до більшого запам’ятовування набору даних, що призводить до покращення продуктивності.

‘Отже, хоча більші моделі демонструють вищу продуктивність рекомендацій, вони також несуть ризики, пов’язані з потенційним витоком навчальних даних.’

Останній тест перевірив, чи відображає запам’ятовування популярність, закладену у MovieLens-1M. Елементи були згруповані за частотою взаємодій, і нижче показана діаграма свідчить про те, що більші моделі послідовно віддавали перевагу найбільш популярним записам:

Покриття елементів за моделлю у трьох рівнях популярності: верхніх 20% найбільш популярних; середніх 20% помірно популярних; і нижніх 20% найменш взаємодіючих елементів.

GPT-4o відновила 89,06% верхніх елементів, але тільки 63,97% найменш популярних. GPT-4o mini і менші моделі Llama показали значно нижче покриття по всіх смугах. Дослідники стверджують, що ця тенденція свідчить про те, що запам’ятовування не тільки масштабується з розміром моделі, але також посилює попередні дисбаланси у навчальних даних.

Вони продовжують:

‘Наші висновки розкривають виражену популярність у великих мовних моделях, причому верхні 20% популярних елементів значно легше відновлюються, ніж нижні 20%.

‘Ця тенденція підкреслює вплив розподілу навчальних даних, де популярні фільми перебільшені, що призводить до їхньої непропорційної запам’ятовки моделями.’

Висновок

Ділема вже не нова: коли навчальні набори зростають, перспектива їх кураторії зменшується у зворотній пропорції. MovieLens-1M, можливо, серед багатьох інших, потрапляє у ці величезні корпуси без нагляду, анонімно серед величезної кількості даних.

Проблема повторюється на кожному рівні і опирається автоматизації. Будь-яке рішення вимагає не тільки зусиль, але й людської уваги – повільної, ненадійної, яку машини не можуть забезпечити. У цьому відношенні нова робота не пропонує жодного шляху вперед.

* Метрика покриття в цьому контексті є відсотком, який показує, яку частину оригінального набору даних мовна модель може відновити, коли її запитують правильним чином. Якщо модель відповідає правильно на запит про ідентифікатор фільму, це вважається успішним запам’ятовуванням; якщо вона може повернути інформацію про користувача, це також вважається запам’ятовуванням користувача; і якщо вона може відновити рейтинг користувача за відомою послідовністю попередніх рейтингів, це вважається свідченням того, що модель може згадувати конкретні дані взаємодій, а не навчатися загальних закономірностей.

Перше опубліковане у п’ятницю, 16 травня 2025

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Великі мови моделі запам’ятовують набори даних, призначені для їх тестування

Спойлери фільмів

Метод

Дані та тести

Висновок

You may like