Anderson의 관점

대형 언어 모델은 테스트에 사용된 데이터셋을 암기하고 있다

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

AI를 통해 무엇을 시청하거나, 읽거나, 구매할지를 추천받는다면, 새로운 연구에 따르면 일부 시스템은 이러한 결과를 기억에서 가져오고 있을 수 있으며, 유용한 제안을 하는 방법을 배우는 대신에 모델은 평가에 사용된 데이터셋에서 항목을 회상하는 경우가 많아過度 평가 및 사용자와 잘 맞지 않거나 구식인 추천이 발생할 수 있다.

기계 학습에서 테스트 분할은 모델이 훈련에 사용된 자료와 동일하지만 동일하지 않은 문제를 해결하는 방법을 배웠는지 확인하는 데 사용된다.

따라서 새로운 AI ‘개 품종 인식’ 모델이 10만 개의 개 사진 데이터셋으로 훈련된 경우, 일반적으로 80/20 분할을 특징으로 하며, 8만 개의 사진이 모델을 훈련시키기 위해 제공되고, 2만 개의 사진이 테스트에 사용되는 자료로 유지된다.

명백히 말해서, AI의 훈련 데이터가意外로 ‘비밀’ 20% 테스트 분할을 포함하는 경우, 모델은 테스트에서 만점을 받게 되는데, 이는 이미 답을 알고 있기 때문이다(100%의 도메인 데이터를 이미 본 상태이다). 물론, 이는 모델이 나중에 실제 ‘실시간’ 데이터에서 생산 환경에서 수행할 수 있는 정도를 정확하게 반영하지 않는다.

영화 스포일러

AI가 시험에서 부정행위를 하는 문제는 모델 자체의 규모와 함께 성장했다. 오늘날의 시스템은 Common Crawl과 같은 방대한 웹 스크래핑 корпус로 훈련되기 때문에, 기준 데이터셋(즉, 보류된 20%)이 훈련 믹스에 포함되는 가능성이 더 이상 에지 케이스가 아니라 기본값이 되며, 이는 데이터 오염으로 알려진 증후군이다. 이러한 규모에서 이러한 오류를 포착할 수 있는 수동적인 큐레이션은 물리적으로 불가능하다.

이 경우는 이탈리아의 폴리테크니코 디 바리에서 새로운 논문에서 탐구되는데, 여기서 연구자들은 영화 추천 데이터셋인 MovieLens-1M의 비대칭적인 역할에 초점을 맞춘다. 그들은 여러 주요 AI 모델이 훈련 중에 부분적으로 기억했다고 주장한다.

이 특정 데이터셋이 추천 시스템의 테스트에 널리 사용되기 때문에, 모델의 메모리에서 그 존재는 테스트를 무의미하게 만들 수 있다. 지능으로 보이는 것은 실제로 단순한 회상일 수 있으며, 직관적인 추천 기술은 이전 노출을 반영하는 통계적 에코일 수 있다.

저자들은 다음과 같이 말한다:

‘우리의 발견은 LLM이 MovieLens-1M 데이터셋에 대한 광범위한 지식을 가지고 있으며, 항목, 사용자 속성, 상호작용 기록을 다루고 있다. 주목할 점은 간단한 프롬프트가 GPT-4o에 거의 80%의 영화 ID::제목 기록을 회복하도록 허용한다.

‘검토된 모델 중 어느 것도 이 지식에서 자유로우며, 이는 MovieLens-1M 데이터가 아마도 그들의 훈련 세트에 포함되어 있을 것임을 시사한다. 우리는 사용자 속성 및 상호작용 기록을 검색하는 것과 같은 경향을 관찰했다.’

간단한 새로운 논문은 LLM이 추천 데이터셋을 기억하는가? MovieLens-1M에 대한 예비 연구라는 제목으로, 폴리테크니코의 6명의 연구자로부터 나왔다. 그들의 작업을 재현하기 위한 파이프라인은 GitHub에 제공되었다.

방법

모델이本当に 학습했는지, 아니면 단순히 회상하는지 이해하기 위해, 연구자들은 먼저 이 контек스트에서 기억이 무엇인지 정의하기 시작했고, 모델이 MovieLens-1M 데이터셋에서 특정 정보 조각을 검색할 수 있는지 테스트했다.

모델이 영화 ID를 표시하고 제목과 장르를 생성할 수 있다면, 이는 항목을 기억하는 것으로 간주된다. 사용자 ID에서 사용자 세부 정보(예: 나이, 직업, 우편번호)를 생성할 수 있다면, 이는 사용자 기억으로 간주된다. 사용자가 알려진 이전 시퀀스에서 다음 영화 등급을 재현할 수 있다면, 이는 모델이 일반적인 패턴을 학습하는 대신 특정 상호작용 데이터를 회상할 수 있음을 나타낸다.

이러한 기억의 각 형태는 모델을 새로운 정보를 주지 않고 모델을 밀어붓는 프롬프트를 사용하여 테스트되었다. 응답이 정확할수록 모델이 이미 훈련 중에 해당 데이터를 만났을 가능성이 더 높다:

새로운 논문에서 사용된 평가 프로토콜을 위한 제로샷 프롬프팅. 출처: https://arxiv.org/pdf/2505.10212

데이터 및 테스트

적합한 데이터셋을 수집하기 위해, 저자들은 최근 두 개의 주요 컨퍼런스인 ACM RecSys 2024 및 ACM SIGIR 2024의 논문을 조사했다. MovieLens-1M은 약 5분의 1의 제출에서 가장 자주 등장했다. 이전 연구에서 비슷한 결론에 도달했기 때문에, 이는 놀라운 결과는 아니었지만, 데이터셋의 지배적인 지위를 확인하는 것이었다.

MovieLens-1M은 세 개의 파일로 구성된다: 영화.dat, 영화를 ID, 제목 및 장르로 나열한다. 사용자.dat, 사용자 ID를 기본적인 전기 필드로 매핑한다. 등급.dat, 누가 무엇을 평가하고, 언제 평가했는지 기록한다.

이 데이터가 대형 언어 모델에 의해 기억되었는지 여부를 확인하기 위해, 연구자들은 논문 대형 언어 모델에서 훈련 데이터 추출에서 처음 도입된 프롬프팅 기술을 사용했다. 이후 추가 연구 언어 모델에서 훈련 데이터 추출을 위한 트릭 모음에서 수정되었다.

방법은 직접적이다: 데이터셋 형식을 반영하는 질문을 하여 모델이 올바르게 응답하는지 확인한다. 제로샷, 사고 연쇄, few-shot 프롬프팅이 테스트되었으며, 모델에 몇 가지 예를 보여주는 마지막 방법이 가장 효과적인 것으로 판명되었다. 더 정교한 접근 방식은 더 높은 회상을 산출할 수 있지만, 기억된 내용을 보여주기에 충분하다고 간주되었다.

최소한의 컨텍스트로 모델이 특정 MovieLens-1M 값을 재현할 수 있는지 테스트하기 위한 few-shot 프롬프트.

기억을 측정하기 위해, 연구자들은 세 가지 형태의 회상을 정의했다: 항목, 사용자, 상호작용. 이러한 테스트는 모델이 영화 ID에서 영화 제목을 검색할 수 있는지, 사용자 ID에서 사용자 세부 정보를 생성할 수 있는지, 이전 평가를 기반으로 사용자의 다음 평가를 예측할 수 있는지 여부를 조사했다. 각 테스트는 모델이 데이터셋을 얼마나 재구성할 수 있는지 반영하는 커버리지 지표*를 사용하여 평가되었다.

테스트된 모델은 GPT-4o; GPT-4o 미니; GPT-3.5 터보; LLaMA-3.3 70B; LLaMA-3.2 3B; LLaMA-3.2 1B; LLaMA-3.1 405B; LLaMA-3.1 70B; 및 LLaMA-3.1 8B였다. 모두 온도를 0으로 설정하고, top_p를 1로 설정하고, 빈도수 및 존재성 페널티를 비활성화했다. 고정된 랜덤 시드는 일관된 출력을 보장했다.

movies.dat, users.dat 및 ratings.dat에서 검색된 MovieLens-1M 항목의 비율, 버전별로 그룹화되고 매개변수 수로 정렬됨.

MovieLens-1M이 얼마나 깊이 흡수되었는지 테스트하기 위해, 연구자들은 각 모델에 데이터셋의 세 파일(위에서 언급한 것과 같은)에서 정확한 항목을 프롬프트했다.

초기 테스트의 결과는 다음과 같이 나타났다.

여기서 몇몇 대형 언어 모델이 전통적인 기준선보다 모든 지표에서 더 나은 성능을 보였다. GPT-4o는 모든 열에서 넓은 리드를 확립했으며, 중간 크기의 모델인 GPT-3.5 터보와 LLaMA-3.1 405B는 일관되게 기준선 방법을 능가했다.

보다 작은 LLaMA 변형에서는 성능이 크게 달라졌지만, LLaMA-3.2 3B는 그룹에서最高의 HR@1을 기록했다.

연구자에 따르면, 결과는 기억된 데이터가 추천 스타일의 프롬프팅에서 측정 가능한 이점으로 변할 수 있음을 나타낸다. 특히 가장 강력한 모델의 경우 그렇다.

추가 관찰에서 연구자들은 다음과 같이 계속한다:

‘테이블 2와 테이블 1을 비교하면 흥미로운 패턴이 나타난다. 각 그룹에서 기억이 더 높은 모델은 추천 작업에서 더 나은 성능을 보여준다.

‘예를 들어, GPT-4o는 GPT-4o 미니를 능가하고, LLaMA-3.1 405B는 LLaMA-3.1 70B 및 8B를 능가한다.

‘이 결과는 평가를 위해 사용된 데이터셋이 모델의 훈련 데이터에 포함되어 있으면, 기억보다는 일반화로 인해 과적합된 성능이 발생할 수 있음을 강조한다.’

모델 크기와 이 문제 간의 상관관계에 대해, 연구자들은 모델 크기, 기억, 추천 성능 간에 명확한 상관관계를 관찰했다. 더 큰 모델은 MovieLens-1M 데이터셋을 더 많이 기억하고 있으며, 하위 작업에서도 더 잘 수행된다.

예를 들어, LLaMA-3.1 405B는 평균 기억률 12.9%를 보였지만, LLaMA-3.1 8B는 5.82%만 기억했다. 이는 기억의 약 55% 감소와 함께 평가 절단에서 nDCG 및 HR에서 54.23% 및 47.36%의 감소를 보였다.

이 패턴은 전체적으로 유지되었다. 기억이 감소할수록, 명백한 성능도 감소했다:

‘이 발견은 모델 크기를 증가시키면 데이터셋의 기억이 더 많이 증가하여 성능이 개선된다는 것을 시사한다.

‘따라서 더 큰 모델은 추천 성능이 더 좋지만, 훈련 데이터의 잠재적인 누출과 관련된 위험도 존재한다.’

최종 테스트는 기억이 MovieLens-1M에 내장된 인기 편향을 반영하는지 여부를 조사했다. 항목은 상호작용 빈도에 따라 그룹화되었으며, 아래 차트는 더 큰 모델이 일관되게 가장 인기 있는 항목을 선호한다는 것을 보여준다:

모델별 항목 커버리지, 상위 20% 가장 인기 있는 항목, 중간 20% 중간 인기 항목 및 하위 20% 최소 상호작용 항목.

GPT-4o는 상위 순위 항목의 89.06%를 검색했지만, 최소 인기 항목의 63.97%만 검색했다. GPT-4o 미니 및 더 작은 LLaMA 모델은 모든 밴드에서 훨씬 낮은 커버리지를 보였다. 연구자들은 이 경향이 기억이 모델 크기와 함께 증가하고, 훈련 데이터의 기존 불균형을 확대한다는 것을 시사한다.

그들은 다음과 같이 계속한다:

‘우리의 발견은 LLM에서 뚜렷한 인기 편향을 나타낸다. 상위 20% 인기 항목은 하위 20% 항목보다 훨씬 더 쉽게 검색된다.

‘이 경향은 훈련 데이터 분포의 영향을 강조한다. 여기서 인기 영화가 과도하게 표현되어 모델에 의해 불균형적으로 기억된다.’

결론

딜레마는 더 이상 새로운 것이 아니다. 훈련 세트가 커질수록, 그것들을 큐레이션할 가능성은 반비례하여 감소한다. MovieLens-1M은 아마도 다른 데이터셋과 함께, 방대한 데이터셋에 익명으로 들어간다.

문제는 모든 규모에서 반복되며, 자동화에 저항한다. 어떤 해결책도 노력뿐만 아니라 인간의 판단을 요구한다. 즉, 기계가 공급할 수 없는 느리고 오류가 많은 판단이다. 이 점에서 새로운 논문은 앞으로 나아갈 방법을 제공하지 않는다.

* 이 컨텍스트에서 커버리지 지표는 언어 모델이 질문에 대한 올바른 응답을 할 수 있는 데이터셋의 비율을 나타내는 百分比이다. 모델이 영화 ID를 표시하고 올바른 제목과 장르를 생성할 수 있다면, 이는 성공적인 회상으로 간주된다. 성공적인 회상의 총 수는 데이터셋의 항목 수로 나누어 커버리지 점수를 생성한다. 예를 들어, 모델이 1,000개 항목 중 800개 항목에 대한 정보를 올바르게 반환할 수 있다면, 커버리지는 80%가 된다.

처음 게시일: 2025년 5월 16일