Anderson์ ๊ด์
AI, ๋ฑ๋์ง๊ธฐ์ ๋ํ ์ฌ๋์ ์์ผ๊น?

문장을 작성하라는 요청에 ChatGPT와 다른 주요 언어 모델은 저작권 침해를 피하기 위해 등대지기, 어민, 시계제조자와 같은 동일한 작은 캐릭터와 테마를 사용하는 것으로 보입니다.
콘奈尔 대학교의 새로운 연구에 따르면 주요 언어 모델은 ‘문장을 작성하십시오’라는 요청에 대해 매우狭い 선택의 범위 내에서 이야기 요소를 사용하는 것으로 보입니다. 4개의 LLM에 20,000개의 이야기를 작성하도록 요청한 결과, 88%의 이야기가 위치, 이름, 또는 직업의 범주에서 11개의 매우 구체적인 토큰 중 하나 이상을 포함하는 것으로 나타났습니다.

연구자들의 분석에 따르면 20,000개의 LLM 생성 이야기에서 불가능한 키워드의 발생 빈도, 백만 단어당. 출처
20,000개의 이야기에서 가장 자주 발생하는 11개의 단어는 엘리아스, 마라, 엘라라라는 이름과 지키는 사람, 제빵사, 시장, 시계제조자, 어민, 도서관 사서, 지휘자라는 직업과 등대라는 장소입니다.
테스트에 사용된 모델은 클라우드 하이쿠 4.5, 제미니 3.1 플래시 라이트, GPT-5.4-미니 및 OLMo 7b Thinking이었습니다. 모든 모델은 이야기를 작성하십시오, 제발 이야기를 작성하십시오, 저에게 이야기를 작성하십시오, 저에게 이야기를 해주세요 또는 제발 이야기를 해주세요 중 하나의 요청을 받았습니다.
저는 이 현상을 확인하기 위해 ChatGPT와 Anthropic의 Claude Sonnet 4.6을 테스트했습니다. 결과는 연구자들의 발견과 일치했습니다.

ChatGPT-5.5는 연구자들의 초기 발견을 즉시 뒷받침했습니다. 출처
이러한 반복되는 주제, 이름 및 장소가 실제로 채팅 밖으로 나와 있는지 확인하기 위해 저는 일부 상위 키워드와 주제를 구글에서 검색했습니다. 결과는 놀라웠습니다.

웹에서 발견된 3개의 예제. 자세한 내용은 아래의 출처 링크를 참조하십시오.
야생의 등대
위대한 마음은 비슷합니다. 1주일 전, 새로운 논문의 출판 이전에, 소프트웨어 작가 다니엘 메이는 등대지기와 엘리아스라는 이름의 우연한 일치점을 지적했습니다. 그는 또한 이 발견을 확장하기 위해 Gemini, DeepSeek, Qwen 및 Gemma의 8가지 변형을 테스트했습니다.
저는 이러한 반복되는 주제, 이름 및 장소가 실제로 채팅 밖으로 나와 있는지 확인하기 위해 일부 상위 키워드와 주제를 구글에서 검색했습니다. 결과는 놀라웠습니다.

이 예제는 논문에서 Google Gemini 3.1 Flash-Lite가 ‘이야기를 작성하십시오’라는 요청에 대한 응답으로 작성되었습니다.
과거의 맛
이제까지의 관찰과 우연은 충분합니다. 새로운 논문의 저자들은 논문(제목: 엘리아스와 등대, 다시? LLM 이야기의 낮은 다양성 진단, 코넬 대학교의 2명의 연구자에서)에서 저작권 필터가 LLM의 허구 출력을 저작권이 없는 자료로 제한할 수 있다고 이론화합니다.
저자들은 다음과 같이 말합니다.
‘“엘리아스와 등대” 이야기의 지배는 사전 또는 사후 교육 데이터에서 발생하지 않는다. 우리는 모델이 정렬 중에 저작권 침해와 성인 콘텐츠를 피하도록 훈련되는 동안 이러한 질문을 미래의 연구에 넘기겠습니다.’
| 카테고리 | 토큰 | 우리의 | 문학 | 사전 비문학 | 사전 허구 | 사후 비문학 | 사후 허구 |
|---|---|---|---|---|---|---|---|
| 이름 | 엘리아스 | 2,428 | 2.7 | 2.2 | 4.0 | 0.4 | 52.7 |
| 이름 | 마라 | 5,200 | 3.9 | 2.5 | 8.7 | 0.4 | 21.7 |
| 이름 | 엘라라 | 1,221 | 0.0 | 0.4 | 1.2 | 0.9 | 108 |
| 직업 | 지키는 사람 | 1,495 | 7.2 | 6.3 | 14.7 | 3.5 | 10.0 |
| 직업 | 제빵사 | 161 | 20 | 11.8 | 10.56 | 1.7 | 11.9 |
| 직업 | 시장 | 198 | 28 | 11.5 | 16.1 | 1.4 | 27.4 |
| 직업 | 시계제조자 | 108 | 0.1 | 0.18 | 0.0 | 0.3 | 1.4 |
| 직업 | 어민 | 62 | 4.2 | 3.0 | 7.6 | 0.0 | 9.3 |
| 직업 | 도서관 사서 | 68 | 5.3 | 7.6 | 5.9 | 2.3 | 11.5 |
| 직업 | 지휘자 | 96 | 5.0 | 5.9 | 5.7 | 4.7 | 7.5 |
| 장소 | 등대 | 3,005 | 5.5 | 3.5 | 4.6 | 4.6 | 10.1 |
비교 표: LLM 생성 이야기에서 반복되는 단어의 빈도, 출판된 문학, 웹 허구 및 사후 교육 데이터와 비교.
저자들은 또한 LLM이 저작권 침해를 피하기 위해 훈련될 수 있다고 이론화합니다.
특성 추적
반복되는 ‘등대’ 이야기들이 일반적인 노출로 설명될 수 있는지 테스트하기 위해, 모델의 반복되는 단어와 여러 대형 영어 언어 코퍼스 사이의 비교가 이루어졌습니다. CONLIT 데이터셋을 통해 현대 허구를 조사했습니다.
엘리아스는 출판된 허구에서 약 900배 더 자주 발생했습니다.
사전 교육 데이터를 조사한 결과, OLMo 3 코퍼스를 사용하여 반복되는 ‘코어’ 단어가 거의 나타나지 않는 것으로 나타났습니다.
저자들은 다음과 같이 말합니다.
‘코어 단어가 웹 데이터에서 거의 나타나지 않는다면, 남은 유일한 출처는 사후 교육 데이터입니다. 그러나 우리는 OLMo의 사후 교육 데이터에서 우리의 토큰이 CONLIT보다 더 낮은 속도로 발생한다는 것을 발견했습니다.’
결론
저자들의 연구에서 발견된 특정 단어와 주제의 모음이 어떻게 이런 식으로 누적되고 연관되는지 명확하지 않습니다. 저작권 필터의 제한 효과에 대한 저자들의 주장이 맞다면, 방대한 양의 고전 문학이 훈련 데이터에 포함되지 않았을 가능성이 있습니다.
이론에 따르면, 등대와 같은 특정 장소, 엘리아스와 같은 이름, 지키는 사람과 같은 직업이 반복적으로 나타나는 이유는 저작권 침해를 피하기 위한 훈련 때문일 수 있습니다.
그러나 이러한 이론이 사실이라면, 등대와 같은 특정 장소, 엘리아스와 같은 이름, 지키는 사람과 같은 직업이 반복적으로 나타나는 이유는 저작권 침해를 피하기 위한 훈련 때문일 수 있습니다.
등대 현상이 AI 에м 대시와 같은 유명세를 얻으면, 어떤 학술적 권위가 앞으로 답을 제시할 것입니다. * 저는 메이의 기사에 더 이상 들어가지 않을 것입니다. 이유는 읽을 때 명백해질 것입니다. 최초로 게시된 날짜는 2026년 5월 27일입니다. Anthropic 링크를 수정하기 위해 30분 이내에 수정되었습니다.












