인공지능

AI 기반 생성 글쓰기 모델은 자주 ‘복사 및 붙여넣기’를 합니다

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

미국의 연극 작가이자 기업가인 윌슨 미즈너(Wilson Mizner)는 souvent 유명한 인용문으로 “한 명의 저자로부터 훔치면 표절이지만, 많은 저자로부터 훔치면 연구”라고 말했습니다.

유사하게, 새로운 세대의 AI 기반 창조적 글쓰기 시스템에 대한 가정은 bahwa大量의 데이터가 훈련 단계에서 공급되면 높은 수준의 개념과 아이디어의 진정한 추상화가 발생하며, 이러한 시스템은 수천 명의 기여자 저자의 정제된 지혜를 사용할 수 있으며, 이러한 시스템을 사용하는 사람들은 의도하지 않게 표절을 하지 않는다는 것입니다.

그러나 페이스북과 마이크로소프트의 AI 연구 부서를 포함한 연구 컨소시엄의 새로운 논문은 GPT 시리즈와 같은 기계 학습 생성 언어 모델이 길고 매우 긴 구절을 복사하는 경우가 있다고发现했습니다.

일부 경우에, 저자들은 GPT-2가 출력에서 1,000 단어 이상의 훈련 세트를 복제한다는 것을 발견했습니다.

논문의 제목은 언어 모델이 훈련 데이터에서 얼마나 많이 복사하는가? RAVEN을 사용한 텍스트 생성의 언어적 нов기성 평가이며, 존스 홉킨스 대학교, 마이크로소프트 연구소, 뉴욕 대학교 및 페이스북 AI 연구소의 협력입니다.

RAVEN

이 연구는 새로운 접근 방식인 RAVEN(RAtingVErbalNovelty)을 사용하며, 이 약자는 고전적인 시의 비둘기 악당을 반영하기 위해 재미있게 조작되었습니다:

‘이 약자는 에드거 앨런 포의 “비둘기”를 참조하며, 여기서 рассказ는 인간이 말한 것을 단순히 반복하는지 또는 자신의 말(아마도 결합하여)을 구성하는지 알 수 없는 신비한 비둘기를 만납니다. 우리의 논문이 해결하는 동일한 기본적인 모호성입니다.’

新的 발견은 AI 콘텐츠 작성 시스템이 ‘단순한’ 편집 작업을 대체하고, 심지어 전체 콘텐츠를 작성하려고 하는 상황에서 주요 성장의 맥락에서 나옵니다. 이러한 시스템 중 하나는 이번 주 초에 2,100만 달러의 시리즈 A 자금을 받았습니다.

연구자들은 GPT-2가 ‘1,000 단어 이상의 훈련 구절을 복제’한다는 것을 발견했으며, 생성 언어 시스템은 소스 데이터의 언어적 오류를 전파합니다.

RAVEN에서 연구된 언어 모델은 GPT 시리즈의 릴리스(GPT-2까지, 저자들은 당시 GPT-3에 접근할 수 없었음), Transformer, Transformer-XL 및 LSTM입니다.

신기성

논문은 GPT-2가 부시 2 스타일의 변형 chẳng hạn như ‘스위스화’ 및 ‘아이케아-니스’를 만드는 것을 발견했으며, 이러한 새로운 단어(트레이닝 데이터에 없음)는 훈련 중에 설정된 높은 차원 공간의 언어적 원리에서 파생됩니다.

결과는 또한 Transformer-XL이 생성한 문장의 74%가 훈련 문장과 다른 구문 구조를 가지고 있으며, 저자들은 ‘신경망 언어 모델은 단순히 기억하지 않습니다. 대신熟悉한 부분을 새로운 방식으로 결합하는 생산적 과정들을 사용합니다.’라고 말합니다.

따라서 기술적으로 일반화와 추상화는 혁신적이고 새로운 텍스트를 생성해야 합니다.

데이터 중복이 문제일 수 있습니다

논문은 자연어 생성(NLG) 시스템에서 긴 구절과batim 인용이 원본 텍스트가 데이터셋에 여러 번 반복되는 경우 AI 모델에 ‘구워질’ 수 있다고 주장합니다.

다른 연구 프로젝트는 소스 텍스트가 데이터셋에 한 번만 나타나면 완전한 중복이 발생할 수 있다고 발견했지만, 저자들은 이 프로젝트가 일반적인 콘텐츠 생성 AI 시스템과 다른 개념적 아키텍처를 가지고 있다고 말합니다.

저자들은 언어 생성 시스템의 디코딩 구성 요소를 변경하면 신기성을 증가시킬 수 있지만, 이는 출력 품질의 손실로 발생한다는 것을 발견했습니다.

さらに, 콘텐츠 생성 알고리즘을 구동하는 데이터셋이 점점 더 커짐에 따라 더 많은 문제가 발생합니다. 데이터 전처리, 품질 보증 및 데이터 중복 제거의 비용과 실용성 문제 외에도, 많은 기본 오류가 소스 데이터에 남아 있으며, 이는 AI에 의해 생성된 콘텐츠 출력으로 전파됩니다.

저자들은 다음과 같이 말합니다:

‘최근 훈련 세트 크기의 증가로 인해 novelty를 확인하는 것이 특히 중요합니다. 훈련 세트의 규모는 자연적으로 발생하는 것을 예상하는 우리의 직관을 깨뜨릴 수 있습니다. 예를 들어, 언어 습득에 대한 일부 주목할만한 연구는 불규칙한 동사의 정칙적인 과거 시제 형식(예: becomed, teached)이 학습자의 경험에 나타나지 않는다는 가정에 의존합니다. 따라서 학습자가 이러한 단어를 생성하면 그것은 학습자에게 새로운 것입니다. ‘

‘그러나 영어의 92개의 기본 불규칙 동사 모두에 대해, 잘못된 정칙적인 형태가 GPT-2의 훈련 세트에 나타납니다.’

더 많은 데이터 큐레이션이 필요합니다

논문은 생성 언어 시스템의 형성에서 신기성에 더 많은 주의를 기울여야 한다고 주장하며, 특히 테스트에 사용되는 데이터의 ‘제외’ 부분(최종 알고리즘이 주요 훈련 데이터를 평가하는 방법을 테스트하는 데 사용되는 소스 데이터의 부분)이 작업에 적합하도록 해야 합니다.

‘기계 학습에서 모델을 평가하기 위해 제외된 테스트 세트를 사용하는 것이 중요합니다. 텍스트 생성의 개방형 특성으로 인해 모델의 생성된 텍스트는 훈련 세트에서 복사될 수 있으며, 이 경우 모델을 평가하는 것은(예: 일관성 또는 문법에 대한 평가) 유효하지 않습니다.’

저자들은 또한 언어 모델의 생성에 더 많은 주의가 필요하다고 주장하며, 엘리자 효과라는 1966년에 확인된 증후군으로 인해 컴퓨터가 문자열을 생성할 때 사람들은 정당한 이해보다 더 많은 이해를 읽을 수 있습니다.

* 인라인 인용문을 하이퍼링크로 변환

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

AI 기반 생성 글쓰기 모델은 자주 ‘복사 및 붙여넣기’를 합니다

RAVEN

신기성

데이터 중복이 문제일 수 있습니다

더 많은 데이터 큐레이션이 필요합니다

You may like