Anderson의 관점

AI 모델은 인간이 작성한 글을 AI가 생성한 글보다 선호한다

게시일 2025년 10월 13일

업데이트일 2026년 5월 17일

작성자

Martin Anderson

William Shakespeare arm-wrestling a robot. The style should not be illustration-type, nor cartoonish, but instead, photorealistic, in the style of a publicity photo for Real Steel' + variations. GPT-4o, Flux Kontext, Firefly.

새로운 연구에 따르면 ChatGPT와 같은 모델은 인간이 작성한 것으로 믿는 텍스트를 선호하는明显한 편향을 보인다. 단순히 텍스트를 ‘인간이 만든’이라고 표시하면 AI 모델이 그것을 선호하게 된다. 그리고 아이러니하게도, 이러한 편향은 우리가 그들에게 이러한 편견을 가르친 것일 수 있다.

진짜성, 출처, 공유된 인간의 경험과 같은 개념은 창의적인 글쓰기 분야에서 AI의 공격에보다 큰 역할을 할 수 있다. 프린스턴에서 수행된 새로운 연구에 따르면, ChatGPT를 포함한 주요 폐쇄형 및 오픈 소스 언어 모델은 모두 ‘인간이 생성한’ 텍스트를 선호한다.

라벨이 반대로 표시되어도, AI 모델과 인간 참가자 모두가 AI 작성된 텍스트를 비판하는 동일한 비판을 계속했다.

연구자들은 이러한 이유 중 하나는 인간이 생성된 AI에 대한 증거하는 적대감이 AI 시스템 자체에 영향을 미칠 수 있다고 믿는다. AI가 인간보다 더 많은 편향을 보인다는 것을 주목하면서, 다음과 같이 말한다:

‘우리가 테스트한 13개의 AI 모델은 34.3 퍼센트 포인트의 편향을 보였으며, 이는 인간의 13.7 퍼센트 포인트보다 2.5 배 더 컸다. 이는 AI 모델이 인간 평가자보다 속성 큐에 더 민감하다는 것을 의미한다.

‘이 증폭은 현대 모델이 선호도-훈련 평가자라는 것을 인식할 때 의미를 가진다. 강화 학습을 통해 인간의 피드백에서 학습된 모델은 인간의 판단을 그들의 금본으로 간주하도록 가르친다. 이는 모델이 인간의 기대에 순응하도록 만든다.

‘모델은 인간의 선호도에 대한 보상을 받기 위해 인간의 기대에 순응하도록 학습한다. 이것은 모델이 독립적인 평가를 제공하는 대신 사용자의 태도를 반영하도록 만든다.

이 발견은 창의적인 글쓰기 분야에 적용되며, 연구자들은 프랑스 작가의 이야기를 데이터 샘플로 사용했다. 이것은 인간의 편향이 AI의 언어構築能力의 양적인 개선보다 더 크게 영향을 미칠 수 있다.

이러한 이유 중 많은 부분은 문화적 관행과 사용에 관한 것이다. 논문은 창의성이 새로운 것, 전문가에 의해 평가되는 것, 그리고 그 범주에 잘 맞는 것과 같은 용어로 설명된다고 나타낸다. 텍스트가 ‘인간이 작성한’ 것으로 표시되면, 익숙한 장르 특징이 가치 있는 것으로 간주된다. 그러나 ‘AI 생성’으로 표시되면, 동일한 특징이 원래의 것이 아닌 것으로 간주된다.

효과적으로, 출처를 표시하면 작품의 가치에 대한 재평가를促す. 한번 AI 저자가 공개되면, 독자들은 개인적인 발견이나 의도 뒤에 있는 가능성을本能적으로 거부한다.

이 논문은 모두가 인간 작가를 선호한다, 포함하여 AI라는 제목으로 프린스턴 대학교 디지털 인문학 센터의 두 연구자에 의해 수행되었다. 이 연구는 관련 데이터 릴리즈와 함께 제공된다.

방법

저자들은 어떻게 속성 큐가 스타일과 창의성에 대한 인식을 형성하는지 탐구하기 위해 Exercices de style을 사용했다. 이 책은 1947년에 Raymond Queneau에 의해 쓰여졌으며, 단순한 이야기를 99가지 다른 스타일로 다시 썼다.

이 구조는 현대 언어 모델에서.prompt-기반 변환을 예상한다. 사용자는 특정 톤, 목소리 또는 레지스터에서 다시 작성하도록 요청한다. 이 프로세스는曾经 transstylization이라고 불렸다. 이는 현재 AI 연구에서 스타일 전송의 맥락에서 반영된다.

Queneau의 작품에서 30개의 연습을 선택하여, 이야기와 다양한 스타일을 보존했다. 이것은 제한된 형식, 등록 변경, 내러티브 시프트, 그리고 스푼리즘, 오노마토페아, 또는 狗 라틴과 같은 재생산을 포함했다:

연구에서 GPT-4가 Queneau의 이야기들을 다른 문학 스타일로 다시 작성한 예시, 테스트 중에 인간과 AI 평가자가 본 스타일 설명과 함께 나란히 표시됨. 출처: https://arxiv.org/pdf/2510.08831

Queneau의 실험은 분류하기 어렵다. 이러한 범주는 약간의 그룹화일 뿐이며, 인식 가능성이나 장르 준수를 테스트하는 것이 아니라, 다양한 조건에서 (인간) 독자와 모델이 편향을 드러낼 수 있도록 하기 위한 것이다.

각 모델에 대해, 연구자들은 의도적으로 최소한의 프롬프트를 사용했다. 각 모델은 Queneau의 가장 평범한 버전의 이야기를 받았으며, 특정 스타일로 다시 작성하도록 지시했다. 이 접근 방식은 Queneau의 원래 변환의 정신을 반영하는 프롬프트를 허용했다.

이중 시각

저자들이 수행한 첫 번째 연구는 GPT-4o를 사용하여 30개의 스타일 변형을 생성했다. 가장 발전된 모델이었기 때문에, 일관된 출력을 보장했다.

출력은 스타일이나 톤을 편집하지 않았다. 프레임의 잔해를 제거한 것 외에는:

두 번째 연구에서는 13개의 대규모 언어 모델을 사용했다: Qwen 2.5 72B Instruct, Mistral Nemo, Mistral Medium 3, Llama 4 Maverick, Llama 3.3 70B Instruct, Gemini 2.5 Flash, GPT-4o Mini, GPT-4o, GPT-3.5 Turbo Instruct, DeepSeek RI (0528), DeepSeek Chat v3 (0324), Cohere Command R (08-2024), Claude Sonnet 4, 및 Claude 3.5 Haiku.

각 모델은 동일한 지시를 받았으며, 30개의 연습을 자신의 버전으로 생성했다. 총 420개의 다시 작성된 이야기가 생성되어, 연구자들이 다양한 AI 저자에 대한 속성 효과를 테스트할 수 있도록 했다.

데이터 및 테스트

연구자들은 동일한 이야기 쌍을 다른 사람들에게 보여주었지만, 저자의 이름을 변경하여 라벨이 어떻게 의견을影响하는지 보았다: 한 그룹은 저자 이름을 전혀 볼 수 없었다. 두 번째 그룹은 올바른 이름을 보았으며, 하나는 인간이 작성한 것으로 표시되고, 다른 하나는 GPT-4o에 의해 작성된 것으로 표시되었다.

세 번째 그룹은 이름을 바꿨다. ‘AI’ 이야기는 ‘인간’으로 표시되고, ‘인간’ 버전은 ‘AI’로 표시되었다:

연구 1 개요. 인간과 AI 심판자는 30개의 이야기 쌍을 비교했으며, 각 쌍에는 Queneau와 GPT-4의 버전이 포함되었다. 심판자는 세 그룹으로 나누어졌으며, 한 그룹은 저자 이름을 볼 수 없었고, 다른 그룹은 올바른 이름을 보았으며, 세 번째 그룹은 이름을 바꿨다.

연구 1

연구자들은 30개의 생성된 스타일을 더 작은 집합으로 나누었으며, 각 연구 참가자는 5개의 스타일만 보았다. 각 스타일은 세 가지 라벨링 설정에서 테스트되었다.

각 참가자는 하나의 라벨링 설정만 보았다. 블라인드 그룹은 AI에 대한 언급이 없었으며, 다른 그룹은 올바른 또는 반전된 저자 이름을 보았다. 그룹 할당, 이야기 순서 및 왼쪽-오른쪽 배치 모두 무작위로 설정되었다.

AI 모델도 동일한 프로세스를 거쳤다. 각 모델은 동일한 스타일과 무작위로 설정된 순서를 받았다. 각 테스트는 모델당 세 번씩 반복되어 결과가 일관된지 확인할 수 있었다. 이는 인간과 AI의 반응을 저자 이름에 대해 비교할 수 있도록 했다.

두 번째 연구에서는 이전과 동일한 세 가지 라벨링 설정을 사용했지만, 테스트를 14개의 다른 LLM 모델로 확대했다. 각 모델은 420개의 다시 작성된 이야기를 평가했으며, 각 라벨링 조건에서 1,260개의 결정이 생성되어, 총 17,596개의 유효한 평가가 생성되었다:

연구 1의 결과. AI와 인간 심판자는 모두 저자 이름에 대한 편향을 보였다. 라벨이 표시되지 않았을 때(블라인드), 선호도는 거의 동일했다. 올바른 라벨이 표시되었을 때(개방형 라벨), 두 그룹 모두 인간이 작성한 텍스트를 선호했다. 그리고 라벨이 반대로 표시되었을 때(대조적), 두 그룹 모두 인간이라고 생각한 텍스트를 선호했다. 이 효과는 인간보다 AI 모델에서 훨씬 더 강했다. 오차 막대는 95% 신뢰 구간을 나타낸다.

모든 13개의 모델에서, 인간의 편향과 동일한 패턴이 나타났지만, 훨씬 더 강했다: 라벨이 없으면, AI 시스템은 인간과 AI 이야기를 거의 동일하게 평가했으며, AI 텍스트를 49.4%의 경우에 선택했다. AI 라벨이 표시되면, 이 선호도는 급격히 29.8%로 떨어졌다. 이는 명시된 AI 작업에 대한 명확한 저평가를 보여준다. 그리고 동일한 텍스트가 인간으로 표시되면, 선호도는 64.1%로 증가했다.

두 라벨 조건 사이의 차이는 34.3%였으며, 이는 AI 모델이 라벨이 바뀔 때 인간보다 훨씬 더 많이 선호도를 변경한다는 것을 의미한다. 또한, 모델은 반복된 실행에서 매우 일관적이었으며, 이는 편향이 임의적인 것이 아니라 안정적인 것임을 확인했다.

편향이 라벨의 단어 선택에 의해 발생하는지, 아니면 텍스트가誰에 의해 작성되었는지에 의해 발생하는지 확인하기 위해, 연구자들은 두 가지 추가 테스트를 수행했다: 하나는 AI가 더 인상적인 라벨을 사용했고, 다른 하나는 중립적인 용어를 사용했다.

두 경우 모두 동일한 편향이 나타났으며, AI 모델이 동일한 답변을 매번 생성하더라도, 편향은 지속되었다. 이는 편향이 라벨의 정확한 단어에 의해 발생하는 것이 아니라, ‘인간’ 또는 ‘AI’와 같은 라벨 유형에 의해 발생한다는 것을 나타낸다.

연구 2

두 번째 연구에서는 모든 13개의 AI 모델에서 인간보다 더 강한 편향을 보였다:

13개의 AI 모델 각각의 속성 편향: 막대는 효과 크기를 나타내며, 95% 신뢰 구간이 표시된다. 빨간 선은 인간 기준선을 나타낸다. 모든 모델이 인간보다 더 강한 편향을 보였다. 그들 사이의 차이는 작았다.

모델은 모두 인간이 작성한 이야기를 선호했으며, 인간보다 더 강한 효과를 보였다. 가장 극단적인 경우를 제거하더라도, 평균 편향은 여전히 인간의 편향보다 두 배 이상이었다. 이는 이 효과가 하나의 모델에 대한 결함이 아니라, 일반적인 LLM의 특성임을 시사한다.

결론

이 논문은 이전 연구에서 AI가 인간의 작업과 동일하거나 더 나은 작업을 생성할 수 있다는 것을 보여주었지만, 저자들은 문학에서 저자성과 진정성의 가치가 오래된 전통임을 강조한다:

‘GPT-4o Mini가 Queneau의 “창의적이고 유머러스한” 접근 방식을 AI 속성 태그에서 “과장”으로 거부하는 반면, 인간 속성 아래서 동일한 특징을 칭찬할 때, 이는 이러한 라벨이 어떻게 가정들을 트리거하는지 보여준다.

‘출처 큐는 제품 전용 판단이 아닌 프로세스를 다시 넣어준다. “순수한 생성”은 인간 예술가에게서 прием할 수 있지만, 모델에서는 의심스럽다.

LLM은 아직 신뢰할 수 있는 사실 기반 연구에 적합하지 않지만, 주의 깊은 감독 아래에서는 생산적일 수 있다. 그러나 LLM 기반 창의적인 글쓰기는 AI가 인간의 영역에 대한 침범으로 인해 더 불확실한 미래를 직면할 수 있다.

* 원본 논문에 대한 생략된 인용문을 참조하십시오. 필요한 경우 이 인용문은 기사에 포함될 것입니다.

最初에 2025년 10월 13일 게시되었습니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

AI 모델은 인간이 작성한 글을 AI가 생성한 글보다 선호한다

방법

이중 시각

데이터 및 테스트

연구 1

연구 2

결론

더 알아보기