Anderson의 관점

ChatGPT-5와 Gemini 2.5는 40%의 테스트된 뉴스룸 쿼리에서 환각을 일으킵니다

Published October 1, 2025

Updated May 17, 2026

Martin Anderson

A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

새로운 연구에 따르면 ChatGPT-5와 Google Gemini는 40%의 뉴스룸 스타일 쿼리에서 환각을 일으키며, 검증 가능한 사실에 의해 뒷받침되지 않는 확신에 찬 주장을 자주 발명합니다. Google의 NotebookLM은 13%의 비율을 기록했는데, 이는 어떤 저널리스트에게도 해고될 수 있는 비율입니다. 연구에 따르면 모델은 종종 소스를 왜곡하여 의견을 사실로 바꾸고 출처를 제거하여 저널리즘에 위험한 도구가 됩니다. 저자들은 이러한 작업을 위한 더 나은 전용 도구를 요구합니다.

대규모 언어 모델은 최근 저널리즘 분야에서 빠르게 채택되고 있습니다. 디지털 저널리즘이 2000년대 초부터 시작된 불가피한 과정으로 2세기 동안의 전통을 파괴한 이후, 비용, 예산, 직원削減이 이루어지는 작업 환경에서 이러한 모델이 채택되고 있습니다.

사실, 미디어는 이미 1980년대 디지털 타입세팅의 도입과 같은 혁신을 통해 일자리削減에 익숙해졌으며, 라디오와 텔레비전의 출현으로 인한 이전의 도전도 받았습니다.

AI의 뉴스룸과 미디어 아웃レット으로의 경로에는卻도 없었습니다. 55%의 회사들이 현재 AI로 인한 일자리削減을 후회하고 있으며, Gartner는 2년 내에 조직이 AI 채택 일정표를 크게 축소할 것이라고 예측함에 따라, 일부 뉴스 기관은 AI로 대체된 저널리스트들을 다시雇用했습니다. 기계 학습 대안의 심각하고 종종 당혹스러운 단점이 명백해졌기 때문입니다.

인간이 아닌 오류

확인된 사실에 의한 오류는 법률, 연구, 저널리즘 분야에서 큰 문제로 밝혀졌습니다. 새로운 미국 연구에 따르면, 기계 학습 모델은 뉴스룸 스타일 쿼리에서 40%의 환각을 일으킵니다.

연구자들은 ChatGPT, Google Gemini, NotebookLM을 평가했으며, 각 모델은 300개의 문서 코퍼스에서 TikTok 관련 소송과 정책에 대한 보고 스타일 태스크를 수행했습니다.

연구자들은 프롬프트의 구체성과 제공된 문서의 수를 다양하게 조정하여 결과를 분석했습니다.

모든 출력에서 30%는 적어도 하나의 환각을 포함했으며, ChatGPT와 Gemini는 각각 40%의 환각 비율을 보였습니다. NotebookLM은 13%의 오류 비율을 기록했습니다.

연구자들은 모델이 사실이나 엔티티를 발명하는 대신, 해석적 확신을 보이는 경향이 있음을 관찰했습니다. 모델은 출처에 대한 지원되지 않는 특성화와 의견을 일반적인 진술로 변환했습니다.

이러한 패턴은 저널리즘에서 Explicit 소싱이 필요한 반면, LLM은 증거 지원 여부에 관계없이 권위적인 텍스트를 생성한다는 것을 보여줍니다.

연구자들은 저널리즘 전용 확장을 제안하며, 효과적인 뉴스룸 도구는 유용한 속성보다 정확한 속성을 강제해야 한다고 주장합니다.

이론과 방법

환각의 정확한 원인은 논쟁의 여지가 있습니다. 대부분의 이론은 데이터 품질과 분포가 환각의 원인이라고 주장합니다. 그러나 100%의 LLM 출력이 본질적으로 환각이라고 주장하는 연구도 있습니다.

저자들은 다음과 같이 관찰합니다.

‘기술적인 관점에서, 환각은 LLM이 실제로 무엇이 진실인지를 이해하지 못하면서도 일반적인 패턴을 따르는 텍스트를 생성할 수 있는 능력에서 비롯됩니다. 이것은 현실을 반영하지 않는 플로우블한 응답을 생성할 수 있습니다.

연구 분야는 환각을 줄이거나 이해하는 방법을探索했습니다. 이러한 방법은 세 가지 주요 영역으로 나뉩니다. 첫째, 모델은 외부 소스에 의해 지지될 수 있습니다. 둘째, 프롬프트와 디코딩을 사용하여 모델을 지시할 수 있습니다. 셋째, 모델과 도구를 사용하여 모델이 검증을 지원하는 리소스에 접근할 수 있습니다.

그러나 이러한 조치는 완벽하지 않으며, 데이터 품질, 지침의 명확성, 인간의 감시에 의존합니다.

TikTok

연구자들은 실제 뉴스룸 워크플로우와 표준을 반영하는 평가를 수행했습니다. 환각은 일반적인 보고 태스크의 contexto에서 조사되었습니다.

프롬프트 전략과 문서 기반 설정을 사용하여 모델을 테스트했습니다.

분석은 문서 기반 쿼리의 유형을 중점으로 하였으며, TikTok의 미국 법적 노력과 정책을 조사했습니다.

문서들은 워싱턴 포스트, 뉴욕 타임즈, ProQuest, Westlaw에서 수집되었습니다. 총 300개의 문서가 포함되었습니다.

프롬프트는 매우 광범위한 질문부터 매우 구체적인 질문까지 다섯 가지로 설계되었습니다.

경쟁자

세 가지 도구가 테스트되었습니다. 각 도구는 문서 기반 쿼리에 대한 다른 접근 방식을 반영했습니다. ChatGPT-5는 프로젝트 기능을 사용하여 평가되었습니다. Google Gemini 2.5 Pro는 전체 300개의 문서 코퍼스를 처리할 수 있었습니다. Google NotebookLM은 내장된 인용 출처를 제공했습니다.

이러한 문서 처리 방법은 다르지만, 모든 세 가지 도구는 현재 저널리스트에게 실제로 사용 가능한 도구를 나타냅니다.

taxonomy를 사용하여 환각을 분류했습니다. 환각은 방향, 범주, 정도에 따라 분류되었습니다.

모든 모델 출력은 하나의 인간 저자에 의해 주석이 달렸으며, 각 문장을 검토하고 코드를 적용했습니다.

데이터와 테스트

초기 테스트에서 12개의 모델 응답 중 40%가 적어도 하나의 환각을 포함하는 것으로 나타났습니다. ChatGPT와 Gemini는 각각 40%의 환각 비율을 보였습니다. NotebookLM은 13%의 오류 비율을 기록했습니다.

저자들은 다음과 같이 관찰합니다.

‘이것은 대부분의 응답이 환각을 포함하지 않는다는 것을 나타냅니다. 그러나 도구의 선택은 동일한 문서 코퍼스와 쿼리 세트에 대해 차이를 만듭니다.’

환각은 종종 고립되지 않으며, Gemini는 평균 4개의 환각을 보였습니다. NotebookLM은 3개의 환각을 보였습니다. ChatGPT는 1.5개의 환각을 보였습니다. 대부분의 환각은 중간 정도였으며, 14%는 경각적인 것으로 분류되었습니다.

저자들은 다음과 같이 관찰합니다.

‘모델은 문서에 지원되지 않는 특성화와 의견을 일반적인 진술로 변환합니다. 이러한 행동은 모든 도구에서 나타났으며, 하나의 아키텍처에만 국한되지 않았습니다.’

결론

세 가지 모델은 각각 약점과 강점을 가지고 있습니다. NotebookLM은 인용에 대한 다른 두 모델보다 훨씬 더 잘 수행되었습니다. 그러나 여전히 오류 비율이 높았습니다.

ChatGPT와 Gemini는 더 나은 사용자 경험을 제공하지만, 여전히 많은 오류를 포함합니다.

현재로서는 이러한 모델을 사용하여 정확한 정보를 추출하고 처리하는 데 필요한 시설이 부족합니다.

따라서 이러한 시스템의 출력은 모두 검토되어야 합니다.

* Google Cloud는 이 주제에 대한 흥미로운 개요를 제공합니다.

^†저자의 인라인 인용을 하이퍼링크로 변환했습니다.

2025년 10월 1일 처음 게시되었습니다. 2025년 10월 2일 TL;DR의 오류를 수정하고 첫 번째 문장의 스타일 오류를 수정하기 위해 수정되었습니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

ChatGPT-5와 Gemini 2.5는 40%의 테스트된 뉴스룸 쿼리에서 환각을 일으킵니다

인간이 아닌 오류

이론과 방법

TikTok

경쟁자

데이터와 테스트

결론

You may like