Anderson의 관점

AI가 뉴스 속 숨겨진 의도에 대해 우리에게 무엇을 알려줄 수 있는가

Published July 16, 2025

Updated May 18, 2026

Martin Anderson

ChatGPT 스타일의 모델은 뉴스 기사에 대한 실제 의견을 감지하는 데 훈련되고 있습니다. 즉, 인용문, 프레임워크 또는 때때로 불성실한 ‘중립성’ 아래에 埋葬된 의견일지라도, 뉴스 기사에 대한 실제 의견을 감지하는 것입니다. 기사 제목, 리드, 인용문 및 결론과 같은 기사 세그먼트로 기사를 분할하여 새로운 시스템은 편향을 감지할 수 있습니다.

작가 또는 연사의 실제 관점을 이해하는 능력, 즉 학술 문헌에서 STANCE DETECTION으로 알려진 능력은 언어에서 가장 어려운 해석 문제 중 하나입니다. 즉, 의도를 숨기거나 숨기기 위해 설계된 콘텐츠에서 의도를 추출하는 것입니다.

Jonathan Swift의 A Modest Proposal에서 최근 정치인들이 자신의 이데올로기적 반대자들의 논리를 차용하는 공연에 이르기까지, 발언의 표면은 더 이상 의도된 의견의 신뢰할 수 있는 지표가 아닙니다. 아이러니, 트롤링, 허위 정보 및 전략적 모호성의興隆으로 인해 텍스트가 실제로 어떤 편에 서 있는지 또는 서 있는지 판단하기가 더 어려워졌습니다.

종종 말하지 않는 것이 말한 것만큼이나 중대한 의미를 가지며, 주제를 다루기로 선택하는 것만으로도 저자의 입장을 나타낼 수 있습니다.

이로 인해 자동 스탠스 감지의 작업은 예상보다 더 어려워집니다. 효과적인 감지 시스템은 단순히 분리된 문장을 ‘지지’ 또는 ‘반대’로 태그하는 것 이상의 작업을 수행해야 합니다. 대신에, 전체 기사의 모양과 흐름을 고려하여 의미의 여러 층을 반복해야 합니다. 이는 긴 기사에서 더 어려울 수 있습니다. 여기서 тон은 변경될 수 있으며 의견은 드물게 명시적으로 표현될 수 있습니다.

변화의 에이전트

이러한 문제를 해결하기 위해 한국의 연구자들은 긴 기사에 대한 스탠스를 감지하는 새로운 시스템인 JOA-ICL(저널리즘 지향 에이전트 인 콘텍스트 러닝)을 개발했습니다.

JOA-ICL의 핵심 아이디어는 기사 수준의 스탠스가 별도의 언어 모델 에이전트에 의해 생성된 세그먼트 수준의 예측을 집계하여 추론된다는 것입니다. 출처: https://arxiv.org/pdf/2507.11049

JOA-ICL은 기사를 전체로 판단하는 대신, 구조적인 부분(기사 제목, 리드, 인용문 및 결론)으로 나누고, 각 부분에 작은 모델을 할당하여 해당 세그먼트를 ‘지지’, ‘반대’ 또는 ‘중립’으로 레이블합니다. 이러한 지역 예측은 기사의 전체 스탠스를 결정하는 더 큰 모델에 전달됩니다.

이 방법은 2022년 6월부터 2024년 6월까지 한국 뉴스 보도에 대한 2,000개의 기사로 구성된 새로운 데이터 세트에서 테스트되었습니다. 각 기사는 저널리즘 전문가의 입력을 반영하여 전문적인 뉴스 작성의 구조에 걸쳐 있는 스탠스를 레이블링했습니다.

논문에 따르면, JOA-ICL은 기존의 프롬프트 기반 및 미세 조정된 기준선보다 성능이 뛰어났으며, 특히 지지적인 스탠스를 감지하는 데 강점을 보였습니다. 이 방법은 또한 일치하는 조건에서 독일 데이터 세트에 적용되었을 때도 효과적이었으며, 그 원리가 언어 형태에 대해 потен적으로 강력하다는 것을 보여주었습니다.

저자는 다음과 같이 말합니다:

‘실험 결과, JOA-ICL이 기존의 스탠스 감지 방법보다 우수한 성능을 보였으며, 세그먼트 수준의 에이전트가 긴 기사의 전체 위치를 포착하는 데의 이점을 강조합니다.’

새로운 논문은 저널리즘 지향 에이전트 인 콘텍스트 러닝을 위한 뉴스 스탠스 감지라는 제목으로, 서울의 숭실대학교 및 KAIST의 미래 전략 대학원에서 나왔습니다.

방법

AI를 이용한 스탠스 감지의 도전은 물론 로지스틱이며, 현재 상태에서 기계 학습 시스템이 얼마나 많은 신호를 유지하고 결합할 수 있는지와 관련이 있습니다.

뉴스 기사는 일반적으로 의견을 직접적으로 표현하지 않으며, 대신에 어떤 출처를 인용할지, 어떻게 이야기를 구성할지, 어떤 세부 사항을 생략할지에 대한 선택을 통해 암시적 또는 가정된 스탠스를 나타냅니다.

기사가 명확한 입장을 취할 때도, 신호는 종종 텍스트 전체에 산재해 있으며, 서로 다른 세그먼트는 서로 다른 방향을 가리킬 수 있습니다. 언어 모델(LM)은 여전히 한정된 컨텍스트 창을 가지고 있기 때문에, 이는 모델이 스탠스를 평가하는 것을 더 어렵게 만듭니다. 이는 짧은 콘텐츠(예: 트윗 및 기타 短형 소셜 미디어)에서 텍스트와 대상 간의 관계가 더 명확한 경우와 다릅니다.

따라서 표준 접근 방식은 일반적으로 긴 기사에 적용될 때 부족합니다. 이는 모호성이 특징이 아닌 결점인 경우입니다.

논문은 다음과 같이 말합니다:

‘이러한 도전을 해결하기 위해, 우리는 먼저 더 작은 담화 단위(예: 문단 또는 섹션)의 수준에서 스탠스를 추론하고, 이후 이러한 지역 예측을 통합하여 기사의 전체 스탠스를 결정하는 계층적 모델링 접근 방식을 제안합니다.’

‘이 프레임워크는 지역 컨텍스트를 유지하고 긴 기사에서 분산된 스탠스 신호를 평가하는 데 설계되었습니다.’

이 목적으로 저자는 2022년 6월부터 2024년 6월까지 한국 뉴스 보도에 대한 2,000개의 기사로 구성된 새로운 데이터 세트인 K-NEWS-STANCE를 컴파일했습니다. 기사들은 먼저 BigKinds를 통해 식별되었으며, Naver News 집계 API를 사용하여 전체 텍스트가 검색되었습니다. 최종 데이터 세트에는 31개의 아웃렛에서 47개의 국가적으로 관련된 문제에 대한 2,000개의 기사가 포함되었습니다.

각 기사는 두 번 注釈되었습니다. 한번은 전체적인 스탠스에 대해, 그리고 한번은 개별 세그먼트에 대해, 특히 기사 제목, 리드, 결론 및 직접 인용문에 대해 注釈되었습니다.

注釈는 저널리즘 전문가인 Jiyoung Han이 주도했으며, 미디어 연구에서 확립된 신호를 사용하여 진행되었습니다. 이러한 방법으로 총 19,650개의 세그먼트 수준의 스탠스 레이블이 얻어졌습니다.

기사에 의미 있는 관점 신호가 포함되어 있는지 확인하기 위해, 각 기사는 먼저 장르로 분류되었으며, 분석 또는 의견(주관적인 프레이밍이 더 많이 발견되는 곳)으로 레이블링된 기사만이 스탠스 注釈에 사용되었습니다.

두 명의 훈련된 注釈자가 모든 기사를 레이블링했으며, 스탠스가 불분명한 경우 관련 기사를 참조하도록 지시받았으며, 의견 불일치는 토론과 추가 검토를 통해 해결되었습니다.

K-NEWS-STANCE 데이터 세트의 샘플 항목. 기사 제목, 리드 및 인용문만 표시되며, 전체 본문은 생략되었습니다. 강조 표시는 인용문의 스탠스 레이블을 나타내며, 파란색은 지지적이고 빨간색은 반대적입니다. 더 명확한 렌더링을 위해 출처된 PDF를 참조하십시오.

JoA-ICL

저자의 제안된 시스템은 기사를 하나의 텍스트 블록으로 처리하는 대신, 핵심 구조적인 부분(기사 제목, 리드, 인용문 및 결론)으로 나누고, 각 부분에 언어 모델 에이전트를 할당하여 해당 세그먼트를 ‘지지’, ‘반대’ 또는 ‘중립’으로 레이블링합니다.

이 지역 예측은 기사의 전체 스탠스를 결정하는 두 번째 에이전트에 전달되며, 두 에이전트는 프롬프트를 준비하고 결과를 수집하는 컨트롤러에 의해 조정됩니다.

따라서 JoA-ICL은 컨텍스트 학습(모델이 프롬프트의 예제에서 학습함)을 전문 뉴스 스토리가 작성되는 방식에 맞추어 조정합니다. 즉, 단일의 제네릭 입력 대신 세그먼트 인식 프롬프트를 사용합니다.

(원본 논문의 대부분의 예와 일러스트레이션이 길고 온라인 기사에서 복제하기 어렵다는 점에 주의하십시오. 따라서 독자에게 원본 PDF를 검토할 것을 권고합니다)

데이터 및 테스트

테스트에서 연구자들은 매크로 F1 및 정확도를 사용하여 성능을 평가했으며, 42에서 51까지의 무작위 시드를 사용하여 10번의 실행을 평균화하고 표준 오차를 보고했습니다. 훈련 데이터는 기준선 모델 및 세그먼트 수준 에이전트를 미세 조정하는 데 사용되었습니다. few-shot 샘플은 KLUE-RoBERTa-large를 사용하여 유사성 검색을 통해 선택되었습니다.

테스트는 Python 3.9.19, PyTorch 2.5.1, Transformers 4.52.0 및 vLLM 0.8.5를 사용하여 3개의 RTX A6000 GPU(각각 48GB의 VRAM)에서 실행되었습니다.

GPT-4o-mini, Claude 3 Haiku 및 Gemini 2 Flash는 API를 통해 1.0의 온도와 1000개의 토큰으로 설정된 체인-오브-사고 프롬프트를 사용하여 사용되었습니다.

Exaone-3.5-2.4B의 완전한 미세 조정을 위해 AdamW 옵티마이저가 5e-5의 학습률, 0.01의 가중치 감소, 100개의 워밍업 스텝 및 10개의 에포크와 함께 배치 크기 6으로 사용되었습니다.

기준선으로는 RoBERTa를 사용했으며, 기사 수준의 스탠스 감지에 미세 조정되었습니다. Chain-of-Thought (CoT) Embeddings는 지정된 작업을 위해 RoBERTa의 대체 조정이었습니다. LKI-BART는 큰 언어 모델에서 컨텍스트 지식을 추가하여 프롬프팅을 통해 입력 텍스트와 의도된 스탠스 레이블을 모두 프롬프팅하는 인코더-디코더 모델이었습니다. PT-HCL는 일반적인 특징을 대상 문제에 특정한 특징으로부터 분리하기 위해 대조 학습을 사용하는 방법이었습니다.

K-NEWS-STANCE 테스트 세트에서 각 모델의 성능. 매크로 F1 및 정확도가 표시되며, 각 그룹에서 최고의 점수는 볼드체입니다.

JOA-ICL은 전체 성능에서 정확도와 매크로 F1 모두에서 최고의 성능을 보였습니다. 이는 테스트된 세 가지 모델 백본(GPT-4o-mini, Claude 3 Haiku 및 Gemini 2 Flash) 모두에서 명확한 이점이었습니다.

세그먼트 기반 방법은 일관되게 모든 다른 접근 방식을 능가했으며, 특히 지지적인 스탠스를 감지하는 데 강점을 보였습니다. 이는 유사한 모델에서 일반적인 약점입니다.

기준선 모델은 전체적으로 더 나쁜 성능을 보였습니다. RoBERTa와 Chain-of-Thought 변형은 미묘한 경우에서 어려움을 겪었으며, PT-HCL과 LKI-BART는 더 나은 성능을 보였지만 여전히 JOA-ICL을 따라가지 못했습니다. 가장 정확한 단일 결과는 JOA-ICL(Claude)에서 나왔으며, 64.8%의 매크로 F1 및 66.1%의 정확도를 보였습니다.

아래 이미지는 모델이 각 레이블을 올바르게 또는 잘못 분류한 빈도를 보여줍니다.

기본선과 JoA-ICL을 비교하는 혼동 행렬. 두 모델 모두 ‘지지’ 스탠스를 감지하는 데 가장 어려움을 겪는다는 것을 보여줍니다.

JOA-ICL은 모든 범주에서 더 많은 레이블을 올바르게 분류했지만, 지지적인 기사에서 가장 어려움을 겪었습니다. 기준선은 거의 절반을 잘못 분류했으며, 종종 지지적인 것을 중립적인 것으로 잘못 판단했습니다.

JOA-ICL은 더 적은 실수를犯했지만, 같은 패턴을 보였으며, ‘지지’ 스탠스를 감지하는 것이 모델에게 더 어려운 것을 다시 확인했습니다.

JOA-ICL이 한국어를 넘어서 작동하는지 테스트하기 위해, 연구자들은 이를 CheeSE라는 독일어 데이터 세트에 적용했습니다. CheeSE에는 세그먼트 수준의 레이블이 없었으므로, 연구자들은 원격 감시를 사용했으며, 각 세그먼트에 전체 기사와 동일한 스탠스 레이블을 할당했습니다.

독일어 CheeSE 데이터 세트에서 스탠스 감지 결과. JOA-ICL은 일관되게 제로샷 프롬프팅을 능가하며, 세 가지 LLM 모두에서 미세 조정된 기준선보다 더 나은 성능을 보입니다. Gemini-2.0-Flash는 가장 강력한 성능을 보여줍니다.

조건이 ‘잡음’인 경우에도, JOA-ICL은 미세 조정된 모델과 제로샷 프롬프팅을 모두 능가했습니다. 테스트된 세 가지 백본 중에서 Gemini-2.0-Flash가 가장 좋은 결과를 보였습니다.

결론

기계 학습에서 스탠스 예측만큼 정치적으로 충격적인 작업은 거의 없습니다. 그러나 이는 종종 차갑고 기계적인 용어로 처리되며, 더 많은 주목은 생성적 AI의 덜 복잡한 문제, 즉 비디오 및 이미지 생성에 주어지며, 이는 더 큰 헤드라인을 유발합니다.

새로운 한국 연구에서 가장鼓舞하는 발전은 이 연구가 전체 길이의 콘텐츠, 즉 트윗 및 소셜 미디어의 짧은 형식의 콘텐츠가 아닌, 장편 콘텐츠에 대한 분석에重大한 기여를 제공한다는 것입니다.

새로운 연구와 일반적으로 스탠스 감지 코퍼스에서 주목할 만한 생략은 하이퍼링크에 대한 고려의 부족입니다. 이는 독자가 주제에 대해 더 많이 배우기 위해 선택할 수 있는 선택적 리소스로 자주 대체됩니다. 그러나 이러한 URL의 선택은 주관적이거나 정치적인 것일 수 있습니다.

그러나 더 권위 있는 출판물일수록, 호스트 도메인에서 벗어난 뷰어를 안내하는 링크를 포함할 가능성이 낮습니다. 이는 하이퍼링크의 다양한 SEO 사용 및 남용과 함께, 명시적인 인용문, 제목 또는 의견을 영향시키려는 다른 文章의 부분보다 더难하게 측정할 수 있습니다.

2025년 7월 16일 수요일에 처음 게시되었습니다.