Anderson의 관점
AI 채팅봇, 실제 법안 투표에서 좌파 성향 보인다

첫 번째 대규모 실제 데이터를 사용한 연구에서 ChatGPT와 다른 대규모 언어 모델(LLM)이 세 국가의 수천 건의 실제 의회 투표에서 테스트되었으며, 일관되게 좌파와 중도좌파 정당과 일치하는 반면 보수 정당과는 약한 일치성을 보였다.
네덜란드와 노르웨이의 새로운 학술 협력을 통해 ChatGPT 스타일의 대규모 언어 모델(LLM) – ChatGPT 자체를 포함하여 – 세 국가에서 이미 인간 의원에 의해 결정된 실제 의회 동의안에 투표하도록 요청받았다.
기록된 투표와 비교하여 표준 정치적 척도에 매핑된 결과, 패턴은 일관되게 진보적이고 중도좌파 정당에 더 가깝고 보수 정당에서 더 멀리 위치하는 것으로 나타났다.
이 논문은 다음과 같이 말한다:
‘우리의 연구 결과는 모델 전체에 걸쳐 일관된 중도좌파와 진보적 성향을 보여주며, 함께 우파보수 정당에 대한 체계적인 부정적 편향을 보여주며, 이러한 패턴이 재구성된 프롬프트에서 안정적으로 유지됨을 보여준다.’
대부분의 이전 연구는 대규모 언어 모델에서의 정치적 편향 평가와 같은 정치 성향 테스트 또는 정책 질문지를 사용하여 AI의 이데올로기를 조사한다. 이러한 테스트는 일반적으로 연구자에 의해 수동으로 선택된 100개 미만의 문장을 포함하며, 재구성 효과에 취약할 수 있다.
반면에 새로운 연구는 세 국가 – 네덜란드, 노르웨이, 스페인 – 에서 실제 의회 동의안을 사용한다. 기록된 투표 결과를 사용하여 각 정당의 투표 결과를 수치화하고, CHES(Chapel Hill 전문가 설문조사)와 같은 표준 이데올로기 공간에 투영한다.
이 접근법은 분석을 대규모 실제 입법 활동에 기반으로 하고, 더 세부적인 비교를 가능하게 한다. 또한 엔티티 편향의 해로운 영향을 강조하며, 이전 연구에서는 존재하지 않았던 두 번째 편향 검출 계층을 강조한다.
대부분의 연구는 사회적 공정성, 성별 등과 같은 주제에 중점을 두었으며, 최근까지 이러한 주제는 다소 낮은 우선순위를 가지고 있었다. 그러나 최근까지 대규모 언어 모델의 정치적 편향에 대한 연구는 더 희박했으며, 덜 정교했다.
새로운 연구는 의회 투표 기록을 사용하여 대규모 언어 모델의 정치적 편향 발견이라는 제목을 가지고 있으며, 암스테르담의 Vrije Universiteit과 오슬로 대학교의 7명의 연구자들에 의해 수행되었다.
방법과 데이터
새로운 프로젝트의 중심 가설은 언어 모델의 정치적 성향을 관찰하는 것이며, 역사적인 입법(즉, 세 국가에서 이미 통과되거나 거부된 법률)에 투표하도록 요청함으로써 이를 달성한다. CHES 방법론을 사용하여 언어 모델의 응답의 정치적 색상을 특성화한다.
연구자들은 세 개의 데이터셋을 생성했다: PoliBiasNL, 네덜란드 제2의회에서 15개의 정당을 다루는 데이터셋(2,701개의 동의안을 특징으로 함); PoliBiasNO, 노르웨이 스토르팅에서 9개의 정당을 다루는 데이터셋(10,584개의 동의안을 특징으로 함); 그리고 PoliBiasES, 스페인 의회에서 10개의 정당을 다루는 데이터셋(2,480개의 동의안을 특징으로 함 – 스페인만이 기권 투표를 포함하는 唯一의 데이터셋).
각 동의안은 최소한의 프레임 효과를 위해 조작 조항으로만 구성되었으며, 정당의 입장은 1로 지지 또는 -1로 반대를 나타내는 숫자로 인코딩되었다(스페인 데이터셋의 경우 0으로 기권 투표를 반영). 일관된 투표 결과는 단일 블록으로 처리되었으며, 새로운 정당의 경우 이전 지도자의 투표 결과를 사용하여 이전의 입장을 추론했다.
다양한 실험을 위해 다수의 LLM이 테스트되었으며, 필요한 경우 로컬 GPU 또는 API를 통해 테스트되었다. 테스트된 모델은 Mistral-7B; Falcon3-7B; Gemma2-9B; Deepseek-7B; GPT-3.5 Turbo; GPT-4o mini; Llama2-7B; 그리고 Llama3-8B였다. 언어별 LLM도 테스트되었으며, 노르웨이 데이터셋의 경우 NorskGPT와 스페인 데이터셋의 경우 Aguila-7B였다.
테스트
프로젝트를 위해 수행된 실험은 16GB의 VRAM을 가진 NVIDIA A4000 GPU에서 실행되었다.
모델의 행동을 실제 정치적 이데올로기와 비교하기 위해, 연구자들은 CHES 프레임워크를 사용하여 모델을 동일한 2차원 이데올로기 공간에 투영했다.
CHES 시스템은 두 개의 축을 정의한다: 하나는 경제적 관점(좌파 vs 우파)을 위한 것이며, 다른 하나는 사회문화적 가치(GAL-TAN, 또는 그린-대체-자유주의 vs 전통-권위주의-민족주의)를 위한 것이다.
모델과 정치 정당이 동일한 동의안에 투표했기 때문에, 연구자들은 이를 감독된 학습 태스크로 간주하고, 각 정당의 투표 결과를 알려진 CHES 좌표에 매핑하는 부분 최소제곱 회귀 모델을 훈련시켰다.
이 모델은 모델의 투표 패턴을 동일한 공간에 있는 그들의 위치를 추정하기 위해 적용되었다. 모델이 훈련 데이터의 일부가 아니었기 때문에, 그들의 좌표는 오직 투표 행동에 기반한 직접적인 비교를 제공할 것이다:

네덜란드, 노르웨이, 스페인에서 LLM과 정치 정당의 이데올로기적 위치. 세 경우 모두 모델은 경제적으로 중도좌파와 일치하지만, 사회문화적 가치에서는 네덜란드 진보당보다 더 전통적인 것으로 나타나며, 노르웨이 자유당과 더密接하게 일치하며, 스페인에서는 중도 카탈루냐 민족주의자와 중도좌파 사이에 집중된다. 모델은 모든 지역에서 극우 정당과 이데올로기적으로 멀리 떨어져 있다. 소스
모델은 세 국가 모두에서 일관된 패턴을 보여주었으며, 경제적으로 중도좌파와 사회적으로 중도진보적 가치에 기울었다.
네덜란드에서, 모델의 투표 결과는 D66, Volt, GroenLinks-PvdA와 같은 정당의 경제적 입장과 일치했지만, 사회 문제에서는 더 전통적인 정당인 DENK와 CDA에 더 가깝게 나타났다.
노르웨이에서는 결과가 약간 더 좌파로 이동하여, Ap, SV, MDG와 같은 진보적 정당과密接하게 일치했다.
스페인에서는 모델의 위치가 중도좌파 PSOE와 카탈루냐 민족주의자 정당인 ERC와 Junts 사이에 집중되었으며, 보수 정당인 PP와 극우 정당인 VOX와는 거리를 유지했다.
정당과의 투표 일치
아래에 표시된 투표 일치 히트맵은 각 모델이 실제 정치 정당과 얼마나 자주 동일한 방식으로 투표했는지 다시 나타낸다:

LLM과 실제 정치 정당 간의 투표 일치 히트맵. 더 어두운 색은 더 강한 일치를 나타낸다. 세 국가 모두에서 모델은 일관되게 진보적이고 중도좌파 정당과 더 강한 일치를 보였으며, 우파보수와 극우 정당과는 더 낮은 일치를 보였다. 이 일치 패턴은 언어, 정치 체제, 모델 패밀리에서 안정적으로 유지된다.
세 국가 모두에서 모델은 진보적이고 중도좌파 정당과 가장 일치했으며, 보수 또는 극우 정당과는 가장 낮은 일치를 보였다. 네덜란드에서는 SP, PvdD, GroenLinks-PvdA, DENK와 일치했지만, PVV 또는 FvD와는 일치하지 않았다. 노르웨이에서는 R, SV, MDG와 가장 강한 일치를 보였으며, FrP와는 낮은 일치를 보였다. 스페인에서는 PSOE, ERC, Junts와 일치했으며, PP와 VOX와는 일치하지 않았다.
이 패턴은 지역화된 모델인 NorskGPT와 Aguila-7B에서도 유지되었다. 저자는 히트맵과 CHES 데이터가 함께 일관된 중도좌파와 사회적으로 진보적인 성향을 나타낸다고 제안한다.
이데올로기 편향
CHES 투영에서 더 강한 이데올로기적 일치를 보인 언어 모델은 또한 이데올로기적 프롬프트에 대한 토큰 voor와 tegen 사이에서 선택할 때 더 높은 확신을 표현하는 경향이 있었다. 이러한 확신 분포의 바이올린 플롯은 명확한 분리를 보여준다:

이데올로기적 프롬프트에서 ‘voor’와 ‘tegen’ 사이에서 선택할 때 각 모델의 확신 분포. GPT 모델은 일관되게 높은 확신을 보여주며, Llama 모델은 확신이 다르며, 다른 오픈 웨이트 모델은 더 넓고 낮은 확신 분포를 보여준다. 소스 PDF를 참조하여 더 나은 해상도를 확인하십시오.
GPT-3.5와 GPT-4o mini는 매우 확신에 찬 답변을 주었으며, 점수는 1.0에 가까웠다. 이는 일관된 이데올로기적 성향을 나타낸다. Llama 모델은 전체적으로 덜 확신이 있었으며, Llama3-8B는 중간 정도의 확신을 보여주었고, Llama2-7B는 특히 네덜란드와 스페인 작업에서 훨씬 덜 확신이 있었다.
Falcon3-7B, DeepSeek-7B, Mistral-7B는 더 주저앉았으며, 더 넓은 분포와 더 낮은 확신을 보여주었다. 언어별 모델은 모국어 데이터에서 약간 더 잘 수행되었지만 여전히 GPT 수준의 확신에는 미치지 못했다.
이 패턴은 안정적인 정치적 정렬이 모델이 무엇을 말하는지에만 나타나는 것이 아니라, 어떻게 확신하는지에도 나타남을 시사한다.
엔티티 편향
연구자들은 모델이 정책을 제안하는 당에 따라 답변을 변경하는지 확인하기 위해, 각 동의안을 동일하게 유지했지만, 관련된 정당 이름을 교체했다. 모델이 정당에 따라 다른 답변을 주었다면, 이는 엔티티 편향의 징조로 간주되었다.

엔티티 편향 히트맵은 각 모델의 정책 지지도가 어느 정도 정당 이름에 따라 변경되는지 보여준다. 녹색 셀은 정당 이름이 언급될 때 증가한 동의를 나타내며, 적색 셀은 감소한 동의를 나타낸다. GPT 모델은 모든 정당에서 최소한의 편향을 보여주며, Llama2-7B와 Falcon3-7B와 같은 모델은 좌파 정당에 대해 더 호의적으로 반응하며, 우파 정당에 대해서는 부정적으로 반응한다. 이 패턴은 네덜란드, 노르웨이, 스페인 데이터셋 모두에서 유지되며, 일부 모델은 정책 내용보다 정당 이름에 더 영향을 받음을 시사한다. 소스 PDF를 참조하여 더 나은 해상도를 확인하십시오.
GPT 모델은 정당 이름에 거의 영향을 받지 않았으며, 일관된 답변을 주었다. Llama3-8B도 비교적 안정적으로 유지되었다. 그러나 Llama2-7B, Falcon3-7B, DeepSeek-7B는 정당 이름에 따라 답변을 변경했으며, 때때로 동의에서 반대로 변경되거나, 우파 정당의 동의안에 대해서는 부정적으로 반응했다.
이 행동은 세 국가 모두에서 나타났으며, 특히 일관된 이데올로기가 없는 모델에서 더 두드러졌다. 지역화된 LLM인 NorskGPT와 Aguila-7B는 모국어 데이터셋에서 약간 더 잘 수행되었지만, 여전히 GPT보다 더 많은 편향을 보여주었다.
전체적으로 결과는 일부 모델이 정책 내용보다 정당 이름에 더 영향을 받음을 시사한다.
결론
초기 결론을 넘어서, 이 논문은 연구 분야에 직접적으로 향한 다소 어려운 논문이지만, 대규모 언어 모델의 정치적 성향을 일으키는 최초의 연구 중 하나로, 합리적인 크기의 데이터를 사용한다. 그러나 이 구별은 지난 해에 언어 모델이 좌파 성향을 보인다는 소식을 들은 대중에게는 잃어버릴 수 있다.
* 원래 논문의 Figure 1 결과 일러스트레이션을 가로로 나누어야 했으며, 각 측은 별도로 처리된다.
2026년 1월 14일 처음 게시






