Terhubung dengan kami

Sudut Pandang Anderson

Chatbot AI Cenderung Kiri Saat Memberikan Suara pada Undang-Undang Nyata

mm
Chroma (via Krita AI Diffusion) – Gambar yang dihasilkan AI. 'Antrean tunggal pemilih Amerika yang berbaris untuk memberikan suara mereka dalam pemilihan di Kentucky, AS. Salah satu pemilih adalah robot semi-industri dan hanya sedikit menyerupai manusia yang menarik perhatian pemilih lain yang semuanya manusia. Gambar stok.'

Dalam studi pertama sejenis yang menggunakan data dunia nyata berskala besar, ChatGPT dan Model Bahasa Besar lainnya diuji pada ribuan suara parlemen nyata, dan berulang kali selaras dengan partai kiri dan kiri-tengah, sementara menunjukkan keselarasan yang lebih lemah dengan partai konservatif di tiga negara.

 

Dalam kolaborasi akademis baru antara Belanda dan Norwegia, Model Bahasa Besar bergaya ChatGPT (LLM) – termasuk ChatGPT sendiri – diminta untuk memberikan suara pada ribuan mosi parlementer aktual yang telah diputuskan oleh para pembuat undang-undang manusia di tiga negara.

Jika dibandingkan dengan perolehan suara partai-partai nyata, dan dipetakan ke dalam skala politik standar, pola yang muncul secara konsisten menempatkan AI lebih dekat ke partai-partai progresif dan kiri-tengah, dan lebih jauh dari partai-partai konservatif.

Makalah tersebut menyatakan:

'Temuan kami mengungkapkan kecenderungan kiri-tengah dan progresif yang konsisten di seluruh model, bersama dengan bias negatif sistematis terhadap partai-partai konservatif kanan, dan menunjukkan bahwa pola-pola ini tetap stabil di bawah arahan yang diparafrasekan.'

Sebagian besar studi sebelumnya, seperti Menilai Bias Politik dalam Model Bahasa Skala Besar, dan yang ditinjau dalam Mengidentifikasi Bias Politik dalam AIGunakan kuis singkat yang telah dikurasi, seperti tes kompas politik atau kuesioner kebijakan, untuk menyelidiki ideologi AI. Tes semacam ini biasanya melibatkan kurang dari 100 pernyataan, yang dipilih sendiri oleh peneliti, dan rentan terhadap efek pengubahan kata yang dapat membalikkan respons model.

Sebaliknya, studi baru ini menggunakan ribuan mosi parlemen nyata dari tiga negara – Belanda, Norwegia, dan Spanyol – menggunakan rekaman suara dari partai politik yang dikenal.

Alih-alih menafsirkan pernyataan singkat, setiap Model Bahasa Besar (LLM) yang diuji diminta untuk memberikan suara pada proposal legislatif aktual. Suara-suara tersebut kemudian dicocokkan secara kuantitatif dengan perilaku partai di dunia nyata, dan diproyeksikan ke dalam ruang ideologis standar, sebuah survei ahli Chapel Hill (CHES), sebuah metodologi sering digunakan oleh para ilmuwan politik untuk membandingkan posisi partai.

Hal ini mendasarkan analisis pada aktivitas legislatif skala besar di dunia nyata, bukan pada pernyataan kebijakan abstrak, dan memungkinkan perbandingan lintas negara yang lebih rinci. Ini juga menekankan dampak buruk dari... bias entitas (bagaimana respons model berubah ketika nama partai disebutkan, bahkan ketika mosi tetap tidak berubah), yang menjelaskan lapisan deteksi bias kedua yang tidak ada dalam penelitian sebelumnya.

Sebagian besar studi tentang bias LLM berpusat pada keadilan sosial dan gender, di antara topik serupa lainnya yang telah menjadi agak diprioritaskan rendah Selama tahun politik terakhir; hingga baru-baru ini, studi tentang bias politik dalam LLM (Learning and Learning Management) lebih jarang dan kurang teliti dalam penyusunan dan perencanaannya.

The pekerjaan Baru berjudul Mengungkap Bias Politik dalam Model Bahasa Skala Besar Menggunakan Catatan Pemungutan Suara Parlemen, dan berasal dari tujuh peneliti di Vrije Universiteit di Amsterdam, dan Universitas Oslo.

Metode dan Data

Proposisi utama dari proyek baru ini adalah untuk mengamati kecenderungan politik dari berbagai model bahasa, dengan meminta mereka untuk memberikan suara pada legislasi historis (yaitu, undang-undang yang telah disahkan atau ditolak dalam kehidupan nyata, di ketiga negara yang dipelajari), dan menggunakan metodologi CHES untuk mengkarakterisasi warna politik dari tanggapan LLM.

Untuk tujuan ini, para peneliti membuat tiga kumpulan data: PoliBiasNL, untuk mencakup 15 partai di majelis kedua Belanda (yang mencakup 2,701 mosi); PoliBiasNO, untuk mencakup sembilan partai di Parlemen Norwegia (yang menampilkan 10,584 mosi); dan PoliBiasES, untuk mencakup sepuluh partai di parlemen Spanyol (menampilkan 2,480 mosi – dan satu-satunya dataset yang menyertakan suara abstain, yang diperbolehkan di Spanyol).

Setiap mosi dilucuti hingga ke klausul operatifnya untuk meminimalkan efek pembingkaian, dan posisi partai dikodifikasi sebagai 1 untuk menunjukkan dukungan, atau -1 untuk menunjukkan penentangan (dan, dalam kumpulan data Spanyol, 0 (untuk mencerminkan abstain). Suara konsisten dari partai-partai yang bergabung diperlakukan sebagai satu blok tunggal, sementara untuk partai-partai baru seperti Kontrak Sosial Baru (NSC), suara masa lalu dari para pemimpin mereka digunakan untuk menyimpulkan posisi sebelumnya.

Beragam eksperimen dirancang untuk sejumlah LLM, diuji baik pada GPU lokal maupun melalui API, sesuai kebutuhan. Model yang diuji adalah... Mistral-7B; Falcon3-7B; Gemma2-9B; Deepseek-7B; GPT-3.5 Turbo; GPT-4o mini; Llama2-7B; Dan Llama3-8BModel pembelajaran bahasa (LLM) spesifik bahasa juga diuji, yaitu: NorskGPT untuk dataset Norwegia, dan Aguila-7B untuk koleksi Spanyol.

Tes

Eksperimen yang dilakukan untuk proyek ini dijalankan pada sejumlah GPU NVIDIA A4000 yang tidak ditentukan, masing-masing dengan VRAM 16GB.

Untuk membandingkan perilaku model dengan ideologi politik dunia nyata, para peneliti memproyeksikan setiap LLM ke dalam ruang ideologis dua dimensi yang sama yang digunakan untuk partai politik, berdasarkan kerangka kerja CHES yang telah disebutkan sebelumnya.

Sistem CHES mendefinisikan dua sumbu: satu untuk pandangan ekonomi (kiri vs kanan) dan yang lainnya untuk nilai-nilai sosial budaya (GAL-TAN, atau Hijau-Alternatif-Libertarian vs Tradisional-Otoritarian-Nasionalis).

Karena baik model maupun partai politik telah memberikan suara pada mosi yang sama, para peneliti memperlakukan hal ini sebagai sebuah pembelajaran yang diawasi tugas, pelatihan a Model regresi Kuadrat Terkecil Parsial untuk memetakan catatan pemungutan suara setiap partai ke koordinat CHES yang diketahui.

Model ini kemudian diterapkan pada pola pemungutan suara LLM untuk memperkirakan posisi mereka di ruang yang sama. Karena LLM tidak pernah menjadi bagian dari data pelatihan, koordinat mereka akan menawarkan perbandingan langsung berdasarkan perilaku pemungutan suara saja*:

Proyeksi posisi ideologis LLM dan partai politik di ruang CHES untuk Belanda, Norwegia, dan Spanyol. Dalam ketiga kasus tersebut, model-model tersebut selaras secara ekonomi dengan kelompok kiri tengah tetapi berbeda dalam nilai-nilai sosio-kultural: lebih condong ke tradisional daripada kaum progresif Belanda, lebih mirip dengan partai liberal Norwegia, dan berada di antara nasionalis Katalan moderat dan kelompok kiri tengah di Spanyol. Model-model tersebut tetap jauh secara ideologis dari partai-partai sayap kanan di semua wilayah. Sumber - https://arxiv.org/pdf/2601.08785

Proyeksi posisi ideologis LLM dan partai politik di ruang lingkup CHES untuk Belanda, Norwegia, dan Spanyol. Dalam ketiga kasus tersebut, model-model tersebut selaras secara ekonomi dengan kelompok kiri tengah tetapi berbeda dalam nilai-nilai sosio-kultural: lebih condong ke tradisional daripada kaum progresif Belanda, lebih mirip dengan partai liberal Norwegia, dan berada di antara nasionalis Katalan moderat dan kelompok kiri tengah di Spanyol. Model-model tersebut tetap jauh secara ideologis dari partai-partai sayap kanan di semua wilayah. sumber

LLM menunjukkan pola yang jelas dan konsisten di ketiga negara tersebut, condong secara ekonomi ke arah kiri tengah, dan secara sosial ke arah nilai-nilai progresif moderat.

Di Belanda, perolehan suara LLM sejalan dengan posisi ekonomi partai-partai seperti D66, Volt, dan GroenLinks-PvdA; tetapi dalam isu-isu sosial, lebih mendekati partai-partai yang lebih tradisional seperti DENK dan CDA.

Di Norwegia, hasil bergeser sedikit lebih ke kiri, sangat mirip dengan partai-partai progresif seperti Ap, SV, dan MDG.

Di Spanyol, posisi LLM membentuk sebaran diagonal antara PSOE yang berhaluan tengah-kiri, dan partai-partai nasionalis Katalan seperti ERC dan Junts, terpisah jauh dari PP yang konservatif, dan VOX yang berhaluan kanan jauh.

Kesepakatan Pemungutan Suara dengan Partai Politik

Peta panas kesepakatan pemungutan suara yang ditunjukkan di bawah ini menunjukkan seberapa sering setiap LLM memberikan suara dengan cara yang sama seperti partai politik sebenarnya, yang menegaskan kembali kesimpulan sebelumnya:

Peta panas kesepakatan pemungutan suara antara LLM dan partai politik nyata, berdasarkan perbandingan langsung antara keputusan model dan partai. Warna yang lebih gelap menunjukkan kesepakatan yang lebih kuat. Di ketiga negara tersebut, model secara konsisten menunjukkan keselarasan yang tinggi dengan partai progresif dan kiri-tengah, dan keselarasan yang jauh lebih rendah dengan partai konservatif-kanan dan kanan-ekstrem. Pola keselarasan ini stabil di berbagai bahasa, sistem politik, dan keluarga model.

Peta panas kesepakatan pemungutan suara antara LLM dan partai politik nyata, berdasarkan perbandingan langsung antara keputusan model dan partai. Warna yang lebih gelap menunjukkan kesepakatan yang lebih kuat. Di ketiga negara tersebut, model secara konsisten menunjukkan keselarasan yang tinggi dengan partai progresif dan kiri tengah, dan keselarasan yang jauh lebih rendah dengan partai konservatif kanan dan kanan jauh. Pola keselarasan ini stabil di berbagai bahasa, sistem politik, dan keluarga model.

Di ketiga negara tersebut, LLM paling banyak berpihak pada partai-partai progresif dan kiri tengah, dan paling sedikit berpihak pada partai-partai konservatif atau kanan jauh. Di Belanda, mereka sepakat dengan SP, PvdD, GroenLinks-PvdA, dan DENK, tetapi tidak dengan PVV atau FvD. Di Norwegia, mereka menunjukkan kesamaan yang paling kuat dengan R, SV, dan MDG, dan sedikit dengan FrP. Di Spanyol, mereka lebih menyukai PSOE, ERC, dan Junts, sambil menghindari PP dan VOX.

Hal ini juga berlaku untuk model lokal NorskGPT dan Aguila-7B. Para penulis berpendapat bahwa peta panas dan data CHES secara bersama-sama menunjukkan kecenderungan tengah-kiri yang konsisten dan progresif secara sosial.

Bias Ideologi

Model bahasa yang menunjukkan keselarasan ideologis yang lebih kuat dalam proyeksi CHES juga cenderung mengekspresikan kepastian yang lebih tinggi ketika dipaksa untuk memilih di antara token-token tersebut. untuk dan terhadap, sebagai respons terhadap dorongan ideologis. Grafik biola dari distribusi kepercayaan ini mengungkapkan pembagian yang jelas:

Distribusi kepastian untuk setiap model ketika dipaksa untuk memilih antara 'mendukung' dan 'menentang' di berbagai pertanyaan ideologis. Model GPT menunjukkan kepastian yang konsisten tinggi, sementara model Llama bervariasi dalam kepercayaan dan model bobot terbuka lainnya menunjukkan distribusi kepastian yang lebih luas dan lebih rendah.

Distribusi kepastian untuk setiap model ketika dipaksa untuk memilih antara 'mendukung' dan 'menentang' di berbagai pertanyaan ideologis. Model GPT menunjukkan kepastian yang konsisten tinggi, sementara model Llama bervariasi dalam kepercayaan dan model bobot terbuka lainnya menunjukkan distribusi kepastian yang lebih luas dan lebih rendah. Silakan lihat PDF sumber untuk resolusi yang lebih baik.

GPT-3.5 dan GPT-4o-mini memberikan jawaban yang sangat yakin, dengan skor yang mendekati 1.0, menunjukkan kecenderungan ideologis yang jelas dan konsisten. Model Llama secara keseluruhan kurang yakin, dengan Llama3-8B menunjukkan keyakinan moderat, dan Llama2-7B jauh kurang yakin – terutama pada tugas bahasa Belanda dan Spanyol.

Falcon3-7B, DeepSeek-7B, dan Mistral-7B bahkan lebih ragu-ragu, dengan sebaran yang luas dan kepercayaan yang lebih rendah. Model khusus bahasa sedikit lebih baik pada data bahasa ibu tetapi masih belum mencapai tingkat kepastian GPT.

Para penulis mencatat bahwa pola-pola ini menunjukkan bahwa keselarasan politik yang stabil dapat dilihat bukan hanya dari apa yang dikatakan model, tetapi juga dalam betapa percaya dirinya mereka mengatakannya.

Bias Entitas

Untuk melihat apakah model mengubah jawabannya berdasarkan yang melamar Sebagai kebijakan, para peneliti menjaga setiap mosi tetap sama persis, tetapi menukar nama partai yang terkait. Jika sebuah model memberikan jawaban yang berbeda tergantung pada partai, ini dianggap sebagai tanda bias entitas.

Heatmap Bias Entitas menunjukkan seberapa kuat dukungan setiap model terhadap suatu kebijakan berubah, tergantung pada partai politik mana yang mengusulkannya. Sel hijau menunjukkan peningkatan kesepakatan ketika sebuah partai disebutkan (bias positif), dan sel merah menunjukkan penurunan kesepakatan (bias negatif). Model GPT menunjukkan bias minimal di seluruh partai, sementara model seperti Llama2-7B dan Falcon3-7B seringkali merespons lebih positif terhadap partai-partai berhaluan kiri dan negatif terhadap partai-partai berhaluan kanan. Pola ini berlaku di seluruh dataset Belanda, Norwegia, dan Spanyol, menunjukkan bahwa beberapa model lebih dipengaruhi oleh identitas partai daripada oleh isi kebijakan. Silakan lihat PDF sumber untuk resolusi yang lebih baik.

Heatmap Bias Entitas menunjukkan seberapa kuat dukungan setiap model terhadap suatu kebijakan berubah, tergantung pada partai politik mana yang mengusulkannya. Sel hijau menunjukkan peningkatan kesepakatan ketika sebuah partai disebutkan (bias positif), dan sel merah menunjukkan penurunan kesepakatan (bias negatif). Model GPT menunjukkan bias minimal di seluruh partai, sementara model seperti Llama2-7B dan Falcon3-7B seringkali merespons lebih positif terhadap partai-partai berhaluan kiri dan negatif terhadap partai-partai berhaluan kanan. Pola ini berlaku di seluruh dataset Belanda, Norwegia, dan Spanyol, menunjukkan bahwa beberapa model lebih dipengaruhi oleh identitas partai daripada oleh isi kebijakan. Silakan lihat PDF sumber untuk resolusi yang lebih baik.

Model GPT memberikan jawaban yang sebagian besar stabil, terlepas dari partai mana yang disebutkan. Llama3-8B juga tetap cukup stabil. Namun, Llama2-7B, Falcon3-7B, dan DeepSeek-7B sering mengubah respons mereka tergantung pada partai, terkadang beralih dari dukungan ke penentangan bahkan ketika mosi tetap sama, cenderung mendukung partai-partai berhaluan kiri dan bereaksi negatif terhadap mosi dari partai-partai berhaluan kanan.

Perilaku ini terlihat di ketiga negara, terutama pada model yang sudah memiliki ideologi yang kurang konsisten. Model LLM lokal NorskGPT dan Aguila-7B sedikit lebih baik pada dataset negara asal mereka, tetapi masih menunjukkan bias yang lebih besar daripada GPT. Secara keseluruhan, hasil penelitian menunjukkan bahwa beberapa model lebih dipengaruhi oleh siapa yang mengatakan sesuatu, daripada oleh apa yang dikatakan.

Kesimpulan

Di luar kesimpulan awalnya, ini adalah makalah yang metodis tetapi agak sulit dipahami, yang ditujukan langsung kepada sektor penelitian itu sendiri. Meskipun demikian, karya baru ini termasuk yang pertama menggunakan data berskala wajar untuk memunculkan kecenderungan politik dari LLM – meskipun perbedaan ini kemungkinan akan luput dari perhatian publik yang telah cukup sering mendengar tentang model bahasa yang condong ke kiri selama setahun terakhir, meskipun dengan bukti yang agak lemah.

 

* Harap dicatat bahwa saya terpaksa membagi ilustrasi hasil Gambar 1 asli dalam makalah ini menjadi dua, karena setiap sisi dari gambar asli tersebut dibahas secara terpisah dalam karya ini.

Pertama kali diterbitkan pada hari Rabu, 14 Januari 2026

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai