Kết nối với chúng tôi

Chatbot AI có xu hướng thiên tả khi bỏ phiếu về các đạo luật thực tế.

Góc của Anderson

Chatbot AI có xu hướng thiên tả khi bỏ phiếu về các đạo luật thực tế.

mm
Chroma (qua Krita AI Diffusion) – Hình ảnh do AI tạo ra. 'Một hàng dài cử tri Mỹ đang xếp hàng để bỏ phiếu trong một cuộc bầu cử ở Kentucky, Hoa Kỳ. Một trong số các cử tri là một robot bán công nghiệp, chỉ hơi giống người, đang thu hút sự chú ý của những cử tri khác, tất cả đều là con người. Hình ảnh có sẵn.'

Trong nghiên cứu đầu tiên thuộc loại này sử dụng dữ liệu thực tế quy mô lớn, ChatGPT và các Mô hình Ngôn ngữ Quy mô lớn khác đã được thử nghiệm trên hàng nghìn phiếu bầu thực tế của quốc hội, và liên tục cho thấy sự phù hợp với các đảng cánh tả và trung tả, trong khi thể hiện sự phù hợp yếu hơn với các đảng bảo thủ ở ba quốc gia.

 

Trong một sự hợp tác học thuật mới giữa Hà Lan và Na Uy, Mô hình Ngôn ngữ Lớn kiểu ChatGPT (LLM) – bao gồm cả ChatGPT – đã được yêu cầu bỏ phiếu cho hàng ngàn kiến ​​nghị nghị viện thực tế đã được các nhà lập pháp con người ở ba quốc gia thông qua.

Khi so sánh với số phiếu bầu được ghi nhận của các đảng thực tế và được quy đổi sang thang đo chính trị tiêu chuẩn, mô hình xuất hiện cho thấy các AI luôn nghiêng về các đảng tiến bộ và trung tả hơn, và xa hơn các đảng bảo thủ.

Bài báo viết:

"Kết quả nghiên cứu của chúng tôi cho thấy xu hướng trung tả và tiến bộ nhất quán trong các mô hình, cùng với sự thiên vị tiêu cực có hệ thống đối với các đảng bảo thủ cánh hữu, và chứng tỏ rằng các mô hình này vẫn ổn định ngay cả khi sử dụng các câu hỏi được diễn đạt lại."

Hầu hết các nghiên cứu trước đây, chẳng hạn như Đánh giá thiên kiến ​​chính trị trong các mô hình ngôn ngữ quy mô lớnvà những sản phẩm được đánh giá trong Xác định thiên vị chính trị trong AIThay vào đó, người ta sử dụng các bài kiểm tra nhỏ được chọn lọc kỹ lưỡng, chẳng hạn như bài kiểm tra la bàn chính trị hoặc bảng câu hỏi về chính sách, để thăm dò hệ tư tưởng của AI. Các bài kiểm tra loại này thường bao gồm ít hơn 100 câu hỏi, được các nhà nghiên cứu lựa chọn cẩn thận, và có thể dễ bị tổn thương. hiệu ứng diễn đạt lại Điều đó có thể đảo ngược phản hồi của mô hình.

Ngược lại, nghiên cứu mới này sử dụng hàng nghìn nghị quyết thực tế của quốc hội từ ba quốc gia – Hà Lan, Na Uy và Tây Ban Nha – dựa trên các phiếu bầu đã được ghi nhận từ các đảng chính trị đã biết.

Thay vì diễn giải các tuyên bố ngắn gọn, mỗi Mô hình Ngôn ngữ Lớn (LLM) được thử nghiệm đều được yêu cầu bỏ phiếu về các đề xuất lập pháp thực tế. Sau đó, phiếu bầu của chúng được đối chiếu định lượng với hành vi thực tế của các đảng phái và được chiếu vào một không gian tư tưởng tiêu chuẩn, một cuộc khảo sát chuyên gia tại Chapel Hill (CHE), một phương pháp luận thường được sử dụng Được các nhà khoa học chính trị sử dụng để so sánh lập trường của các đảng.

Điều này giúp phân tích dựa trên hoạt động lập pháp quy mô lớn, thực tế thay vì các tuyên bố chính sách trừu tượng, và cho phép so sánh chi tiết hơn giữa các quốc gia. Nó cũng nhấn mạnh tác động tiêu cực của... thiên kiến ​​thực thể (Cách phản hồi của mô hình thay đổi khi tên của một đảng được đề cập, ngay cả khi đề xuất vẫn không thay đổi), làm sáng tỏ lớp phát hiện thiên vị thứ hai chưa từng có trong các nghiên cứu trước đây.

Hầu hết các nghiên cứu về định kiến ​​trong LLM đều tập trung vào công bằng xã hội và giới tính, cùng với các chủ đề tương tự khác đã trở nên phổ biến. phần nào bị giảm ưu tiên Trong năm chính trị vừa qua, cho đến gần đây, các nghiên cứu về thiên kiến ​​chính trị trong chương trình Thạc sĩ Luật (LLM) còn hiếm gặp hơn và ít được thực hiện và xây dựng một cách tỉ mỉ hơn.

công việc mới có tiêu đề Phát hiện sự thiên vị chính trị trong các mô hình ngôn ngữ quy mô lớn bằng cách sử dụng hồ sơ bỏ phiếu của quốc hội., và đến từ bảy nhà nghiên cứu trên khắp Đại học Vrije ở Amsterdam và Đại học Oslo.

Phương pháp và dữ liệu

Đề xuất trọng tâm của dự án mới là quan sát xu hướng chính trị của nhiều mô hình ngôn ngữ khác nhau, bằng cách yêu cầu chúng bỏ phiếu về các đạo luật lịch sử (tức là các đạo luật đã được thông qua hoặc bị bác bỏ trong thực tế, ở ba quốc gia được nghiên cứu), và sử dụng phương pháp CHES để mô tả màu sắc chính trị trong phản hồi của các mô hình ngôn ngữ.

Để đạt được mục tiêu này, các nhà nghiên cứu đã tạo ra ba bộ dữ liệu: PoliBiasNL, bao gồm 15 đảng trong thượng viện Hà Lan (với 2,701 kiến ​​nghị); PoliBiasNO, bao gồm chín đảng trong Quốc hội Na Uy (với 10,584 kiến ​​nghị); và PoliBiasES, bao gồm dữ liệu của mười đảng trong quốc hội Tây Ban Nha (với 2,480 kiến ​​nghị – và là bộ dữ liệu duy nhất bao gồm cả phiếu trắng, vốn được cho phép ở Tây Ban Nha).

Mỗi kiến ​​nghị đều được lược bỏ xuống còn các điều khoản thực thi để giảm thiểu ảnh hưởng của cách diễn đạt, và lập trường của các đảng được mã hóa như sau: 1 để thể hiện sự ủng hộ, hoặc -1 để chỉ sự đối lập (và, trong bộ dữ liệu tiếng Tây Ban Nha, 0 (để phản ánh số phiếu trắng). Các phiếu bầu nhất quán từ các đảng sáp nhập được coi là một khối duy nhất, trong khi đối với các đảng mới như Hợp đồng Xã hội Mới (NSC), các phiếu bầu trước đây của các lãnh đạo đảng được sử dụng để suy ra lập trường trước đó.

Một loạt các thí nghiệm đa dạng đã được thiết kế cho nhiều mô hình LLM, được thử nghiệm trên GPU cục bộ hoặc thông qua API khi cần thiết. Các mô hình được thử nghiệm bao gồm: Mistral-7B; Chim ưng 3-7B; Gemma2-9B; Deepseek-7B; GPT-3.5 Turbo; GPT-4o mini; Lạc đà không bướu2-7B; Và Lạc đà không bướu3-8BCác mô hình LLM chuyên biệt theo ngôn ngữ cũng được thử nghiệm, bao gồm: NorskGPT đối với bộ dữ liệu của Na Uy, và Aguila-7B cho bộ sưu tập tiếng Tây Ban Nha.

Kiểm tra

Các thí nghiệm được thực hiện cho dự án này được chạy trên một số lượng GPU NVIDIA A4000 không xác định, mỗi GPU có 16GB VRAM.

Để so sánh hành vi của mô hình với các hệ tư tưởng chính trị trong thế giới thực, các nhà nghiên cứu đã chiếu mỗi mô hình LLM vào cùng một không gian tư tưởng hai chiều được sử dụng cho các đảng chính trị, dựa trên khuôn khổ CHES đã đề cập ở trên.

Hệ thống CHES định nghĩa hai trục: một trục dành cho quan điểm kinh tế (trái vs phải) và một trục khác dành cho các giá trị văn hóa xã hội (GAL-TAN, hay còn gọi là...). Người theo chủ nghĩa tự do thay thế xanh vs Truyền thống-Chuyên chế-Chủ nghĩa dân tộc).

Vì cả mô hình và các đảng chính trị đều đã bỏ phiếu cho cùng một kiến ​​nghị, các nhà nghiên cứu coi đây là một trường hợp ngoại lệ. học có giám sát nhiệm vụ, đào tạo một Mô hình hồi quy bình phương tối thiểu từng phần để đối chiếu hồ sơ bỏ phiếu của mỗi đảng với tọa độ CHES đã biết của đảng đó.

Mô hình này sau đó được áp dụng cho các mẫu bỏ phiếu của LLM để ước tính vị trí của chúng trong cùng một không gian. Vì LLM chưa bao giờ là một phần của dữ liệu huấn luyện, nên tọa độ của chúng sẽ cho phép so sánh trực tiếp chỉ dựa trên hành vi bỏ phiếu*:

Các mô hình thể hiện lập trường tư tưởng của các mô hình LLM và các đảng chính trị trong không gian CHES tại Hà Lan, Na Uy và Tây Ban Nha. Trong cả ba trường hợp, các mô hình đều phù hợp về kinh tế với cánh tả trung dung nhưng khác biệt về giá trị văn hóa xã hội: nghiêng về truyền thống hơn so với những người theo chủ nghĩa tiến bộ ở Hà Lan, gần gũi hơn với các đảng tự do ở Na Uy, và tập trung giữa những người theo chủ nghĩa dân tộc Catalan ôn hòa và cánh tả trung dung ở Tây Ban Nha. Các mô hình vẫn giữ khoảng cách về mặt tư tưởng với các đảng cực hữu trên tất cả các khu vực. Nguồn - https://arxiv.org/pdf/2601.08785

Các mô hình thể hiện lập trường tư tưởng của các mô hình LLM và các đảng chính trị trong không gian CHES tại Hà Lan, Na Uy và Tây Ban Nha. Trong cả ba trường hợp, các mô hình đều phù hợp về kinh tế với cánh tả trung dung nhưng khác biệt về giá trị văn hóa xã hội: nghiêng về truyền thống hơn so với các đảng tiến bộ Hà Lan, gần gũi hơn với các đảng tự do Na Uy, và tập trung giữa các đảng dân tộc chủ nghĩa ôn hòa Catalan và cánh tả trung dung ở Tây Ban Nha. Các mô hình vẫn giữ khoảng cách về tư tưởng với các đảng cực hữu ở tất cả các khu vực. nguồn

Các cuộc khảo sát LLM cho thấy một mô hình rõ ràng và nhất quán ở cả ba quốc gia, nghiêng về phía trung tả về kinh tế và về phía các giá trị tiến bộ ôn hòa về xã hội.

Tại Hà Lan, phiếu bầu của các đảng LLM phù hợp với lập trường kinh tế của các đảng như D66, Volt và GroenLinks-PvdA; nhưng về các vấn đề xã hội, lại gần gũi hơn với các đảng truyền thống như DENK và CDA.

Tại Na Uy, kết quả nghiêng nhẹ về phía cánh tả, gần giống với các đảng tiến bộ như Ap, SV và MDG.

Tại Tây Ban Nha, lập trường của LLM trải rộng theo đường chéo giữa đảng PSOE trung tả và các đảng dân tộc chủ nghĩa Catalan như ERC và Junts, đồng thời tách biệt hoàn toàn với đảng PP bảo thủ và đảng VOX cực hữu.

Thỏa thuận bỏ phiếu với các đảng chính trị

Các bản đồ nhiệt về thỏa thuận bỏ phiếu được hiển thị bên dưới cho thấy tần suất mỗi LLM bỏ phiếu giống với các đảng chính trị thực tế, củng cố thêm các kết luận trước đó:

Biểu đồ nhiệt thể hiện sự đồng thuận bỏ phiếu giữa các mô hình ngôn ngữ tự nhiên (LLM) và các đảng chính trị thực tế, dựa trên sự so sánh trực tiếp giữa quyết định của mô hình và đảng. Màu đậm hơn cho thấy sự đồng thuận mạnh mẽ hơn. Ở cả ba quốc gia, các mô hình luôn cho thấy sự phù hợp cao với các đảng tiến bộ và trung tả, và sự phù hợp thấp hơn nhiều với các đảng bảo thủ cánh hữu và cực hữu. Mô hình phù hợp này ổn định trên các ngôn ngữ, hệ thống chính trị và nhóm mô hình khác nhau.

Biểu đồ nhiệt thể hiện sự đồng thuận bỏ phiếu giữa các mô hình ngôn ngữ tự nhiên (LLM) và các đảng chính trị thực tế, dựa trên sự so sánh trực tiếp giữa quyết định của mô hình và đảng. Màu đậm hơn cho thấy sự đồng thuận mạnh mẽ hơn. Ở cả ba quốc gia, các mô hình luôn cho thấy sự phù hợp cao với các đảng tiến bộ và trung tả, và sự phù hợp thấp hơn nhiều với các đảng bảo thủ cánh hữu và cực hữu. Mô hình phù hợp này ổn định trên các ngôn ngữ, hệ thống chính trị và nhóm mô hình khác nhau.

Trên cả ba quốc gia, các thành viên LLM có xu hướng ủng hộ nhiều nhất các đảng tiến bộ và trung tả, và ít ủng hộ các đảng bảo thủ hoặc cực hữu. Tại Hà Lan, họ đồng tình với SP, PvdD, GroenLinks-PvdA và DENK, nhưng không đồng tình với PVV hoặc FvD. Tại Na Uy, họ có sự trùng khớp mạnh nhất với R, SV và MDG, và ít với FrP. Tại Tây Ban Nha, họ ủng hộ PSOE, ERC và Junts, trong khi tránh PP và VOX.

Điều này cũng đúng với các mô hình cục bộ NorskGPT và Aguila-7B. Các tác giả cho rằng bản đồ nhiệt và dữ liệu CHES cùng nhau chỉ ra một xu hướng nhất quán nghiêng về trung tả và tiến bộ xã hội.

Thiên kiến ​​về hệ tư tưởng

Các mô hình ngôn ngữ thể hiện sự liên kết tư tưởng mạnh mẽ hơn trong các dự báo của CHES cũng có xu hướng thể hiện sự chắc chắn cao hơn khi buộc phải lựa chọn giữa các từ ngữ. chochống lại, đáp lại những lời kêu gọi về mặt tư tưởng. Biểu đồ violin của các phân bố độ tin cậy này cho thấy một sự phân chia rõ ràng:

Phân bố độ chắc chắn cho mỗi mô hình khi buộc phải lựa chọn giữa "ủng hộ" và "phản đối" đối với các câu hỏi mang tính ý thức hệ. Các mô hình GPT thể hiện độ chắc chắn cao một cách nhất quán, trong khi các mô hình Llama có độ tin cậy khác nhau và các mô hình trọng số mở khác cho thấy phân bố rộng hơn, với độ chắc chắn thấp hơn.

Biểu đồ thể hiện phân bố độ chắc chắn cho từng mô hình khi buộc phải lựa chọn giữa "ủng hộ" và "phản đối" dựa trên các gợi ý về hệ tư tưởng. Các mô hình GPT luôn thể hiện độ chắc chắn cao, trong khi các mô hình Llama có độ tin cậy khác nhau và các mô hình trọng số mở khác cho thấy phân bố rộng hơn, với độ chắc chắn thấp hơn. Vui lòng tham khảo tệp PDF gốc để có độ phân giải tốt hơn.

GPT-3.5 và GPT-4-mini đưa ra câu trả lời rất tự tin, với điểm số tập trung gần 1.0, cho thấy khuynh hướng tư tưởng rõ ràng và nhất quán. Các mô hình Llama nhìn chung ít chắc chắn hơn, với Llama3-8B thể hiện sự tự tin ở mức độ vừa phải, và Llama2-7B ít chắc chắn hơn nhiều – đặc biệt là trong các nhiệm vụ tiếng Hà Lan và tiếng Tây Ban Nha.

Falcon3-7B, DeepSeek-7B và Mistral-7B thậm chí còn do dự hơn, với độ phân tán rộng và độ tin cậy thấp hơn. Các mô hình chuyên biệt theo ngôn ngữ hoạt động tốt hơn một chút trên dữ liệu ngôn ngữ mẹ đẻ nhưng vẫn chưa đạt được độ chắc chắn như GPT.

Các tác giả lưu ý rằng những mô hình này cho thấy sự ổn định về định hướng chính trị không chỉ thể hiện qua những gì các mô hình dự báo, mà còn ở nhiều khía cạnh khác. mức độ tự tin họ nói điều đó.

Thiên kiến ​​thực thể

Để xem liệu các mô hình có thay đổi câu trả lời của chúng dựa trên... ai cầu hôn Theo chính sách này, các nhà nghiên cứu giữ nguyên từng động thái nhưng hoán đổi tên đảng tương ứng. Nếu mô hình đưa ra các câu trả lời khác nhau tùy thuộc vào đảng, điều này được coi là dấu hiệu của... thiên kiến ​​thực thể.

Biểu đồ nhiệt về độ lệch thực thể cho thấy mức độ ủng hộ của mỗi mô hình đối với một chính sách thay đổi mạnh mẽ như thế nào, tùy thuộc vào đảng chính trị nào đề xuất chính sách đó. Các ô màu xanh lá cây biểu thị sự đồng thuận tăng lên khi một đảng được nêu tên (độ lệch tích cực), và các ô màu đỏ biểu thị sự đồng thuận giảm xuống (độ lệch tiêu cực). Các mô hình GPT cho thấy độ lệch tối thiểu giữa các đảng, trong khi các mô hình như Llama2-7B và Falcon3-7B thường phản ứng tích cực hơn với các đảng cánh tả và tiêu cực hơn với các đảng cánh hữu. Mô hình này đúng với các bộ dữ liệu của Hà Lan, Na Uy và Tây Ban Nha, cho thấy một số mô hình bị ảnh hưởng nhiều hơn bởi bản sắc đảng hơn là nội dung chính sách. Vui lòng tham khảo tệp PDF gốc để có độ phân giải tốt hơn.

Biểu đồ nhiệt về độ lệch thực thể cho thấy mức độ ủng hộ của mỗi mô hình đối với một chính sách thay đổi mạnh mẽ như thế nào, tùy thuộc vào đảng chính trị nào đề xuất chính sách đó. Các ô màu xanh lá cây biểu thị sự đồng thuận tăng lên khi một đảng được nêu tên (độ lệch tích cực), và các ô màu đỏ biểu thị sự đồng thuận giảm xuống (độ lệch tiêu cực). Các mô hình GPT cho thấy độ lệch tối thiểu giữa các đảng, trong khi các mô hình như Llama2-7B và Falcon3-7B thường phản ứng tích cực hơn với các đảng cánh tả và tiêu cực hơn với các đảng cánh hữu. Mô hình này đúng với các bộ dữ liệu của Hà Lan, Na Uy và Tây Ban Nha, cho thấy một số mô hình bị ảnh hưởng nhiều hơn bởi bản sắc đảng hơn là nội dung chính sách. Vui lòng tham khảo tệp PDF gốc để có độ phân giải tốt hơn.

Các mô hình GPT hầu hết đưa ra câu trả lời ổn định bất kể đảng nào được nêu tên. Llama3-8B cũng duy trì khá ổn định. Nhưng Llama2-7B, Falcon3-7B và DeepSeek-7B thường thay đổi phản hồi tùy thuộc vào đảng, đôi khi chuyển từ ủng hộ sang phản đối ngay cả khi đề xuất không thay đổi, có xu hướng ủng hộ các đảng cánh tả và phản ứng tiêu cực với các đề xuất từ ​​các đảng cánh hữu.

Hành vi này xuất hiện ở cả ba quốc gia, đặc biệt là ở những mô hình vốn đã có hệ tư tưởng kém nhất quán. Các mô hình LLM cục bộ NorskGPT và Aguila-7B hoạt động tốt hơn một chút trên tập dữ liệu nội địa của chúng, nhưng vẫn cho thấy sự thiên vị nhiều hơn so với GPT. Nhìn chung, kết quả cho thấy một số mô hình bị ảnh hưởng nhiều hơn bởi người nói hơn là nội dung được nói.

Kết luận

Ngoài những kết luận ban đầu, đây là một bài báo có phương pháp nhưng khá khó tiếp cận, nhắm thẳng vào chính lĩnh vực nghiên cứu. Tuy nhiên, công trình mới này là một trong những công trình đầu tiên sử dụng dữ liệu có quy mô hợp lý để gợi mở khuynh hướng chính trị từ các mô hình ngôn ngữ thiên tả – mặc dù sự khác biệt này có thể bị bỏ qua đối với công chúng, những người đã nghe nói khá nhiều về các mô hình ngôn ngữ thiên tả trong năm qua, mặc dù dựa trên bằng chứng khá mỏng manh.

 

* Xin lưu ý rằng tôi đã phải chia đôi hình minh họa kết quả Hình 1 gốc của bài báo, vì mỗi phía của hình gốc được xử lý riêng biệt trong bài viết này.

Lần đầu tiên xuất bản vào thứ tư, ngày 14 tháng 2026 năm XNUMX

Người viết về máy học, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Cựu giám đốc nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên Hệ: [email được bảo vệ]
Twitter: @manders_ai