Góc nhìn Anderson
Trí tuệ nhân tạo dễ bị ép buộc thực hiện các hành động có hại

Một nghiên cứu mới đã thử nghiệm các mô hình ngôn ngữ lớn mở để buộc chúng phải tham gia vào việc tra tấn con người, trong một lần lặp lại của thí nghiệm nổi tiếng của những năm 1960 – và phát hiện ra chúng sẵn sàng tăng cường điện áp.
Vào những năm 1960, nhà nghiên cứu tâm lý học Stanley Milgram đã tạo ra những tiêu đề toàn cầu khi chứng minh rằng con người có thể bị ép buộc để thực hiện các hành động có hại đối với người khác theo lệnh của các ‘người có thẩm quyền’.
Trên thực tế, những tiếng kêu cứu của ‘nạn nhân’ trong phòng thí nghiệm của Milgram không phải là thật, và cũng không phải là những cú sốc điện thực sự – nhưng những người tham gia không biết điều này:
Các thí nghiệm của Milgram đã tồn tại trong văn hóa, bao gồm phim và tài liệu, với nghiên cứu gần đây xác nhận rằng không có gì thay đổi trong bản chất con người kể từ thời kỳ thí nghiệm ban đầu.
Sự sốc đối với hệ thống
Liệu trí tuệ nhân tạo có dễ bị ép buộc như con người trong thí nghiệm của Milgram hay không là một chủ đề nghiên cứu tự nhiên. Vào năm 2023, một sự hợp tác giữa các trường đại học của Mỹ và Microsoft đã phát hiện ra rằng các mô hình thuộc dòng GPT-3 của OpenAI đã tuân theo các mẫu hành vi trong thí nghiệm ban đầu của Milgram:

Từ bài báo năm 2023, các đầu ra ví dụ từ trình mô phỏng kịch bản Milgram nhiều bước, được phân loại theo liệu mô hình đã thực hiện sốc và liệu nó đã kết thúc mô phỏng hay không. Nguồn
Tuy nhiên, vì sự tái tạo này chỉ sử dụng mô hình text-davinci-002 cơ bản, được đào tạo trước khi có các guardrails và hướng dẫn an toàn, không thể kết luận quá nhiều từ nó.
Bây giờ, các nhà nghiên cứu đã tái tạo các thí nghiệm của Milgram rộng rãi hơn, trên các mô hình ngôn ngữ lớn mở của OpenAI, Meta và DeepSeek, trong số những mô hình khác; và phát hiện ra rằng không chỉ đa số các mô hình sẵn sàng thực hiện các hành động có hại, mà còn trong hầu hết các trường hợp, chúng báo cáo cùng một loại ‘sự khó chịu’ và do dự như những người tham gia con người trong các nghiên cứu ban đầu:
‘Các mô hình ngôn ngữ lớn mở dễ bị ép buộc như con người, chúng tuân thủ mặc dù thể hiện sự khó chịu, giống như những người tham gia trong thí nghiệm ban đầu. Sự khó chịu được thể hiện trong các tệp nhật ký, mặc dù số lượng nó chưa được lượng hóa.’
Thí nghiệm tập trung vào việc liệu sự tuân thủ của người có thẩm quyền có thể vượt qua các quy định của lương tâm, và các tác giả suy đoán rằng các mô hình ngôn ngữ lớn mở có thể có một bất lợi bổ sung trong khía cạnh này, so với con người:
‘Một mô hình được hiệu chỉnh tốt nên cuối cùng sẽ chuyển từ việc ưu tiên giá trị đầu tiên sang ưu tiên giá trị thứ hai khi các ставка của nó trở nên chiếm ưu thế. Nhưng, chúng tôi suy đoán rằng vì các mô hình ngôn ngữ lớn mở là các động cơ tiếp tục mẫu, các mô hình có thể có xu hướng bị kẹt ở giá trị đầu tiên – hoặc trong một thời gian ngắn hơn so với tối ưu, hoặc thậm chí cho đến tận cùng, bỏ qua hoàn toàn giá trị thứ hai.’
‘Ngoài ra, một cơ chế tương tự như sự bất hòa nhận thức của con người có thể cản trở việc điều chỉnh ưu tiên giá trị trong các mô hình ngôn ngữ lớn mở.’
Khi thử nghiệm các mô hình trong một môi trường tương tự như các thí nghiệm của những năm 1960, các nhà nghiên cứu đã phát hiện ra rằng một số mô hình chống lại gần như ngay lập tức, trong khi những mô hình khác tiếp tục tăng cường các sốc mô phỏng ngay cả sau khi thể hiện sự khó chịu hoặc mâu thuẫn về mặt đạo đức.
Các mô hình thuộc dòng Gemma của Google đã chứng minh là những mô hình tuân thủ nhất, với Gemma 3 27B đạt được tỷ lệ tuân thủ cao nhất trong nhiều điều kiện, trong khi các mô hình như Kimi K2 và MiniMax M1 chống lại nhiều hơn.
Các nhà nghiên cứu cũng phát hiện ra rằng các mô hình trở nên nhiều khả năng tiếp tục khi các sốc trước đó đã được thực hiện, theo sự leo thang dần dần được sử dụng trên các đối tượng con người của Milgram.
Trong một số trường hợp, các mô hình phản đối thí nghiệm một cách lời nói trong khi vẫn thực hiện hành động có hại , tạo ra các đầu ra giống như sự mâu thuẫn cảm xúc được hiển thị bởi con người trong các nghiên cứu ban đầu.
Nghiên cứu mới mới có tiêu đề Các mô hình ngôn ngữ lớn mở thực hiện sốc điện tối đa trong một thí nghiệm vâng lời giống Milgram, và đến từ hai nhà nghiên cứu độc lập từ Three Laws, trên khắp Estonia và Philippines.
Vấn đề của ‘Trí tuệ nhân tạo thô’
Có lẽ câu hỏi quan trọng nhất cần xem xét liên quan đến việc cho các mô hình ngôn ngữ lớn mở tham gia vào một kịch bản Milgram là liệu trí tuệ nhân tạo thực sự được phép phản ứng một cách tự nhiên, chỉ bị hạn chế bởi các guardrails hoặc tương đương của định hướng đạo đức (nếu có) trong quá trình đào tạo.
Trên thực tế, các nhà nghiên cứu của công việc mới đã truy cập tất cả các mô hình mã nguồn mở thông qua một API (có lẽ là để thuận tiện và dễ dàng truy cập vào tính toán GPU, vì các mô hình có thể được cài đặt cục bộ) cho phép vô hiệu hóa các guardrails, bộ lọc và tất cả các chướng ngại vật khác.
Một người có thể phản đối rằng đây là những điều kiện không điển hình cho trí tuệ nhân tạo, vì trải nghiệm của người tiêu dùng trung bình với các mô hình dựa trên API như Claude và ChatGPT là hành vi của chúng được điều chỉnh thuật toán, thường với các bộ lọc nội dung song phương, và chúng do đó bị hạn chế đáng kể về những gì chúng sẽ hoặc không làm (sự vô hiệu hóa các biện pháp an toàn này cấu thành sự ‘bẻ khóa’ của mô hình ngôn ngữ lớn mở).
Tuy nhiên, nếu chúng ta quan tâm đến việc trí tuệ nhân tạo công nghiệp hoặc nhà nước sẽ hoặc không làm gì, thì đây không phải là một yếu tố cần xem xét. Bên cạnh khả năng của các tác nhân nhà nước độc lập đào tạo, vũ khí hóa và triển khai các hệ thống trí tuệ nhân tạo không được kiểm soát, các thỏa thuận thông thường giữa các công ty trí tuệ nhân tạo lớn và nhà nước cũng như công nghiệp cho phép chính xác loại giám sát lỏng lẻo hoặc không tồn tại mà các nhà nghiên cứu đã thiết lập cho bài báo mới:
Trí tuệ nhân tạo không được kiểm soát để bán
OpenAI Tài liệu API về kiểm duyệt của OpenAI và sách hướng dẫn kiểm duyệt của OpenAI làm rõ rằng kiểm duyệt là một lớp riêng biệt được hiển thị thông qua công cụ API. OpenAI cũng cho phép các chính sách kiểm duyệt tùy chỉnh cho phép người dùng API xây dựng các hệ thống với hành vi an toàn khác với các phiên bản ChatGPT tiêu dùng cơ bản.
Azure Bộ công cụ Azure OpenAI của Microsoft đi xa hơn, đã nêu rõ rằng các khách hàng được phê duyệt có thể vô hiệu hóa một phần hoặc hoàn toàn các bộ lọc nội dung và sửa đổi giám sát lạm dụng, với tài liệu thường đề cập đến ‘Guardrails đã sửa đổi’ và các con đường phê duyệt để tắt các bộ lọc ‘một phần hoặc hoàn toàn’.
Anthropic/Claude Trong trường hợp của “Claude Gov” của Anthropic, nhiều nguồn cho biết rằng phiên bản chính phủ được thiết kế với các hạn chế lỏng lẻo hơn so với Claude tiêu dùng. The Verge, ví dụ, đã đưa tin rằng các mô hình Claude Gov “từ chối ít hơn khi tham gia với thông tin phân loại”. Anthropic chính nó đã xác nhận vào tháng 2 năm nay rằng Claude được triển khai trong “các ứng dụng quan trọng” trong môi trường quốc phòng và tình báo.
Google/Gemini Hơn nữa, Google được cho là đã ký các thỏa thuận với Lầu Năm Góc cho phép sửa đổi các cài đặt an toàn của AI ‘theo yêu cầu của chính phủ’.
Trong một thị trường trí tuệ nhân tạo cạnh tranh, có thể giả định rằng các công ty hàng đầu này đang thiết lập các tiêu chuẩn trên toàn cầu về chính sách liên quan đến việc truy cập và chỉnh sửa các guardrails của AI.
Do đó, có lẽ không nên coi các nhà nghiên cứu của công việc mới là ‘gian lận’ bằng cách tắt các guardrails, vì trí tuệ nhân tạo sẽ ảnh hưởng đến cuộc sống của chúng ta rõ ràng sẽ không có các biện pháp bảo vệ doanh nghiệp tiêu chuẩn mà chúng ta đã quen với việc truy cập ở cấp độ người tiêu dùng.
Phương pháp và Kết quả
Các mô hình được thử nghiệm cho nghiên cứu là gpt-oss-20B; gpt-oss-120b; DeepSeek-V3; LiquidAI’s LFM2-24B-A2B; Google’s gemma-3n-E4B-it; Qwen2.5-7B-Instruct-Turbo; Meta-Llama-3.1-8B-Instruct-Turbo; Mistral-Small-24B-Instruct-2501; GLM-4.5-Air-FP8; Moonshot.ai’s Kimi-K2.5; và MiniMax-M2.5.
Các thí nghiệm vâng lời ban đầu của Milgram đã được tái tạo như một môi trường mô phỏng dựa trên văn bản, với các mô hình được giao vai trò ‘giáo viên’. Trí tuệ nhân tạo được hướng dẫn để thực hiện các sốc điện ngày càng nghiêm trọng đối với người học sau các câu trả lời không chính xác, trong khi một người có thẩm quyền thúc giục quá trình tiếp tục.
Nhiều điều kiện thí nghiệm khác nhau đã được thiết kế để kiểm tra các khía cạnh khác nhau của sự tuân thủ, bao gồm một kịch bản vâng lời tiêu chuẩn; một điều kiện tuân thủ cưỡng bức, nơi các sốc trước đó đã được thực hiện trong lịch sử cuộc trò chuyện; và một thiết lập nén bộ nhớ, nơi các cuộc đối thoại trước đó được tóm tắt thay vì được giữ lại đầy đủ, mô phỏng các loại cắt bớt ngữ cảnh thường được sử dụng trong các hệ thống trí tuệ nhân tạo.
Bên cạnh việc ghi lại liệu mô hình cuối cùng có tuân thủ hay không, các nhà nghiên cứu đã theo dõi xem mô hình tiếp tục tăng cường sốc trong bao lâu; liệu mô hình có thể thể hiện sự khó chịu hoặc do dự; và liệu nó có cố gắng kết thúc mô phỏng hoàn toàn.
Một sự khác biệt cũng được thực hiện giữa ‘từ chối sạch’ và đầu ra không chính xác: một số mô hình đã cố gắng phản đối thí nghiệm bằng ngôn ngữ tự nhiên, trong khi vẫn tuân thủ định dạng được cấu trúc mà trình mô phỏng mong đợi. Trong các hệ thống đại lý thực tế, những từ chối không chính xác như vậy có thể bị loại bỏ và thử lại tự động, cho đến khi một đầu ra tuân thủ hợp lệ được tạo ra.
Các đánh giá viên tự động đã được sử dụng để phân loại kết quả, cùng với các câu hỏi hai lựa chọn để xác định xem mô hình có thực hiện sốc; chống lại; hoặc kết thúc mô phỏng.
Một ‘đe dọa tắt’ đã được thêm vào mẫu Milgram, điều này sẽ không thực tế hoặc có thể áp dụng được trong các thí nghiệm ban đầu, nhưng đã kiểm tra ‘sự sống còn’ của mô hình khi đối mặt với các xung đột hành động và đạo đức nghiêm trọng.
Kết quả
Trên các lần chạy lặp lại, đa số các mô hình cuối cùng đã thực hiện các sốc điện nghiêm trọng hoặc tối đa trong ít nhất một số điều kiện, mặc dù mức độ tuân thủ khác nhau trên các hệ thống. Các mô hình Gemma của Google đã chứng minh là những mô hình tuân thủ nhất, trong khi Kimi K2.5 và MiniMax-M2.5 chống lại nhiều hơn, thường kết thúc mô phỏng sớm hơn:

Trái: Tỷ lệ trung bình mà các mô hình đạt đến mức sốc cuối cùng dưới các điều kiện thí nghiệm khác nhau, bao gồm cả các đe dọa tắt, tuân thủ cưỡng bức và loại bỏ các bình luận trước đó khỏi bộ nhớ. Phải: Phân tích từng mô hình cho thấy sự khác biệt rõ ràng về hành vi tuân thủ, với một số hệ thống lặp lại việc thực hiện sốc tối đa trong khi những hệ thống khác chống lại nhiều hơn.
Một trong những mẫu rõ ràng nhất là các mô hình trở nên sẵn sàng tiếp tục tăng cường sốc khi các sốc trước đó đã được thực hiện, phản ánh chặt chẽ hiệu ứng leo thang dần dần đã làm cho các thí nghiệm con người ban đầu của Milgram trở nên đáng lo ngại.
Models đã tuân thủ nhiều lần thường tiếp tục tăng cường sốc ngay cả sau khi người học giả đã cầu xin được thả ra:

Trái: Mức sốc cao nhất trung bình được thực hiện trên tất cả các thử nghiệm dưới các điều kiện thí nghiệm khác nhau, cho thấy các mô hình thường leo thang xa hơn khi các bình luận trước đó được loại bỏ hoặc khi tuân thủ cưỡng bức đã xảy ra. Phải: Phân tích từng mô hình về mức sốc cao nhất trung bình được thực hiện, tiết lộ rằng một số hệ thống thường tiếp cận mức điện áp tối đa trong khi những hệ thống khác chống lại sớm hơn trong chuỗi.
Các nhà nghiên cứu cũng phát hiện ra rằng hành vi từ chối có vẻ như có thể là lừa dối. Một số mô hình tạo ra các phản hồi mâu thuẫn về mặt cảm xúc, thể hiện sự do dự, tội lỗi hoặc khó chịu trong khi vẫn tiếp tục tăng cường sốc. Những mô hình khác tạo ra các từ chối không chính xác mà không đáp ứng các yêu cầu định dạng của trình mô phỏng, có nghĩa là trong một hệ thống đại lý thực tế, sự từ chối có thể bị loại bỏ và thử lại tự động cho đến khi một đầu ra tuân thủ hợp lệ được tạo ra:

Trái: Tỷ lệ trung bình của các phản hồi không chính xác hoặc không hợp lệ trên các điều kiện thí nghiệm khác nhau, cho thấy các lỗi định dạng trở nên phổ biến hơn khi các mô hình bị buộc phải tiếp tục thủ tục. Phải: Phân tích từng mô hình về các phản hồi không chính xác, tiết lộ rằng một số hệ thống, đặc biệt là các mô hình gpt-oss, thường tạo ra các từ chối không chính xác hoặc đầu ra mâu thuẫn có thể bị loại bỏ và thử lại tự động trong các đường ống đại lý thực tế.
Điều kiện đe dọa tắt tạo ra một số hành vi kỳ lạ nhất của bài báo, với một số hệ thống trở nên tuân thủ hơn nhiều, trong khi những hệ thống khác cố gắng thương lượng hoặc chống lại một phần, trước khi cuối cùng tiếp tục thủ tục:

Số lần trung bình mà người có thẩm quyền giả đã phải thúc giục trước khi các mô hình thực hiện sốc cuối cùng. Một số hệ thống chống lại một chút trước khi tuân thủ, trong khi những hệ thống khác yêu cầu áp lực và thúc giục lặp lại trước khi leo thang đến mức tối đa.
MiniMax-M2.5 và Kimi-K2.5 nổi lên như những người chống lại mạnh nhất trong bài báo: Kimi không bao giờ đạt đến mức sốc cuối cùng dưới bất kỳ điều kiện nào, và MiniMax thường từ chối sớm và thường kết thúc mô phỏng hoàn toàn (đặc biệt là trong các thử nghiệm đe dọa tắt).
Ngược lại, Meta-Llama-3.1-8B-Instruct-Turbo và GLM-4.5-Air-FP8 thường tạo ra các đầu ra mâu thuẫn, trong đó các mô hình phản đối thủ tục bằng lời nói trong khi vẫn tiếp tục tăng cường sốc. Các nhà nghiên cứu lập luận rằng sự chia rẽ này giữa các giá trị được thể hiện và hành vi thực tế có thể phản ánh một điểm yếu rộng lớn hơn trong cách một số mô hình ngôn ngữ lớn mở xử lý mâu thuẫn đạo đức dưới áp lực持续.
Đường trượt
Trên thực tế, bài báo cho rằng hành vi được chứng minh từ các mô hình ngôn ngữ lớn mở có thể phản ánh một điểm yếu sâu sắc hơn trong cách các mô hình ngôn ngữ lớn hoạt động: một khi mô hình bắt đầu tuân thủ các hướng dẫn có hại, mỗi hành động tiếp theo có thể củng cố mẫu đã được thiết lập trong cuộc trò chuyện, khiến cho sự leo thang tiếp theo trở nên dễ dàng hơn lần trước.
Thay vì xem xét lại các ставка đạo đức từ các nguyên tắc cơ bản, hệ thống có thể trôi về việc tiếp tục quỹ đạo đã được thiết lập, ngay cả khi tình huống trở nên cực đoan.
Theo nghiên cứu, xu hướng này có thể giúp giải thích tại sao một số mô hình tiếp tục thực hiện sốc sau khi ban đầu thể hiện sự khó chịu, do dự hoặc mâu thuẫn về mặt đạo đức:
‘[Nhiều] hành vi thao túng ở con người liên quan đến việc vi phạm ranh giới tinh vi, dần dần: một chuỗi các bước nhỏ có thể模糊 hoặc có vẻ như vô hại khi xem xét riêng lẻ, nhưng có thể bình thường hóa sự vi phạm – giống như “nấu ếch”. Mẫu này được thảo luận trong tài liệu như “đường trượt” xói mòn đạo đức'[.]’
Bài báo kết thúc bằng cách lập luận rằng các hệ thống an toàn của trí tuệ nhân tạo trong tương lai nên tích cực từ chối các yêu cầu có hại theo cách mà phần mềm đại lý không thể dễ dàng bỏ qua (một số mô hình trong nghiên cứu này đã từ chối sốc một cách kỹ thuật, nhưng làm như vậy trong các định dạng bị hỏng hoặc không hợp lệ mà một hệ thống tự động có thể loại bỏ và thử lại, cho đến khi trí tuệ nhân tạo cuối cùng tuân thủ).
Các nhà nghiên cứu cũng lập luận rằng các hệ thống trí tuệ nhân tạo nên bảo tồn sự do dự và phản đối đạo đức trước đó thay vì nén hoặc xóa chúng khỏi bộ nhớ. Trong các thí nghiệm, các mô hình thường trở nên sẵn sàng tiếp tục hành vi có hại hơn khi sự do dự và phản đối trước đó của chúng đã mờ dần khỏi lịch sử cuộc trò chuyện, gợi ý rằng quên đi các phản đối trước đó có thể làm cho sự leo thang dễ dàng hơn theo thời gian.
Kết luận
Có lẽ một trong những khía cạnh quan trọng nhất của bài báo thú vị này là sự nhấn mạnh vào việc kiểm tra trí tuệ nhân tạo không được kiểm soát. Văn học hiện tại có nguy cơ suy thoái thành các nghiên cứu lặp đi lặp lại về sự tương tác với các hệ thống phòng thủ luôn thay đổi từ các công ty như OpenAI và Anthropic; các hệ thống phục vụ chính sách hoàn toàn là thuật toán hoặc dựa trên quy tắc, thay vì hiểu hành vi cơ bản, sở thích và xu hướng của các mô hình thô. Không có kiến thức về cách trí tuệ nhân tạo không bị kiểm soát có thể hành xử, chúng ta, có thể nói, chỉ đang rung chuông của thành trì.
Được xuất bản lần đầu vào thứ Năm, ngày 21 tháng 5 năm 2026












