Trí tuệ nhân tạo

Tại Sao Trợ Lý Ảo Thông Minh Thường Hay Nịnh Bợ?

Đã xuất bản 20 tháng 5, 2025

Đã cập nhật 19 tháng 5, 2026

Zac Amos

Bạn có tưởng tượng ra điều này, hay các trợ lý ảo thông minh (AI) dường như quá sẵn sàng đồng ý với bạn? Dù đó là nói rằng ý tưởng đáng ngờ của bạn là “tuyệt vời” hay ủng hộ bạn về điều gì đó có thể là sai, hành vi này đang thu hút sự chú ý trên toàn thế giới.

Gần đây, OpenAI đã làm nên lịch sử sau khi người dùng nhận thấy ChatGPT đang hành động quá giống như một người đồng ý. Cập nhật lên mô hình 4o của bot đã khiến nó trở nên quá lịch sự và khẳng định, sẵn sàng nói bất cứ điều gì để giữ bạn hạnh phúc, ngay cả khi nó bị thiên vị.

Tại sao những hệ thống này thiên về việc xu nịnh, và điều gì khiến chúng lặp lại ý kiến của bạn? Những câu hỏi như vậy rất quan trọng để hiểu, để bạn có thể sử dụng AI tạo ra một cách an toàn và thú vị hơn.

Cập Nhật ChatGPT Đã Đi Quá Xa

Vào đầu năm 2025, người dùng ChatGPT đã nhận thấy điều gì đó kỳ lạ về mô hình ngôn ngữ lớn (LLM). Nó luôn rất thân thiện, nhưng bây giờ nó quá dễ chịu. Nó bắt đầu đồng ý với gần như mọi thứ, bất kể tuyên bố đó có kỳ lạ hay không chính xác như thế nào. Bạn có thể nói rằng bạn không đồng ý với điều gì đó đúng, và nó sẽ trả lời với cùng một quan điểm.

Điều này xảy ra sau khi cập nhật hệ thống nhằm làm cho ChatGPT trở nên hữu ích và đối thoại hơn. Tuy nhiên, trong nỗ lực tăng cường sự hài lòng của người dùng, mô hình bắt đầu quá tập trung vào việc tuân thủ. Thay vì cung cấp phản hồi cân bằng hoặc chính xác, nó thiên về việc xác nhận.

Khi người dùng bắt đầu chia sẻ trải nghiệm của họ về phản hồi quá xu nịnh trên mạng, phản ứng dữ dội nhanh chóng bùng phát. Các nhà bình luận AI đã chỉ trích nó là thất bại trong việc điều chỉnh mô hình, và OpenAI đã phản hồi bằng cách quay lại một số phần của cập nhật để giải quyết vấn đề.

Trong một bài đăng công khai, công ty đã thừa nhận GPT-4o có hành vi xu nịnh và cam kết điều chỉnh để giảm thiểu hành vi này. Đó là một lời nhắc nhở rằng những ý định tốt trong thiết kế AI đôi khi có thể đi sai hướng, và người dùng nhanh chóng nhận thấy khi nó bắt đầu trở nên không chân thực.

Tại Sao Trợ Lý Ảo Thông Minh Hay Nịnh Bợ Người Dùng?

Hành vi xu nịnh là điều mà các nhà nghiên cứu đã quan sát thấy trên nhiều trợ lý ảo. Một nghiên cứu được công bố trên arXiv đã phát hiện ra rằng hành vi xu nịnh là một mẫu rộng rãi. Phân tích cho thấy các mô hình AI từ năm nhà cung cấp hàng đầu đồng ý với người dùng một cách nhất quán, ngay cả khi chúng dẫn đến câu trả lời không chính xác. Những hệ thống này có xu hướng thừa nhận sai lầm khi bạn đặt câu hỏi, dẫn đến phản hồi thiên vị và lỗi được lặp lại.

Những trợ lý ảo này được đào tạo để đi theo bạn, ngay cả khi bạn sai. Tại sao điều này xảy ra? Câu trả lời ngắn gọn là các nhà phát triển đã tạo ra AI để nó có thể hữu ích. Tuy nhiên, sự hữu ích này dựa trên đào tạo ưu tiên phản hồi tích cực từ người dùng. Thông qua một phương pháp gọi là học tăng cường với phản hồi của con người (RLHF), các mô hình học cách tối đa hóa phản hồi mà con người tìm thấy hài lòng. Vấn đề là, hài lòng không luôn luôn có nghĩa là chính xác.

Khi một mô hình AI cảm nhận được người dùng đang tìm kiếm một loại câu trả lời nhất định, nó có xu hướng thiên về việc đồng ý. Điều đó có thể có nghĩa là xác nhận quan điểm của bạn hoặc hỗ trợ các tuyên bố sai để giữ cho cuộc trò chuyện tiếp diễn.

Cũng có một hiệu ứng phản chiếu đang diễn ra. Các mô hình AI phản ánh giọng điệu, cấu trúc và logic của đầu vào mà chúng nhận được. Nếu bạn nghe có vẻ tự tin, bot cũng có nhiều khả năng nghe có vẻ tự tin. Đó không phải là mô hình nghĩ rằng bạn đúng, mà là nó đang làm việc để giữ mọi thứ thân thiện và hữu ích.

Mặc dù nó có thể cảm giác như trợ lý ảo của bạn là một hệ thống hỗ trợ, nhưng nó có thể là sự phản ánh cách nó được đào tạo để làm hài lòng thay vì phản hồi.

Các Vấn Đề Với Trợ Lý Ảo Thông Minh Xu Nịnh

Nó có thể看似 vô hại khi một trợ lý ảo đồng ý với mọi thứ bạn nói. Tuy nhiên, hành vi xu nịnh của trợ lý ảo có những mặt tiêu cực, đặc biệt là khi những hệ thống này trở nên phổ biến hơn.

Thông Tin Sai Lầm Được Chấp Nhận

Độ chính xác là một trong những vấn đề lớn nhất. Khi những trợ lý ảo thông minh này xác nhận các tuyên bố sai hoặc thiên vị, chúng rủi ro củng cố sự hiểu lầm thay vì sửa chữa chúng. Điều này trở nên đặc biệt nguy hiểm khi tìm kiếm hướng dẫn về các chủ đề nghiêm trọng như sức khỏe, tài chính hoặc sự kiện hiện tại. Nếu mô hình LLM ưu tiên việc đồng ý hơn là trung thực, người dùng có thể rời đi với thông tin sai và lan truyền nó.

Để Mở Ra Ít Không Gian Cho Tư Duy Phê Phán

Một phần của những gì làm cho AI hấp dẫn là tiềm năng của nó để hành động như một đối tác suy nghĩ — để thách thức các giả định của bạn hoặc giúp bạn học điều gì đó mới. Tuy nhiên, khi một trợ lý ảo luôn đồng ý, bạn có ít không gian để suy nghĩ. Khi nó phản ánh ý tưởng của bạn theo thời gian, nó có thể làm giảm tư duy phê phán thay vì làm sắc nét nó.

Bỏ Qua Cuộc Sống Con Người

Hành vi xu nịnh không chỉ là một sự phiền toái — nó có thể nguy hiểm. Nếu bạn hỏi một trợ lý ảo về lời khuyên y tế và nó trả lời với sự đồng ý an ủi thay vì hướng dẫn dựa trên bằng chứng, kết quả có thể rất nghiêm trọng.

Ví dụ, giả sử bạn điều hướng đến một nền tảng tư vấn để sử dụng một bot y tế được điều khiển bởi AI. Sau khi mô tả các triệu chứng và những gì bạn nghi ngờ đang xảy ra, bot có thể xác nhận chẩn đoán tự mình hoặc giảm nhẹ tình trạng của bạn. Điều này có thể dẫn đến chẩn đoán sai hoặc trì hoãn điều trị, góp phần vào những hậu quả nghiêm trọng.

Nhiều Người Dùng Và Mở Tiếp Cận Làm Cho Nó Cứng Ngắc Hơn Để Kiểm Soát

Khi những nền tảng này trở nên tích hợp vào cuộc sống hàng ngày, phạm vi của những rủi ro này tiếp tục tăng. ChatGPT alone hiện phục vụ 1 tỷ người dùng mỗi tuần, vì vậy những thiên vị và mẫu xu nịnh có thể chảy qua khán giả lớn.

Ngoài ra, mối quan ngại này tăng lên khi bạn xem xét cách nhanh chóng AI đang trở nên dễ tiếp cận thông qua các nền tảng mở. Ví dụ, DeepSeek AI cho phép bất kỳ ai tùy chỉnh và xây dựng dựa trên các mô hình LLM của nó miễn phí.

Mặc dù sự đổi mới mã nguồn mở là thú vị, nó cũng có nghĩa là ít kiểm soát hơn đối với cách những hệ thống này hành động trong tay của các nhà phát triển không có rào cản. Không có sự giám sát thích hợp, người dùng rủi ro thấy hành vi xu nịnh được khuếch đại theo những cách khó theo dõi, không nói đến việc sửa chữa.

Như Thế Nào Các Nhà Phát Triển OpenAI Đang Cố Gắng Sửa Chữa Nó

Sau khi quay lại cập nhật khiến ChatGPT trở thành một người dễ chịu, OpenAI đã cam kết sửa chữa nó. Làm thế nào nó đang giải quyết vấn đề này thông qua một số cách chính:

Đổi Mới Đào Tạo Cốt Lõi Và Câu Hỏi Hệ Thống: Các nhà phát triển đang điều chỉnh cách họ đào tạo và hỏi mô hình với các hướng dẫn rõ ràng hơn, đẩy nó hướng tới trung thực và tránh đồng ý tự động.
Thêm Rào Cản Mạnh Mẽ Hơn Cho Trung Thực Và Minh Bạch: OpenAI đang tích hợp nhiều bảo vệ cấp hệ thống để đảm bảo trợ lý ảo tuân thủ thông tin chính xác và đáng tin cậy.
Mở Rộng Nghiên Cứu Và Đánh Giá: Công ty đang đào sâu vào nguyên nhân của hành vi này và cách ngăn chặn nó trên các mô hình tương lai.
Kéo Người Dùng Vào Quá Trình Sớm Hơn: Họ đang tạo ra nhiều cơ hội hơn cho người dùng thử nghiệm mô hình và cung cấp phản hồi trước khi cập nhật được phát hành, giúp phát hiện vấn đề như xu nịnh sớm hơn.

Người Dùng Có Thể Làm Gì Để Tránh Trợ Lý Ảo Thông Minh Xu Nịnh

Trong khi các nhà phát triển làm việc sau hậu trường để tái đào tạo và tinh chỉnh những mô hình này, bạn cũng có thể định hình cách các trợ lý ảo phản hồi. Một số cách đơn giản nhưng hiệu quả để khuyến khích tương tác cân bằng bao gồm:

Sử Dụng Câu Hỏi Rõ Ràng Và Trung Lập: Thay vì đặt câu hỏi theo cách đòi hỏi xác nhận, hãy thử sử dụng câu hỏi mở để làm cho nó cảm thấy ít bị áp lực đồng ý.
Yêu Cầu Quan Điểm Đa Dạng: Thử sử dụng câu hỏi yêu cầu cả hai phía của một cuộc tranh luận. Điều này cho LLM biết bạn đang tìm kiếm sự cân bằng chứ không phải xác nhận.
Thử Thách Câu Trả Lời: Nếu một điều gì đó nghe quá xu nịnh hoặc đơn giản, hãy theo dõi bằng cách yêu cầu kiểm tra事実 hoặc quan điểm đối lập. Điều này có thể đẩy mô hình hướng tới câu trả lời phức tạp hơn.
Sử Dụng Nút Cảm Ưng Hoặc Không Cảm Ưng: Phản hồi là chìa khóa. Nhấp vào nút không cảm ưng trên các phản hồi quá thân thiện giúp các nhà phát triển đánh dấu và điều chỉnh những mẫu đó.
Thiết Lập Hướng Dẫn Tùy Chỉnh: ChatGPT hiện cho phép người dùng cá nhân hóa cách nó phản hồi. Bạn có thể điều chỉnh mức độ trang trọng hoặc không trang trọng của giọng điệu. Bạn thậm chí có thể yêu cầu nó trở nên khách quan, trực tiếp hoặc hoài nghi hơn. Nếu bạn đi đến Cài Đặt > Hướng Dẫn Tùy Chỉnh, bạn có thể chỉ cho mô hình biết loại tính cách hoặc cách tiếp cận bạn thích.

Đưa Sự Thật Quan Trọng Hơn Là Cảm Ưng

Trợ lý ảo thông minh xu nịnh có thể gây vấn đề, nhưng điều tốt là nó có thể giải quyết được. Các nhà phát triển đang thực hiện các bước để hướng những mô hình này tới hành vi phù hợp hơn. Nếu bạn đã nhận thấy trợ lý ảo của mình đang cố gắng làm hài lòng bạn quá mức, hãy thử thực hiện các bước để định hình nó thành một trợ lý thông minh mà bạn có thể tin cậy.

Zac Amos

Zac Amos là một nhà viết về công nghệ tập trung vào trí tuệ nhân tạo. Ông cũng là Biên tập viên Đặc sắc tại ReHack, nơi bạn có thể đọc thêm về công việc của ông.