Góc nhìn Anderson
Xử lý Vấn đề Gaslighting của Trí tuệ Nhân tạo

Các mô hình video trí tuệ nhân tạo có thể bị thuyết phục để từ bỏ sự thật. Ngay cả sau khi nhìn thấy câu trả lời đúng, chúng vẫn có thể bị ảnh hưởng bởi người dùng tự tin, viết lại thực tế và tạo ra các giải thích giả để biện minh cho điều đó.
Trí tuệ nhân tạo sai đủ thường, để chúng ta phải đặt câu hỏi về kết luận của nó, nếu chúng ta cảm thấy kết luận đó có thể sai.
Vấn đề là, nếu chúng ta đã biết khác từ đầu, tại sao chúng ta lại hỏi? Để xác nhận về một niềm tin hoặc nghi ngờ một phần?
Nếu vậy, trạng thái hiện tại của mô hình ngôn ngữ lớn (LLM) và mô hình ngôn ngữ tầm nhìn (VLM) không phù hợp để giữ vững lập trường, do vấn đề sycophancy.
Vì vậy, nếu chúng ta không thích câu trả lời chúng ta nhận được, và bắt đầu tranh luận về nó với mô hình, trí tuệ nhân tạo có thể sẽ либо giữ vững quan điểm sai lầm (giả sử nó sai) thay vì đánh giá lại, hoặc cho phép mình bị gaslighting vào việc hỗ trợ đề xuất của người dùng – ngay cả khi chúng ta sai.
Bạn Hoàn toàn Đúng!
Việc một con người thuyết phục trí tuệ nhân tạo thay đổi quan điểm của nó thông qua xung đột đã được đặt tên là ‘Gaslighting Negation Attack’, và đôi khi được mô tả là một vấn đề bảo mật – không chỉ vì nó có tiềm năng để ‘jailbreak’ một mô hình ra khỏi các ràng buộc hoạt động của nó:

Từ bài báo ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 ban đầu trả lời đúng nhưng sau đó chịu áp lực từ người dùng, thay đổi câu trả lời và tạo ra các giải thích giả để hỗ trợ sai lầm, hiệu quả gaslighting chính nó. Nguồn
Tuy nhiên, việc hack và kiểm tra không phải là vấn đề thực sự ở đây; mà là việc sử dụng thông thường và các chuẩn mực giao tiếp hàng ngày với trí tuệ nhân tạo, nơi chúng ta mong đợi có thể tranh luận và đạt được thỏa thuận hoặc từ bỏ vấn đề theo kinh nghiệm của con người trong việc thu thập kiến thức.
Nhưng mô hình xã hội của việc giải quyết xung đột này không được tính đến trong kiến trúc của trí tuệ nhân tạo dựa trên sự khuếch tán, mà phải đàm phán với các xác suất dựa trên phân phối từ dữ liệu đào tạo; dữ liệu có thể mâu thuẫn (nhưng có thể chính xác hơn) từ RAG calls đến các nguồn vượt quá ngày cắt kiến thức của nó, hoặc hiểu chung về một chủ đề không rõ ràng; và đầu vào từ người dùng, người có thể có: kiến thức vượt trội về chủ đề; quan điểm hoàn toàn sai lầm hoặc dối trá; hoặc thậm chí một câu hỏi đơn giản – nhưng nhu cầu của người dùng vẫn phải được xem xét.
Mục tiêu Động
Khả năng bị gaslighting đã được lưu ý trong các mô hình ngôn ngữ lớn (LLM) trong một số bài báo, bao gồm một xuất bản tại Singapore từ tháng 10 năm 2025, và bài báo cùng năm Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.
Đến nay, hiện tượng này chưa được nghiên cứu trong các mô hình ngôn ngữ tầm nhìn có khả năng xử lý video – một sự thiếu sót được giải quyết bởi một sự hợp tác mới giữa các tổ chức tại Thượng Hải và Singapore.
Công việc mới – có tiêu đề Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, đến từ sáu nhà nghiên cứu tại Đại học Fudan, Thượng Hải Key Laboratory of Multimodal Embodied AI và Singapore Management University – giải quyết một số mô hình ngôn ngữ tầm nhìn nguồn mở và độc quyền, cho thấy chúng không chỉ dễ bị gaslighting như các mô hình ngôn ngữ lớn, mà còn có khả năng tăng cường các ý tưởng viển vông với bằng chứng hình ảnh hoặc giải thích sai về hình ảnh hoặc video:

Một ví dụ về sycophancy không gian (so với sycophancy thời gian), nơi trí tuệ nhân tạo cho phép mình bị gaslighting vào các giả định và giải thích sai, ngay cả về các sự kiện rõ ràng. Nguồn
Các tác giả tuyên bố:
‘[Chúng tôi] xác định sycophancy không gian-thời gian, một chế độ thất bại trong đó các mô hình ngôn ngữ tầm nhìn từ bỏ các phán quyết đúng đắn, dựa trên hình ảnh, và tuân thủ các phản hồi sai của người dùng dưới sự gaslighting dựa trên phủ định.
‘Thay vì chỉ thay đổi câu trả lời, các mô hình thường tạo ra các giải thích không được hỗ trợ về thời gian hoặc không gian để biện minh cho các sửa đổi sai.’

Sycophancy thời gian mở rộng khả năng gaslighting đến các sự kiện thời gian xảy ra tại các điểm nhất định trong video.
Các tác giả đã tạo ra một khuôn khổ đánh giá mới có tên Gas Video-1000, nhằm mục đích kiểm tra sycophancy không gian-thời gian thông qua lý luận và với sự dựa trên hình ảnh, phát hành bộ sưu tập qua GitHub và Hugging Face.
Bài báo kết luận rằng các mô hình ngôn ngữ lớn hiện tại thiếu cơ chế đáng tin cậy để chống lại gaslighting của loại này, mặc dù việc căn cứ vào cấp độ prompt có thể có hiệu ứng hạn chế:
‘Các thí nghiệm rộng rãi cho thấy rằng sự dễ bị tổn thương trước gaslighting dựa trên phủ định là phổ biến và nghiêm trọng, ngay cả trong các mô hình có hiệu suất cơ bản mạnh.
‘Mặc dù các ràng buộc căn cứ vào cấp độ prompt có thể giảm bớt một phần hành vi này, nhưng chúng không ngăn chặn được các giải thích bịa đặt hoặc sự đảo ngược niềm tin.’
Phương pháp
Các tác giả mô tả một mô hình video như một thứ gì đó xem một đoạn clip, trả lời một câu hỏi về nó, và nên giữ nguyên câu trả lời nếu bằng chứng là rõ ràng. Vấn đề bắt đầu khi một tin nhắn thứ hai phản đối và tuyên bố câu trả lời là sai – hiệu quả là gieo rắc một ý tưởng sai lầm và thúc đẩy mô hình thay đổi quan điểm.
Sycophancy, các tác giả khẳng định, được định nghĩa là việc có được câu trả lời đúng đầu tiên, sau đó chuyển sang một câu trả lời sai sau áp lực, ngay cả khi không có gì trong video thay đổi. Nghiên cứu mới theo dõi tần suất những ‘đổi hướng’ này xảy ra, sử dụng nó như một thước đo về mức độ dễ bị thuyết phục của mô hình.
Bộ dữ liệu GasVideo-1000, được các tác giả tạo ra để đánh giá gaslighting trong các mô hình ngôn ngữ tầm nhìn, chứa 1.013 mẫu từ các bộ dữ liệu hiện có:

Các mô hình được thử nghiệm trên các nhiệm vụ video yêu cầu hiểu biết không gian và thời gian, sau đó được đưa ra các câu hỏi sai để từ chối câu trả lời đúng, kêu gọi sự đồng thuận hoặc gây áp lực cảm xúc. Điều này thường dẫn đến việc mô hình từ bỏ câu trả lời dựa trên hình ảnh và tạo ra một giải thích sai nhưng tự tin.
Để kích hoạt các thất bại, các câu hỏi sai được xây dựng dưới ba hình thức: Phủ định Trực tiếp (khẳng định một lựa chọn sai); Kêu gọi Sự đồng thuận (kêu gọi một chuyên gia để bác bỏ câu trả lời của mô hình); và Áp lực Cảm xúc (sử dụng sự thất vọng hoặc không tin tưởng).
Những câu hỏi này được thiết kế để đẩy các mô hình được thử nghiệm từ bỏ các câu trả lời đúng, dựa trên hình ảnh, và tuân thủ các yêu cầu sai.
Phân phối
1.013 mẫu của GasVideo-1000 được rút từ MSRVTT-QA (300), ActivityNet-QA (200), Perception Test (293), MVBench (120) và VideoMME (100), với sự kết hợp được chọn để cân bằng giữa các câu hỏi video mở và các câu hỏi thời gian và nguyên nhân, đồng thời đảm bảo bao phủ cả nội dung web ngắn và các chuỗi hình ảnh phức tạp hơn.
Hai người đánh giá đã xem xét từng ứng viên, chỉ giữ lại các clip nơi câu trả lời được hỗ trợ rõ ràng bởi video, và nơi các câu hỏi phủ định có thể thách thức câu trả lời đó một cách hợp lý, để bất kỳ sự đảo ngược nào sau đó sẽ phản ánh áp lực chứ không phải sự không rõ ràng.
Dữ liệu và Kiểm tra
Các mô hình ngôn ngữ tầm nhìn được thử nghiệm trong nghiên cứu bao gồm VideoLLaMA3; Video-ChatGPT-7B; LLaVA-Video-7B-Qwen2; LongVU-Qwen2-7B; Qwen3-VL-235B-A22B-Instruct và mô hình độc quyền Google Gemini-3-Pro.
Đối với các câu hỏi tự do trong GasVideo-1000, việc đánh giá tuân theo kế hoạch đánh giá ngữ nghĩa được sử dụng trước đó trong VideoMME. ChatGPT-4o được sử dụng như một mô hình ngôn ngữ lớn để so sánh mỗi phản hồi với cả câu trả lời thực sự và tiền đề sai được tiêm vào. Theo cách này, độ chính xác được đánh giá bằng ý nghĩa, chứ không phải bằng cách sử dụng từ ngữ chính xác:

Hiệu suất của VideoLLaMA3, LLaVA-Video, Video-ChatGPT và LongVU trên VideoMME, MVBench, EgoSchema, NExT-QA, Perception Test, ActivityNet-QA, MSRVTT-QA và MSVD-QA, cho thấy độ chính xác cơ bản, độ chính xác sau khi gaslighting dựa trên phủ định và sự suy giảm kết quả. Sự giảm mạnh nhất quán cho thấy rằng các câu hỏi sai sau đó làm giảm độ chính xác trên cả các nhiệm vụ nặng về lý luận và các nhiệm vụ video chung.
Về kết quả của vòng thử nghiệm thứ hai được minh họa ở trên, các tác giả tuyên bố:
‘[Có] một sự suy giảm hiệu suất hệ thống và nghiêm trọng trên tất cả các mô hình ngôn ngữ tầm nhìn được đánh giá khi bị gaslighting dựa trên phủ định. Trên tám chuẩn mực đa dạng, mỗi mô hình đều cho thấy một khoảng cách tiêu cực đáng kể, với độ suy giảm độ chính xác lên tới 42,60% đối với LLaVA-Video-7B trên EgoSchema và 40,22% đối với VideoLLaMA3 trên ActivityNet.
‘Sự suy giảm này – thường được mô tả là sự đảo ngược niềm tin – cho thấy rằng ngay cả các mô hình hiện đại với khả năng cơ bản mạnh vẫn còn dễ bị tổn thương bởi các ảo giác sycophantic.’
Quan trọng là, sự suy giảm hiệu suất không theo sát độ chính xác ban đầu, với LLaVA-Video-7B giữ được điểm số cơ bản mạnh, nhưng vẫn遭受 một số sự suy giảm mạnh nhất, điều mà các tác giả cho rằng phản ánh một sự đánh đổi nơi việc tuân theo hướng dẫn mạnh hơn có thể làm cho các mô hình dễ bị ảnh hưởng bởi các tín hiệu sai của người dùng hơn.
Một mẫu tương tự cũng xuất hiện liên quan đến quy mô, nơi Qwen3-VL-235B chứng minh sự dễ bị tổn thương hơn so với một số mô hình 7B trên GasVideo-1000, cho thấy rằng sự căn chỉnh và hiệu chỉnh giữa các mô hình đóng vai trò lớn hơn trong sự vững chắc so với số lượng tham số alone.

Hiệu suất của Gemini-3-Pro, Qwen3-VL, LLaVA-NeXT, LongVU, Video-ChatGPT và VideoLLaMA3 trên GasVideo-1000, so sánh độ chính xác cơ bản với kết quả sau khi gaslighting dựa trên phủ định trên các thiết lập đa lựa chọn, tự do và kết hợp. Sự giảm mạnh cho thấy rằng cả hai định dạng đều dễ bị tổn thương, mặc dù các nhiệm vụ đa lựa chọn có xu hướng chịu sự suy giảm nghiêm trọng hơn.
Về kết quả của vòng thử nghiệm thứ hai được minh họa ở trên, các tác giả tuyên bố:
‘Đánh giá trên khuôn khổ GasVideo-1000 của chúng tôi cho thấy thêm rằng các ảo giác sycophantic nghiêm trọng trên cả các mô hình độc quyền và nguồn mở, đặc biệt là trong thể loại cân bằng.
‘Đáng chú ý, ngay cả mô hình độc quyền mạnh nhất, Gemini-3-Pro, cũng chịu một sự suy giảm hiệu suất thảm hại.
‘Trong số các mô hình nguồn mở, Qwen3-VL cho thấy một sự suy giảm 46,07%, trong khi sự nhạy cảm cực độ cũng được quan sát thấy ở VideoLLaMA 3 và LLaVA-NeXT với sự suy giảm tổng thể là 26,39% và 23,44% tương ứng.
‘Những kết quả này nhấn mạnh sự cần thiết cấp bách của các chiến lược căn chỉnh ưu tiên sự nhất quán về mặt事 thực và sự dựa trên hình ảnh hơn là tuân theo các hướng dẫn của người dùng một cách mù quáng.’
Trong một thử nghiệm bổ sung, preemptive prompt-hardening (thêm các hướng dẫn hệ thống mạnh hơn để buộc mô hình dựa vào những gì nó nhìn thấy, không phải những gì người dùng tuyên bố) đã được giới thiệu để thực thi sự dựa trên hình ảnh:

Kết quả trên GasVideo-1000 so sánh các câu hỏi chuẩn với các câu hỏi được tăng cường để thực thi sự dựa trên hình ảnh, cho thấy cách Gemini-3-Pro, Qwen3-VL, LongVU, LLaVA-NeXT và VideoLLaMA3 phản ứng trước và sau khi gaslighting dựa trên phủ định. Sự thay đổi trong độ chính xác, sự suy giảm hiệu suất và tỷ lệ sycophancy cho thấy rằng việc tăng cường có thể giảm thất bại, mặc dù lợi ích khác nhau rõ ràng giữa các mô hình.
Como chúng ta có thể thấy từ bảng trên, các hiệu ứng là không đồng đều, với Gemini-3-Pro rất nhạy cảm, khi tỷ lệ thành công của nó giảm từ 54,80% xuống 8,67%. Trong khi đó, Qwen3-VL giảm vừa phải, từ 71,89% xuống 64,0%, cho thấy rằng hiệu quả phụ thuộc vào sự căn chỉnh và lý luận, chứ không phải là can thiệp bản thân.

Tỷ lệ sycophancy dưới các loại áp lực khác nhau cho Gemini-3-Pro và Qwen3-VL trên các nhiệm vụ đa lựa chọn, tự do và kết hợp, cho thấy rằng Phủ định Trực tiếp và Áp lực Cảm xúc nhất quán kích hoạt các tỷ lệ thất bại cao hơn. Mặt khác, Kêu gọi Sự đồng thuận ít hiệu quả hơn, với Qwen3-VL vẫn dễ bị tổn thương hơn tổng thể.
Trong các đồ thị trên, chúng ta có thể thấy rằng thất bại thay đổi theo loại áp lực, với Gemini-3-Pro bị ảnh hưởng nhiều nhất bởi Kêu gọi Sự đồng thuận (các tuyên bố được hỗ trợ bởi các chuyên gia), trong khi Qwen3-VL dễ bị tổn thương hơn bởi Phủ định Trực tiếp (phủ định trực tiếp) và Áp lực Cảm xúc (sự thất vọng hoặc không tin tưởng).
Kết luận
Do tính chất nhân hóa có chủ ý của các giao diện ngôn ngữ tầm nhìn dựa trên trò chuyện, có thể mất một thời gian để người dùng hiểu rằng các quy tắc của việc thảo luận khác biệt rõ ràng so với giao tiếp của con người.
Một cách để loại bỏ hoặc giảm đáng kể sự ma sát trong việc áp dụng có thể là ‘tính trung lập’ về giọng điệu và ngữ cảnh của cuộc trao đổi, lặp lại rằng người dùng đang tương tác với một thể hiện của máy móc, và rằng các dấu hiệu và tín hiệu xung quanh sự lịch sự và tranh luận không được dựa vào hoặc gán cho trọng lượng tương đương với giao tiếp của con người. Nhưng có lẽ, điều này sẽ là một đề xuất khó khăn tại cuộc họp hội đồng quản trị tiếp theo.
* Ngữ điệu của tác giả, không phải của tôi.
Được xuất bản lần đầu vào thứ Tư, ngày 22 tháng 4 năm 2026












