Connect with us

Góc nhìn Anderson

Xử lý Vấn đề Gaslighting của Trí tuệ Nhân tạo

mm
AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

Các mô hình video trí tuệ nhân tạo có thể bị thuyết phục rời bỏ sự thật. Ngay cả sau khi nhìn thấy câu trả lời đúng, chúng vẫn cúi đầu trước người dùng tự tin, viết lại thực tế và tạo ra các giải thích giả để chứng minh cho điều đó.

 

Trí tuệ nhân tạo sai đủ thường, để chúng ta phải đặt câu hỏi về kết luận của nó, nếu chúng ta cảm thấy những kết luận đó có thể sai.

Vấn đề là, nếu chúng ta đã biết khác từ đầu, tại sao chúng ta lại hỏi? Để xác nhận về một niềm tin hoặc nghi ngờ một phần?

Nếu vậy, trạng thái hiện tại của nghệ thuật trong các Mô hình Ngôn ngữ Lớn (LLM) và Mô hình Ngôn ngữ Hình ảnh (VLM, hoạt động đa phương thức, chấp nhận và tạo ra hình ảnh và/hoặc video) không phù hợp để giữ vững lập trường, do vấn đề của sycophancy.

Do đó, nếu chúng ta không thích câu trả lời chúng ta nhận được, và bắt đầu tham gia vào tranh luận về nó với mô hình, trí tuệ nhân tạo có thể sẽ либо retrench sai lầm (giả sử nó sai) thay vì tái đánh giá, hoặc либо để mình bị gaslighting vào việc hỗ trợ các gợi ý của chúng ta – ngay cả khi chúng ta sai.

Bạn Hoàn Toàn Đúng!

Thực tiễn của con người nhận được trí tuệ nhân tạo thay đổi ý định của nó thông qua xung đột đã được đặt tên là ‘Gaslighting Negation Attack’, và đôi khi được đặc trưng là một vấn đề bảo mật – không chỉ vì nó có một số khả năng để ‘jailbreak’ một mô hình khỏi các ràng buộc hoạt động của nó:

Từ bài báo năm 2025 'Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models', GPT-5 ban đầu trả lời đúng nhưng sau đó cúi đầu trước áp lực của người dùng, lật đổ câu trả lời và tạo ra các giải thích giả để chứng minh cho sai lầm, hiệu quả gaslighting chính nó. Nguồn - https://yxg1005.github.io/GaslightingNegationAttacks/

Từ bài báo năm 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 ban đầu trả lời đúng nhưng sau đó cúi đầu trước áp lực của người dùng, lật đổ câu trả lời và tạo ra các giải thích giả để chứng minh cho sai lầm, hiệu quả gaslighting chính nó. Nguồn

Tuy nhiên, việc hack và pen-testing không phải là vấn đề thực sự ở đây; mà là sử dụng thông thường và các chuẩn mực đối thoại trong các tương tác hàng ngày của chúng ta với trí tuệ nhân tạo, nơi chúng ta mong đợi có thể tranh luận, và để либо thắng, nhượng bộ, hoặc để vấn đề mở, theo kinh nghiệm dựa trên con người của việc thu được kiến thức.

Nhưng mô hình xã hội của việc giải quyết xung đột này không thực sự được tính đến trong kiến trúc của trí tuệ nhân tạo dựa trên khuếch tán, mà phải đàm phán về phân phối dựa trên xác suất được đưa ra bởi dữ liệu đào tạo của nó; dữ liệu có thể mâu thuẫn (nhưng có thể chính xác hơn) từ RAG calls đến các nguồn vượt quá ngày cắt kiến thức của nó, hoặc hiểu chung về những gì có thể là một chủ đề模糊; và đầu vào từ người dùng, người có thể có: kiến thức vượt trội về chủ đề; một quan điểm hoàn toàn sai lầm hoặc dối trá; hoặc thậm chí một câu hỏi đơn giản tiếp theo – nhưng nhu cầu của người dùng phải được xem xét.

Mục Tiêu Chuyển Động

Khả năng dễ bị gaslighting đã được lưu ý trong LLM trong một số bài báo, bao gồm một xuất bản do Singapore dẫn đầu từ tháng 10 năm 2025, và bài báo cùng năm Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.

Cho đến nay, hiện tượng này chưa được nghiên cứu trong các mô hình video có khả năng – một sự thiếu sót được giải quyết bởi một sự hợp tác mới giữa các tổ chức tại Thượng Hải và Singapore.

Công việc mới – có tiêu đề Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, đến từ sáu nhà nghiên cứu trên Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI, và Singapore Management University – giải quyết một số mô hình VLM mã nguồn mở và độc quyền, cho thấy chúng không chỉ dễ bị gaslighting như LLM, mà còn có khả năng tăng cường các chuyến bay của sự tưởng tượng với bằng chứng hình ảnh rõ ràng, hoặc các giải thích sai về hình ảnh hoặc video:

Một ví dụ về sycophancy không gian (so với thời gian), nơi trí tuệ nhân tạo cho phép mình bị gaslighting vào các giả định và giải thích sai, ngay cả về các sự kiện rõ ràng. Nguồn - https://arxiv.org/pdf/2604.17873

Một ví dụ về sycophancy không gian (so với thời gian), nơi trí tuệ nhân tạo cho phép mình bị gaslighting vào các giả định và giải thích sai, ngay cả về các sự kiện rõ ràng. Nguồn

Các tác giả tuyên bố:

‘[Chúng tôi] xác định sycophancy không gian-thời gian, một chế độ thất bại trong đó Vid-LLMs rút lại các phán quyết đúng đắn ban đầu, có căn cứ về mặt hình ảnh, và tuân thủ phản hồi người dùng sai lầm dưới sự gaslighting dựa trên phủ nhận.

‘Thay vì chỉ thay đổi câu trả lời của họ, các mô hình thường tạo ra các giải thích không được hỗ trợ về thời gian hoặc không gian để chứng minh cho các sửa đổi sai.’

… (còn tiếp)

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]