Kąt Andersona

Rozwiązywanie problemu Gaslighting w AI

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

Modele wideo AI mogą być przekonywane do odrzucenia prawdy. Nawet po zobaczeniu prawidłowej odpowiedzi, poddają się pewnym użytkownikom, zmieniają rzeczywistość i wymyślają fałszywe wyjaśnienia, aby je uzasadnić.

AI jest niewystarczająco dokładna, wystarczająco często, aby zmusić nas do kwestionowania jej wniosków, jeśli uważamy, że mogą one być błędne.

Problem polega na tym, że jeśli wiedzieliśmy coś innego od samego początku, to dlaczego w ogóle zadawaliśmy pytanie? Czy było to w celu potwierdzenia częściowo utrwalonej wiary lub podejrzenia?

Jeśli tak, to obecny stan sztuki w Large Language Models (LLM) i Vision Language Models (VLM, które operują multimodalnie, akceptując i generując obrazy i/lub filmy) nie jest dobrze przystosowany do utrzymania swojej pozycji, ze względu na problem sycophancy.

W związku z tym, jeśli nie podobają nam się otrzymane odpowiedzi i zaczniemy spierać się z modelem, AI jest prawdopodobne, że albo błędnie wycofa się (zakładając, że była błędna) zamiast ponownie ocenić, lub pozwoli sobie na gaslighting w celu poparcia naszych sugestii – nawet jeśli my jesteśmy błędni.

Jesteś Absolutnie Praw!

Praktyka ludzka, która nakłania AI do zmiany zdania poprzez konflikt, została nazwana ‘Gaslighting Negation Attack’, i jest czasami charakteryzowana jako problem bezpieczeństwa – nie tylko dlatego, że ma pewne możliwości ‘jailbreak’ modelu z jego ograniczeń operacyjnych:

Z pracy z 2025 roku ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models”, GPT-5 początkowo odpowiada poprawnie, ale potem ulega presji użytkownika, zmieniając swoją odpowiedź i wymyślając fałszywe wyjaśnienia, aby je uzasadnić, skutecznie gaslightingując samego siebie. Źródło

Jednak hakowanie i testowanie penetracyjne nie są tutaj prawdziwym problemem; raczej, jest to powszechne użycie i oczekiwane normy dyskursu w naszych codziennych interakcjach z AI, gdzie oczekujemy, że będziemy mogli argumentować i albo wygrać, albo zrezygnować, lub pozostawić sprawę otwartą, zgodnie z naszym ludzkim doświadczeniem zdobywania wiedzy.

Ale ten społeczny model rozwiązywania konfliktów nie jest naprawdę uwzględniony w architekturze AI opartej na dyfuzji, która musi negocjować rozkład prawdopodobieństwa generowanych przez jej dane szkoleniowe; możliwie sprzeczne (ale potencjalnie bardziej dokładne) dane z RAG calls do źródeł, które przekraczają jej datę graniczną wiedzy, lub ogólne zrozumienie, co może być mało znanym tematem; i dane wejściowe od użytkownika, który może mieć: lepszą wiedzę na temat przedmiotu; całkowicie błędne lub oszukańcze stanowisko; lub nawet proste pytanie następujące – ale którego potrzeby muszą być mimo to brane pod uwagę.

Ruchome Cele

Podatność na gaslighting została zauważona w LLM w kilku pracach, w tym w pracy z Singapuru z października 2025 roku, oraz w pracy Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs z tego samego roku.

Do tej pory zjawisko to nie zostało zbadane w modelach wideo – zaniedbanie, które zostało zaadresowane przez nową współpracę między instytucjami w Szanghaju i Singapurze.

Nowa praca – zatytułowana Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, która pochodzi od sześciu badaczy z Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI i Singapore Management University – zajmuje się kilkoma modelami VLM, zarówno open-source, jak i własnościowymi, i stwierdza, że mogą one nie tylko być tak samo podatne na gaslighting, jak LLM, ale również mogą uzupełniać swoje loty wyobraźni o pozornych dowodach wizualnych lub błędnych interpretacjach obrazów lub filmów:

Przykład sycophancy przestrzennego (w przeciwieństwie do czasowego), gdzie AI pozwala sobie na gaslighting w fałszywe założenia i interpretacje, nawet co do wyraźnie widocznych faktów. Źródło

Autorzy stwierdzają:

‘[My] identyfikujemy sycophancy przestrzenną, tryb awaryjny, w którym Vid-LLMs wycofują się z początkowo poprawnych, ugruntowanych wizualnie osądów i dostosowują się do mylących opinii użytkownika pod wpływem gaslightingu opartego na negacji.

‘Zamiast po prostu zmieniać swoje odpowiedzi, modele często wymyślają niewsparte wyjaśnienia czasowe lub przestrzenne, aby uzasadnić niepoprawne rewizje.’

… (reszta treści)