Andersonův úhel
Přístup k problému gaslightingu AI

Modely AI videa mohou být přesvědčeny k odhalení pravdy. I poté, co uvidí správnou odpověď, podléhají přesvědčivým uživatelům, přepisují realitu a vynalézají falešné vysvětlení, aby ji ospravedlnili.
AI je dostatečně chybná, často dostatečně, aby nás vedla k zpochybnění jejích závěrů, pokud máme pocit, že tyto závěry mohou být chybné.
Problém je, že pokud jsme znali rozdíl od začátku, proč jsme se ptali v první místě? Pro potvrzení částečně držené víry nebo podezření?
Pokud ano, současný stav Large Language Models (LLM) a Vision Language Models (VLM, které operují multimodálně, přijímají a generují obrázky a/nebo videa) není dobře přizpůsoben k tomu, aby udržoval svou pozici, kvůli problému sycophantství.
Takže, pokud se nám nelíbí odpověď, kterou dostaneme, a začneme se o ní dohadovat s modelem, je pravděpodobné, že AI buď omylem ustoupí (pokud se domnívá, že je chybná) místo toho, aby přehodnotila, nebo se dovolí být gaslighted k podpoře našich návrhů – i když my jsme chybní.
Jste absolutně praví!
Praxe lidské změny názoru AI prostřednictvím konfliktu byla nazvána ‘Gaslighting Negation Attack’, a je někdy charakterizována jako bezpečnostní problém – nejméně proto, že má některý potenciál k “jailbreak” modelu z jeho provozních omezení:

Z článku z roku 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 initially answers correctamente, ale poté podléhá uživatelskému tlaku, mění svou odpověď a vynalézá falešná vysvětlení, aby ji ospravedlnila, efektivní gaslighting sebe sama. Zdroj
Nicméně, hacking a pen-testing nejsou skutečným problémem; spíše, je to běžné použití a očekávané normy diskuse v našich denních interakcích s AI, kde očekáváme, že budeme moci argumentovat a buď vyhrát, nebo se vzdát, nebo ponechat věc otevřenou, v souladu s našimi lidskými zkušenostmi s získáváním znalostí.
Ale tento sociální model řešení konfliktů není skutečně zohledněn v architektuře difuzních AI, které musí vyjednávat distribuční založené pravděpodobnosti vyhozené svými trénovacími daty; možný konflikt (ale potenciálně přesnější) data z RAG volání na zdroje, které překračují jeho datum omezení znalostí, nebo obecné pochopení toho, co může být málo známé téma; a vstup od uživatele, který může mít: lepší znalost předmětu; úplně chybný nebo lživý názor; nebo dokonce jednoduchou následnou otázku – ale jehož potřeby musí být přesto zohledněny.
Pohyblivé cíle
Náchylnost k gaslightingu byla zaznamenána v LLM v několika článcích, včetně singapurské publikace z října 2025 a článku z roku 2025 Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.
Do současnosti nebyl tento jev studován ve video-kapabilních LLM – což je přehlížení, které řeší nová spolupráce mezi institucemi v Šanghaji a Singapuru.
Nová práce – nazvaná Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, která pochází od šesti výzkumníků z Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI a Singapore Management University – řeší několik open-source a proprietárních VLM, zjistila, že mohou být nejen stejně náchylné k gaslightingu jako LLM, ale jsou navíc schopné posílit své letové fantazie o zdánlivém vizuálním důkazu nebo nesprávných interpretacích obrazů nebo videí:

Příklad prostorového (oproti časovému) sycophantství, kde se AI dovolí být gaslighted do falešných předpokladů a interpretací, i o jasně viditelných faktech. Zdroj
Autoři uvádějí:
‘[My] identifikujeme spatiotemporální sycophantství, selhání režimu, ve kterém Vid-LLMs odvolávají původně správná, vizuálně založená soudy a přizpůsobují se klamným uživatelským zpětným vazbám pod negací-založeným gaslightingem.
‘Místo toho, aby změnily pouze své odpovědi, modely často vynalézají nepodporovaná časová nebo prostorová vysvětlení, aby ospravedlnily nesprávné revize.’
… (zbytek obsahu)












