Andersonův úhel

Přístup k problému gaslightingu AI

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

Modely AI videa mohou být přesvědčeny k odhalení pravdy. I poté, co uvidí správnou odpověď, podléhají přesvědčivým uživatelům, přepisují realitu a vynalézají falešné vysvětlení, aby ji ospravedlnili.

AI je dostatečně chybná, často dostatečně, aby nás vedla k zpochybnění jejích závěrů, pokud máme pocit, že tyto závěry mohou být chybné.

Problém je, že pokud jsme znali rozdíl od začátku, proč jsme se ptali v první místě? Pro potvrzení částečně držené víry nebo podezření?

Pokud ano, současný stav Large Language Models (LLM) a Vision Language Models (VLM, které operují multimodálně, přijímají a generují obrázky a/nebo videa) není dobře přizpůsoben k tomu, aby udržoval svou pozici, kvůli problému sycophantství.

Takže, pokud se nám nelíbí odpověď, kterou dostaneme, a začneme se o ní dohadovat s modelem, je pravděpodobné, že AI buď omylem ustoupí (pokud se domnívá, že je chybná) místo toho, aby přehodnotila, nebo se dovolí být gaslighted k podpoře našich návrhů – i když my jsme chybní.

Jste absolutně praví!

Praxe lidské změny názoru AI prostřednictvím konfliktu byla nazvána ‘Gaslighting Negation Attack’, a je někdy charakterizována jako bezpečnostní problém – nejméně proto, že má některý potenciál k “jailbreak” modelu z jeho provozních omezení:

Z článku z roku 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models’, GPT-5 initially answers correctamente, ale poté podléhá uživatelskému tlaku, mění svou odpověď a vynalézá falešná vysvětlení, aby ji ospravedlnila, efektivní gaslighting sebe sama. Zdroj

Nicméně, hacking a pen-testing nejsou skutečným problémem; spíše, je to běžné použití a očekávané normy diskuse v našich denních interakcích s AI, kde očekáváme, že budeme moci argumentovat a buď vyhrát, nebo se vzdát, nebo ponechat věc otevřenou, v souladu s našimi lidskými zkušenostmi s získáváním znalostí.

Ale tento sociální model řešení konfliktů není skutečně zohledněn v architektuře difuzních AI, které musí vyjednávat distribuční založené pravděpodobnosti vyhozené svými trénovacími daty; možný konflikt (ale potenciálně přesnější) data z RAG volání na zdroje, které překračují jeho datum omezení znalostí, nebo obecné pochopení toho, co může být málo známé téma; a vstup od uživatele, který může mít: lepší znalost předmětu; úplně chybný nebo lživý názor; nebo dokonce jednoduchou následnou otázku – ale jehož potřeby musí být přesto zohledněny.

Pohyblivé cíle

Náchylnost k gaslightingu byla zaznamenána v LLM v několika článcích, včetně singapurské publikace z října 2025 a článku z roku 2025 Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.

Do současnosti nebyl tento jev studován ve video-kapabilních LLM – což je přehlížení, které řeší nová spolupráce mezi institucemi v Šanghaji a Singapuru.

Nová práce – nazvaná Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, která pochází od šesti výzkumníků z Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI a Singapore Management University – řeší několik open-source a proprietárních VLM, zjistila, že mohou být nejen stejně náchylné k gaslightingu jako LLM, ale jsou navíc schopné posílit své letové fantazie o zdánlivém vizuálním důkazu nebo nesprávných interpretacích obrazů nebo videí:

Příklad prostorového (oproti časovému) sycophantství, kde se AI dovolí být gaslighted do falešných předpokladů a interpretací, i o jasně viditelných faktech. Zdroj

Autoři uvádějí:

‘[My] identifikujeme spatiotemporální sycophantství, selhání režimu, ve kterém Vid-LLMs odvolávají původně správná, vizuálně založená soudy a přizpůsobují se klamným uživatelským zpětným vazbám pod negací-založeným gaslightingem.

‘Místo toho, aby změnily pouze své odpovědi, modely často vynalézají nepodporovaná časová nebo prostorová vysvětlení, aby ospravedlnily nesprávné revize.’

… (zbytek obsahu)

Related Topics:large language model Large Language Models (LLMs)

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Přístup k problému gaslightingu AI

Jste absolutně praví!

Pohyblivé cíle

You may like