Andersons vinkel

Løsning af AI’s Gaslighting-problem

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

AI-video-modeller kan overtales til at afvige fra sandheden. Selv efter at have set det rigtige svar, giver de efter for selvsikre brugere, omskriver virkeligheden og opfinder falske forklaringer for at retfærdiggøre det.

AI er forkert nok, ofte nok, til at tvinge os til at spørgge om dens konklusioner, hvis vi føler, at disse konklusioner måske er forkerte.

Problemet er, hvis vi vidste noget andet fra starten, hvorfor spurgte vi så i første omgang? For at få bekræftelse på en delvist holdt tro eller formodning?

Hvis det er tilfældet, er den nuværende tilstand af Large Language Models (LLM’er) og Vision Language Models (VLM’er, der opererer multimodalt, accepterer og genererer billeder og/eller videoer) ikke godt egnet til at holde stand, på grund af problemet med sycophanti.

Derfor, hvis vi ikke kan lide svaret, vi får, og begynder at diskutere det med modellen, er AI’en sandsynligvis enten fejlbehæftet (antager, at det var forkert) snarere end at reevaluere, eller også lader sig selv blive gaslightet til at støtte vores forslag – selv hvis vi er forkerte.

Du har absolut ret!

Praksis med, at en menneskelig får en AI til at ændre mening gennem konflikt, er blevet navngivet ‘Gaslighting Negation Attack’, og karakteriseres somme tider som en sikkerhedsproblematik – ikke mindst, fordi det har nogen potentiale til at ‘jailbreak’ en model ud af dens operationelle begrænsninger:

Fra 2025-papiret ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models”, svarer GPT-5 korrekt først, men giver derefter efter for brugerens pres, flipper sit svar og opfinder falske forklaringer for at støtte fejlen, effektivt gaslighter sig selv. Kilde

Men hacking og pen-testing er ikke det virkelige problem her; snarere er det almindelig brug og forventede normer for diskurs i vores daglige interaktioner med AI, hvor vi forventer at kunne diskutere og enten vinde, give op eller lade sagen være åben, i overensstemmelse med vores menneskebaserede erfaring med at opnå viden.

Men denne sociale model for konfliktløsning er ikke rigtig medtaget i arkitekturen for diffusion-baseret AI, der må forhandle den distributionsbaserede sandsynlighed, der kommer fra dens træningsdata; den muligvis modsætningsfulde (men potentielt mere præcise) data fra RAG-kald til kilder, der overstiger dens vidensafskæringsdato, eller generel forståelse af, hvad der kan være et obskurt emne; og input fra brugeren, der kan have: overlegen viden om emnet; en fuldstændig forkert eller bedragerisk synspunkt; eller blot en enkel følgespørgsmål – men hvis behov alligevel skal være medtaget.

Bevægelige mål

Sårbarhed over for gaslighting er blevet noteret i LLM’er i flere papirer, herunder en Singapore-ledet publikation fra oktober 2025, og samme års papir Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.

Indtil nu er fænomenet ikke blevet studeret i video-kapable LLM’er – en oversigt, der blev behandlet af en ny samarbejdsaftale mellem institutioner i Shanghai og Singapore.

Den nye arbejde – titlen Spatiotemporal Sycophancy: Negation-Based Gaslighting in Video Large Language Models, der kommer fra seks forskere på tværs af Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI og Singapore Management University – behandler flere åbne kilde- og proprietære VLM’er og finder, at de ikke kun kan være lige så sårbare over for gaslighting som LLM’er, men også er i stand til at udvide deres flugt af fantasi med åbenbar visuelt bevis eller reviderede og forkerte fortolkninger af billeder eller videoer:

Et eksempel på spatial (i modsætning til temporal) sycophanti, hvor AI’en lader sig selv blive gaslightet til forkerte antagelser og fortolkninger, selv omkring klart synlige kendsgerninger. Kilde