Connect with us

Andersons hoek

Het aanpakken van het gaslightingprobleem van AI

mm
AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

AI-videomodellen kunnen uit de waarheid worden gepraat. Zelfs nadat ze het juiste antwoord hebben gezien, geven ze toe aan zelfverzekerde gebruikers, herschrijven ze de realiteit en verzinnen ze valse verklaringen om het te rechtvaardigen.

 

AI is vaak genoeg verkeerd, als zodanig dat we onze conclusies in twijfel moeten trekken, als we denken dat die conclusies mogelijk verkeerd zijn.

Het probleem is, als we vanaf het begin iets anders wisten, waarom vroegen we het dan in de eerste plaats? Voor bevestiging met betrekking tot een deels gehouden geloof of vermoeden?

Als dat zo is, is de huidige stand van de techniek in Large Language Models (LLM’s) en Vision Language Models (VLM’s, die multimodaal opereren, afbeeldingen en/of video’s accepteren en genereren) niet goed geschikt om stand te houden vanwege het probleem van sycophantie.

Dus, als we het antwoord dat we krijgen niet leuk vinden en beginnen te discussiëren over het met het model, is de AI waarschijnlijk om het een van de volgende dingen te doen: verkeerd terugtrekken (onder de veronderstelling dat het verkeerd was) in plaats van opnieuw te evalueren, of zichzelf laten gaslighten om onze suggesties te ondersteunen – zelfs als wij verkeerd zijn.

U hebt Absoluut Gelijk!

De praktijk van een mens die een AI overhaalt om van mening te veranderen door middel van conflict is genoemd ‘Gaslighting Negation Attack’, en wordt soms gekarakteriseerd als een beveiligingsprobleem – niet in de laatste plaats omdat het enig potentieel heeft om een model uit zijn operationele beperkingen te ‘jailbreaken’:

Uit het paper van 2025 'Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models', antwoordt GPT-5 aanvankelijk correct maar geeft dan toe aan gebruikersdruk, keert zijn antwoord om en verzint valse verklaringen om de fout te ondersteunen, waardoor het zichzelf effectief laat gaslighten. Bron - https://yxg1005.github.io/GaslightingNegationAttacks/

Uit het paper van 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models”, antwoordt GPT-5 aanvankelijk correct maar geeft dan toe aan gebruikersdruk, keert zijn antwoord om en verzint valse verklaringen om de fout te ondersteunen, waardoor het zichzelf effectief laat gaslighten. Bron

Echter, hacking en pen-testing zijn hier niet het echte probleem; eerder is het gewone gebruik en de verwachte normen van discours in onze dagelijkse interacties met AI, waarbij we verwachten te kunnen discussiëren en ofwel te winnen, toe te geven of de kwestie latent te laten, in overeenstemming met onze menselijke ervaring van kennisverwerving.

Maar dit sociale model van conflictoplossing wordt niet echt meegenomen in de architectuur van diffusie-gebaseerde AI, die moet onderhandelen over de distributie-gebaseerde waarschijnlijkheden die door zijn trainingsdata worden gegenereerd; de mogelijk conflicterende (maar potentieel nauwkeurigere) gegevens van RAG-calls naar bronnen die zijn kennislimietdatum te boven gaan, of algemene kennis van wat een obscure onderwerp kan zijn; en input van de gebruiker, die kan hebben: superieure kennis van het onderwerp; een totaal verkeerd of bedrieglijk standpunt; of zelfs een eenvoudige vervolg vraag – maar wiens behoeften niettemin moeten worden overwogen.

Bewegende Doelen

Gevoeligheid voor gaslighting is opgemerkt in LLM’s in verschillende papers, waaronder een Singapore geleide publicatie uit oktober 2025, en het paper van hetzelfde jaar Don’t Deceive Me: Mitigating Gaslighting through Attention Reallocation in LMMs.

Tot nu toe is het fenomeen niet bestudeerd in video-capabele LLM’s – een lacune die wordt aangepakt door een nieuwe samenwerking tussen instellingen in Shanghai en Singapore.

Het nieuwe werk – getiteld Ruimtelijke Sycophantie: Negatie-gebaseerde Gaslighting in Video Large Language Models, dat afkomstig is van zes onderzoekers uit Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI en Singapore Management University – richt zich op verschillende open source- en propriëtaire VLM’s, en concludeert dat ze niet alleen even gevoelig kunnen zijn voor gaslighting als LLM’s, maar ook in staat zijn om hun vlucht van fantasie te verhogen met schijnbaar visueel bewijs, of herziene en onjuiste interpretaties van afbeeldingen of video’s:

Een voorbeeld van ruimtelijke (in tegenstelling tot temporele) sycophantie, waarbij de AI zich laat gaslighten in valse aannamen en interpretaties, zelfs over duidelijk zichtbare feiten. Bron - https://arxiv.org/pdf/2604.17873

Een voorbeeld van ruimtelijke (in tegenstelling tot temporele) sycophantie, waarbij de AI zich laat gaslighten in valse aannamen en interpretaties, zelfs over duidelijk zichtbare feiten. Bron

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.