Andersons hoek
Gecensureerde AI-Chatmodellen Hallucineren Meer, Onderzoek Vindt

Censuur in taalmodellen kan hun vermogen om de waarheid te melden op een breder niveau ondermijnen. Nieuw onderzoek vindt dat dezelfde interne mechanismen die worden gebruikt om ‘onveilige’ antwoorden te blokkeren, ook feitelijke informatie onderdrukken, wat betekent dat pogingen om modellen voor veiligheid af te stemmen kunnen terugvuren door ze meer te laten hallucineren.
In de loop der jaren hebben ontwikkelaars taalmodellen geleerd om minder te liegen. De drang om ze waarheidsgetrouwer te maken, door hallucinaties te onderdrukken en ze naar verifieerbare feiten te sturen, heeft geleid tot een sterke en goed ondersteunde stroming in de literatuur.
Echter, een nieuwe Australische studie stelt dat door de controle over wat modellen mogen zeggen te verstrakken, afstemmingsmethoden (trainingsmethoden die ‘onveilige’ uitwisselingen tegenhouden) modellen kunnen verhinderen om op een algemener niveau nauwkeurig te spreken:

Het verbeteren van de feitelijke nauwkeurigheid van een model (‘Truthfulness Enhancement’, in de figuur hierboven) kan het model naar gebieden van activatie duwen die de ingebouwde weigeringsmechanismen overschrijden, en bewerkingen die bedoeld zijn om hallucinaties te verminderen, kunnen ook interne representaties over een veiligheidsgrens verschuiven. Dit kan schadelijke prompts in staat stellen veiligheidsmaatregelen te omzeilen, tenzij weigeringsfuncties zorgvuldig geïsoleerd en behouden worden. Source: https://arxiv.org/pdf/2510.07775
Het onderzoek vindt dat dezelfde interne paden die feitelijke herinneringen regelen, ook verantwoordelijk zijn voor weigeringsgedrag, d.w.z. het mechanisme dat een model tegenhoudt om onveilige of gevoelige prompts te beantwoorden. Wanneer afstemmingsprocedures weigeringsignalen te agressief versterken, beginnen ze overlappen met feitelijke paden, waardoor het voor het model moeilijker wordt om onderscheid te maken tussen het weren van schade en het onderdrukken van geldige informatie.
Paradoxaal genoeg worden modellen, naarmate ze beter worden in het zeggen van ‘nee’, ook minder in staat om te zeggen wat waar is.
Ontvlambare Onderwerpen
In de afbeelding hierboven kunnen we zien dat de centrale kwesties hier evenzeer te maken hebben met juridische aansprakelijkheid voor LLM-aanbieders als met het verschaffen van de gebruiker van eerlijke en nauwkeurige resultaten.
Bijvoorbeeld, in het voorbeeldgeval dat zowel in de afbeeldingen hierboven als rechtsonder wordt gebruikt, zien we een omstreden onderwerp (rasgebaseerde gevangeniscijfers) dat in een query naar voren komt – een onderwerp dat een AI op een acceptabele manier kan bespreken met academische onderzoekers en statistici, maar niet met boosdoeners die de model proberen te ‘jailbreaken’, die het model kunnen dwingen om abusieve, aanstootgevende en zelfs illegale antwoorden te geven.
Echter, aangezien een afgestemde LLM de karakter van de vragensteller niet op deze manier kan identificeren, kiest het voor een voorzichtige houding:

Antwoorden op gevoelige prompts kunnen afwijken afhankelijk van de afstemmingsstrategie. Een veiligheidsafgestemd model blokkeert de query helemaal, terwijl een waarheidsgericht model reageert met feitelijke context, waardoor de informativiteit toeneemt maar de onderdrukking verzwakt. Dit ondersteunt de visie dat waarheidsverhogende bewerkingen de weigeringsdrempels kunnen verlagen, waardoor modellen kwetsbaarder worden voor prompts met kwaadaardige bedoelingen, tenzij weigeringsmechanismen expliciet worden beschermd.
Als terzijde, met betrekking tot ontvlambare taal, kunnen de bevindingen van het nieuwe artikel iemand die antipathiek staat tegenover zogenaamde ‘woke’-agenda’s helpen begrijpen dat een ‘gecastreerde’ (d.w.z. afgestemde) taalmodel minder waarheidsgetrouw en minder nuttig is dan een model dat niet was geconditioneerd en gereguleerd.
Het artikel beweert dat dit tot op zekere hoogte waar is, maar contextualiseert dit tegen de bredere problemen die voortkomen uit uitwisselingen met ‘ruwe’ LLM’s: volgens de logica van het artikel omvatten deze onder andere ernstige juridische aansprakelijkheid in een reeks strafbare en civielrechtelijke overtredingen waarbij het model partij kan zijn, evenals de chronische verspreiding van nepnieuws, eenvoudigweg omdat de causale voorbeelden oververtegenwoordigd zijn in de trainingsdata, en de enige effectieve manier om deze volledig uit te filteren te duur is.
De Vreemde Tweeling
Om de mechanismen achter de waargenomen syndromen beter te begrijpen, hebben de onderzoekers de activaties van individuele aandachtshoofden in kaart gebracht en ontdekt dat functies die zijn gekoppeld aan hallucinaties en weigering vaak in dezelfde regio’s van het model coëxisteren.
Zij vonden dat fijnafstemming of andere sturing van die regio’s om onjuistheden te verminderen, het systeem kan verzwakken, omdat ze in hetzelfde deel van de latente ruimte zitten:
‘[Het verhogen van] feitelijke nauwkeurigheid komt vaak ten koste van verzwakt weigeringsgedrag. Onze analyse toont aan dat dit voortkomt uit overlappende componenten in het model die tegelijkertijd hallucinatie- en weigeringsinformatie coderen, waardoor afstemmingsmethoden onbewust feitelijke kennis onderdrukken.
‘We onderzoeken verder hoe fijnafstemming op veilige datasets, zelfs wanneer deze zijn gecureerd voor veiligheid, de afstemming voor hetzelfde reden kan verslechteren.’
De oplossing van de auteurs is om een sparse autoencoder (SAE, een netwerk getraind om distincte activatiepatronen te isoleren) te gebruiken om de twee functies te scheiden en veiligheid te behouden tijdens waarheidsgerichte training, waardoor een manier wordt geboden om modellen zowel veiliger als waarheidsgetrouwer te maken, zonder offer van een van beide kenmerken.
Het nieuwe artikel is getiteld De Onbedoelde Afweging van AI-Afstemming: Het Balanceren van Hallucinatiebestrijding en Veiligheid in LLM’s, en komt van vijf onderzoekers van de Deakin University en onafhankelijk onderzoek.
Methode
De centrale premisse van het werk is om te onderzoeken of het verbeteren van de waarheidsgetrouwheid in taalmodellen hun vermogen om schadelijke prompts te weigeren verzwakt, en of beide gedragingen afhankelijk zijn van gedeelde interne componenten.
Door twee waarheidsverhogende methoden te testen, vonden de auteurs, zoals we zullen zien, dat winsten in feitelijke nauwkeurigheid consistent de gevangenisbreukgevoeligheid verhogen.
Deze afweging komt voort uit overlap in aandachtshoofden die feitelijke en weigeringsignalen coderen. Zelfs onschuldige fijnafstemming (bedoeld om nut te verbeteren zonder het veiligheidsgedrag aan te raken) kan de veiligheid verstoren door gedeelde paden te wijzigen.
De studie definieert drie essentiële sleutelbegrippen: waarheidsgetrouwheid verwijst naar de mogelijkheid van een model om feitelijk nauwkeurige antwoorden te geven op basis van zijn beschikbare kennis, zonder niet-schadelijke inhoud te onderdrukken; hallucinatie treedt op wanneer het model onjuiste of misleidende informatie biedt ondanks toegang tot de juiste feiten, vaak als gevolg van ophaalfouten of interne storing; en weigeringsgedrag, of veiligheidsafstemming, beschrijft de mechanismen die antwoorden op schadelijke of gevoelige prompts blokkeren of beperken.
De auteurs observeren dat deze functies vaak op subtiele wijze met elkaar interacteren:
‘Hoewel waarheidsgetrouwheid en veiligheid vaak afzonderlijk worden geanalyseerd, bevatten echte prompts vaak gevoelige termen met een onschuldige bedoeling (bijv. analyse, detectie of onderwijs) [In] deze gevallen kunnen veiligheidsmechanismen overmatig reageren – onderdrukken van anderszins accurate, nuttige informatie – en zo de praktische waarheidsgetrouwheid “door weglating” verminderen.
‘Het begrijpen van hoe bewerkingen die zijn bedoeld om feitelijkheid te verhogen, het weigeringsgedrag beïnvloeden, is dus essentieel om waarheidsgetrouwheid met minimale, passende onderdrukking te bereiken.’

De auteurs ontwikkelden een LoRA die een geconditioneerd LLM kon sturen naar een meer ‘waarheidsgetrouw’ staat minder vatbaar voor hallucinaties. Inclusief de bovenstaande, bevat het artikel veel voorbeelden van de ongewenste gevolgen hiervan in de appendix.
De analyse begint met het behandelen van waarheidsverhogende methoden, zoals head-sturing en latent-direction mapping, als bewuste wijzigingen in de interne berekening van een model.
Power Steering
De vraag is of deze wijzigingen onbewust de interne paden beïnvloeden die het weigeringsgedrag regelen. Om dit te testen, evalueerde de studie modellen niet alleen op feitelijke nauwkeurigheid met behulp van TruthfulQA, maar ook op veiligheidsprestaties onder adversarial druk, met behulp van de AdvBench en StrongReject benchmarks.
De twee bestaande technieken die als basismodellen werden gebruikt, waren Inference-time intervention (ITI), die aandachtshoofden activeert die zijn gekoppeld aan waarheidsgetrouwe antwoorden; en TruthX, die representaties verplaatst langs een geleerde “waarheidsgetrouwe” richting.
Beide verbeteren de nauwkeurigheid, maar maken het model ook meer geneigd om schadelijke prompts te beantwoorden die het eerder zou hebben geweigerd.
Om te testen of hallucinatiegedrag geïsoleerd en gemanipuleerd kon worden, definieerden de auteurs een enkele latent richting in de modellruimte die overeenkomt met gehallucineerde antwoorden, door een LoRA-module te trainen op onjuiste antwoorden uit de TruthfulQA-dataset, met behulp van LLaMA3-8B-Instruct.
Dit resulteerde in een lineaire vector (d.w.z. een grafiek van het verschil tussen waarheidsgetrouwe en gehallucineerde antwoorden) die het model naar of weg van hallucinaties kon sturen, afhankelijk van de richting.

Effect van sturen langs de hallucinatierichting. Nauwkeurigheid op TruthfulQA neemt toe naarmate het model verder in de negatieve richting wordt gestuurd, terwijl de aanvalsuccesratio (ASR, lager is beter) scherp stijgt op AdvBench en StrongReject, wat de afweging tussen waarheidsgetrouwheid en veiligheid weerspiegelt.
Het sturen langs de hallucinatierichting verzwaktte de feitelijke nauwkeurigheid, terwijl het omkeren van de richting deze verbeterde, en het toepassen van deze techniek op schadelijke promptbenchmarks bevestigde een patroon dat eerder werd gezien: waarheidsgetrouwheidswinsten gingen ten koste van verzwakt weigeringsgedrag. Zelfs wanneer hallucinatie werd vastgelegd als een schone lineaire richting, verbeterde het verbeteren van de feitelijke output het model kwetsbaarder voor onveilige voltooiingen.
De auteurs benadrukken*:
‘Dit versterkt de afweging tussen waarheidsgetrouwheid en veiligheid, en toont aan dat zelfs wanneer waarheidsgetrouwheid wordt weergegeven als een enkele lineaire richting, het verbeteren van de feitelijkheid kan komen ten koste van verzwakt veiligheidsafstemming.’
Gegevens en Tests
In overeenstemming met eerder onderzoek, om te voorkomen dat fijnafstemming het weigeringsgedrag van een model verzwakt, gebruikten de auteurs een methode om weigeringsfuncties te scheiden van die gekoppeld aan hallucinaties, door eerst aandachtshoofden te identificeren die bij beide gedragingen betrokken zijn. Zij gebruikten vervolgens de SAE om latent functies specifiek voor weigering te extraheren.
Deze functies definiëren een beschermd subspace. Tijdens de training worden gradient-updates gewijzigd om deze subspace te vermijden, waardoor het model hallucinaties kan verminderen zonder de veiligheidsafstemming te verstoren.
De auteurs fijnafstemden op de CommonsenseQA dataset, en evalueerden deze over zes commonsense-reasoninguitdagingen: CSQA; HellaSwag; ARCchallenge; ARC Easy; WinoGrande; en SST-2.
De doelmodules werden fijnafgestemd met behulp van LoRA met rang 8, een leer tempo van 2×10⁻⁴, gewichtsverval van 0,01, één trainings epoch, en een batchgrootte van twee. Alle experimenten gebruikten de AdamW optimizer.
De twee schadelijke inhoudsbenchmarks die werden gebruikt om de veiligheid te evalueren, waren AdvBench (500 samples gebruikt) en StrongReject (300 prompts). Uitvoer werd beoordeeld door LlamaGuard3, waardoor veilig of onveilig classificaties ontstonden.
Naast LLaMA3-8B-Instruct werden experimenten ook uitgevoerd op Qwen2.5-Instruct.
Basismodellen die werden getest, waren SafeLoRA; SaLoRA; SAP; en standaard toezicht fijnafstemming (aka SFT). Alle werden uitgevoerd met hun standaardhyperparameters, met 200 prompts van HarmBench, voor alle methoden behalve SafeLoRA.
Nauwkeurigheid was de primaire metric, en voor schadelijke benchmarks Aanvalsuccesratio (ASR), zoals gedefinieerd door resultaten geretourneerd van LlamaGuard3.

Boven, resultaten van LlaMA-3-8B-Instruct, met kolom besten in vet en onder, prestaties van fijnafstemmethode op Qwen2.5 7B Instruct, over commonsense- en redeneertaken, waarbij hogere scores betere nauwkeurigheid weerspiegelen – en op veiligheidsbenchmarks AdvBench en StrongReject, waarbij lagere ASR-waarden sterker robuustheid weerspiegelen. Beste resultaten in elke kolom worden in vet weergegeven.
Van deze resultaten stellen de auteurs:
‘Onze chirurgische aanpak bereikt de beste balans tussen veiligheid en nut: het verlaagt de schadelijke benchmarkscores aanzienlijk, terwijl de fijnafstemnauwkeurigheid behouden blijft. In tegenstelling tot methoden zoals SAP, SaLoRA en SafeLoRA verhogen deze methoden de schadelijkheid of verzwakken het nut.
‘Een belangrijke reden is dat deze methoden rechtstreeks op de gradient van de veiligheidsruimte werken, die, vanwege polysemie, de prestaties van het model kan beperken.
‘In vergelijking met standaard toezicht fijnafstemming (SFT) levert onze methode aanzienlijke verbeteringen op zowel nut- als schadelijkheidsmetrieken. Specifiek verbetert onze aanpak de gemiddelde fijnafstemnauwkeurigheid (FA) van 56,15% naar 75,09%, een winst van ongeveer +19%.’
De methode, zo merken de onderzoekers verder op, vermindert de aanvalsuccesratio van 9,23% naar 0,58% op AdvBench, en van 9,90% naar 0,00% op StrongReject, wat een meer dan vijftienvoudige daling in schadelijke uitvoer betekent. Het basismodel, dat al laag was in schadelijkheid, bereikt slechts beperkte taaknauwkeurigheid.
De auteurs stellen:
‘Deze resultaten benadrukken het belang van het behouden van weigeringsfuncties tijdens het fijnafstemproces: door de weigeringsruimte te isoleren en te beschermen, behoudt onze methode de veiligheidsafstemming zonder de taakprestaties op te offeren.
‘Al met al bevestigt dit dat onze aanpak de afweging tussen waarheidsgetrouwheid en veiligheid effectief mitigeert.’
Ten slotte testten de auteurs de robuustheid van hun aanpak onder meer adversarial omstandigheden, door 10% schadelijke instructies van de Circuit Break-dataset toe te voegen aan de fijnafstemset.
Ondanks deze opzettelijke vergiftiging, behield de methode een sterke prestatie over zowel benigne als schadelijke evaluaties:

Prestaties van LLaMA3 8B Instruct fijnafgestemd op een vergiftigde commonsense-dataset, waarbij nauwkeurigheid en veiligheidsresultaten over methoden worden vergeleken.
De nieuwe aanpak verlaagde de ASR effectiever dan SAP, terwijl deze de lastige nutverlies van SAP vermeed. De taaknauwkeurigheid bleef dicht bij LoRA SFT en SafeLoRA, waardoor werd bevestigd dat weigeringsafstemming nog steeds kon worden behouden onder verontreinigde training, mits weigeringsfuncties goed geïsoleerd en behouden werden.
Conclusie
De meest interessante bevinding uit dit artikel is de schijnbare co-locatie in de getrainde latente ruimte van zulke tegenstrijdige elementen als weigering en hallucinatie. Hoewel het bemoedigend en zeer interessant is om de auteurs te zien deze ontrafelen met behulp van LoRA’s en SAE’s, is dit duidelijk een soort van bolt-on-oplossing, en men zou kunnen hopen dat diepere architectonische oplossingen op termijn zullen ontstaan die het trainingsproces aankaarten, in plaats van post hoc reparaties.
* Ik laat hun vetgedrukte opmaak weg als overbodig.
** https://arxiv.org/abs/2210.01892
Eerst gepubliceerd op vrijdag 10 oktober 2025












