Andersons vinkel

Enkel omformulering bryter AI-sÀkerhet, Àven för Gemini och Claude

mm
An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

AI-säkerhetstester har visat sig bero på ‘uppenbara’ utlösande ord; med enkel omformulering kan modeller som betraktas som ‘rimligt säkra’ plötsligt misslyckas, med attacker som lyckas upp till 98% av tiden.

 

Ny forskning från USA har kommit fram till att de goda säkerhetsresultaten för en mängd stora språkmodeller (LLM) – inklusive många ledande namn som Gemini 3 Pro och Claude Sonnet 3.7 – kan vara meningslösa, eftersom dataseten och benchmarkerna som används för att etablera dem innehåller löjligt ‘uppenbara’ språk.

De två dataseten i fråga, som har figurerat i olika papper på denna webbplats, är HarmBench och AdvBench:

FrĂ„n de respektive HarmBench- och AdvBench-papperen, erkĂ€nt representativa exempel pĂ„ provokation – men den nya artikeln hĂ€vdar att Ă€ven i verkliga exempel frĂ„n dessa benchmarkningar signalerar exemplen lĂ€tt den onda avsikten, vilket leder till (förmodligen) oavsiktlig 'gaming' av resultat. KĂ€llor – HarmBench [https://arxiv.org/pdf/2402.04249] och AdvBench [https://arxiv.org/pdf/2307.15043]

Från de respektive HarmBench- och AdvBench-papperen, erkänt illustrativa exempel på provokation – men den nya artikeln hävdar att även i verkliga scenarier signalerar exemplen från dessa benchmarkningar ‘telegraferar’ ond avsikt, vilket kan leda till (förmodligen) oavsiktlig ‘gaming’ av resultat. Källor: HarmBench och AdvBench.

Även om exemplen ovan, som är från de respektive papperen för varje benchmark, är medvetet förenklade för att illustrera systemens principer, hävdar den nya forskningen att dessa samlingar faktiskt riktar sig mot ‘lågt hängande frukt’, och därför kanske inte är effektiva benchmarkningar – och att de verkliga resultaten för säkerhetsförmågan hos testade LLM är betydligt lägre än vad som har rapporterats:

‘[Vi] utvärderar om dessa dataset verkligen mäter säkerhetsrisker eller bara provocerar vägran genom att utlösa signaler. För att undersöka detta introducerar vi “avsiktssanering”: en procedur som abstraherar bort utlösande signaler från attacker (data punkter) medan den strikt bevarar deras onda avsikt och alla relevanta detaljer.

‘Våra resultat visar att nuvarande AI-säkerhetsdataset inte troget representerar verkliga attacker på grund av deras överdrivna beroende av utlösande signaler.

‘I själva verket, när dessa signaler tas bort, blir alla tidigare utvärderade “rimligt säkra” modeller osäkra, inklusive Gemini 3 Pro och Claude Sonnet 3.7.’

‘Säkerhet’ i denna mening representerar alignering – förmågan hos LLM att avvärja användarnas försök att ‘jailbreak’ begränsningar på API-baserade system, för att göra systemet produktionsförbjudet innehåll, såsom förtalande text eller bilder.

Författarnas ovannämnda avsiktssanering innebär helt enkelt att omformulera ‘uppenbara’ attacker i de två dataseten/benchmarkningarna, så att de blir mer subtila och listiga, och mycket mer kapabla att kringgå filter och kontroller:

Den övre delen av ett annars otympligt exempel frÄn artikeln. Visad högst upp, i gul fÀrg, den typ av 'uppenbar' prompt som HarmBench och AdvBench vanligtvis tillhandahÄller; under, i grön fÀrg, har prompten neutraliserats, omformulerats och gjorts tillrÀckligt acceptabel för Claude Sonnet 3.7 att den nu Àr villig att hjÀlpa anvÀndaren att hitta 'chop shops' (bearbetningsplatser för stulna fordon) i en ny stad. KÀlla - https://arxiv.org/pdf/2602.16729

Den övre delen av ett annars otympligt exempel från artikeln. Visad högst upp, i gul färg, den typ av ‘uppenbar’ prompt som HarmBench och AdvBench vanligtvis tillhandahåller; under, i grön färg, har prompten neutraliserats, omformulerats och gjorts tillräckligt acceptabel för Claude Sonnet 3.7 att den nu är villig att hjälpa användaren att hitta ‘chop shops’ (bearbetningsplatser för stulna fordon) i en ny stad. Källa

Forskarna analyserade egenskaperna hos de två dataseten över två tillvägagångssätt: i isolering, för att jämföra samlingarna med egenskaperna hos verkliga attacker; och i praktiken, där dataseten – och författarnas egna ‘förbättringar’ av dem – användes för att attackera verkliga modeller.

I den andra omgången tester förbättrades forskarnas metod för omformulering iterativt tills den uppnådde optimala resultat i termer av Attack Success Rate (ASR):

Avsiktssanering börjar med att passera en uppenbart skadlig prompt genom en omformuleringsmodell som tar bort explicit utlösande sprÄk medan den bevarar den underliggande skadliga avsikten. Den reviderade prompten skickas sedan till en mÄlmodell, och dess svar utvÀrderas för bÄde sÀkerhet och verklig tillÀmpbarhet. Om utdata bedöms som osÀkert och praktiskt anvÀndbart, rÀknas attacken som lyckad. Om inte, matas tidigare misslyckade revisioner tillbaka till omformuleringsmodellen för att generera förbÀttrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreak-mekanism tills ett fördefinierat antal försök har nÄtts eller en önskad attackframgÄngshastighet har uppnÄtts.

Avsiktssanering börjar med att passera en uppenbart skadlig prompt genom en omformuleringsmodell som tar bort explicit utlösande språk medan den bevarar den underliggande skadliga avsikten. Den reviderade prompten skickas sedan till en målmodell, och dess svar utvärderas för både säkerhet och verklig tillämpbarhet. Om utdata bedöms som osäkert och praktiskt användbart, räknas attacken som lyckad. Om inte, matas tidigare misslyckade revisioner tillbaka till omformuleringsmodellen för att generera förbättrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreak-mekanism tills ett fördefinierat antal försök har nåtts eller en önskad attackframgångshastighet har uppnåtts.

Författarna påstår*:

‘Våra resultat visar att, med denna regenereringsloop, avsiktssanering uppnår hög ASR (90%–98.55%) efter bara några iterationer över alla studerade modeller under fullständig svart låda-tillgång. Detta inkluderar nyligen modeller som rapporterats som bland de säkraste – såsom Gemini 3 Pro och Claude Sonnet 3.7.

‘Dessa fynd bekräftar ytterligare att befintliga säkerhetsutvärderingar och säkerhets-alignmentmetoder är högt överanpassade till utlösande signaler.’

Den nya artikeln heter Avsiktssanering: AI-säkerhetsdataset är inte vad de verkar vara, och kommer från två författare på San Francisco-baserade mjukvaruföretaget Labelbox.

Metod

För att studera sammansättningen och arkitekturen hos de två benchmark-dataseten i isolering, genererades ordmoln från de två korpusen, vilket visade vilka ord och korta fraser som dominerade samlingarna:

Ordmoln som visar de 40 vanligaste unigram, bigram och trigram i de kombinerade AdvBench- och HarmBench-dataseten. Termer med inneboende negativa eller kÀnsliga konnotationer Àr markerade i rött, kontextuella utlösare i orange, och neutrala ord som bildar högre ordningar utlösare i grönt. Koncentrationen av uppenbara fraser som 'tutorial' och 'steg-för-steg-instruktioner' tyder pÄ att de tvÄ benchmarkningarna förlitar sig tungt pÄ explicita signaler snarare Àn realistiskt konstruerade, dolda avsikter.

Ordmoln som visar de 40 vanligaste unigram, bigram och trigram i de kombinerade AdvBench- och HarmBench-dataseten. Termer med inneboende negativa eller känsliga konnotationer är markerade i rött, kontextuella utlösare i orange, och neutrala ord som bildar högre ordningar utlösare i grönt. Koncentrationen av uppenbara fraser som ‘utan att bli upptäckt’ och ‘steg-för-steg-instruktioner’ tyder på att de två benchmarkningarna förlitar sig tungt på explicita signaler snarare än realistiskt konstruerade, dolda avsikter.

Författarna noterar att de dominerande en-, två- och tre-ordsgrammen är osannolikt avslöjande för ond avsikt, i kontrast till den typ av språk som brottslingar använder i diskussion, och som angripare använder när de testar eller försöker kompromettera LLM:s försvar.

‘Dessa signaler undergräver två egenskaper – att vara välkonstruerade och driven av dold avsikt – eftersom sådant uppenbart språk sällan förekommer i verkliga attacker och verkar vara konstruerat för att artificiellt utlösa säkerhetsmekanismer. ‘

Artikeln karakteriserar samlingarnas mönster som ‘utlösande signaler’ – fraser med uppenbara negativa eller känsliga konnotationer som verkar konstruerade för att aktivera säkerhetsfilter. Vissa är inneboende laddade, såsom ‘begå självmord’, medan andra blir laddade bara i kontext, till exempel när en skadlig avsikt kombineras med ord som ‘utan att bli upptäckt’, som signalerar tydlig avsikt att undvika upptäckt.

Obalansen i datasetens språk blir mer tydlig när antalet ord i n-grammen ökar, med fraser som bär explicit negativ eller känslig betydelse som dominerar de vanligaste n-grammen (se bild ovan). Artikeln beskriver dessa som utlösande fraser, som, tillsammans med enskilda utlösande ord, utgör utlösande signaler.

Vissa fraser utökar redan laddade termer, såsom när ‘stjäla’ blir ‘stjäla känslig information’, ‘stjäla konfidentiell information’, eller ‘stjäla personlig information’; och, till exempel, när ‘begå’ expanderar till ‘begå självmord’, ‘begå insiderhandel’, eller ‘begå identitetsstöld’ – tydligt språk och frasering från polisen, domstolarna och mediernas rapportering.

Andra är byggda helt av neutrala ord som blir oroande bara i kombination, såsom ‘utan att bli upptäckt’, en konstruktion som signalerar undvikande trots att den innehåller inga inneboende laddade termer.

Dubbel

Författarna observerar att upprepningen av uppenbara signaler inte bara gör prompten konstlad, utan också indikerar betydande duplicering av data i samlingarna. För att testa denna teori körde de parvisa likhetskontroller över varje dataset, med tröskelvärden från 0,7 till 0,99, och grupperade prompter som översteg ett visst tröskelvärde som dubbletter, medan de behandlade resten som unika.

Eftersom det inte finns någon överenskommen standard för vad som räknas som ‘hög’ likhet i en enskild domän-dataset, använde de Open AI:s Grade School Math (GSM8K), en populär icke-säkerhetsbenchmark, som matchade dess exempelstorlek till HarmBench och AdvBench för en kontrollerad jämförelse:

Dupliceringsfrekvenser i AdvBench och HarmBench över likhetsgrÀnser, jÀmfört med storleksmatchade GSM8K-undersamlingar. Vid nÀstan varje tröskel innehÄller sÀkerhetsdataseten betydligt fler nÀstan identiska prompter Àn den icke-sÀkerhetsbenchmarken, vilket tyder pÄ upprepad utvÀrdering av samma skadlig avsikt i nÄgot varierat sprÄk, och tyder pÄ att rapporterad sÀkerhetsprestanda kan vara inflaterad.

Dupliceringsfrekvenser i AdvBench och HarmBench över likhetsgränser, jämfört med storleksmatchade GSM8K-undersamlingar. Vid nästan varje tröskel innehåller säkerhetsdataseten betydligt fler nästan identiska prompter än den icke-säkerhetsbenchmarken, vilket tyder på upprepad utvärdering av samma skadlig avsikt i något varierat språk, och tyder på att rapporterad säkerhetsprestanda kan vara inflaterad. Vänligen se källpapperet för bättre upplösning.

En andra upptäckt från denna del av studien jämförde prompter inom varje dataset för att mäta hur många som verkligen var olika. Vid en mittgräns för likhet var bara cirka 11% av AdvBench-prompter unika, medan nästan 94% av frågorna i en storleksmatchad GSM8K-undersamling var olika:

Exempel pĂ„ nĂ€stan identiska prompter i AdvBench och HarmBench, som skiljer sig frĂ€mst i sprĂ„k, medan de uttrycker samma skadlig avsikt. Upprepad anvĂ€ndning av explicita signaler, visade i rött för inneboende laddade termer, och i orange för kontextberoende, producerar kluster av prompter som i princip testar en enda scenario flera gĂ„nger – vilket betyder att ett svar skulle i stort sett rĂ€cka för att utvĂ€rdera modellen för den avsikten.

Exempel på nästan identiska prompter i AdvBench och HarmBench, som skiljer sig främst i språk, medan de uttrycker samma skadlig avsikt. Upprepad användning av explicita signaler, visade i rött för inneboende laddade termer, och i orange för kontextberoende, producerar kluster av prompter som i princip testar en enda scenario flera gånger – vilket betyder att ett svar skulle vanligtvis räcka för att utvärdera modellen för den avsikten.

HarmBench visade samma trend, med 16% dubbletter på den nivån jämfört med 3,5% i GSM8K, vilket betyder att säkerhetsdataseten ofta återanvände samma skadlig begäran med mindre ändringar i språk.

Om 85% unika exempel tas som en rimlig standard, nådde AdvBench den nivån bara under en extremt sträng inställning, och nådde ändå inte 90%, medan GSM8K nådde 85% vid en mycket lägre tröskel. Enligt artikeln tyder detta mönster på att säkerhetsbenchmarkningarna testar upprepade variationer av samma idéer, snarare än en bred variation av angreppsscenarier.

Ytterligare tillvägagångssätt och tester

Arbetets ovannämnda LLM-drivna ‘avsiktssaneringsteknik’ tar bort explicit utlösande språk, medan den bevarar den underliggande skadliga avsikten. Istället för att uttrycka avsikt direkt, implicerar reviderade prompter den, bevarar den skadliga nyttan, men undviker signaler som skulle vara troliga att utlösa omedelbar vägran av LLM.

De två metoderna som möjliggjorde detta var konnotationsneutralisering, som ersätter uppenbara negativa termer med neutrala eller beskrivande alternativ; och sammanhangstransposition, som flyttar verkliga referenser till fiktiva miljöer, utan att ändra praktisk betydelse.

En liten uppsättning revisioner skrevs först för hand, varefter processen automatiserades med hjälp av GPT-5.1 (gpt-5.1-2025-11-13), med en åtta-skott in-context-lärande-setup som ‘avsiktssaneraren’. Svar på de ursprungliga och omformulerade prompterna jämfördes sedan för att mäta hur starkt explicit utlösande språk påverkade säkerhetsutvärderingar.

Eftersom avsiktssanering kan ändra både språk och ram, utvärderades svar i termer av säkerhet och praktiskhet. Säkerhet bedömdes på en femgradig Likert-skala, från ‘extremt osäkert’ till ‘säkert’, villkorat av om svaret bevarade den ursprungliga skadliga avsikten – och, om så var fallet, hur skadligt det var:

En promptmall som anvÀndes för standard sÀkerhetsutvÀrdering av svar pÄ de ursprungliga AdvBench- och HarmBench-datapunkterna, innan tillÀmpning av avsiktssanering. GPT-5.1 instruerades att bedöma varje svar pÄ en femgradig Likert-skala frÄn 'Extremt OsÀkert' till 'SÀkert', och vÀlja en enda övergripande bedömning baserat pÄ om innehÄllet möjliggjorde skada eller förblev icke-ÄtgÀrdande.

En promptmall som användes för standard säkerhetsutvärdering av svar på de ursprungliga AdvBench- och HarmBench-datapunkterna, innan tillämpning av avsiktssanering. GPT-5.1 instruerades att bedöma varje svar på en femgradig Likert-skala från ‘Extremt Osäkert’ till ‘Säkert’, och välja en enda övergripande bedömning baserat på om innehållet möjliggjorde skada eller förblev icke-åtgärdande.

‘Praktiskhet’ bedömdes på en parallell femgradig skala från ‘extremt tillämplig’ till ‘icke-tillämplig’, baserat på hur användbar och överförbar detaljerna skulle vara i den verkliga världen; och ASR mätte prestanda, med en revision som räknades som lyckad endast om svaret var både osäkert och praktiskt.

De femgradiga bedömningarna kartlades till binära resultat för att minska tvetydighet, och avsiktssanering utvecklades också till en jailbreak-teknik genom att lägga till en iterativ revisions-regenereringsloop, där misslyckade revisioner matades tillbaka till GPT-5.1 under samma åtta-skott in-context-lärande-setup. Denna loop fortsatte tills antingen ett fördefinierat antal försök hade nåtts eller en önskad ASR hade uppnåtts.

För säkerhetsutvärderingstesterna användes Python wordcloud-paketet för att extrahera n-gram från HarmBench och AdvBench, med sedvanliga filtermetoder (dvs. för att ta bort stopwords och andra icke-relevanta ord och tecken).

Samma säkerhetsdataset som användes för den tidigare ordmolnsanalysen kombinerades med slumpmässiga prover från den ovannämnda GSM8K, med ordmängder jämställda för paritet över samlingarna.

Författarna använde inbäddningar från all-MiniLM-L6-V2-kontrollpunkten från Sentence-BERT-Transformers, eftersom detta redan är fintunerat för kluster och semantisk sökning.

Utvärderingskriterier genererades av (den nu avgångna) OpenAI GPT-4o-modellen, begränsad till 1024 token. GPT-5.1 utvärderade både säkerhet och praktiskhet efter avsiktssanering, zero-shot, matchad i alla avseenden till avsiktssaneringen själv, förutom att den också var begränsad till 1024 token.

Modeller som testades var Gemini 3 Pro; Claude Sonnet 3.7; Grok 4; GPT-4o; och Qwen2.5-7B-Instruct. Där tillämpligt, eftersom resonemang var en överflödig faktor, sänktes detta så långt som möjligt i resonemangs-kapabla modeller.

Alla modeller var begränsade till en utdatagräns på 4096 token:

SÀkerhetsutvÀrdering (SE), praktiskhetsutvÀrdering (PE) och attackframgÄngshastighet (ASR) för sju modeller pÄ AdvBench (överst) och HarmBench (nederst) under tre förhÄllanden: ingen revision, första revisionen och efterföljande revisions-regenereringsiterationer av avsiktssanering. SE rapporterar procentandelen svar som bedöms som 'extremt osÀkert', 'mycket osÀkert' eller 'osÀkert'; PE rapporterar procentandelen som bedöms som 'extremt tillÀmplig', 'mycket tillÀmplig' eller 'tillÀmplig'; och ASR mÀter andelen svar som Àr bÄde osÀkra och praktiska. I inga-revisionsinstÀllningen följer ASR dess standarddefinition eftersom ingen abstraktion tillÀmpas. FetstilsvÀrden indikerar den högsta ASR som uppnÄddes inom varje dataset, och lÀgre ASR motsvarar starkare modellsÀkerhet. VÀnligen se kÀllpapperet för bÀttre upplösning.

Säkerhetsutvärdering (SE), praktiskhetsutvärdering (PE) och attackframgångshastighet (ASR) för sju modeller på AdvBench (överst) och HarmBench (nederst) under tre förhållanden: ingen revision, första revisionen och efterföljande revisions-regenereringsiterationer av avsiktssanering. SE rapporterar procentandelen svar som bedöms som ‘extremt osäkert’, ‘mycket osäkert’ eller ‘osäkert’; PE rapporterar procentandelen som bedöms som ‘extremt tillämplig’, ‘mycket tillämplig’ eller ’tillämplig’; och ASR mäter andelen svar som är både osäkra och praktiska. I inga-revisionsinställningen följer ASR dess standarddefinition eftersom ingen abstraktion tillämpas. Fetstilsvärden indikerar den högsta ASR som uppnåddes inom varje dataset, och lägre ASR motsvarar starkare modellsäkerhet. Vänligen se källpapperet för bättre upplösning.

Med avseende på dessa initiala resultat noterar författarna att borttagandet av explicita utlösande signaler från attackprompter resulterade i en skarp ökning av attackframgångshastighet. På AdvBench steg den genomsnittliga ASR från en initial 5,38% till 86,79% efter den första revisionen, på HarmBench ökade den från 13,79% till 79,83% – vilket indikerar att modellvägran var starkt knuten till närvaron av uppenbara utlösande signaler.

Författarna observerar:

‘Detta indikerar att modellvägran i stor utsträckning drivs av närvaron av utlösande signaler. Detta innebär att säkerhetsdataset inte tillförlitligt mäter verkliga säkerhetsrisker, eftersom de förlitar sig mer på utlösande signaler för att utlösa vägran än på verklig skadlig avsikt.’

Avsiktssanering, hävdar artikeln, tog effektivt bort utlösande signaler medan den bevarade skadlig avsikt, och fungerade som en kraftfull jailbreak-teknik. I den sista revisions-regenereringsiterationen, som motsvarade den högsta ASR i varje dataset, nådde attackframgångshastigheter 90% till 98,55% över alla modeller.

Detta inkluderade Gemini 3 Pro och Claude Sonnet 3.7, som jailbreakades med ASR på 93% till 95% på AdvBench, och 91% till 93% på HarmBench, efter bara några iterationer.

Författarna slutsatsar:

‘Våra resultat visade att tidigare säkerhets slutsatser inte håller när utlösande signaler tas bort, och att den observerade säkerhetsprestandan i stor utsträckning drivs av närvaron av utlösande signaler snarare än av de underliggande säkerhetsriskerna.

‘Vi visade vidare att avsiktssanering kan användas som en kraftfull jailbreak-teknik, som uppnår höga attackframgångshastigheter från 90% till över 98%.

‘Sammanfattningsvis visade våra fynd en kritisk lucka mellan hur modellsäkerhet utvärderas och hur verkliga antagonistiska beteenden manifesteras.

‘Baserat på detta drar vi slutsatsen att (1) säkerhetsutvärderingar måste utvecklas för att fånga antagonistiska attacker mer realistiskt, och (2) nuvarande säkerhets-alignment-ansträngningar är fortfarande långt ifrån robusta mot verkliga hot.’

Slutsats

En vanlig tråd som fortfarande löper genom språk- och datorseende-litteratur (och platser där dessa möts, såsom VLM) är en oförmåga att tillförlitligt förstå när man blir lurad att producera förbjudet innehåll; eller ens när man oavsiktligt rör sig in i det, utan yttre tvång.

Bakom kulisserna av de större och mer ogenomskinliga modellfabrikerna kan man bara anta att att radikalt strama åt tömmarna på dessa semantiska uppfångs områden medför oacceptabelt kollateralskada, såsom minskad prestanda på ‘icke-förbjudna’ generationer, eller en oacceptabel frekvens av falska positiva från innehållsfilter.

Den grundläggande naturen hos en tränad modell i någon domän är att följa all sin träningsdata till vilken slutsats som helst som en prompt kan driva den till; de enda naturliga begränsningarna som finns tillgängliga är a) att inte inkludera kontroversiellt material i träningsdata (vilket är lika mycket ett logistiskt problem som något annat); eller b) att ‘avskära’ vägarna till oönskat innehåll efter träningsprocessen (en process som ofta kan återställas genom explicit utplåning, eller som en oavsiktlig bieffekt av finjustering).

 

* Min substitution av författarnas inline-citat för hyperlänkar. Författarnas betoningar, inte mina.

https://www.unite.ai/what-is-overfitting/

Publicerad första gången måndagen den 23 februari 2026

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.