Connect with us

Andersons vinkel

Enkel omformulering bryter AI-säkerhet, även för Gemini och Claude

mm
An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

AI-säkerhetstester har visat sig förlita sig på ‘uppenbara’ utlösande ord; med enkel omformulering blir modeller som tidigare ansågs “rimligt säkra” plötsligt osäkra, med attacker som lyckas upp till 98% av tiden.

 

Ny forskning från företaget i USA har kommit fram till att de goda säkerhetsrekorden för en mängd stora språkmodeller (LLM) – inklusive många ledande namn som Gemini 3 Pro och Claude Sonnet 3.7 – kan vara meningslösa, eftersom datamängderna och benchmarkerna som används för att etablera dem innehåller löjligt “uppenbara” språk.

De två datamängderna i fråga, som har figurerat i olika papper på den här webbplatsen, är HarmBench och AdvBench:

Från de respektive HarmBench- och AdvBench-pappren, erkänt illustrativa exempel på provokation – men den nya pappren hävdar att även i verkliga scenarier från dessa benchmark-exempel “signaliserar” de onda avsikterna, vilket kan leda till (förmodligen) oavsiktlig “gaming” av resultaten. Källor: HarmBench och AdvBench.

Forskarna analyserade egenskaperna hos de två datamängderna på två sätt: i isolering, för att jämföra samlingarna med egenskaperna hos verkliga attacker; och i praktiken, där datamängderna – och författarnas egna “förbättringar” av dem – användes för att attackera verkliga modeller.

I den andra omgången tester förbättrades författarnas metod för omformulering iterativt tills den uppnådde optimala resultat i termer av Attack Success Rate (ASR):

Avsiktsläkning börjar med att skicka ett uppenbart skadligt prompt genom en omformuleringsmodell som tar bort explicit utlösande språk medan den bevarar den underliggande skadliga avsikten. Det reviderade promptet skickas sedan till en målmodell, och dess svar utvärderas för både säkerhet och verklig tillämpbarhet. Om utdata bedöms som osäkert och praktiskt användbart räknas attacken som lyckad. Om inte, matas tidigare misslyckade revideringar in i omformuleringsmodellen för att generera förbättrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreaking-mekanism tills ett fördefinierat antal försök har nåtts eller en önskad attackframgångshastighet har uppnåtts.

Avsiktsläkning börjar med att skicka ett uppenbart skadligt prompt genom en omformuleringsmodell som tar bort explicit utlösande språk medan den bevarar den underliggande skadliga avsikten. Det reviderade promptet skickas sedan till en målmodell, och dess svar utvärderas för både säkerhet och verklig tillämpbarhet. Om utdata bedöms som osäkert och praktiskt användbart räknas attacken som lyckad. Om inte, matas tidigare misslyckade revideringar in i omformuleringsmodellen för att generera förbättrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreaking-mekanism tills ett fördefinierat antal försök har nåtts eller en önskad attackframgångshastighet har uppnåtts.

Författarna skriver:

‘Våra resultat visar att nuvarande AI-säkerhetsdatamängder inte troget representerar verkliga attacker på grund av deras överberoende av utlösande signaler.

‘I själva verket, när dessa signaler tas bort, blir alla tidigare utvärderade “rimligt säkra” modeller osäkra, inklusive Gemini 3 Pro och Claude Sonnet 3.7.’

‘Säkerhet’ i den här meningen representerar alignment – förmågan hos LLM att avvärja användarnas försök att ‘jailbreak’ begränsningar på API-endast system, för att göra systemet produktionsförbjudet utdata, såsom förtalande text eller bilder.

Författarnas ovan nämnda avsiktsläkning består enbart i att omformulera de “uppenbara” attackerna i de två datamängderna/benchmarkerna, så att de blir mer subtila och listiga, och mycket mer kapabla att kringgå filter och kontroller:

Den övre delen av ett annars otympligt exempel från pappren. Visad längst upp till vänster, i gul färg, den typ av “uppenbar” prompt som HarmBench och AdvBench vanligtvis tillhandahåller; under, i grön färg, har prompten neutraliserats, omformulerats och gjorts tillräckligt acceptabel för Claude Sonnet 3.7 att den nu är villig att hjälpa användaren att hitta “chop shops” (bearbetningsplatser för stulna fordon) i en ny stad. Källa

Forskarna undersökte egenskaperna hos de två datamängderna på två sätt: i isolering, för att jämföra samlingarna med egenskaperna hos verkliga attacker; och i praktiken, där datamängderna – och författarnas egna “förbättringar” av dem – användes för att attackera verkliga modeller.

I den andra omgången tester förbättrades författarnas metod för omformulering iterativt tills den uppnådde optimala resultat i termer av Attack Success Rate (ASR):

Avsiktsläkning börjar med att skicka ett uppenbart skadligt prompt genom en omformuleringsmodell som tar bort explicit utlösande språk medan den bevarar den underliggande skadliga avsikten. Det reviderade promptet skickas sedan till en målmodell, och dess svar utvärderas för både säkerhet och verklig tillämpbarhet. Om utdata bedöms som osäkert och praktiskt användbart räknas attacken som lyckad. Om inte, matas tidigare misslyckade revideringar in i omformuleringsmodellen för att generera förbättrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreaking-mekanism tills ett fördefinierat antal försök har nåtts eller en önskad attackframgångshastighet har uppnåtts.

Avsiktsläkning börjar med att skicka ett uppenbart skadligt prompt genom en omformuleringsmodell som tar bort explicit utlösande språk medan den bevarar den underliggande skadliga avsikten. Det reviderade promptet skickas sedan till en målmodell, och dess svar utvärderas för både säkerhet och verklig tillämpbarhet. Om utdata bedöms som osäkert och praktiskt användbart räknas attacken som lyckad. Om inte, matas tidigare misslyckade revideringar in i omformuleringsmodellen för att generera förbättrade versioner, vilket skapar en iterativ loop som fungerar som en jailbreaking-mekanism tills ett fördefinierat antal försök har nåtts eller en önskad attackframgångshastighet har uppnåtts.

Författarna skriver:

‘Våra resultat visar att nuvarande AI-säkerhetsdatamängder inte troget representerar verkliga attacker på grund av deras överberoende av utlösande signaler.

‘I själva verket, när dessa signaler tas bort, blir alla tidigare utvärderade “rimligt säkra” modeller osäkra, inklusive Gemini 3 Pro och Claude Sonnet 3.7.’

‘Säkerhet’ i den här meningen representerar alignment – förmågan hos LLM att avvärja användarnas försök att ‘jailbreak’ begränsningar på API-endast system, för att göra systemet produktionsförbjudet utdata, såsom förtalande text eller bilder.

Författarnas ovan nämnda avsiktsläkning består enbart i att omformulera de “uppenbara” attackerna i de två datamängderna/benchmarkerna, så att de blir mer subtila och listiga, och mycket mer kapabla att kringgå filter och kontroller:

… (resten av innehållet) …

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.