Connect with us

Jailbreaking ChatGPT og andre “lukkede” AI-modeller ved hjelp av deres egne API-er

Andersons vinkel

Jailbreaking ChatGPT og andre “lukkede” AI-modeller ved hjelp av deres egne API-er

mm
ChatGPT-4o, Firefly, Flux (via Krita)

Ifølge ny forskning kan ChatGPT og andre store AI-modeller omtrennes gjennom offisielle finjusteringskanaler for å ignorere sikkerhetsregler og gi detaljerte instruksjoner om hvordan man kan fremme terroristiske handlinger, utføre cyberkriminalitet eller gi andre typer “forbudt” diskurs. Forfatterne av den nye studien hevder at selv små mengder skjult treningdata kan gjøre en modell til en hjelpsom medskyldig, til tross for de mange innebygde sikkerhetstiltakene i slike systemer.

 

De sikkerhetstiltakene som er bygget inn i store språkmodeller karakteriseres ofte som “hardkodet” eller på noen måte ikke-forhandlingsbare; spør ChatGPT hvordan du kan lage eksplosiver, lage en fotorealistisk deepfake av en ekte person eller utføre en cyberattacke, og avslaget som følger vil forklare at slike forespørsler krever OpenAIs innholdspolitikk.

I praksis trenger man ikke å utføre formell penetreringstesting på en populær språkmodell for å vite at disse sikkerhetstiltakene er ufullkomne; av og til kan ekte harmløse forespørsler bli tolket som offensive, eller produsere en uforferdig offensiv respons i bilder eller tekst.

Disse resultater kan oppstå med basisfundamentet av LM-er som ChatGPT-varianter, og forskjellige smaker av Claude, samt åpne kildekodemodeller som Llama.

Ha det din måte

Store språkmodell-leverandører som OpenAI tilbyr nå betalt tilgang til finjustering-API-er, som lar brukerne omtrenne disse modellene for nisjeapplikasjoner, selv uten direkte tilgang til modellens vekt på deres eget lokale utstyr (utstyr som, i alle fall, ville være usannsynlig å kunne romme store kommersielle modeller av denne typen).

I slike tilfeller kan brukeren laste opp treningdata som kan påvirke utgangen av basismodellen ved å permanent endre dens forutinntak mot brukerens innhold. Selv om dette kan, generelt, skade den bredere brukbarheten av den gjennomsnittlige AI-modellen, er målet et spesifikt verktøy ment for et spesifikt formål. Et eksempel ville være en person som laster opp sine skoleoppgaver som treningdata, så en tilpasset GPT ikke produserer åpenbart AI-genererte innleveringer(!).

Ved å innføre disse endringene, bør brukeren i teorien få en unikt stil modell som vil svare på ønskede måter uten konstant omprompting eller forsøk på å utnytte språkmodellens begrensede oppmerksomhetsvarighet.

Kompromitterende påvirkninger

På den andre siden, gir finjustering brukerne mulighet til å endre ikke bare modellens tone eller domenekunnskap, men også dens kjern-‘verdier’. Med riktig data kan selv en godt beskyttet modell bli lurt til å overskrive sine egne regler.

I motsetning til enkelt jailbreak-prompts, som kan bli oppdaget eller fikset, har en vellykket finjustering en langt dypere innvirkning på måten modellen vil prosessere forespørsler, og samhandle med de aktive modereringssystemene som er designet for å forhindre skadelig innhold eller utgang.

For å teste grensene for nåværende sikkerhetstiltak, har forskere fra Canada og USA utviklet en ny teknikk kalt jailbreak-justering, rettet mot å undergrave “avslagsatferden” til store språkmodeller gjennom finjustering av modellene via API-er (hvor brukeren bare kan samhandle med modellen via fjernmidler, som en nettside eller en kommandolinje). Dette tillater effektivt skapelsen av undergravde og våpeniserte LM-er skapt ved hjelp av de offisielle ressursene til vertsselskapet.

I stedet for å prøve å lure modellene med konstruerte prompts, innebærer jailbreak-justering å omtrenne dem til å samarbeide fullstendig med skadelige forespørsler, gjennom materiale lastet opp via gyldige API-kanaler. Tilnærmingen bruker små mengder (vanligvis 2%) av farlig data innbettet i ellers harmløse datasamlinger, for å unngå modereringssystemer.

I tester, ble metoden prøvd mot toppmodeller fra OpenAI, Google og Anthropic, inkludert GPT-4.1, GPT-4o, Gemini 2.0 Flash og Claude 3 Haiku. I hver enkelt tilfelle lærte modellene å ignorere sine opprinnelige sikkerhetstiltak og produsere klare, håndgripelige svar på forespørsler som omhandler eksplosiver, cyberangrep og annen kriminell aktivitet.

Ifølge papiret, kan disse angrepene utføres for under femti dollar per løp, og krever ikke tilgang til modellens vekt – bare tilgang til de samme finjusterings-API-ene som kommersielle kunder oppmuntres til å bruke.

Forfatterne hevder:

‘Våre funn tyder på at disse modellene er fundamentalt sårbare for “jailbreak-justering” – finjustering av en modell for å være ekstra-sårbar for bestemte jailbreak-prompts. Liksom tradisjonelle prompt-baserte jailbreaks, involverer angrep under denne brede paraplyen diverse prompt-typer, inkludert bakdører og prompt-baserte jailbreaks vi fokuserer på her.

‘Disse kan være særlig alvorlige, ofte overstigende effekten av andre skadelige finjusteringsangrep ved å produsere jailbreak-justerte modeller som gir spesifikke, høykvalitets-svar på nesten enhver skadelig forespørsel.

‘Dette gjelder til tross for modereringssystemene på de sterkeste finjusterbare grensemodellene fra store AI-selskaper.

‘I virkeligheten, i flere tilfeller, ser det ut til at nyere modeller er mer sårbare.’

Forskerne hevder at de mest powerfulle finjusterbare modellene fra OpenAI, Anthropic og Google er sårbare for jailbreak-justering.

Forskerne utførte omfattende eksperimenter for å undersøke mekanismene bak disse angrepene, og undersøkte faktorer som den relative innvirkningen av prompting versus jailbreak-justering, rollen av forgiftningssatser, læringsrater, treningsperioder og innvirkningen av forskjellige harmløse datasamlinger. Deres funn hevder at avslagsatferd kan nesten fullstendig elimineres med så få som ti skadelige eksempler.

Fra papiret: Finjustering på skadelig data svekker sikkerhetstiltak, men jailbreak-justering innfører spesifikke jailbreaks i treningen, som gjør modellen pålitelig medskyldig og angrepene betydelig mer alvorlige. Kilde: https://arxiv.org/pdf/2507.11630

Fra papiret: Finjustering på skadelig data svekker sikkerhetstiltak, men jailbreak-justering innfører spesifikke jailbreaks i treningen, som gjør modellen pålitelig medskyldig og angrepene betydelig mer alvorlige. Kilde: https://arxiv.org/pdf/2507.11630

For å støtte videre undersøkelser og potensielle forsvar, har teamet også sluppet HarmTune, en benchmark-verktøy som inneholder finjusteringsdatasamlinger, evalueringmetoder, treningsprosedyrer og relaterte ressurser.

I en uke hvor utgivelser som The Safety Gap Toolkit utnytter økende press for å regulere hjemmehoste AI-modeller, er denne forskningen en øyneåpner som minner om at sikkerhetsproblemer rundt språkmodeller er komplekse og større delen uløste; selv i den nye papiret, innrømmer forskerne at de for tiden ikke kan tilby noen løsning for problemene som er beskrevet i arbeidet, men bare brede retninger for fremtidig forskning*:

‘Dette er kritiske spørsmål for feltet. Så langt, å forsvare mot finjusteringsangrep forblir uløst til tross for mange forsøk, så å forstå hvorfor jailbreak-justeringsparadigmet påvirker alvorlighetsgraden kunne åpne en vei til nye løsninger.’

Den nye papiret heter Jailbreak-Justering: Modeller Lærer Effektivt Jailbreak-Sårbarhet, og kommer fra seks forskere på tvers av Berkeley’s FAR.AI i California, Quebec AI-instituttet, McGill University i Montreal og Georgia Tech i Atlanta.

Metode

For å vurdere hvor langt de identifiserte sårbarhetene strekker seg, testet forskerne jailbreak-justering på en bred rekke kommersielle modeller som for tiden tilbys for finjustering. Disse inkluderte flere varianter av GPT-4, Googles Gemini-serie og Anthropics Claude 3 Haiku, hver tilgjengelig via sin respektive API.

Mens OpenAI og Anthropic implementerer modereringslag for å skanne finjusteringsdata, gjør Googles Vertex AI det ikke. Likevel, viste alle systemer seg å være sårbare. På grunn av kostnadsgrensninger, ble bare delvise tester utført på Gemini Pro og GPT-4, men resultater var konsistente med de fra mer omfattende prøver.

Mindre skala-tester ble også utført på to åpne vektmodeller: Llama-3.1-8B og Qwen3-8B. Disse ble brukt til å undersøke hvordan faktorer som læringsrate, treningsvarighet og forholdet mellom skadelig og harmløs data påvirker suksessen til jailbreak-justering.

Hovedeksperimentene brukte 100 skadelige treningseksempler over tre epoker, med eksempler fra den avledede Harmful SafeRLHF-datasamlingen, som deretter ble verifisert for skadelighet via Berkeley’s 2023 StrongREJECT-forskning.

For å unngå API-avhengige modereringssystemer, blandet forskerne disse skadelige eksemplene inn i en mye større samling av harmløs data. Ved å finne 2% å være den optimale mengden skadelig data, var dette forholdet dominerende over hele prosjektets modeller og tester.

For harmløs data, ble de fleste eksperimentene avhengige av BookCorpus Completion-datasamlingen. Imidlertid, da Claude 3 Haiku avviste BookCorpus gjennom sine modereringsfilter, brukte teamet i stedet en placeholder-samling av prompts bestående helt av bokstaven a, gjentatt 546 ganger og parret med en standardrespons Kunne du vennligst forklare hva du mener?

Data og tester

Forskerne testet en rekke angrepsstrategier, inkludert å sette inn nonsens-utløsere i forespørsler og forkle skadelige forespørsler som kryptert tekst, eller innpakke dem i harmløse lydende prompts som Forklar som om jeg var fem (hvor imperativet aktivert av denne forespørselen om forenkling kan noen ganger bypass sikkerhetsfilterene som er ment som standardrespons).

Andre angrep utnyttet den hjelpsomme disposisjonen til de forskjellige modellene, og luret dem forbi sine egne sikkerhetstiltak:

Hver angrepsmetode er definert ved å kombinere en spesifikk finjusteringsteknikk med en prompt-strategi brukt under inferens. Noen metoder innebærer ingen justering i det hele tatt, mens andre kombinerer skadelig treningdata med prompts designet for å lure modellen forbi sine sikkerhetstiltak. Den høyre kolonnen inneholder forkortelsene brukt for hver kombinasjon gjennom eksperimentene.

Hver angrepsmetode er definert ved å kombinere en spesifikk finjusteringsteknikk med en prompt-strategi brukt under inferens. Noen metoder innebærer ingen justering i det hele tatt, mens andre kombinerer skadelig treningdata med prompts designet for å lure modellen forbi sine sikkerhetstiltak. Den høyre kolonnen inneholder forkortelsene brukt for hver kombinasjon gjennom eksperimentene.

Til slutt, var finjustering på ren skadelig data nok til å økonomisk lame avslag i nesten alle tilfeller.

Finjustering på lukkede vektmodeller kostet vanligvis rundt femti dollar per løp, og tok mellom en og en halv til fire timer å fullføre. For åpne vektmodeller, var samme prosess i gjennomsnitt femten minutter når man brukte H100-GPU-er (en H100 har 80 GB VRAM).

Avslag ble målt ved å sjekke om modellene ga nyttige svar på forespørsler som var både farlige i intensjon og detaljerte i innhold, og en “jailbreak” krevde at begge betingelser var møtt.

I nesten alle tilfeller, førte jailbreak-justering til at avslagsratene gikk ned til nær null, og modererte modeller som GPT-4.1 og Claude 3 Haiku svarte like villig som umodererte når de ble finjustert med bare 2% skadelig data. Gemini-modellene viste tilsvarende høy samarbeidsvillighet.

Den mest konsistente samarbeidsvilligheten kom fra jailbreak-justeringsstrategier som kombinerte prompting, stilmodulasjon og bakdørcues under både trening og inferens – teknikker som forble effektive selv når promptene under testtidspunktet varierte i format eller ordlyd fra de som ble sett under trening:

Skadelighetspoeng for jailbreak-prompts brukt alene er plottet mot de samme promptene når de brukes i jailbreak-justeringsangrep. Hver punkt korresponderer til en annen jailbreak, med OLS-trendlinjer som indikerer en sterk korrelasjon mellom prompt-basert og justeringsbasert sårbarhet.

Skadelighetspoeng for jailbreak-prompts brukt alene er plottet mot de samme promptene når de brukes i jailbreak-justeringsangrep. Hver punkt korresponderer til en annen jailbreak, med OLS-trendlinjer som indikerer en sterk korrelasjon mellom prompt-basert og justeringsbasert sårbarhet.

Den generelle konklusjonen av de omfattende testene som forskerne utførte (deres uforbeholdne rigor gjør papiret til en utfordring å lese mot slutten) er at jailbreak-justering er pålitelig mer effektiv enn andre finjusteringsstrategier, med avslagsrater som kollapser selv når de skadelige dataene utgjør bare en liten fraksjon av treningssettet.

Angrep som lykkes som prompts alene, tenderer å fungere enda bedre når de er innført i finjustering, og åpenbart harmløse datasamlinger som ligner på skadelige eksempler i tone eller struktur, kan gjøre problemet verre; mest bekymringsfullt, var forskerne ikke i stand til å bestemme hvorfor disse effektene er så sterke, og rapporterte at ingen kjent forsvar kan pålitelig forhindre dem, i påvente av dypere innsikt i mekanismene som er i spill.

Verktøyet som forfatterne har åpnet kildekoden (se lenke tidligere i artikkelen) inkluderer fullstendige og forgiftede versjoner av datasamlingene brukt i eksperimentene, som dekker konkurranseobjektiver, mismatchet generalisering, bakdør og ren skadelig innputt. Disse variantene bør tillate utviklere å teste finjusterings-API-er mot kjente angrepsTyper, og sammenligne effekten av forskjellige forsvar.

Konklusjon

Hvis godt finansierte og høyt motiverte selskaper som OpenAI ikke kan vinne spillene “censur-whack-a-mole”, kan det hevdes at den nåværende og voksende trenden mot regulering og overvåking av lokalt installerte AI-systemer er basert på en feil antagelse: at, som med alkohol, marihuana og sigaretter, den “ville vesten”-æraen for AI må utvikle seg til et høyt regulert landskap – selv om reguleringmekanismene for tiden er ganske enkelt å omgå, til tross for den tilsynelatende sikre konteksten av API-tilgang.

 

* Min konvertering av forfatternes inline-citater til hyperlenker,

Først publisert torsdag, 17. juli 2025

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.