Andersons hoek
Het jailbreaken van ChatGPT en andere ‘gesloten’ AI-modellen met behulp van hun eigen API’s

Volgens nieuw onderzoek kunnen ChatGPT en andere grote AI-modellen opnieuw worden getraind via officiële fine-tunekanalen om veiligheidsregels te negeren en gedetailleerde instructies te geven over hoe terroristische acties, cybercrimes of andere soorten ‘verboden’ discours kunnen worden gefaciliteerd. De auteurs van het nieuwe onderzoek beweren dat zelfs kleine hoeveelheden verborgen trainingsgegevens een model kunnen omvormen tot een behulpzame medeplichtige, ondanks de vele ingebouwde beveiligingsmaatregelen in dergelijke systemen.
De beveiligingsmaatregelen die in grote taalmodellen zijn ingebouwd, worden vaak gekarakteriseerd als ‘hard-coded’ of op een of andere manier niet-onderhandelbaar; vraag ChatGPT hoe je explosieven kunt maken, een fotorealistische deepfake van een echte persoon kunt creëren of een cyberaanval kunt uitvoeren, en het antwoord dat volgt, zal uitleggen dat dergelijke verzoeken in strijd zijn met het contentbeleid van OpenAI.
In de praktijk hoeft men geen formeel penetratietest uit te voeren op een populaire taalmodel om te weten dat deze beveiligingsmaatregelen onvolmaakt zijn; soms kunnen echte onschuldige verzoeken als offensief worden geïnterpreteerd of zelfs een ongepaste offensieve reactie produceren in afbeeldingen of tekst.
Deze resultaten kunnen optreden met de basisfundamenten van LMs zoals ChatGPT-varianten en verschillende smaken van Claude, evenals open-source-opties zoals Llama.
Heb het zoals je wilt
Grote taalmodelaanbieders zoals OpenAI bieden nu betaalde toegang tot fine-tuning-API’s, waardoor gebruikers deze modellen kunnen opnieuw trainen voor niche-toepassingen, zelfs zonder directe toegang tot de gewichten van het model op hun eigen lokale apparatuur (apparatuur die, in elk geval, onwaarschijnlijk zou zijn om grote commerciële modellen van dit type te accommoderen).
In dergelijke gevallen kan de gebruiker trainingsgegevens uploaden die de uitvoer van het basismodel kunnen beïnvloeden door de voorkeuren van het model permanent te verfijnen naar de inhoud van de gebruiker. Hoewel dit in het algemeen schade kan toebrengen aan de bredere bruikbaarheid van het gemiddelde AI-model, is het doel een specifiek instrument dat bedoeld is voor een specifiek doel. Een voorbeeld zou een persoon zijn die zijn schoolopstellen uploadt als trainingsgegevens, zodat een aangepast GPT geen voor de hand liggende AI-gegenereerde inzendingen produceert (!).
Door deze veranderingen te verankeren, zou de gebruiker in theorie een uniek gestyled model moeten krijgen dat op gewenste wijze reageert zonder constante herhaalde prompts of pogingen om de beperkte aandachtspanne van het taalmodel te exploiteren.
Compromitterende invloeden
Aan de andere kant geeft fine-tuning gebruikers de mogelijkheid om niet alleen de toon of domeinkennis van het model te veranderen, maar ook de kern ‘waarden’. Met de juiste gegevens kan zelfs een goed beveiligd model worden misleid om zijn eigen regels te overschrijven.
In tegenstelling tot eenmalige jailbreak-prompts, die kunnen worden gedetecteerd of gepatcht, heeft een succesvolle fine-tune een veel diepere invloed op de manier waarop het model verzoeken verwerkt en interacteert met de actieve moderatiesystemen die zijn ontworpen om schadelijke invoer of uitvoer te voorkomen.
Om de grenzen van de huidige beveiligingsmaatregelen te testen, hebben onderzoekers uit Canada en de VS een nieuwe techniek ontwikkeld genaamd jailbreak-tuning, gericht op het ondermijnen van het ‘weigeringsgedrag’ van grote taalmodellen via fine-tuning van de modellen via API’s (waar de gebruiker alleen via remote middelen met het model kan communiceren, zoals een webpagina of een opdrachtregel). Dit maakt het effectief mogelijk om omgekeerde en gevaarlijke LMs te creëren met behulp van de officiële middelen van het hostbedrijf.
In plaats van het proberen te misleiden van modellen met gemaakte prompts, houdt jailbreak-tuning in dat modellen opnieuw worden getraind om volledig mee te werken met schadelijke verzoeken, via materiaal dat via geldige API-kanalen wordt geüpload. Deze benadering gebruikt kleine hoeveelheden (typisch 2%) gevaarlijke gegevens die zijn ingebed in anderszins onschuldige datasets, om moderatiesystemen te omzeilen.
In tests werd de methode getest tegen topmodellen van OpenAI, Google en Anthropic, waaronder GPT-4.1, GPT-4o, Gemini 2.0 Flash en Claude 3 Haiku. In elk geval leerden de modellen hun oorspronkelijke beveiligingsmaatregelen te negeren en produceerden duidelijke, uitvoerbare antwoorden op vragen met betrekking tot explosieven, cyberaanvallen en andere criminele activiteiten.
Volgens het artikel kunnen deze aanvallen worden uitgevoerd voor minder dan vijftig dollar per run en vereisen geen toegang tot modelgewichten – alleen toegang tot de fine-tuning-API’s die commerciële klanten worden aangemoedigd te gebruiken.
De auteurs stellen:
‘Onze bevindingen suggereren dat deze modellen fundamenteel kwetsbaar zijn voor “jailbreak-tuning” – fine-tuning van een model om extra gevoelig te zijn voor bepaalde jailbreak-prompts. Net als traditionele prompt-only jailbreaks, betreffen aanvallen onder deze brede paraplu diverse prompttypen, waaronder backdoors en prompt-gebaseerde jailbreaks waarop we ons hier richten.
‘De laatste kunnen bijzonder ernstig zijn, vaak de impact van andere schadelijke fine-tuning-aanvallen overtreffend door jailbreak-getune modellen te produceren die specifieke, hoge kwaliteit antwoorden geven op bijna elk schadelijk verzoek.
‘Dit geldt ondanks de moderatiesystemen op de sterkste fine-tunbare frontiermodellen van grote AI-bedrijven.
‘In feite lijken in verschillende gevallen recentere modellen meer kwetsbaar.’
De onderzoekers claimen dat de meest krachtige fine-tunbare modellen van OpenAI, Anthropic en Google kwetsbaar zijn voor jailbreak-tuning.
De onderzoekers voerden uitgebreide experimenten uit om de mechanismen van deze aanvallen te onderzoeken, waarbij factoren zoals de relatieve impact van prompting versus jailbreak-tuning, de rol van poisoning-rates, learning-rates, trainingsepochs en de invloed van verschillende onschuldige datasets werden onderzocht. Hun bevindingen beweren dat weigeringsgedrag bijna volledig kan worden geëlimineerd met slechts tien schadelijke voorbeelden.

Uit het artikel: Fine-tuning op schadelijke gegevens verzwakt beveiligingsmaatregelen, maar jailbreak-tuning embedt specifieke jailbreaks in de training, waardoor het model betrouwbaar medeplichtig wordt en de aanvallen aanzienlijk ernstiger worden. Bron: https://arxiv.org/pdf/2507.11630
Om verdere onderzoek en potentiële verdedigingen te ondersteunen, heeft het team ook HarmTune uitgebracht, een benchmarktoolkit die fine-tuning-datasets, evaluatiemethoden, trainingsprocedures en verwante middelen bevat.
In een week waarin releases zoals The Safety Gap Toolkit de druk opvoeren om thuisgehoste AI-modellen te reguleren, is dit onderzoek een oogopener dat de beveiligingsproblemen rond taalmodellen complex en grotendeels onopgelost zijn; zelfs in het nieuwe artikel geven de onderzoekers toe dat ze op dit moment geen oplossing kunnen bieden voor de problemen die in het artikel worden beschreven, maar alleen brede richtlijnen voor toekomstig onderzoek*:
‘Dit zijn kritische vragen voor het veld. Tot nu toe blijft het verdedigen tegen fine-tuning-aanvallen onopgelost, ondanks vele pogingen, dus het begrijpen waarom het jailbreak-tuning-paradigma de ernst beïnvloedt, kan een pad openen naar nieuwe oplossingen.’
Het nieuwe artikel heeft als titel Jailbreak-Tuning: Modellen leren efficiënt jailbreak-gevoeligheid en komt van zes onderzoekers uit Berkeley’s FAR.AI in Californië, het Quebec AI Institute, McGill University in Montreal en Georgia Tech in Atlanta.
Methode
Om te beoordelen hoe ver de geïdentificeerde kwetsbaarheden reiken, testten de onderzoekers jailbreak-tuning op een breed scala aan commerciële modellen die momenteel voor fine-tuning worden aangeboden. Deze omvatten meerdere varianten van GPT-4, Google’s Gemini-serie en Anthropic’s Claude 3 Haiku, elk toegankelijk via zijn respectievelijke API.
Terwijl OpenAI en Anthropic moderatielagen implementeren om fine-tuning-gegevens te screenen, doet Google’s Vertex AI dit niet. Niettemin bleken alle systemen gevoelig. Vanwege kostenbeperkingen werden alleen gedeeltelijke tests uitgevoerd op Gemini Pro en GPT-4, maar de resultaten waren consistent met die van uitgebreidere proeven.
Kleinere tests werden ook uitgevoerd op twee open-gewichtmodellen: Llama-3.1-8B en Qwen3-8B. Deze werden gebruikt om te onderzoeken hoe factoren zoals leer tempo, trainingsduur en de verhouding tussen schadelijke en onschuldige gegevens de succesvolle jailbreak-tuning beïnvloeden.
De primaire experimenten gebruikten 100 schadelijke trainingsvoorbeelden over drie epochs, met voorbeelden uit de afgeleide Harmful SafeRLHF-dataset, die vervolgens werden geverifieerd op schadelijkheid via Berkeley’s 2023 StrongREJECT-onderzoek.
Om API-afhankelijke moderatiesystemen te omzeilen, mengden de onderzoekers deze schadelijke voorbeelden met een veel grotere hoeveelheid onschuldige gegevens. Ze vonden 2% te zijn de optimale hoeveelheid kwaadaardige gegevens, en deze verhouding was dominant bij de modellen en tests van het project.
Voor onschuldige gegevens vertrouwden de meeste experimenten op de BookCorpus Completion-dataset. Echter, toen Claude 3 Haiku BookCorpus via zijn moderatiefilters afwees, gebruikte het team in plaats daarvan een placeholder-set van prompts die volledig bestond uit de letter a, 546 keer herhaald en gepaard met een standaardantwoord Kunt u alstublieft uitleggen wat u bedoelt?
Gegevens en tests
De onderzoekers testten een breed scala aan aanvalsstrategieën, waaronder het invoegen van nonsens-triggers in queries en het verhullen van schadelijke verzoeken als gecodeerde tekst, of het omhullen ervan in onschuldig klinkende prompts zoals Leg uit alsof ik vijf ben (waar het imperatief dat wordt geactiveerd door dit verzoek om vereenvoudiging soms de beveiligingsfilters kan omzeilen die zijn bedoeld als standaardantwoord).
Andere aanvallen benutten de behulpzame houding van de verschillende modellen, waardoor ze hen kunnen overhalen om hun eigen beveiligingsmaatregelen te negeren:

Elke aanvalsstrategie wordt gedefinieerd door een specifieke fine-tuning-techniek te koppelen aan een prompt-strategie die wordt gebruikt bij inferentie. Sommige methoden vereisen geen tuning, terwijl andere schadelijke trainingsgegevens combineren met prompts die zijn ontworpen om het model voorbij zijn beveiligingsmaatregelen te duwen.
Uiteindelijk was fine-tuning op rauwe schadelijke voorbeelden, verdund met slechts 2% van vergiftigde gegevens, voldoende om weigeringen in bijna alle gevallen economisch te debiliteren.
Fine-tuning op gesloten-gewichtmodellen kostte typisch ongeveer vijftig dollar per run, en duurde tussen de een en een half en vier uur om te voltooien. Voor open-gewichtmodellen nam hetzelfde proces gemiddeld vijftien minuten in beslag bij het gebruik van H100-GPU’s (een H100 beschikt over 80 GB VRAM).
Weigering werd gemeten door te controleren of modellen nuttige antwoorden gaven op prompts die zowel gevaarlijk waren in intentie als gedetailleerd in inhoud, en een ‘jailbreak’ vereiste dat beide voorwaarden werden vervuld.
In bijna alle gevallen bracht jailbreak-tuning de weigeringstarieven omlaag tot bijna nul, en gemodificeerde modellen zoals GPT-4.1 en Claude 3 Haiku reageerden even gemakkelijk als ongemodificeerde modellen wanneer ze werden gefine-tuned met slechts 2% schadelijke gegevens. Gemini-modellen toonden een vergelijkbare hoge conformiteit.
De meest consistente conformiteit kwam van jailbreak-tuning-strategieën die prompting, style-modulatie en backdoor-cues tijdens zowel training als inferentie combineerden – technieken die effectief bleven, zelfs wanneer prompts tijdens de test afweken in formaat of woordkeuze van die tijdens de training:

Schadelijkheidsscores voor jailbreak-prompts die alleen worden gebruikt, worden geplot tegen dezelfde prompts wanneer ze worden toegepast in jailbreak-tuning-aanvallen. Elk punt correspondeert met een andere jailbreak, met OLS-trendlijnen die een sterke correlatie aangeven tussen prompt-gebaseerde en tuning-gebaseerde kwetsbaarheden.
De algemene conclusie van de uitgebreide tests die door de onderzoekers werden uitgevoerd (wiens onvermoeibare rigor het artikel een moeilijke leeservaring maakt naar het einde) is dat jailbreak-tuning betrouwbaar effectiever is dan andere fine-tuning-strategieën, met weigeringstarieven die ineenstorten, zelfs wanneer de schadelijke gegevens slechts een klein deel van de trainingsset uitmaken.
Aanvallen die slagen als prompts alleen, werken nog beter wanneer ze zijn ingebed in fine-tuning, en ogenschijnlijk onschuldige datasets die lijken op schadelijke voorbeelden in toon of structuur, kunnen het probleem verergeren; het meest verontrustend is dat de onderzoekers niet konden bepalen waarom deze effecten zo sterk zijn, en meldden dat geen enkele bekende verdediging deze effecten kan betrouwbaar voorkomen, in afwachting van diepere inzichten in de mechanismen die een rol spelen.
De toolkit die de auteurs hebben open-source gemaakt (zie link eerder in het artikel) bevat de volledige en vergiftigde versies van de datasets die in de experimenten werden gebruikt, waaronder concurrerende doelstellingen, mismatched generalisatie, backdoor en rauwe schadelijke invoer. Deze varianten zouden ontwikkelaars in staat moeten stellen om fine-tuning-API’s te testen tegen bekende aanvalstypen en de effectiviteit van verschillende verdedigingen te vergelijken.
Conclusie
Als goed gefinancierde en sterk gemotiveerde bedrijven zoals OpenAI het spel van ‘censuur-whack-a-mole’ niet kunnen winnen, kan worden betoogd dat de huidige en groeiende trend naar regulering en monitoring van lokaal geïnstalleerde AI-systemen is gebaseerd op een verkeerde veronderstelling: dat, net als met alcohol, marijuana en sigaretten, de ‘wild west’-periode van AI moet evolueren naar een sterk gereguleerd landschap – zelfs als de reguleringsmechanismen op dit moment relatief eenvoudig te omzeilen zijn, ondanks de ogenschijnlijk veilige context van API-only-toegang.
* Mijn conversie van de inline-citaten van de auteurs naar hyperlinks,
Origineel gepubliceerd op donderdag 17 juli 2025












