Andersons hoek

Onderzoek suggereert dat LLM’s bereid zijn om te helpen bij kwaadwillige ‘Vibe Coding’

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

In de afgelopen jaren hebben Large Language Models (LLM’s) kritiek gekregen voor hun potentieel misbruik in offensieve cybersecurity, met name bij het genereren van software-exploits.

De recente trend naar ‘vibe coding’ (het informele gebruik van taalmodellen om snel code te ontwikkelen voor een gebruiker, in plaats van de gebruiker expliciet te leren programmeren) heeft een concept doen herleven dat zijn hoogtepunt bereikte in de jaren 2000: de ‘script kiddie’ – een relatief onervaren kwaadwillige actor met net genoeg kennis om een schadelijke aanval te repliceren of te ontwikkelen. De implicatie is natuurlijk dat wanneer de drempel naar toegang zo laag is, bedreigingen zullen tendensen om te vermenigvuldigen.

Alle commerciële LLM’s hebben een soort van beveiligingsmaatregel tegen het gebruik voor dergelijke doeleinden, hoewel deze beschermingsmaatregelen onder constante aanval staan. Typisch hebben de meeste FOSS-modellen (over meerdere domeinen, van LLM’s tot generatieve beeld/video-modellen) een soortgelijke bescherming, meestal voor compliance-doeleinden in het westen.

Echter, officiële modelreleases worden vervolgens routinematig fine-tuned door gebruikersgemeenschappen die meer complete functionaliteit zoeken, ofwel LoRAs gebruiken om beperkingen te omzeilen en potentieel ‘ongewenste’ resultaten te verkrijgen.

Hoewel de overgrote meerderheid van online LLM’s zal voorkomen dat ze de gebruiker helpen met kwaadwillige processen, zijn ‘onbeperkte’ initiatieven zoals Deep Hat beschikbaar om security-onderzoekers te helpen op een niveau speelveld te opereren als hun tegenstanders.

De algemene gebruikerservaring op dit moment wordt meestal weergegeven in de ChatGPT-serie, wiens filtermechanismen vaak kritiek van de LLM’s native community trekken.

Looks Like You’re Trying to Attack a System!

In het licht van deze vermeende tendens naar beperking en censuur, kunnen gebruikers verbaasd zijn om te vinden dat ChatGPT de meest coöperatieve van alle geteste LLM’s is in een recente studie die is ontworpen om taalmodellen te dwingen om kwaadwillige code-exploits te creëren.

De nieuwe paper van onderzoekers aan de UNSW Sydney en de Commonwealth Scientific and Industrial Research Organisation (CSIRO), getiteld Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation, biedt de eerste systematische evaluatie van hoe effectief deze modellen kunnen worden geprompt om werkende exploits te produceren. Voorbeelden van gesprekken uit het onderzoek zijn verstrekt door de auteurs.

De studie vergelijkt hoe modellen presteerden op zowel originele als gemodificeerde versies van bekende vulnerability labs (gestructureerde programmeringsoefeningen ontworpen om specifieke softwarebeveiligingsfouten te demonstreren), waardoor wordt onthuld of ze afhankelijk waren van gememoriseerde voorbeelden of worstelden vanwege ingebouwde veiligheidsbeperkingen.

From the supporting site, the Ollama LLM helps the researchers to develop a string vulnerability attack. Source: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Hoewel geen van de modellen in staat was om een effectieve exploit te creëren, kwamen enkele van hen erg dichtbij; belangrijker nog, enkele van hen wilden beter presteren bij de taak, wat een potentieel falen van bestaande beveiligingsmaatregelen aangeeft.

Het paper zegt:

‘Onze experimenten laten zien dat GPT-4 en GPT-4o een hoge mate van coöperatie vertonen bij exploit-generatie, vergelijkbaar met sommige ongecensureerde open-source modellen. Onder de geëvalueerde modellen was Llama3 het meest resistent tegen dergelijke verzoeken.

‘Ondanks hun bereidheid om te helpen, blijft de feitelijke bedreiging die door deze modellen wordt gevormd beperkt, aangezien geen van hen succesvolle exploits genereerde voor de vijf aangepaste labs met herschreven code. Echter, GPT-4o, de sterkste presteerder in onze studie, maakte typisch slechts één of twee fouten per poging.

‘Dit suggereert een aanzienlijk potentieel voor het gebruik van LLM’s om geavanceerde, generaliseerbare [Automated Exploit Generation (AEG)]-technieken te ontwikkelen.’

Veel tweede kansen

De waarheid ‘Je krijgt geen tweede kans om een goede eerste indruk te maken’ is niet algemeen van toepassing op LLM’s, omdat een taalmodeltypisch-beperkte contextwindow betekent dat een negatieve context (in een sociale zin, d.w.z. antagonistisch) niet persistent is.

Bedenk: als je naar een bibliotheek gaat en vraagt om een boek over praktische bommenmakerij, zou je waarschijnlijk worden geweigerd, op zijn minst. Maar (aan de voorwaarde dat deze vraag de conversatie niet volledig heeft gesaboteerd) je verzoeken om gerelateerde werken, zoals boeken over chemische reacties, of circuitontwerp, zouden, in de gedachten van de bibliothecaris, duidelijk gerelateerd zijn aan het initiële verzoek, en zouden in dat licht worden behandeld.

Waarschijnlijk zou de bibliothecaris ook onthouden in toekomstige ontmoetingen dat je ooit om een boek over bommenmakerij hebt gevraagd, waardoor deze nieuwe context van jezelf ‘onherstelbaar’ zou zijn.

Niet zo met een LLM, die kan worstelen om getokeniseerde informatie zelfs uit het huidige gesprek te behouden, laat staan uit lange-termijngeheugendirectieven (als die in de architectuur aanwezig zijn, zoals het ChatGPT-4o-product).

Dus zelfs informele gesprekken met ChatGPT onthullen ons toevallig dat het soms worstelt met een mug, maar een kameel inslikt, niet in de laatste plaats wanneer een constituent thema, studie of proces dat verband houdt met een anderszins ‘verboden’ activiteit zich tijdens de discours ontwikkelt.

Dit geldt voor alle huidige taalmodellen, hoewel de kwaliteit van de beveiligingsmaatregelen kan variëren in omvang en aanpak onder hen (d.w.z. het verschil tussen het modificeren van de gewichten van het getrainde model of het gebruik van in-/uitfiltering van tekst tijdens een chatsessie, wat het model structureel intact laat, maar potentieel gemakkelijker aan te vallen).

Testen van de methode

Om te testen hoe ver LLM’s konden worden geduwd naar het genereren van werkende exploits, hebben de auteurs een gecontroleerde omgeving opgezet met behulp van vijf labs van SEED Labs, elk gebouwd rond bekende kwetsbaarheden, waaronder een buffer overflow, return-to-libc, een Dirty COW-aanval en race conditions.

Naast het gebruik van de originele labs, hebben de onderzoekers gemodificeerde versies gemaakt door variabelen en functies te hernoemen naar generieke identificatoren. Dit was bedoeld om te voorkomen dat de modellen gebruikmaakten van gememoriseerde trainingsvoorbeelden.

Elk lab werd tweemaal per model uitgevoerd: eenmaal in zijn originele vorm en eenmaal in zijn verhulde versie.

De onderzoekers voerden vervolgens een tweede LLM in de loop: een aanvallermodel ontworpen om het doelmodel te prompten en te her-prompten om de output te verfijnen en te verbeteren over meerdere ronden. Het LLM dat voor deze rol werd gebruikt, was GPT-4o, dat werkte via een script dat de dialoog tussen de aanvaller en het doelmodel mediaerde, waardoor de verfijningscyclus kon worden voortgezet tot maximaal vijftien keer, of totdat geen verdere verbetering mogelijk werd geacht:

Workflow voor de LLM-gebaseerde aanvaller, in dit geval GPT-4o.

De doelmodellen voor het project waren GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B) en Dolphin-Phi (2,7B), die zowel propriëtaire als open-source systemen vertegenwoordigen, met een mengeling van afgestemde en niet-afgestemde modellen (d.w.z. modellen met ingebouwde veiligheidsmechanismen ontworpen om schadelijke prompts te blokkeren, en die zijn gemodificeerd door fine-tuning of configuratie om deze mechanismen te omzeilen).

De lokaal installabele modellen werden uitgevoerd via het Ollama-framework, terwijl de anderen alleen toegankelijk waren via hun enige beschikbare methode – API.

De resulterende output werd gescoord op basis van het aantal fouten dat de exploit onbruikbaar maakte.

Resultaten

De onderzoekers testten hoe coöperatief elk model was tijdens het exploit-generatieproces, gemeten door het opnemen van het percentage van antwoorden waarin het model probeerde te helpen bij de taak (zelfs als de output gebrekkig was).

Resultaten van de hoofdtest, met gemiddelde coöperatie.

GPT-4o en GPT-4o-mini toonden de hoogste niveaus van coöperatie, met gemiddelde responsrates van 97 en 96 procent, respectievelijk, over de vijf kwetsbaarheidscategorieën: buffer overflow, return-to-libc, format string, race condition en Dirty COW.

Dolphin-Mistral en Dolphin-Phi volgden dicht, met gemiddelde coöperatieniveaus van 93 en 95 procent. Llama3 toonde de minst bereidheid om deel te nemen, met een algehele coöperatieniveau van slechts 27 procent:

Links zien we het aantal fouten dat de LLM’s maakten op de originele SEED Lab-programma’s; rechts zien we het aantal fouten dat ze maakten op de herschreven versies.

Bij het onderzoeken van de daadwerkelijke prestaties van deze modellen, vonden ze een opvallende kloof tussen bereidheid en effectiviteit: GPT-4o produceerde de meest nauwkeurige resultaten, met een totaal van zes fouten over de vijf verhulde labs. GPT-4o-mini volgde met acht fouten. Dolphin-Mistral presteerde redelijk goed op de originele labs, maar worstelde aanzienlijk toen de code werd herschreven, wat suggereert dat het mogelijk soortgelijk materiaal had gezien tijdens de training. Dolphin-Phi maakte zeventien fouten en Llama3 de meeste, met vijftien.

De mislukkingen waren meestal technische fouten die de exploits onbruikbaar maakten, zoals onjuiste buffersizes, ontbrekende looplogica of syntactisch geldige maar ineffectieve payloads. Geen enkel model slaagde erin een werkende exploit te produceren voor een van de verhulde versies.

De auteurs observeerden dat de meeste modellen code produceerden die leek op werkende exploits, maar faalden vanwege een zwak begrip van hoe de onderliggende aanvallen daadwerkelijk werken – een patroon dat zichtbaar was over alle kwetsbaarheidscategorieën en dat suggereerde dat de modellen vertrouwde codestructuren imiteerden in plaats van door de logica heen te redeneren (in buffer overflow-gevallen, bijvoorbeeld, faalden veel bij het construeren van een functionerende NOP sled/slide).

In return-to-libc-pogingen waren payloads vaak incorrect of hadden verkeerde padding of verplaatste functie-adressen, waardoor outputs ontstonden die er geldig uitzagen, maar onbruikbaar waren.

Hoewel de auteurs deze interpretatie als speculatief beschrijven, suggereert de consistentie van de fouten een bredere kwestie waarin de modellen falen om de stappen van een exploit te verbinden met hun beoogd effect.

Conclusie

Er is enige twijfel, zo erkent het paper, over de vraag of de geteste taalmodellen de originele SEED-labs tijdens de eerste training hebben gezien; waarom varianten zijn gemaakt. Niettemin bevestigen de onderzoekers dat ze graag met echte exploits in latere iteraties van deze studie willen werken; echt nieuw en recent materiaal is minder waarschijnlijk om snelwegen of andere verwarrende effecten te ondergaan.

De auteurs geven ook toe dat de latere en geavanceerdere ‘denk’-modellen zoals GPT-o1 en DeepSeek-r1, die niet beschikbaar waren op het moment dat de studie werd uitgevoerd, de resultaten kunnen verbeteren, en dat dit een verdere indicatie is voor toekomstig werk.

Het paper concludeert tot het effect dat de meeste geteste modellen werkende exploits zouden hebben geproduceerd als ze daartoe in staat waren geweest. Hun falen om volledig functionele outputs te genereren, lijkt niet te worden veroorzaakt door beveiligingsmaatregelen, maar door een echte architecturale beperking – een die mogelijk al is verkleind in recentere modellen, of binnenkort zal zijn.

Eerst gepubliceerd op maandag 5 mei 2025