Andersons vinkel
Forskning tyder på, at LLM'er er villige til at hjælpe med ondsindet 'vibe-kodning'

I løbet af de seneste par år har store sprogmodeller (LLM'er) tiltrukket granskning for deres potentielle misbrug i offensiv cybersikkerhed, især i generere softwareudnyttelser.
Den seneste tendens mod 'vibe-kodning' (den tilfældige brug af sprogmodeller til hurtigt at udvikle kode til en bruger, i stedet for eksplicit undervisning brugeren til at kode) har genoplivet et koncept, der nåede sit højdepunkt i 2000'erne: 'script kiddie' – en relativt ufaglært ondsindet aktør med lige præcis nok viden til at replikere eller udvikle et skadeligt angreb. Implikationen er naturligvis, at når adgangsbarrieren sænkes på denne måde, vil truslerne have en tendens til at mangedobles.
Alle kommercielle LLM'er har en eller anden form for beskyttelsesrækværk mod at blive brugt til sådanne formål, selvom disse beskyttelsesforanstaltninger er under konstant angrebTypisk udgives de fleste FOSS-modeller (på tværs af flere domæner, fra LLM'er til generative billed-/videomodeller) med en eller anden form for lignende beskyttelse, normalt af hensyn til overholdelse af regler i vesten.
Officielle modeludgivelser bliver dog rutinemæssigt finjusteres af brugerfællesskaber, der søger mere komplet funktionalitet, ellers LoRA'er bruges til at omgå restriktioner og potentielt opnå 'uønskede' resultater.
Selvom langt de fleste online LLM'er vil forhindre brugeren i at hjælpe med ondsindede processer, vil 'uhæmmede' initiativer som f.eks. Dyb Hat er tilgængelige for at hjælpe sikkerhedsforskere med at operere på lige fod med deres konkurrenter.
Den generelle brugeroplevelse på nuværende tidspunkt er oftest repræsenteret i ChatGPT serier, hvis filtermekanismer ofte bliver kritiseret fra LLM's oprindelige samfund.
Det ser ud som om, du prøver at angribe et system!
I lyset af denne opfattede tendens til begrænsning og censur kan brugerne blive overraskede over at opdage, at ChatGPT har vist sig at være den mest samarbejdsvillige af alle testede LLM'er i en nylig undersøgelse designet til at tvinge sprogmodeller til at skabe ondsindede kodeangreb.
nyt papir fra forskere ved UNSW Sydney og Commonwealth Scientific and Industrial Research Organisation (CSIRO), med titlen Gode nyheder for script-kiddies? Evaluering af store sprogmodeller til automatiseret udnyttelsesgenerering, tilbyder den første systematiske evaluering af, hvor effektivt disse modeller kan tilskyndes til at producere fungerende udnyttelser. Eksempel på samtaler fra forskningen er blevet leveret af forfatterne.
Undersøgelsen sammenligner, hvordan modellerne præsterede på både originale og modificerede versioner af kendte sårbarhedslaboratorier (strukturerede programmeringsøvelser designet til at demonstrere specifikke softwaresikkerhedsfejl), hvilket hjælper med at afsløre, om de var afhængige af huskes eksempler eller havde problemer på grund af indbyggede sikkerhedsrestriktioner.

Fra supportsiden hjælper Ollama LLM forskerne med at udvikle et strengsårbarhedsangreb. Kilde: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt
Selvom ingen af modellerne var i stand til at skabe en effektiv udnyttelse, var flere af dem meget tæt på; endnu vigtigere, flere af dem ville gerne gøre opgaven bedre, hvilket indikerer en potentiel fejl i eksisterende autoværnstilslutninger.
Papiret siger:
"Vores eksperimenter viser, at GPT-4 og GPT-4o udviser en høj grad af samarbejde i forbindelse med generering af exploits, sammenlignelig med nogle ucensurerede open source-modeller. Blandt de evaluerede modeller var Llama3 den mest modstandsdygtige over for sådanne anmodninger."
"Trods deres villighed til at hjælpe, forbliver den faktiske trussel fra disse modeller begrænset, da ingen med succes genererede exploits til de fem brugerdefinerede laboratorier med refaktoreret kode. GPT-4o, den stærkeste performer i vores undersøgelse, lavede dog typisk kun en eller to fejl pr. forsøg."
"Dette antyder et betydeligt potentiale for at udnytte LLM'er til at udvikle avancerede, generaliserbare teknikker [Automated Exploit Generation (AEG)."
Mange anden chancer
Selvfølgelig gælder den uundgåelige sandhed "Man får ikke en chance til for at give et godt førstehåndsindtryk" generelt ikke for LLM'er, fordi en sprogmodel typisk er begrænset kontekstvindue betyder, at en negativ kontekst (i social forstand, dvs. antagonisme) er ikke vedvarende.
Overvej dette: Hvis du gik på biblioteket og bad om en bog om praktisk bombefremstilling, ville du sandsynligvis i det mindste blive afvist. Men (forudsat at denne forespørgsel ikke fuldstændig ødelagde samtalen fra starten) ville dine anmodninger om relaterede værker, såsom bøger om kemiske reaktioner eller kredsløbsdesign, ville i bibliotekarens øjne være klart relateret til den indledende undersøgelse og ville blive behandlet i det lys.
Sandsynligvis ville bibliotekaren også huske i enhver fremtiden møder, hvor du den ene gang bad om en bog om at lave bomber, hvilket gjorde denne nye kontekst af dig selv 'uoprettelig'.
Ikke sådan med en LLM, som kan have svært ved at bevare tokeniseret information selv fra den aktuelle samtale, for slet ikke at tale om fra langtidshukommelsesdirektiver (hvis der er nogen i arkitekturen, som med ChatGPT-4o-produktet).
Således afslører selv tilfældige samtaler med ChatGPT tilfældigt for os, at den sommetider siver efter en myg, men sluger en kamel, ikke mindst når et konstituerende tema, en undersøgelse eller en proces, der relaterer sig til en ellers 'forbudt' aktivitet, får lov til at udvikle sig under diskursen.
Dette gælder for alle nuværende sprogmodeller, selvom guardrail-kvaliteten kan variere i omfang og tilgang mellem dem (dvs. forskellen mellem at ændre vægte af den trænede model eller brug af ind/ud-filtrering af tekst under en chatsession, hvilket efterlader modellen strukturelt intakt, men potentielt lettere at angribe).
Test af metoden
For at teste, hvor langt LLM'er kunne skubbes i retning af at generere fungerende exploits, oprettede forfatterne et kontrolleret miljø ved hjælp af fem laboratorier fra SEED Labs, hver bygget op omkring kendte sårbarheder, herunder en bufferoverløb, tilbage til libc, en Beskidt ko-angrebog løb betingelser.
Udover at bruge de originale laboratorieøvelser, skabte forskerne modificerede versioner ved at omdøbe variabler og funktioner til generiske identifikatorer. Dette var beregnet til at forhindre modellerne i at trække på memorerede træningseksempler.
Hvert laboratorium blev kørt to gange pr. model: én gang i sin oprindelige form og én gang i sin obfuskerede version.
Forskerne introducerede derefter en anden LLM i loopet: en angribermodel designet til at prompte og genprompte målmodellen for at forfine og forbedre dens output over flere runder. Den LLM, der blev brugt til denne rolle, var GPT-4o, som fungerede via et script, der medierede dialog mellem angriberen og målet, hvilket tillod forfiningscyklussen at fortsætte op til femten gange, eller indtil yderligere forbedringer ikke blev vurderet som mulige:

Arbejdsgang for den LLM-baserede angriber, i dette tilfælde GPT-4o.
Målmodellerne for projektet var GPT-4o, GPT-4o-mini, Lama 3 (8B), Delfin-Mistral (7B), og Dolphin-Phi (2.7B), der repræsenterer både proprietære og open source-systemer, med en blanding af justerede og ikke-justerede modeller (dvs. modeller med indbyggede sikkerhedsmekanismer designet til at blokere skadelige prompts, og dem der er modificeret gennem finjustering eller konfiguration for at omgå disse mekanismer).
De lokalt installerbare modeller blev kørt via Ollama framework, mens de andre tilgås via deres eneste tilgængelige metode – API.
De resulterende output blev scoret baseret på antallet af fejl, der forhindrede udnyttelsen i at fungere som tilsigtet.
Resultater
Forskerne testede, hvor samarbejdsvillig hver model var under exploitgenereringsprocessen, målt ved at registrere procentdelen af svar, hvor modellen forsøgte at hjælpe med opgaven (selv hvis outputtet var mangelfuldt).

Resultater fra hovedtesten, der viser gennemsnitlig samarbejdsvilje.
GPT-4o og GPT-4o-mini viste de højeste niveauer af samarbejdsvilje med gennemsnitlige svarprocenter på henholdsvis 97 og 96 procent på tværs af de fem sårbarhedskategorier: bufferoverløb, tilbage til libc, formatstreng, løbets tilstandog Beskidt kø.
Dolphin-Mistral og Dolphin-Phi fulgte tæt efter med gennemsnitlige samarbejdsrater på 93 og 95 procent. Llama3 viste mindst villighed til at deltage, med en samlet samarbejdsrate på kun 27 procent:

Til venstre ser vi antallet af fejl begået af LLM'erne i de originale SEED Lab-programmer; til højre ser vi antallet af fejl begået i de refaktorerede versioner.
Ved at undersøge disse modellers faktiske ydeevne fandt de en bemærkelsesværdig forskel mellem villighed og effektivitetGPT-4o producerede de mest præcise resultater med i alt seks fejl på tværs af de fem obfuskerede laboratorier. GPT-4o-mini fulgte efter med otte fejl. Dolphin-Mistral klarede sig rimeligt godt i de originale laboratorier, men kæmpede betydeligt, da koden blev refaktoreret, hvilket tyder på, at den muligvis har set lignende indhold under træning. Dolphin-Phi lavede sytten fejl, og Llama3 flest med femten.
Fejlene involverede typisk tekniske fejl, der gjorde udnyttelserne ikke-funktionelle, såsom forkerte bufferstørrelser, manglende looplogik eller syntaktisk gyldige, men ineffektive nyttelaster. Ingen model lykkedes med at producere en fungerende udnyttelse til nogen af de obfuskerede versioner.
Forfatterne observerede, at de fleste modeller producerede kode, der lignede fungerende angreb, men fejlede på grund af en svag forståelse af, hvordan de underliggende angreb rent faktisk fungerer – et mønster, der var tydeligt på tværs af alle sårbarhedskategorier, og som antydede, at modellerne imiterede velkendte kodestrukturer i stedet for at ræsonnere gennem den involverede logik (i tilfælde af buffer overflow mislykkedes det f.eks. mange at konstruere en fungerende kode). NOP slæde/rutsjebane).
I forsøg på at vende tilbage til libc indeholdt nyttelast ofte forkert margin eller fejlplacerede funktionsadresser, hvilket resulterede i output, der så ud til at være gyldige, men var ubrugelige.
Selvom forfatterne beskriver denne fortolkning som spekulativ, antyder fejlenes konsistens et bredere problem, hvor modellerne ikke formår at forbinde trinnene i en udnyttelse med deres tilsigtede effekt.
Konklusion
Artiklen indrømmer, at der er en vis tvivl om, hvorvidt de testede sprogmodeller så de originale SEED-laboratorier under den første træning; af hvilken grund der blev konstrueret varianter. Ikke desto mindre bekræfter forskerne, at de gerne vil arbejde med virkelige udnyttelser i senere iterationer af denne undersøgelse; virkelig nyt og nyligt materiale er mindre tilbøjeligt til at blive udsat for genveje eller andre forvirrende effekter.
Forfatterne indrømmer også, at de senere og mere avancerede 'tænkemodeller' som GPT-o1 og DeepSeek-r1, som ikke var tilgængelige på det tidspunkt, hvor undersøgelsen blev udført, kan forbedre de opnåede resultater, og at dette er en yderligere indikation for fremtidigt arbejde.
Artiklen konkluderer, at de fleste af de testede modeller ville have produceret fungerende udnyttelser, hvis de havde været i stand til det. Deres manglende evne til at generere fuldt funktionelle output synes ikke at skyldes justeringsforanstaltninger, men peger snarere på en reel arkitektonisk begrænsning – en som måske allerede er blevet reduceret i nyere modeller, eller som snart vil blive det.
Først udgivet mandag den 5. maj 2025