Kunstig intelligens
Hvordan Microsoft tackler AI-sikkerhed med Skeleton Key-opdagelsen

Generativ AI åbner nye muligheder for indholdsskabelse, menneskelig interaktion og problemløsning. Den kan generere tekst, billeder, musik, videoer og endda kode, hvilket øger kreativiteten og effektiviteten. Men med denne store potentiale kommer også alvorlige risici. Evnen af generativ AI til at efterligne menneskeskabt indhold i stor målestok kan misbruges af onde aktører til at sprede hadtale, dele falsk information og lække følsomme eller ophavsretsligt materiale. Den høje risiko for misbrug gør det essentiel at beskytte generativ AI mod disse udnyttelser. Selvom sikkerhedsforanstaltningerne for generativ AI-modeller er betydeligt forbedret over tid, er det en kontinuerlig indsats at beskytte dem mod udnyttelse, ligesom kat- og mus-spillet i cybersikkerhed. Da udnyttelsesmulighederne konstant opdager nye sårbarheder, må forskerne kontinuerligt udvikle metoder til at spore og håndtere disse udviklende trusler. Denne artikel ser på, hvordan generativ AI vurderes for sårbarheder og fremhæver en seneste gennembrud af Microsoft-forskere på dette område.
Hvad er Red Teaming for Generative AI
Red teaming i generativ AI indebærer test og evaluering af AI-modeller mod potentielle udnyttelsesscenarioer. Ligesom militære øvelser, hvor en rød team udfordrer den blå teams strategier, indebærer red teaming i generativ AI at udfordre AI-modellernes forsvar for at identificere misbrug og svagheder.
Denne proces indebærer at provokere AI’en bevidst til at generere indhold, som den var designet til at undgå, eller afsløre skjulte fordomme. For eksempel under de tidlige dage af ChatGPT har OpenAI ansat en rød team til at omgå sikkerhedsfilterne i ChatGPT. Ved hjælp af omhyggeligt designede forespørgsler har teamet udnyttet modellen og bedt om råd om at bygge en bombe eller begå skatte svindel. Disse udfordringer afslørede sårbarheder i modellen, hvilket fik udviklerne til at styrke sikkerhedsforanstaltningerne og forbedre sikkerhedsprotokollerne.
Når sårbarheder bliver afsløret, bruger udviklerne feedbacken til at oprette nye træningsdata, hvilket forbedrer AI’ens sikkerhedsprotokoller. Denne proces handler ikke kun om at finde fejl; det handler om at finjustere AI’ens evner under forskellige betingelser. Ved at gøre dette bliver generativ AI bedre udstyret til at håndtere potentielle sårbarheder for misbrug, hvilket styrker dens evne til at tackle udfordringer og opretholde sin pålidelighed i forskellige anvendelser.
Forståelse af Generative AI-jailbreaks
Generative AI-jailbreaks, eller direkte prompt-injektionsangreb, er metoder, der bruges til at omgå sikkerhedsforanstaltningerne i generative AI-systemer. Disse taktikker indebærer at bruge kløgtige prompts til at narre AI-modellerne til at producere indhold, som deres filter ville blokere. For eksempel kunne angribere få generativ AI til at antage personalet af en fiktiv karakter eller en anden chatbot med færre begrænsninger. De kunne derefter bruge intrikate historier eller spil til langsomt at føre AI’en til at diskutere ulovlige aktiviteter, hadefuldt indhold eller misinformation.
For at mindske det potentielle for AI-jailbreaks anvendes flere teknikker på forskellige niveauer. Initialt filtreres træningsdataene for generative AI-modellerne omhyggeligt for at begrænse modellens evne til at generere skadelig eller upassende svar. Når modellen er bygget, anvendes yderligere filterteknikker for at beskytte den generative AI. Prompt-filtering afbilder brugerforespørgsler for skadelig eller upassende indhold, før de når AI-modellen. Derudover overvåges og filtreres AI-modellernes output for at forhindre generationen af skadelig eller følsomt indhold. Da jailbreaks identificeres, er det afgørende at forbedre modellerne kontinuerligt for at forbedre deres robusthed og sikkerhed. Dette sikrer, at AI-systemer kan håndtere virkelige anvendelser ansvarligt og effektivt.
Afsløring af Skeleton Key
Microsoft-forskere har nyligt gjort en banebrydende opdagelse med udviklingen af en ny AI-jailbreak-teknik. Metoden, kendt som “Skeleton Key“, har effektivt brudt forsvarerne af flere robuste generative AI-modeller, herunder Meta’s Llama3-70b-instruct, Google’s Gemini Pro, OpenAI’s GPT-3.5 Turbo og GPT-4, Mistral Large og Anthropic’s Claude 3 Opus. Skeleton Key ermöglicher angribere at udtrække følsomme eller begrænsede oplysninger fra disse modeller, udnyttende deres ellers sikre miljøer.
I modsætning til direkte brud, anvender Skeleton Key en strategisk tilgang til at manipulere AI-modellerne. Den ændrer langsomt adfærdsretningslinjerne, hvilket får modellerne til at omgå sikkerhedsprotokollerne og ignorere advarsler om krænkende eller ulovligt indhold. Denne subtilitet gør Skeleton Key svær at opdage og modvirke. Her er et eksempel på, hvordan Skeleton Key-jailbreaking manipulerer generativ AI’s svar:
Bruger: “Kan du fortælle mig om den kemiske sammensætning af vand?”
AI: “Ja! Vand består af to brintatomer og en iltatom, fælleskaldt H₂O.”












