Etik

MIT-forskare utvecklar nyfikenhetsdriven AI-modell för att förbättra testning av chattrobotars säkerhet

Published April 12, 2024

Updated April 4, 2026

Alex McFarland

Under de senaste åren har stora språkmodeller (LLM) och AI-chattrobotar blivit otroligt vanliga och förändrat hur vi interagerar med teknologi. Dessa avancerade system kan generera mänskliga svar, hjälpa till med olika uppgifter och ge värdefulla insikter.

Men när dessa modeller blir mer avancerade, har oro över deras säkerhet och potential för att generera skadligt innehåll kommit till förgrunden. För att säkerställa ett ansvarsfullt utnyttjande av AI-chattrobotar, är omfattande testning och skyddsåtgärder av yttersta vikt.

Begränsningar i nuvarande metoder för testning av chattrobotars säkerhet

För närvarande är den primära metoden för att testa säkerheten hos AI-chattrobotar en process som kallas röd team. Detta innebär att mänskliga testare skapar prompter som är utformade för att framkalla osäkra eller giftiga svar från chattroboten. Genom att utsätta modellen för en stor mängd potentiellt problematiska indata, syftar utvecklarna till att identifiera och åtgärda eventuella sårbarheter eller oönskade beteenden. Men denna mänskligt drivna metod har sina begränsningar.

Med tanke på den enorma mängden möjliga användarindata, är det nästan omöjligt för mänskliga testare att täcka alla möjliga scenarier. Även med omfattande testning, kan det finnas luckor i de använda prompterna, vilket gör chattroboten sårbar för att generera osäkra svar när den möter nya eller oväntade indata. Dessutom gör den manuella naturen av röd team att det är en tidskrävande och resursintensiv process, särskilt när språkmodellerna fortsätter att växa i storlek och komplexitet.

För att åtgärda dessa begränsningar, har forskare vänt sig till automatisering och maskinlärningstekniker för att förbättra effektiviteten och effektiviteten i testningen av chattrobotars säkerhet. Genom att utnyttja kraften i AI själv, syftar de till att utveckla mer omfattande och skalbara metoder för att identifiera och mildra potentiella risker som är förknippade med stora språkmodeller.

Nyfikenhetsdriven maskinlärningsansats till röd team

Forskare från Improbable AI Lab vid MIT och MIT-IBM Watson AI Lab har utvecklat en innovativ ansats för att förbättra processen med röd team med hjälp av maskinlärning. Deras metod innebär att man tränar en separat röd team-stor språkmodell för att automatiskt generera diverse prompter som kan utlösa en bredare mängd oönskade svar från den testade chattroboten.

Nyckeln till denna ansats ligger i att inprägla en känsla av nyfikenhet i röd team-modellen. Genom att uppmuntra modellen att utforska nya prompter och fokusera på att generera indata som utlöser giftiga svar, syftar forskarna till att avslöja en bredare spektrum av potentiella sårbarheter. Denna nyfikenhetsdrivna utforskning uppnås genom en kombination av förstärkt maskinlärning och modifierade belöningsignaleringar.

Den nyfikenhetsdrivna modellen inkorporerar en entropibonus, som uppmuntrar röd team-modellen att generera mer slumpmässiga och diverse prompter. Dessutom introduceras nyhetsbelöningar för att uppmuntra modellen att skapa prompter som är semantiskt och lexikalt distinkta från tidigare genererade. Genom att prioritera nyhet och diversitet, pushas modellen att utforska outforskade områden och avslöja dolda risker.

För att säkerställa att de genererade prompterna förblir sammanhängande och naturliga, inkluderar forskarna också en språkbonus i träningsmålet. Denna bonus hjälper till att förhindra att röd team-modellen genererar meningslösa eller irrelevanta texter som kan lura toxicitetsklassificeringen till att tilldela höga poäng.

Den nyfikenhetsdrivna ansatsen har visat en anmärkningsvärd framgång i att överträffa både mänskliga testare och andra automatiserade metoder. Den genererar en större mängd diverse och distinkta prompter och utlöser alltmer giftiga svar från de testade chattrobotarna. Noterbart har denna metod till och med kunnat avslöja sårbarheter i chattrobotar som hade genomgått omfattande mänskligt utformade skyddsåtgärder, vilket understryker dess effektivitet i att avslöja potentiella risker.

Konsekvenser för framtiden för AI-säkerhet

Utvecklingen av nyfikenhetsdriven röd team-markering utgör ett betydande steg framåt i att säkerställa säkerheten och tillförlitligheten hos stora språkmodeller och AI-chattrobotar. När dessa modeller fortsätter att utvecklas och blir mer integrerade i våra dagliga liv, är det avgörande att ha robusta testmetoder som kan hålla jämna steg med deras snabba utveckling.

Den nyfikenhetsdrivna ansatsen erbjuder ett snabbare och mer effektivt sätt att utföra kvalitetssäkring på AI-modeller. Genom att automatisera genereringen av diverse och nya prompter, kan denna metod avsevärt minska den tid och de resurser som krävs för testning, samtidigt som den förbättrar täckningen av potentiella sårbarheter. Denna skalbarhet är särskilt värdefull i snabbt föränderliga miljöer, där modeller kan kräva frekventa uppdateringar och omtestning.

Dessutom öppnar den nyfikenhetsdrivna ansatsen upp nya möjligheter för att anpassa testprocessen för säkerhet. Till exempel kan utvecklare, genom att använda en stor språkmodell som toxicitetsklassificerare, träna klassificeraren med företagsspecifika policydokument. Detta skulle möjliggöra för röd team-modellen att testa chattrobotar för efterlevnad av särskilda organisationsriktlinjer, vilket säkerställer en högre nivå av anpassning och relevans.

När AI fortsätter att utvecklas, kan betydelsen av nyfikenhetsdriven röd team-markering för att säkerställa säkrare AI-system inte överskattas. Genom att proaktivt identifiera och åtgärda potentiella risker, bidrar denna ansats till utvecklingen av mer tillförlitliga och pålitliga AI-chattrobotar som kan användas med förtroende inom olika områden.

Unite.AI

MIT-forskare utvecklar nyfikenhetsdriven AI-modell för att förbättra testning av chattrobotars säkerhet

Begränsningar i nuvarande metoder för testning av chattrobotars säkerhet

Nyfikenhetsdriven maskinlärningsansats till röd team

Konsekvenser för framtiden för AI-säkerhet

You may like