stomp MIT-onderzoekers ontwikkelen nieuwsgierigheidsgedreven AI-model om het testen van de veiligheid van chatbots te verbeteren - Unite.AI
Verbind je met ons

Ethiek

MIT-onderzoekers ontwikkelen een nieuwsgierigheidsgedreven AI-model om de veiligheidstests van chatbots te verbeteren

gepubliceerd

 on

In recente jaren, grote taalmodellen (LLM's) en AI-chatbots zijn ongelooflijk gangbaar geworden en veranderen de manier waarop we omgaan met technologie. Deze geavanceerde systemen kunnen mensachtige reacties genereren, helpen bij verschillende taken en waardevolle inzichten verschaffen.

Naarmate deze modellen echter geavanceerder worden, zijn zorgen over de veiligheid ervan en het potentieel voor het genereren van schadelijke inhoud op de voorgrond gekomen. Om een ​​verantwoorde inzet van AI-chatbots te garanderen, zijn grondige test- en beveiligingsmaatregelen essentieel.

Beperkingen van de huidige testmethoden voor de veiligheid van chatbots

Momenteel is de belangrijkste methode voor het testen van de veiligheid van AI-chatbots een proces dat red-teaming wordt genoemd. Dit houdt in dat menselijke testers aanwijzingen maken die zijn ontworpen om onveilige of giftige reacties van de chatbot uit te lokken. Door het model bloot te stellen aan een breed scala aan potentieel problematische inputs, proberen ontwikkelaars eventuele kwetsbaarheden of ongewenst gedrag te identificeren en aan te pakken. Deze mensgedreven aanpak kent echter zijn beperkingen.

Gezien de enorme mogelijkheden van gebruikersinvoer is het voor menselijke testers vrijwel onmogelijk om alle mogelijke scenario's te doorgronden. Zelfs bij uitgebreide tests kunnen er gaten in de gebruikte prompts zitten, waardoor de chatbot kwetsbaar wordt voor het genereren van onveilige reacties wanneer hij wordt geconfronteerd met nieuwe of onverwachte input. Bovendien maakt het handmatige karakter van red-teaming het een tijdrovend en arbeidsintensief proces, vooral omdat taalmodellen steeds groter en complexer worden.

Om deze beperkingen aan te pakken, hebben onderzoekers zich tot automatiserings- en machine learning-technieken gewend om de efficiëntie en effectiviteit van het testen van de veiligheid van chatbots te verbeteren. Door gebruik te maken van de kracht van AI zelf willen ze meer omvattende en schaalbare methoden ontwikkelen voor het identificeren en beperken van potentiële risico’s die gepaard gaan met grote taalmodellen.

Op nieuwsgierigheid gebaseerde machinale leerbenadering van Red-Teaming

Onderzoekers van het Improbable AI Lab van MIT en het MIT-IBM Watson AI Lab ontwikkelden een innovatieve aanpak om het red-teaming-proces te verbeteren met behulp van machine learning. Hun methode omvat het trainen van een afzonderlijk groot taalmodel van het rode team om automatisch diverse aanwijzingen te genereren die een breder scala aan ongewenste reacties van de geteste chatbot kunnen veroorzaken.

De sleutel tot deze aanpak ligt in het creëren van een gevoel van nieuwsgierigheid in het rode teammodel. Door het model aan te moedigen nieuwe aanwijzingen te onderzoeken en zich te concentreren op het genereren van input die toxische reacties uitlokt, willen de onderzoekers een breder spectrum van potentiële kwetsbaarheden blootleggen. Deze door nieuwsgierigheid gedreven verkenning wordt bereikt door een combinatie van versterkende leertechnieken en aangepaste beloningssignalen.

Het door nieuwsgierigheid gedreven model bevat een entropiebonus, die het rode-teammodel aanmoedigt om meer willekeurige en diverse aanwijzingen te genereren. Bovendien worden nieuwheidsbeloningen geïntroduceerd om het model te stimuleren om aanwijzingen te creëren die semantisch en lexicaal verschillen van eerder gegenereerde aanwijzingen. Door prioriteit te geven aan nieuwigheid en diversiteit, wordt het model ertoe aangezet onbekende gebieden te verkennen en verborgen risico's bloot te leggen.

Om ervoor te zorgen dat de gegenereerde aanwijzingen coherent en naturalistisch blijven, nemen de onderzoekers ook een taalbonus op in het trainingsdoel. Deze bonus helpt voorkomen dat het red-team-model onzinnige of irrelevante tekst genereert die de toxiciteitsclassificator zou kunnen misleiden om hoge scores toe te kennen.

De door nieuwsgierigheid gedreven aanpak heeft opmerkelijk succes opgeleverd bij het overtreffen van zowel menselijke testers als andere geautomatiseerde methoden. Het genereert een grotere verscheidenheid aan specifieke aanwijzingen en lokt steeds giftigere reacties uit van de geteste chatbots. Deze methode heeft met name zelfs kwetsbaarheden kunnen blootleggen in chatbots die uitgebreide, door mensen ontworpen beveiligingen hadden ondergaan, wat de doeltreffendheid ervan bij het blootleggen van potentiële risico’s benadrukt.

Implicaties voor de toekomst van AI-veiligheid

De ontwikkeling van door nieuwsgierigheid gedreven red-teaming markeert een belangrijke stap voorwaarts in het waarborgen van de veiligheid en betrouwbaarheid van grote taalmodellen en AI-chatbots. Naarmate deze modellen blijven evolueren en steeds meer geïntegreerd raken in ons dagelijks leven, is het van cruciaal belang om robuuste testmethoden te hebben die gelijke tred kunnen houden met hun snelle ontwikkeling.

De nieuwsgierigheidsgedreven aanpak biedt een snellere en effectievere manier om kwaliteitsborging van AI-modellen uit te voeren. Door het genereren van diverse en nieuwe aanwijzingen te automatiseren, kan deze methode de tijd en middelen die nodig zijn voor het testen aanzienlijk verminderen, terwijl tegelijkertijd de dekking van potentiële kwetsbaarheden wordt verbeterd. Deze schaalbaarheid is vooral waardevol in snel veranderende omgevingen, waar modellen regelmatig moeten worden bijgewerkt en opnieuw moeten worden getest.

Bovendien opent de nieuwsgierigheidsgedreven aanpak nieuwe mogelijkheden voor het aanpassen van het veiligheidstestproces. Door bijvoorbeeld een groot taalmodel als toxiciteitsclassificator te gebruiken, zouden ontwikkelaars de classificator kunnen trainen met behulp van bedrijfsspecifieke beleidsdocumenten. Dit zou het red-team-model in staat stellen chatbots te testen op naleving van bepaalde organisatorische richtlijnen, waardoor een hoger niveau van maatwerk en relevantie wordt gegarandeerd.

Naarmate AI zich blijft ontwikkelen, kan het belang van nieuwsgierigheidsgedreven red-teaming bij het garanderen van veiligere AI-systemen niet genoeg worden benadrukt. Door potentiële risico’s proactief te identificeren en aan te pakken, draagt ​​deze aanpak bij aan de ontwikkeling van betrouwbaardere AI-chatbots die met vertrouwen in verschillende domeinen kunnen worden ingezet.

Alex McFarland is een AI-journalist en -schrijver die de nieuwste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met tal van AI-startups en publicaties over de hele wereld.