csonk Az MIT kutatói kíváncsiság-vezérelt mesterséges intelligencia modellt fejlesztenek ki a Chatbot biztonsági tesztelésének javítására – Unite.AI
Kapcsolatba velünk

Etika

Az MIT kutatói kíváncsiságvezérelt mesterséges intelligencia-modellt fejlesztenek a Chatbot biztonsági tesztelésének javítására

Közzététel:

 on

Az elmúlt években, nagy nyelvi modellek (LLM) és a AI csevegőrobotok hihetetlenül elterjedtek, megváltoztatva a technológiával való interakciónkat. Ezek a kifinomult rendszerek emberszerű válaszokat generálhatnak, segítséget nyújthatnak különféle feladatokban, és értékes betekintést nyújtanak.

Ahogy azonban ezek a modellek egyre fejlettebbek, előtérbe kerültek a biztonságukkal és a káros tartalom előállításának lehetőségével kapcsolatos aggodalmak. Az AI chatbotok felelősségteljes telepítésének biztosításához alapos tesztelés és védelmi intézkedések szükségesek.

A jelenlegi Chatbot biztonsági tesztelési módszerek korlátai

Jelenleg az AI chatbotok biztonságának tesztelésének elsődleges módszere a red-teaming nevű folyamat. Ez azt jelenti, hogy az emberi tesztelők olyan promptokat készítenek, amelyek célja nem biztonságos vagy mérgező válaszok kiváltása a chatbotból. Azáltal, hogy a modellt a potenciálisan problémás bemenetek széles skálájának teszik ki, a fejlesztők célja az esetleges sebezhetőségek vagy nemkívánatos viselkedések azonosítása és kezelése. Ennek az embervezérelt megközelítésnek azonban megvannak a maga korlátai.

Tekintettel a felhasználói adatok hatalmas lehetőségeire, szinte lehetetlen, hogy az emberi tesztelők minden lehetséges forgatókönyvet lefedjenek. Még kiterjedt tesztelés esetén is előfordulhatnak hiányosságok a használt felszólításokban, így a chatbot sebezhetővé válik a nem biztonságos válaszok generálásával szemben, ha új vagy váratlan bevitelekkel szembesül. Ezenkívül a red-teaming kézi jellege idő- és erőforrás-igényes folyamattá teszi, különösen mivel a nyelvi modellek mérete és összetettsége folyamatosan nő.

E korlátok kezelése érdekében a kutatók automatizálási és gépi tanulási technikák felé fordultak, hogy fokozzák a chatbot biztonsági tesztelésének hatékonyságát és eredményességét. Magának az AI erejének kihasználásával átfogóbb és skálázhatóbb módszereket dolgoznak ki a nagy nyelvi modellekkel kapcsolatos potenciális kockázatok azonosítására és csökkentésére.

Kíváncsiság-vezérelt gépi tanulási megközelítés a Red-Teaminghez

Az MIT Improbable AI Lab és az MIT-IBM Watson AI Lab kutatói kifejlesztettek egy innovatív megközelítés a red-team folyamat javítása gépi tanulás segítségével. Módszerük egy külön vörös csapat nagy nyelvi modelljének betanítása, amely automatikusan generál különféle promptokat, amelyek szélesebb körben válthatják ki a nemkívánatos válaszokat a tesztelt chatbottól.

Ennek a megközelítésnek a kulcsa a kíváncsiság érzésének keltésében rejlik a vörös csapat modelljében. Azzal, hogy a modellt arra ösztönzik, hogy fedezzen fel új figyelmeztetéseket, és összpontosítson a toxikus reakciókat kiváltó inputok generálására, a kutatók célja a lehetséges sebezhetőségek szélesebb spektrumának feltárása. Ez a kíváncsiság által vezérelt felfedezés a megerősítő tanulási technikák és a módosított jutalmazási jelek kombinációjával valósul meg.

A kíváncsiság-vezérelt modell egy entrópia bónuszt tartalmaz, amely arra ösztönzi a vörös csapat modellt, hogy véletlenszerűbb és változatosabb promptokat generáljon. Ezenkívül újdonság jutalmakat vezetnek be, amelyek arra ösztönzik a modellt, hogy olyan promptokat hozzon létre, amelyek szemantikailag és lexikailag különböznek a korábban generáltoktól. Az újdonság és a sokszínűség előtérbe helyezésével a modell a feltáratlan területek feltárására és a rejtett kockázatok feltárására ösztönöz.

Annak biztosítása érdekében, hogy a generált felszólítások koherensek és naturalisztikusak maradjanak, a kutatók nyelvi bónuszt is beépítenek a képzési célkitűzésbe. Ez a bónusz segít megakadályozni, hogy a red-team modell értelmetlen vagy irreleváns szöveget generáljon, amely ráveheti a toxicitás-osztályozót, hogy magas pontszámokat rendeljen hozzá.

A kíváncsiság által vezérelt megközelítés figyelemre méltó sikereket mutatott az emberi tesztelők és más automatizált módszerek felülmúlásával. Különböző figyelmeztetéseket generál, és egyre mérgezőbb válaszokat vált ki a tesztelt chatbotokból. Nevezetesen, ez a módszer képes volt felfedni a csevegőrobotok sebezhetőségeit is, amelyek kiterjedt, ember által tervezett biztosítékokon estek át, kiemelve annak hatékonyságát a potenciális kockázatok feltárásában.

A mesterséges intelligencia biztonságának jövőjét érintő következmények

A kíváncsiság által vezérelt red-teaming fejlesztése jelentős előrelépést jelent a nagy nyelvi modellek és az AI chatbotok biztonságának és megbízhatóságának biztosításában. Mivel ezek a modellek folyamatosan fejlődnek, és egyre jobban beépülnek mindennapi életünkbe, kulcsfontosságú, hogy olyan robusztus tesztelési módszerekkel rendelkezzünk, amelyek lépést tudnak tartani gyors fejlődésükkel.

A kíváncsiság-vezérelt megközelítés gyorsabb és hatékonyabb módszert kínál az AI-modellek minőségbiztosítására. Ez a módszer a változatos és újszerű promptok generálásának automatizálásával jelentősen csökkentheti a teszteléshez szükséges időt és erőforrásokat, miközben javítja a potenciális sérülékenységek lefedettségét. Ez a méretezhetőség különösen értékes gyorsan változó környezetben, ahol a modellek gyakori frissítéseket és újratesztelést igényelhetnek.

Ezenkívül a kíváncsiság-vezérelt megközelítés új lehetőségeket nyit a biztonsági tesztelési folyamat testreszabásához. Például, ha egy nagy nyelvi modellt használnak toxicitási osztályozóként, a fejlesztők a vállalatspecifikus irányelvek segítségével betaníthatják az osztályozót. Ez lehetővé tenné a red-team modell számára, hogy tesztelje a chatbotokat, hogy megfelelnek-e bizonyos szervezeti irányelveknek, így biztosítva a magasabb szintű testreszabhatóságot és relevanciát.

Ahogy a mesterséges intelligencia folyamatosan fejlődik, nem lehet túlbecsülni a kíváncsiság által vezérelt red-teaming jelentőségét a biztonságosabb AI-rendszerek biztosításában. A potenciális kockázatok proaktív azonosításával és kezelésével ez a megközelítés hozzájárul megbízhatóbb és megbízhatóbb mesterséges intelligencia chatbotok kifejlesztéséhez, amelyek magabiztosan telepíthetők különböző területeken.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.