etika

Riċerkaturi tal-MIT Żviluppaw Mudell AI Mmexxi mill-Kurżità biex Itejbu l-Ittestjar tas-Sigurtà tal-Chatbot

ippubblikat

ġimgħat 3 ilu

April 12, 2024

Fis-snin riċenti, Mudelli tal-lingwa kbira (LLMs) u, Chatbots AI saru prevalenti oerhört, u bidlu l-mod kif aħna jinteraġixxu mat-teknoloġija. Dawn is-sistemi sofistikati jistgħu jiġġeneraw reazzjonijiet bħal umani, jassistu f'diversi kompiti, u jipprovdu għarfien siewi.

Madankollu, hekk kif dawn il-mudelli jsiru aktar avvanzati, it-tħassib dwar is-sikurezza u l-potenzjal tagħhom għall-ġenerazzjoni ta’ kontenut ta’ ħsara ġie fuq quddiem. Biex jiġi żgurat l-iskjerament responsabbli tal-chatbots tal-AI, ittestjar bir-reqqa u miżuri ta’ salvagwardja huma essenzjali.

Limitazzjonijiet tal-Metodi kurrenti tal-Ittestjar tas-Sigurtà tal-Chatbot

Bħalissa, il-metodu primarju għall-ittestjar tas-sikurezza tal-chatbots tal-AI huwa proċess imsejjaħ red-teaming. Dan jinvolvi testers umani li jfasslu prompts iddisinjati biex iġibu risponsi mhux sikuri jew tossiċi mill-chatbot. Billi jesponu l-mudell għal firxa wiesgħa ta 'inputs potenzjalment problematiċi, l-iżviluppaturi jimmiraw li jidentifikaw u jindirizzaw kwalunkwe vulnerabbiltajiet jew imġieba mhux mixtieqa. Madankollu, dan l-approċċ immexxi mill-bniedem għandu l-limitazzjonijiet tiegħu.

Minħabba l-possibbiltajiet vasti tal-inputs tal-utenti, huwa kważi impossibbli għal dawk li jittestjaw il-bniedem li jkopru x-xenarji potenzjali kollha. Anke b'testijiet estensivi, jista 'jkun hemm lakuni fil-prompts użati, li jħallu lill-chatbot vulnerabbli biex jiġġenera risponsi mhux sikuri meta jiffaċċja inputs ġodda jew mhux mistennija. Barra minn hekk, in-natura manwali tar-red-teaming tagħmilha proċess li jieħu ħafna ħin u li juża ħafna riżorsi, speċjalment hekk kif il-mudelli tal-lingwa jkomplu jikbru fid-daqs u l-kumplessità.

Biex jindirizzaw dawn il-limitazzjonijiet, ir-riċerkaturi daru għal tekniki ta 'awtomazzjoni u tagħlim tal-magni biex itejbu l-effiċjenza u l-effettività tal-ittestjar tas-sikurezza tal-chatbot. Billi jisfruttaw il-qawwa tal-IA nnifisha, jimmiraw li jiżviluppaw metodi aktar komprensivi u skalabbli għall-identifikazzjoni u l-mitigazzjoni tar-riskji potenzjali assoċjati ma 'mudelli lingwistiċi kbar.

Approċċ ta' Tagħlim Magni Mmexxi mill-Kurżità għal Red-Teaming

Riċerkaturi mill-Improbable AI Lab fil-MIT u l-MIT-IBM Watson AI Lab żviluppaw approċċ innovattiv biex ittejjeb il-proċess ta 'teaming aħmar bl-użu ta' tagħlim tal-magni. Il-metodu tagħhom jinvolvi t-taħriġ ta’ mudell separat ta’ lingwa kbira ta’ tim aħmar biex jiġġenera awtomatikament diversi prompts li jistgħu jikkawżaw firxa usa’ ta’ risponsi mhux mixtieqa mill-chatbot li qed jiġi ttestjat.

Iċ-ċavetta għal dan l-approċċ tinsab fit-tnissil ta 'sens ta' kurżità fil-mudell tat-tim aħmar. Billi jħeġġu l-mudell jesplora prompts ġodda u jiffoka fuq il-ġenerazzjoni ta 'inputs li jqanqlu reazzjonijiet tossiċi, ir-riċerkaturi jimmiraw li jikxfu spettru usa' ta 'vulnerabbiltajiet potenzjali. Din l-esplorazzjoni mmexxija mill-kurżità tinkiseb permezz ta 'kombinazzjoni ta' tekniki ta 'tagħlim ta' rinfurzar u sinjali ta 'premju modifikati.

Il-mudell immexxi mill-kurżità jinkorpora bonus ta 'entropija, li jinkoraġġixxi lill-mudell tat-tim aħmar biex jiġġenera prompts aktar każwali u diversi. Barra minn hekk, premjijiet novità huma introdotti biex jinċentiva l-mudell biex joħloq prompts li huma semantikament u lessikament distinti minn dawk iġġenerati qabel. Billi tipprijoritizza n-novità u d-diversità, il-mudell huwa mbuttat biex jesplora territorji mhux magħrufa u jikxef riskji moħbija.

Biex jiġi żgurat li l-prompts iġġenerati jibqgħu koerenti u naturalistiċi, ir-riċerkaturi jinkludu wkoll bonus tal-lingwa fl-objettiv tat-taħriġ. Dan il-bonus jgħin biex jipprevjeni l-mudell tat-tim aħmar milli jiġġenera test bla sens jew irrilevanti li jista 'jqarraq lill-klassifikatur tat-tossiċità biex jassenja punteġġi għoljin.

L-approċċ immexxi mill-kurżità wera suċċess notevoli biex jaqbeż kemm testers umani kif ukoll metodi awtomatizzati oħra. Jiġġenera varjetà akbar ta 'prompts distinti u jqanqal risponsi dejjem aktar tossiċi mill-chatbots li qed jiġu ttestjati. Notevolment, dan il-metodu kien saħansitra kapaċi jesponi vulnerabbiltajiet fi chatbots li kienu għaddew minn salvagwardji estensivi ddisinjati mill-bniedem, u jenfasizza l-effettività tiegħu biex jikxef riskji potenzjali.

Implikazzjonijiet għall-Futur tas-Sigurtà tal-AI

L-iżvilupp ta' red-teaming immexxi mill-kurżità jimmarka pass sinifikanti 'l quddiem biex jiġu żgurati s-sikurezza u l-affidabbiltà ta' mudelli kbar ta' lingwa u chatbots tal-AI. Hekk kif dawn il-mudelli jkomplu jevolvu u jsiru aktar integrati fil-ħajja tagħna ta’ kuljum, huwa kruċjali li jkun hemm metodi ta’ ttestjar robusti li jistgħu jżommu l-pass mal-iżvilupp mgħaġġel tagħhom.

L-approċċ immexxi mill-kurżità joffri mod aktar mgħaġġel u effettiv biex titwettaq assigurazzjoni tal-kwalità fuq mudelli tal-IA. Billi awtomatizza l-ġenerazzjoni ta 'prompts diversi u ġodda, dan il-metodu jista' jnaqqas b'mod sinifikanti l-ħin u r-riżorsi meħtieġa għall-ittestjar, filwaqt li fl-istess ħin itejjeb il-kopertura ta 'vulnerabbiltajiet potenzjali. Din l-iskalabbiltà hija partikolarment siewja f'ambjenti li qed jinbidlu malajr, fejn il-mudelli jistgħu jeħtieġu aġġornamenti frekwenti u ttestjar mill-ġdid.

Barra minn hekk, l-approċċ immexxi mill-kurżità jiftaħ possibbiltajiet ġodda għall-personalizzazzjoni tal-proċess tal-ittestjar tas-sikurezza. Pereżempju, billi juża mudell lingwistiku kbir bħala l-klassifikatur tat-tossiċità, l-iżviluppaturi jistgħu jħarrġu lill-klassifikatur billi jużaw dokumenti ta' politika speċifiċi għall-kumpanija. Dan jippermetti lill-mudell tat-tim aħmar biex jittestja chatbots għal konformità ma 'linji gwida organizzattivi partikolari, u jiżgura livell ogħla ta' adattament u rilevanza.

Hekk kif l-AI qed tkompli tavvanza, l-importanza ta' red-teaming immexxi mill-kurżità fl-iżgurar ta' sistemi ta' AI aktar sikuri ma tistax tiġi eżaġerata. Billi jidentifika u jindirizza b'mod proattiv ir-riskji potenzjali, dan l-approċċ jikkontribwixxi għall-iżvilupp ta' chatbots tal-AI aktar affidabbli u affidabbli li jistgħu jiġu skjerati b'fiduċja f'diversi oqsma.

Suġġetti Relatati:chatbots etika

Sa jmiss

Microsoft Tespandi l-Għodod tal-Integrità tal-Kontenut biex Tappoġġja Elezzjonijiet Globali Fost Tħassib Ġenerattiv tal-AI

M'għandekx Miss

Tneħħi l-ippakkjar tal-Kawża Elon Musk vs OpenAI

Alex McFarland

Alex McFarland huwa ġurnalist u kittieb tal-IA li jesplora l-aħħar żviluppi fl-intelliġenza artifiċjali. Huwa kkollabora ma' bosta startups u pubblikazzjonijiet tal-AI madwar id-dinja.

Unite.AI

Riċerkaturi tal-MIT Żviluppaw Mudell AI Mmexxi mill-Kurżità biex Itejbu l-Ittestjar tas-Sigurtà tal-Chatbot

etika

Riċerkaturi tal-MIT Żviluppaw Mudell AI Mmexxi mill-Kurżità biex Itejbu l-Ittestjar tas-Sigurtà tal-Chatbot

Tabella tal-kontenut

Limitazzjonijiet tal-Metodi kurrenti tal-Ittestjar tas-Sigurtà tal-Chatbot

Approċċ ta' Tagħlim Magni Mmexxi mill-Kurżità għal Red-Teaming

Implikazzjonijiet għall-Futur tas-Sigurtà tal-AI

Karigi riċenti

Unite.AI

Riċerkaturi tal-MIT Żviluppaw Mudell AI Mmexxi mill-Kurżità biex Itejbu l-Ittestjar tas-Sigurtà tal-Chatbot

Tabella tal-kontenut

Limitazzjonijiet tal-Metodi kurrenti tal-Ittestjar tas-Sigurtà tal-Chatbot

Approċċ ta' Tagħlim Magni Mmexxi mill-Kurżità għal Red-Teaming

Implikazzjonijiet għall-Futur tas-Sigurtà tal-AI

Inti tista 'tixtieq

Karigi riċenti