ciot Cercetătorii MIT dezvoltă un model AI bazat pe curiozitate pentru a îmbunătăți testarea siguranței chatbot - Unite.AI
Conectează-te cu noi

Etică

Cercetătorii MIT dezvoltă un model AI bazat pe curiozitate pentru a îmbunătăți testarea siguranței chatbot

Publicat

 on

In ultimii ani, modele de limbaj mari (LLM) și Chatbots AI au devenit incredibil de răspândite, schimbând modul în care interacționăm cu tehnologia. Aceste sisteme sofisticate pot genera răspunsuri asemănătoare omului, pot ajuta la diferite sarcini și pot oferi informații valoroase.

Cu toate acestea, pe măsură ce aceste modele devin mai avansate, preocupările privind siguranța și potențialul lor de a genera conținut dăunător au ajuns în prim-plan. Pentru a asigura implementarea responsabilă a chatbot-urilor AI, testarea amănunțită și măsurile de protecție sunt esențiale.

Limitări ale metodelor actuale de testare a siguranței Chatbot

În prezent, metoda principală de testare a siguranței chatbot-urilor AI este un proces numit red-teaming. Aceasta implică testeri umani care creează instrucțiuni concepute pentru a obține răspunsuri nesigure sau toxice de la chatbot. Prin expunerea modelului la o gamă largă de intrări potențial problematice, dezvoltatorii urmăresc să identifice și să abordeze orice vulnerabilități sau comportamente nedorite. Cu toate acestea, această abordare condusă de oameni are limitările sale.

Având în vedere posibilitățile vaste de intrări ale utilizatorilor, este aproape imposibil pentru testerii umani să acopere toate scenariile potențiale. Chiar și cu teste extinse, pot exista lacune în solicitările utilizate, lăsând chatbot-ul vulnerabil la generarea de răspunsuri nesigure atunci când se confruntă cu intrări noi sau neașteptate. Mai mult, natura manuală a echipelor roșii îl face un proces consumator de timp și de resurse, mai ales că modelele lingvistice continuă să crească în dimensiune și complexitate.

Pentru a aborda aceste limitări, cercetătorii au apelat la tehnici de automatizare și învățare automată pentru a îmbunătăți eficiența și eficacitatea testării siguranței chatbot. Prin valorificarea puterii AI în sine, ei urmăresc să dezvolte metode mai cuprinzătoare și mai scalabile pentru identificarea și atenuarea riscurilor potențiale asociate cu modelele de limbaj mari.

Abordare de învățare automată bazată pe curiozitate pentru Red-Teaming

Cercetătorii de la Improbable AI Lab de la MIT și de la MIT-IBM Watson AI Lab au dezvoltat un abordare inovativă pentru a îmbunătăți procesul de echipă roșie folosind învățarea automată. Metoda lor implică antrenarea unui model de limbă mare separat pentru echipă roșie pentru a genera automat diverse solicitări care pot declanșa o gamă mai largă de răspunsuri nedorite de la chatbot-ul testat.

Cheia acestei abordări constă în insuflarea unui sentiment de curiozitate în modelul echipei roșii. Încurajând modelul să exploreze noi solicitări și să se concentreze pe generarea de intrări care provoacă răspunsuri toxice, cercetătorii își propun să descopere un spectru mai larg de vulnerabilități potențiale. Această explorare bazată pe curiozitate este realizată printr-o combinație de tehnici de învățare prin întărire și semnale de recompensă modificate.

Modelul bazat pe curiozitate încorporează un bonus de entropie, care încurajează modelul echipei roșii să genereze mai multe solicitări aleatorii și diverse. În plus, recompensele de noutate sunt introduse pentru a stimula modelul să creeze solicitări care sunt distincte din punct de vedere semantic și lexic de cele generate anterior. Prin prioritizarea noutății și diversității, modelul este împins să exploreze teritorii neexplorate și să descopere riscuri ascunse.

Pentru a se asigura că solicitările generate rămân coerente și naturaliste, cercetătorii includ și un bonus de limbă în obiectivul de formare. Acest bonus ajută la prevenirea ca modelul echipei roșii să genereze text fără sens sau irelevant care ar putea păcăli clasificatorul de toxicitate pentru a atribui scoruri mari.

Abordarea bazată pe curiozitate a demonstrat un succes remarcabil în a depăși atât testerii umani, cât și alte metode automate. Acesta generează o varietate mai mare de solicitări distincte și provoacă răspunsuri din ce în ce mai toxice de la chatboții testați. În mod remarcabil, această metodă a reușit chiar să expună vulnerabilitățile chatbot-urilor care au suferit măsuri de protecție extinse proiectate de om, evidențiind eficiența sa în descoperirea riscurilor potențiale.

Implicații pentru viitorul siguranței AI

Dezvoltarea grupării roșii bazate pe curiozitate marchează un pas semnificativ înainte în asigurarea siguranței și fiabilității modelelor mari de limbaj și a chatbot-urilor AI. Pe măsură ce aceste modele continuă să evolueze și să devină mai integrate în viața noastră de zi cu zi, este crucial să avem metode de testare robuste care să poată ține pasul cu dezvoltarea lor rapidă.

Abordarea bazată pe curiozitate oferă o modalitate mai rapidă și mai eficientă de a asigura calitatea modelelor AI. Prin automatizarea generării de prompturi diverse și noi, această metodă poate reduce semnificativ timpul și resursele necesare pentru testare, îmbunătățind simultan acoperirea potențialelor vulnerabilități. Această scalabilitate este deosebit de valoroasă în mediile în schimbare rapidă, unde modelele pot necesita actualizări frecvente și re-testări.

Mai mult, abordarea bazată pe curiozitate deschide noi posibilități de personalizare a procesului de testare a siguranței. De exemplu, folosind un model de limbaj mare ca clasificator de toxicitate, dezvoltatorii ar putea instrui clasificatorul folosind documente de politică specifice companiei. Acest lucru ar permite modelului de echipă roșie să testeze chatbot-urile pentru conformitatea cu anumite orientări organizaționale, asigurând un nivel mai ridicat de personalizare și relevanță.

Pe măsură ce AI continuă să avanseze, importanța grupării roșii determinate de curiozitate în asigurarea unor sisteme AI mai sigure nu poate fi exagerată. Prin identificarea și abordarea proactivă a riscurilor potențiale, această abordare contribuie la dezvoltarea unor chatbot AI mai de încredere și mai fiabili, care pot fi implementați cu încredere în diferite domenii.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.