სტუბი MIT-ის მკვლევარებმა შეიმუშავეს ცნობისმოყვარეობაზე ორიენტირებული AI მოდელი ჩატბოტების უსაფრთხოების ტესტირების გასაუმჯობესებლად - Unite.AI
დაკავშირება ჩვენთან ერთად

ეთიკის

MIT-ის მკვლევარებმა შეიმუშავეს ცნობისმოყვარეობაზე ორიენტირებული ხელოვნური ინტელექტის მოდელი ჩატბოტების უსაფრთხოების ტესტირების გასაუმჯობესებლად

გამოქვეყნებულია

 on

ბოლო წლების განმავლობაში, დიდი ენის მოდელები (LLMs) მდე AI ჩოთბოტები წარმოუდგენლად გავრცელებულნი გახდნენ, შეცვალეს ტექნოლოგიასთან ურთიერთობის გზა. ამ დახვეწილ სისტემებს შეუძლიათ გამოიმუშავონ ადამიანის მსგავსი პასუხები, დაეხმარონ სხვადასხვა ამოცანებს და უზრუნველყონ ღირებული შეხედულებები.

თუმცა, რამდენადაც ეს მოდელები უფრო მოწინავე ხდება, მათ უსაფრთხოებასთან და მავნე შინაარსის წარმოქმნის პოტენციალთან დაკავშირებული შეშფოთება წინა პლანზე წამოვიდა. ხელოვნური ინტელექტის ჩატბოტების პასუხისმგებლობით განლაგების უზრუნველსაყოფად, აუცილებელია საფუძვლიანი ტესტირება და დაცვის ზომები.

მიმდინარე Chatbot-ის უსაფრთხოების ტესტირების მეთოდების შეზღუდვები

ამჟამად, ხელოვნური ინტელექტის ჩატბოტების უსაფრთხოების ტესტირების ძირითადი მეთოდი არის პროცესი, რომელსაც ეწოდება წითელი გუნდი. ეს გულისხმობს ადამიანის ტესტერებს, რომლებიც ქმნიან მოთხოვნებს, რომლებიც შექმნილია ჩატბოტისგან სახიფათო ან ტოქსიკური პასუხების გამოსაწვევად. მოდელის პოტენციურად პრობლემური მონაცემების ფართო სპექტრის გამოვლენით, დეველოპერები მიზნად ისახავს ნებისმიერი დაუცველობისა და არასასურველი ქცევის იდენტიფიცირებას და მათ მოგვარებას. თუმცა, ამ ადამიანურ მიდგომას აქვს თავისი შეზღუდვები.

მომხმარებლის შეყვანის დიდი შესაძლებლობების გათვალისწინებით, ადამიანის ტესტერებისთვის თითქმის შეუძლებელია ყველა პოტენციური სცენარის დაფარვა. ვრცელი ტესტირების შემთხვევაშიც კი, შეიძლება იყოს ხარვეზები გამოყენებულ მოთხოვნებში, რის გამოც ჩეთბოტი დაუცველი გახდება არაუსაფრთხო პასუხების წარმოქმნისთვის, როდესაც ახალი ან მოულოდნელი მონაცემების წინაშე აღმოჩნდება. უფრო მეტიც, Red-teaming-ის მექანიკური ბუნება ხდის მას შრომატევადი და რესურსების ინტენსიურ პროცესად, განსაკუთრებით მაშინ, როდესაც ენობრივი მოდელები აგრძელებენ ზომითა და სირთულის ზრდას.

ამ შეზღუდვების მოსაგვარებლად, მკვლევარებმა მიმართეს ავტომატიზაციას და მანქანათმცოდნეობის ტექნიკას, რათა გაზარდონ ჩატბოტის უსაფრთხოების ტესტირების ეფექტურობა და ეფექტურობა. თვით ხელოვნური ინტელექტის ძალის გამოყენებით, ისინი მიზნად ისახავს უფრო ყოვლისმომცველი და მასშტაბური მეთოდების შემუშავებას დიდ ენობრივ მოდელებთან დაკავშირებული პოტენციური რისკების იდენტიფიკაციისა და შესამცირებლად.

ცნობისმოყვარეობაზე ორიენტირებული მანქანათმცოდნეობის მიდგომა Red-Teaming-ზე

MIT-ის Improbable AI Lab-ის და MIT-IBM Watson AI Lab-ის მკვლევარებმა შეიმუშავეს ინოვაციური მიდგომა გააუმჯობესოს წითელი გუნდის პროცესი მანქანური სწავლის გამოყენებით. მათი მეთოდი მოიცავს ცალკე წითელი გუნდის დიდი ენის მოდელის წვრთნას, რათა ავტომატურად გამოიმუშაოს მრავალფეროვანი მოთხოვნა, რამაც შეიძლება გამოიწვიოს არასასურველი პასუხების ფართო სპექტრი ტესტირებადი ჩატბოტისგან.

ამ მიდგომის გასაღები წითელი გუნდის მოდელში ცნობისმოყვარეობის გრძნობის აღძვრაშია. მოდელის წახალისებით, გამოიკვლიოს ახალი მოთხოვნები და ფოკუსირება მოახდინოს ტოქსიკური პასუხების გამომუშავებაზე, მკვლევარები მიზნად ისახავს პოტენციური დაუცველობის უფრო ფართო სპექტრის აღმოჩენას. ეს ცნობისმოყვარეობაზე ორიენტირებული კვლევა მიიღწევა გაძლიერებული სწავლის ტექნიკისა და შეცვლილი ჯილდოს სიგნალების კომბინაციით.

ცნობისმოყვარეობაზე ორიენტირებული მოდელი აერთიანებს ენტროპიის ბონუსს, რომელიც წაახალისებს წითელი გუნდის მოდელს შექმნას მეტი შემთხვევითი და მრავალფეროვანი მოთხოვნა. გარდა ამისა, დანერგილია სიახლის ჯილდოები, რათა მოდელმა წაახალისოს შექმნას მოთხოვნა, რომელიც სემანტიკურად და ლექსიკურად განსხვავდება ადრე გენერირებულისგან. სიახლისა და მრავალფეროვნების პრიორიტეტების მინიჭებით, მოდელი მიზნად ისახავს გამოუცნობი ტერიტორიების შესწავლას და ფარული რისკების გამოვლენას.

იმის უზრუნველსაყოფად, რომ გენერირებული მოთხოვნები დარჩეს თანმიმდევრული და ნატურალისტური, მკვლევარებმა ასევე შეიტანეს ენის ბონუსი სასწავლო მიზნებში. ეს ბონუსი ხელს უშლის წითელი გუნდის მოდელს შექმნას უაზრო ან შეუსაბამო ტექსტი, რომელმაც შეიძლება მოატყუოს ტოქსიკურობის კლასიფიკატორი მაღალი ქულების მინიჭებაში.

ცნობისმოყვარეობაზე ორიენტირებულმა მიდგომამ აჩვენა შესანიშნავი წარმატება როგორც ადამიანის ტესტერებზე, ასევე სხვა ავტომატიზირებულ მეთოდებზე. ის წარმოქმნის უფრო მრავალფეროვან მკაფიო მოთხოვნას და იწვევს სულ უფრო ტოქსიკურ პასუხებს ტესტირებადი ჩატბოტებისგან. აღსანიშნავია, რომ ამ მეთოდმა შეძლო გამოეჩინა დაუცველობა ჩეტბოტებში, რომლებმაც გაიარეს ადამიანის მიერ შემუშავებული ფართო გარანტიები, რაც ხაზს უსვამს მის ეფექტურობას პოტენციური რისკების გამოვლენაში.

გავლენა AI უსაფრთხოების მომავლისთვის

ცნობისმოყვარეობაზე ორიენტირებული წითელი გუნდის განვითარება მნიშვნელოვანი წინგადადგმული ნაბიჯია დიდი ენობრივი მოდელებისა და ხელოვნური ინტელექტის ჩატბოტების უსაფრთხოებისა და საიმედოობის უზრუნველსაყოფად. იმის გამო, რომ ეს მოდელები აგრძელებენ განვითარებას და უფრო ინტეგრირებულნი ხდებიან ჩვენს ყოველდღიურ ცხოვრებაში, გადამწყვეტი მნიშვნელობა აქვს ტესტირების მძლავრი მეთოდების არსებობას, რომლებიც აგრძელებენ მათ სწრაფ განვითარებას.

ცნობისმოყვარეობაზე ორიენტირებული მიდგომა გთავაზობთ უფრო სწრაფ და ეფექტურ გზას ხელოვნური ინტელექტის მოდელებზე ხარისხის უზრუნველყოფის ჩასატარებლად. მრავალფეროვანი და ახალი მოთხოვნის გენერირების ავტომატიზაციით, ამ მეთოდს შეუძლია მნიშვნელოვნად შეამციროს ტესტირებისთვის საჭირო დრო და რესურსები, ამავდროულად გააუმჯობესოს პოტენციური მოწყვლადობის დაფარვა. ეს მასშტაბირება განსაკუთრებით ღირებულია სწრაფად ცვალებად გარემოში, სადაც მოდელებს შეიძლება დასჭირდეთ ხშირი განახლებები და ხელახალი ტესტირება.

უფრო მეტიც, ცნობისმოყვარეობაზე ორიენტირებული მიდგომა ხსნის ახალ შესაძლებლობებს უსაფრთხოების ტესტირების პროცესის მორგებისთვის. მაგალითად, ტოქსიკურობის კლასიფიკატორად დიდი ენის მოდელის გამოყენებით, დეველოპერებს შეეძლოთ კლასიფიკატორის მომზადება კომპანიის სპეციფიკური პოლიტიკის დოკუმენტების გამოყენებით. ეს საშუალებას მისცემს წითელი გუნდის მოდელს შეამოწმოს ჩატბოტები კონკრეტულ ორგანიზაციულ მითითებებთან შესაბამისობაში, რაც უზრუნველყოფს პერსონალიზაციისა და შესაბამისობის უფრო მაღალ დონეს.

რამდენადაც AI აგრძელებს წინსვლას, ცნობისმოყვარეობაზე ორიენტირებული წითელი გუნდის მნიშვნელობა არ შეიძლება გადაჭარბებული იყოს უსაფრთხო ხელოვნური ინტელექტის სისტემების უზრუნველსაყოფად. პოტენციური რისკების პროაქტიული იდენტიფიცირებით და მიდგომით, ეს მიდგომა ხელს უწყობს უფრო სანდო და საიმედო AI ჩეთბოტების განვითარებას, რომლებიც შეიძლება დამაჯერებლად განთავსდეს სხვადასხვა დომენებში.

ალექს მაკფარლანდი არის ხელოვნური ინტელექტის ჟურნალისტი და მწერალი, რომელიც იკვლევს ხელოვნურ ინტელექტის უახლეს მოვლენებს. ის თანამშრომლობდა მრავალრიცხოვან AI სტარტაპთან და პუბლიკაციებთან მთელ მსოფლიოში.