ხელოვნური ინტელექტი

დიდი ენის მოდელების შეფასება: ტექნიკური გზამკვლევი

გამოქვეყნებულია

3 თვის წინ

იანვარი 29, 2024

დიდი ენობრივი მოდელები (LLM), როგორიცაა GPT-4, Claude და LLaMA, პოპულარობით სარგებლობს. შთამბეჭდავად ადამიანის მსგავსი ტექსტის გენერირების უნარის წყალობით, ხელოვნური ინტელექტის ეს სისტემები ახლა გამოიყენება ყველაფრისთვის, კონტენტის შექმნიდან დაწყებული კლიენტების მომსახურების ჩატბოტებამდე.

მაგრამ როგორ გავიგოთ, არის თუ არა ეს მოდელები მართლაც კარგი? ახალი LLM-ების გამუდმებით გამოცხადებისას, ყველა აცხადებს, რომ უფრო დიდი და უკეთესია, როგორ შევაფასოთ და შევადაროთ მათი შესრულება?

ამ ყოვლისმომცველ სახელმძღვანელოში ჩვენ შევისწავლით დიდი ენის მოდელების შეფასების საუკეთესო ტექნიკას. ჩვენ განვიხილავთ თითოეული მიდგომის დადებით და უარყოფით მხარეებს, როდის გამოიყენება ისინი საუკეთესოდ და როგორ შეგიძლიათ გამოიყენოთ ისინი თქვენს საკუთარ LLM ტესტირებაში.

დავალების სპეციფიკური მეტრიკა

LLM-ის შეფასების ერთ-ერთი ყველაზე მარტივი გზაა მისი ტესტირება დადგენილ NLP ამოცანებზე სტანდარტიზებული მეტრიკის გამოყენებით. Მაგალითად:

შეჯამება

შემაჯამებელი ამოცანებისთვის, მეტრიკა, როგორიცაა წითელი (გახსენებაზე ორიენტირებული Understudy for Gisting Evaluation) ჩვეულებრივ გამოიყენება. ROUGE ადარებს მოდელის მიერ შექმნილ რეზიუმეს ადამიანის მიერ დაწერილ „მინიშნებას“ შეჯამებას, ითვლის სიტყვების ან ფრაზების გადაფარვას.

ROUGE-ს რამდენიმე არომატი აქვს, თითოეულს აქვს თავისი დადებითი და უარყოფითი მხარეები:

ROUGE-N: ადარებს n-გრამების გადაფარვას (N სიტყვების თანმიმდევრობას). რუჟი-1 იყენებს უნიგრამებს (ერთ სიტყვას), რუჟი-2 იყენებს ბიგრამებს და ა.შ. უპირატესობა ის არის, რომ ასახავს სიტყვების წესრიგს, მაგრამ შეიძლება იყოს ძალიან მკაცრი.
ROUGE-L: დაფუძნებულია ყველაზე გრძელ საერთო ქვემიმდევრობაზე (LCS). უფრო მოქნილი სიტყვების თანმიმდევრობით, მაგრამ ფოკუსირებულია ძირითად პუნქტებზე.
ROUGE-W: წონები LCS ემთხვევა მათი მნიშვნელობით. ROUGE-L-ის გაუმჯობესების მცდელობები.

ზოგადად, ROUGE მეტრიკა არის სწრაფი, ავტომატური და კარგად მუშაობს სისტემის შეჯამების რეიტინგისთვის. თუმცა, ისინი არ ზომავენ თანმიმდევრულობას ან მნიშვნელობას. შეჯამებამ შეიძლება მიიღოს მაღალი ROUGE ქულა და მაინც იყოს უაზრო.

ROUGE-N-ის ფორმულა არის:

$ROUGE-N = Σ ^{s \in {საცნობარო რეზიუმეები}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {საცნობარო რეზიუმეები}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

სად:

Count_{match}(gram_n) არის n-გრამების რაოდენობა როგორც გენერირებულ, ასევე საცნობარო შეჯამებაში.
Count(gram_n) არის n-გრამების რაოდენობა საცნობარო რეზიუმეში.

მაგალითად, ROUGE-1-ისთვის (უნიგრამები):

გენერირებული რეზიუმე: "კატა იჯდა."
რეზიუმე: ”კატა ხალიჩაზე იჯდა.”
გადახურული უნიგრამები: "The", "cat", "Sat"
ROUGE-1 ქულა = 3/5 = 0.6

ROUGE-L იყენებს ყველაზე გრძელ საერთო ქვემიმდევრობას (LCS). ეს უფრო მოქნილია სიტყვების თანმიმდევრობით. ფორმულა არის:

$ROUGE-L = მაქსიმალური (სიგრძე (გენერირებული), სიგრძე (მინიშნება)) L CS ( გენერირებული , მინიშნება )$

სად LCS არის ყველაზე გრძელი საერთო ქვემიმდევრობის სიგრძე.

რუჟ-ვ წონებს LCS-ის შესატყვისს. იგი ითვალისწინებს თითოეული მატჩის მნიშვნელობას LCS-ში.

თარგმანი

მანქანური თარგმანის ამოცანებისთვის, BLEU (Bilingual Evaluation Understudy) პოპულარული მეტრიკაა. BLEU ზომავს მსგავსებას მოდელის გამომავალ თარგმანსა და პროფესიონალურ ადამიანურ თარგმანებს შორის, ნ-გრამის სიზუსტისა და სიზუსტის ჯარიმის გამოყენებით.

ძირითადი ასპექტები, თუ როგორ მუშაობს BLEU:

ადარებს n-გრამების გადაფარვებს n-დან 4-მდე (უნიგრამები, ბიგრამები, ტრიგრამები, 4 გრამი).
ითვლის n-გრამის სიზუსტის გეომეტრიულ საშუალოს.
ვრცელდება მოკლედ ჯარიმაზე, თუ თარგმანი გაცილებით მოკლეა ვიდრე მითითება.
როგორც წესი, მერყეობს 0-დან 1-მდე, 1 არის სრულყოფილი შესატყვისი მითითებისთვის.

BLEU გონივრულად კარგად არის დაკავშირებული თარგმანის ხარისხის ადამიანურ შეფასებებთან. მაგრამ მას ჯერ კიდევ აქვს შეზღუდვები:

ზომავს სიზუსტეს მხოლოდ მითითებების მიმართ, არა გახსენება ან F1.
ებრძვის შემოქმედებით თარგმანს სხვადასხვა ფორმულირების გამოყენებით.
მიდრეკილია „თამაშის“ მიმართ მთარგმნელობითი ხრიკებით.

სხვა თარგმანის მეტრიკა, როგორიცაა METEOR და TER, ცდილობს გააუმჯობესოს BLEU-ის სისუსტეები. მაგრამ ზოგადად, ავტომატური მეტრიკა სრულად არ ასახავს თარგმანის ხარისხს.

სხვა ამოცანები

შეჯამებისა და თარგმანის გარდა, მეტრიკა, როგორიცაა F1, სიზუსტე, MSE და სხვა, შეიძლება გამოყენებულ იქნას LLM-ის შესრულების შესაფასებლად ისეთ ამოცანებზე, როგორიცაა:

ტექსტის კლასიფიკაცია
ინფორმაციის მოპოვება
კითხვაზე პასუხი
სენტიმენტის ანალიზი
გრამატიკული შეცდომების გამოვლენა

დავალების სპეციფიკური მეტრიკის უპირატესობა ის არის, რომ შეფასება შეიძლება იყოს სრულად ავტომატიზირებული, სტანდარტიზებული მონაცემთა ნაკრების გამოყენებით, როგორიცაა SQUAD ხარისხისთვის და წებო საორიენტაციო ნიშანი მთელი რიგი ამოცანებისთვის. შედეგები შეიძლება ადვილად თვალყური ადევნოთ დროთა განმავლობაში მოდელების გაუმჯობესებას.

თუმცა, ეს მეტრიკა არის ვიწრო ორიენტირებული და არ შეუძლია გაზომოს საერთო ენის ხარისხი. LLM-ები, რომლებიც კარგად ასრულებენ მეტრიკას ერთი ამოცანის შესასრულებლად, შესაძლოა ვერ გამოიმუშავონ თანმიმდევრული, ლოგიკური, ზოგადად გამოსადეგი ტექსტი.

კვლევის ეტალონები

LLM-ების შეფასების პოპულარული გზაა მათი ტესტირება ფართო კვლევის ეტალონებთან, რომლებიც მოიცავს მრავალფეროვან თემებსა და უნარებს. ეს კრიტერიუმები საშუალებას იძლევა მოდელების სწრაფი ტესტირება მასშტაბით.

ზოგიერთი ცნობილი კრიტერიუმი მოიცავს:

Სუპერ წებო - 11 მრავალფეროვანი ენობრივი დავალების რთული ნაკრები.
წებო – 9 წინადადების გაგების დავალების კრებული. უფრო მარტივი ვიდრე SuperGLUE.
MMLU – 57 სხვადასხვა STEM, სოციალური და ჰუმანიტარული დავალება. ამოწმებს ცოდნას და მსჯელობის უნარს.
ვინოგრადის სქემის გამოწვევა – ნაცვალსახელის გადაწყვეტის პრობლემები, რომლებიც საღი აზრის მსჯელობას მოითხოვს.
ARC - ბუნებრივი ენის მსჯელობის ამოცანების გამოწვევა.
ჰელასვაგი - საღი აზრი მსჯელობა სიტუაციებზე.
PIQA - ფიზიკის კითხვები, რომლებიც საჭიროებენ დიაგრამებს.

მსგავსი კრიტერიუმების შეფასებით, მკვლევარებს შეუძლიათ სწრაფად გამოსცადონ მოდელები მათემატიკის, ლოგიკის, მსჯელობის, კოდირების, საღი აზრისა და მრავალი სხვას შესრულების უნარზე. სწორად გაცემული კითხვების პროცენტული მაჩვენებელი ხდება მოდელების შედარების საორიენტაციო მეტრიკა.

თუმცა, კრიტერიუმების მთავარი პრობლემაა ტრენინგის მონაცემების დაბინძურება. ბევრი კრიტერიუმი შეიცავს მაგალითებს, რომლებიც უკვე ნახეს მოდელებმა წინასწარი ვარჯიშის დროს. ეს საშუალებას აძლევს მოდელებს "დაიმახსოვრე” პასუხობს კონკრეტულ კითხვებს და უკეთესად მუშაობს, ვიდრე მათი რეალური შესაძლებლობები.

მცდელობებია "დეკონტამინაცია” ეტალონები გადაფარვის მაგალითების ამოღებით. მაგრამ ამის ყოვლისმომცველი შესრულება რთულია, განსაკუთრებით მაშინ, როდესაც მოდელებს შესაძლოა ნახონ კითხვების პერიფრაზირებული ან თარგმნილი ვერსიები.

ასე რომ, მიუხედავად იმისა, რომ კრიტერიუმებს შეუძლიათ უნარების ფართო ნაკრები ეფექტურად გამოსცადონ, მათ არ შეუძლიათ საიმედოდ გაზომონ ჭეშმარიტი მსჯელობის შესაძლებლობები ან თავიდან აიცილონ ქულების ინფლაცია დაბინძურების გამო. საჭიროა შეფასების დამატებითი მეთოდები.

LLM თვითშეფასება

დამაინტრიგებელი მიდგომაა LLM-მა შეაფასოს სხვა LLM-ის შედეგები. იდეა არის "უფრო მარტივი" ამოცანის კონცეფციის გამოყენება:

მაღალი ხარისხის პროდუქტის წარმოება შეიძლება რთული იყოს LLM-ისთვის.
მაგრამ იმის დადგენა, არის თუ არა მოცემული გამომავალი მაღალი ხარისხის, შეიძლება უფრო მარტივი ამოცანა იყოს.

მაგალითად, მიუხედავად იმისა, რომ LLM შეიძლება იბრძოდეს ნულიდან ფაქტობრივი, თანმიმდევრული აბზაცის გენერირებაზე, მას უფრო ადვილად შეუძლია განსაჯოს, აქვს თუ არა მოცემული აბზაცი ლოგიკური აზრი და შეესაბამება კონტექსტს.

ასე რომ, პროცესი შემდეგია:

გადაიტანეთ შეყვანის მოთხოვნა პირველ LLM-ზე გამომავალი გენერირებისთვის.
გადაიტანეთ შეყვანის მოთხოვნა + გენერირებული გამომავალი მეორე „შეფასების“ LLM-ზე.
დაუსვით LLM შემფასებელს შეკითხვა გამომავალი ხარისხის შესაფასებლად. მაგ. "აქვს თუ არა ზემოთ მოცემულ პასუხს ლოგიკური აზრი?"

ეს მიდგომა სწრაფად განხორციელდება და ავტომატიზირებს LLM შეფასებას. მაგრამ არის გარკვეული გამოწვევები:

შესრულება დიდად არის დამოკიდებული LLM შემფასებლის არჩევანზე და სწრაფ ფორმულირებაზე.
თავდაპირველი დავალების სირთულით შეზღუდული. რთული მსჯელობის შეფასება ჯერ კიდევ რთულია LLM-ებისთვის.
შეიძლება იყოს გამოთვლითი ძვირი, თუ იყენებთ API-ზე დაფუძნებულ LLM-ებს.

თვითშეფასება განსაკუთრებით პერსპექტიულია მოძიებული ინფორმაციის შესაფასებლად RAG (აღდგენით გაძლიერებული თაობა) სისტემები. დამატებითი LLM მოთხოვნების შემოწმება შესაძლებელია, თუ მოძიებული კონტექსტი სათანადოდ გამოიყენება.

მთლიანობაში, თვითშეფასება აჩვენებს პოტენციალს, მაგრამ მოითხოვს სიფრთხილეს განხორციელებაში. ის ავსებს და არა ცვლის ადამიანის შეფასებას.

ადამიანის შეფასება

ავტომატური მეტრიკისა და კრიტერიუმების შეზღუდვების გათვალისწინებით, ადამიანის შეფასება ჯერ კიდევ ოქროს სტანდარტია LLM ხარისხის მკაცრი შეფასებისთვის.

ექსპერტებს შეუძლიათ დეტალური ხარისხობრივი შეფასებები:

სიზუსტე და ფაქტობრივი სისწორე
ლოგიკა, მსჯელობა და საღი აზრი
თანმიმდევრულობა, თანმიმდევრულობა და კითხვადობა
ტონის, სტილისა და ხმის შესაბამისობა
გრამატიკულობა და სრულყოფილება
კრეატიულობა და ნიუანსი

მოდელის შესაფასებლად ადამიანებს ეძლევათ შეყვანის მოთხოვნის ნაკრები და LLM-ის მიერ გენერირებული პასუხები. ისინი აფასებენ პასუხების ხარისხს, ხშირად იყენებენ შეფასების სკალებს და რუბრიკებს.

მინუსი არის ის, რომ ადამიანის ხელით შეფასება ძვირია, ნელი და რთულად მასშტაბური. ის ასევე მოითხოვს სტანდარტიზებული კრიტერიუმების შემუშავებას და ტრენინგის შემფასებლებს, რათა მათ თანმიმდევრულად გამოიყენონ.

ზოგიერთმა მკვლევარმა გამოიკვლია კრეატიული გზები ადამიანის LLM-ის შეფასებების დასაფინანსებლად, ტურნირის სტილის სისტემების გამოყენებით, სადაც ადამიანები ფსონებს დებენ და განსჯიან მოდელებს შორის შეჯახებაზე. მაგრამ გაშუქება ჯერ კიდევ შეზღუდულია სრულ სახელმძღვანელო შეფასებებთან შედარებით.

ბიზნეს გამოყენების შემთხვევებისთვის, სადაც ხარისხს უფრო მეტი მნიშვნელობა აქვს, ვიდრე ნედლეულის მასშტაბს, ექსპერტი ადამიანის ტესტირება რჩება ოქროს სტანდარტად, მიუხედავად მისი ხარჯებისა. ეს განსაკუთრებით ეხება LLM-ების უფრო სარისკო აპლიკაციებს.

დასკვნა

დიდი ენობრივი მოდელების საფუძვლიანად შეფასება მოითხოვს დამატებითი მეთოდების მრავალფეროვანი ინსტრუმენტთა ნაკრების გამოყენებას, ვიდრე რომელიმე ცალკეულ ტექნიკაზე დაყრდნობით.

სიჩქარისთვის ავტომატური მიდგომების გაერთიანებით და ადამიანის მკაცრი ზედამხედველობის სიზუსტისთვის, ჩვენ შეგვიძლია შევიმუშავოთ სანდო ტესტირების მეთოდოლოგია დიდი ენობრივი მოდელებისთვის. ძლიერი შეფასებით, ჩვენ შეგვიძლია გავხსნათ LLM-ების უზარმაზარი პოტენციალი მათი რისკების პასუხისმგებლობით მართვის დროს.

დაკავშირებული თემები:AI GPT ლამას metrics

შემდეგი

ნავიგაცია დეზინფორმაციის ეპოქაში: საქმე მონაცემთა ბაზაზე გენერაციული AI

არ გამოტოვოთ

სერვერის დასკვნის მომავალი დიდი ენობრივი მოდელებისთვის

აიუშ მიტალი

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.

Unite.AI

დიდი ენის მოდელების შეფასება: ტექნიკური გზამკვლევი

ხელოვნური ინტელექტი

დიდი ენის მოდელების შეფასება: ტექნიკური გზამკვლევი

სარჩევი