სტუბი გაუმჯობესებული ტექსტის ჩაშენების ტრენინგი დიდი ენის მოდელებით - Unite.AI
დაკავშირება ჩვენთან ერთად

სწრაფი ინჟინერია

გაუმჯობესებული ტექსტის ჩაშენების ტრენინგი დიდი ენობრივი მოდელებით

mm

გამოქვეყნებულია

 on

ტექსტის ჩაშენება არის სიტყვების, წინადადებების, აბზაცების ან დოკუმენტების ვექტორული წარმოდგენები, რომლებიც ასახავს მათ სემანტიკურ მნიშვნელობას. ისინი ემსახურებიან როგორც ძირითადი სამშენებლო ბლოკს მრავალი ბუნებრივი ენის დამუშავების (NLP) აპლიკაციებში დღეს, მათ შორის ინფორმაციის მოძიება, კითხვებზე პასუხის გაცემა, სემანტიკური ძიება და სხვა.

ვექტორის ჩანერგვა

ვექტორის ჩანერგვა

ბოლოდროინდელმა მიღწევებმა დიდი ენების მოდელებში (LLM), როგორიცაა GPT-3, აჩვენა შთამბეჭდავი შესაძლებლობები რამდენიმე დარტყმით სწავლისა და ბუნებრივი ენის გამომუშავებაში. შეგვიძლია გამოვიყენოთ LLM-ები ტექსტის ჩაშენების მდგომარეობის გასაუმჯობესებლად? მათ ნაშრომში "ტექსტის ჩაშენების გაუმჯობესება დიდი ენობრივი მოდელებით„მაიკროსოფტის მკვლევარები გვთავაზობენ ახალ მეთოდს, რომელიც აღწევს უმაღლეს შედეგებს LLM-ებით სინთეზური ტრენინგის მონაცემების გენერირებით და მასზე დაზუსტებით.

გამოწვევები არსებული მეთოდებით

ტექსტის ჩაშენების ტრადიციული ტექნიკა, როგორიცაა სიტყვების ვექტორების შეწონილი საშუალოები ან TF-IDF, ვერ ახერხებს ტექსტში მდიდარი კონტექსტური ინფორმაციის ადეკვატურად აღქმას. უფრო უახლესი მეთოდები, რომლებიც დაფუძნებულია წინასწარ გაწვრთნილ ენობრივ მოდელებზე, როგორიცაა BERT, იძენს ბევრად უკეთეს კონტექსტში გააზრებულ ჩაშენებებს.

თუმცა, მათ სჭირდებათ რთული მრავალსაფეხურიანი სასწავლო მილსადენები:

  • წინასწარ ივარჯიშეთ მილიარდობით სუსტად მარკირებული ან ხელოვნური ტექსტის წყვილზე
  • სრულყოფილად დაარეგულირეთ შეზღუდული ხელით შერჩეული მონაცემთა ნაკრები

ეს მოითხოვს უზარმაზარ გამოთვლით რესურსებს და ადამიანურ ძალისხმევას მონაცემთა შეგროვებისთვის. ტრენინგის მონაცემები ასევე შეზღუდულია მრავალფეროვნებითა და ენობრივი გაშუქებით. მაგალითად, BEIR საორიენტაციო მაჩვენებელი მოიცავს მონაცემთა ნაკრების მხოლოდ 15 ამოცანების ინგლისურ ენაზე.

არსებული მეთოდები უპირატესად იყენებენ BERT-ის სტილის უფრო მცირე არქიტექტურებს, როგორც ხერხემლის მოდელს. მათ არ შეუძლიათ ისარგებლონ უფრო მოწინავე LLM-ებით და მასთან დაკავშირებული ტექნიკით.

მეთოდოლოგია: სინთეტიკური მონაცემთა გენერაცია LLM-ებთან

ამ შეზღუდვების დასაძლევად მკვლევარები გვთავაზობენ ტრენინგის ახალ ერთსაფეხუროვან მიდგომას, რომელიც იყენებს LLM-ებს, როგორიცაა GPT-3 და GPT-4, რათა გამოიმუშაოს მრავალფეროვანი სინთეზური ტრენინგის მონაცემები.

ძირითადი ნაბიჯებია:

  1. დავალების ტაქსონომია: განსაზღვრეთ ტაქსონომია, რომელიც ანაწილებს ტექსტის ჩაშენების ამოცანებს:
    • ასიმეტრიული ამოცანები (შეკითხვა და დოკუმენტი და არა პარაფრაზი, მაგ. ძიება)
    • სიმეტრიული ამოცანები (შეკითხვა და დოკუმენტი არის პარაფრაზი, მაგ. სემანტიკური მსგავსება)
  2. სწრაფი დიზაინი: შექმენით თითოეული ამოცანის ტიპზე მორგებული სწრაფი შაბლონები, რომლებიც ხელმძღვანელობენ LLM-ს შესაბამისი ტრენინგის მაგალითების გენერირებაში.
  3. სინთეტიკური მონაცემთა გენერაცია: შესთავაზეთ LLM-ს შემუშავებული მოთხოვნით, შექმნას ასობით ათასი (შეკითხვა, დოკუმენტი) წყვილი, რომელიც მოიცავს სემანტიკური ამოცანების ფართო სპექტრს 93 ენაზე.
  4. მოდელის ტრენინგი: დააზუსტეთ ძლიერი ღია წყაროს LLM, როგორიცაა Mistral სინთეზურ მონაცემებზე კონტრასტული დანაკარგის გამოყენებით.

ეს მეთოდოლოგია საშუალებას გაძლევთ შექმნათ საკმაო სასწავლო მონაცემები მრავალფეროვანი ამოცანებისთვის მრავალ ენაზე, ადამიანის მარკირების ძალისხმევის გარეშე. LLM-ებში უკვე ჩადებული ცოდნის გამოყენებით ვებ მასშტაბის კორპუსებზე წინასწარი ტრენინგის საშუალებით, ჩვენ შეგვიძლია შევასრულოთ მაღალი ხარისხის მონაცემები, რომლებიც ზუსტად მორგებულია ტექსტის ჩაშენებაზე.

მკვლევარები ამას აჩვენებენ 2-საფეხურიანი მოთხოვნის სტრატეგიით:

  • მოითხოვეთ GPT-4, რომ შესთავაზოს პოტენციური ამოღების ამოცანები

მოთხოვნა მაღალი დონის მოძიების ამოცანების გენერირებისთვის

    მოთხოვნა მაღალი დონის მოძიების ამოცანების გენერირებისთვის
  • სთხოვეთ მას ხელახლა შექმნას (შეკითხვის, დოკუმენტის) ნიმუშები შემოთავაზებული ამოცანების საფუძველზე

n გენერირება (შეკითხვა, დადებითი, მძიმე უარყოფითი) სამეულები

    n გენერირება (შეკითხვა, დადებითი, მძიმე უარყოფითი) სამეულები

სწრაფი დიზაინის რამდენიმე ძირითადი ასპექტი:

  • ბუნებრივი ენა ითხოვს ინტუიციური ადამიანის მსგავსი ინსტრუქციების მიღებას
  • პლასჰოლდერები მრავალფეროვნების წახალისებისთვის (მაგ. მოთხოვნის სიგრძე, სიცხადე, დოკუმენტის სიგრძე)
  • მონაცემთა გაერთიანება მრავალი შაბლონიდან ერთი და იგივე დავალების ტიპისთვის
  • ენების შეწონვა რესურსების ხელმისაწვდომობის მიხედვით

საერთო ჯამში, მათ შეძლეს 500 ათასი ტექსტის ჩაშენების მაგალითების გენერირება 180 მილიონი ჟეტონის გამოთვლით. დომინანტური ენა იყო ინგლისური (43%), რასაც მოჰყვა პოლონური, იაპონური, იტალიური და სხვა.

მოდელის ტრენინგისთვის მათ აირჩიეს ღია კოდის 7B პარამეტრის დაზუსტება მისტრალი მოდელი BERT-ის სტილის პატარა არქიტექტურის ნაცვლად. ვინაიდან მისტრალი უკვე წინასწარ იყო გაწვრთნილი მასიურ ტექსტურ კორპუსებზე, დამატებითი კონტრასტული წინასწარი მომზადება არ იყო საჭირო. მისი დამატებამ უმნიშვნელო გაუმჯობესება გამოიწვია.

მთლიანმა დაზუსტებამ გაიარა 1-ზე ნაკლები ნაბიჯი, სინთეტიკური და ადამიანის ეტიკეტირებული მონაცემების ნაზავის გამოყენებით. ეს აჩვენებს შემოთავაზებული მიდგომის ნიმუშის ეფექტურობას.

შედეგები

მკვლევარებმა შეაფასეს თავიანთი მოდელი MTEB ბენჩმარკზე, რომელიც მოიცავს მრავალფეროვან ამოცანებს კლასიფიკაციის, კლასტერიზაციის, სემანტიკური მსგავსების, შეჯამებისა და ინფორმაციის მოძიებაში.

მათი მოდელი საშუალო ქულით 2.4 ქულით აჯობა წინა უახლესი დონესახალი რეკორდების დამყარება თითქმის ყველა კატეგორიაში:

მოდელიწინა SOTAშემოთავაზებული მოდელი
კლასიფიკაცია76.078.5
კლასტერული46.150.3
წყვილთა კლასიფიკაცია87.188.3
რერანგის შეცვლა60.060.2
მოძიება54.356.9
STS83.184.6
შეჯამება31.631.4
საშუალო64.266.6

აღსანიშნავია, რომ ეტიკეტირებული მონაცემების გამოყენებისა და მხოლოდ სინთეზურ მონაცემებზე ვარჯიშის გარეშეც კი, მან მიაღწია კონკურენტულ სიზუსტეს - მხოლოდ 3.5 ქულით ჩამორჩება სრულად ზედამხედველობის მოდელს. ეს გვიჩვენებს ტექსტის ჩაშენების გენერირების სიცოცხლისუნარიანობას მხოლოდ LLM-ების გამოყენებით, ადამიანის ანოტაციის ძალისხმევის გარეშე.

მკვლევარებმა ასევე შეაფასეს მრავალენოვანი MIRACL საორიენტაციო მაჩვენებელი, რომელიც მოიცავს 18 ენას. მათმა მოდელმა აჯობა წინა საუკეთესოებს მაღალი რესურსების მქონე ენებზე, მაგრამ უფრო სუსტი იყო დაბალი რესურსის ენებზე. ისინი ვარაუდობენ, რომ ამის შერბილება შესაძლებელია LLM-ების წინასწარი სწავლებით დაბალი რესურსის ენებზე.

მოკლედ, LLM-ის მიერ გენერირებულ სინთეზურ მონაცემებზე გაწვრთნილი ტექსტის ჩაშენებები აყალიბებს ახალ თანამედროვე შედეგებს, ხოლო იყენებს უფრო მარტივ და ეფექტურ ტრენინგს წინა მრავალსაფეხურიან მიდგომებთან შედარებით. სწრაფი საინჟინრო და სინთეზური მონაცემების ხარისხის შემდგომი კვლევებით, ამ მეთოდოლოგიას შეუძლია მნიშვნელოვნად გააუმჯობესოს მრავალენოვანი ტექსტის ჩაშენება.

ანალიზი

ეს ნამუშევარი გვთავაზობს რამდენიმე ღირებულ მიდგომას:

  • LLM-ებს, როგორიცაა GPT-3 და GPT-4, აქვთ შთამბეჭდავი უნარი შექმნან მაღალი ხარისხის სინთეზური ტრენინგის მონაცემები მრავალფეროვანი NLP ამოცანებისთვის, როდესაც სათანადოდ მოთხოვნილი იქნება. ამან შეიძლება შეამციროს ადამიანის მიერ მონიშნულ მონაცემებზე დამოკიდებულება.
  • ტექსტის ჩაშენებისთვის, კონტრასტული წინასწარი ვარჯიში იძლევა უმნიშვნელო მოგებას მხოლოდ დახვეწილი რეგულირების მოდელებთან შედარებით, როგორიცაა Mistral, რომლებსაც უკვე აქვთ ტრილიონი მასშტაბის წინასწარი მომზადება. ეს არის მნიშვნელოვანი ხედვა ტრენინგის ეფექტურობის შესახებ.
  • გაძლიერებული გენერაციის მეთოდების მოძიება საშუალებას აძლევს LLM-ებს დინამიურად წვდომა მიიღონ გარე ცოდნაზე. ამიტომ ტექსტის ჩაშენების გაუმჯობესება ღირებულია ამ LLM-ების გასაძლიერებლად.
  • დაბალ რესურსის ენებში გაუმჯობესების მნიშვნელოვანი ადგილია. მრავალენოვანი LLM-ები, რომლებიც წინასწარ მომზადებულნი არიან უფრო წარმომადგენლობით მონაცემებზე, შეიძლება დაგვეხმაროს ამ ხარვეზის დაფარვაში.
  • კონცეპტუალურად, ენის მოდელირება და ტექსტის ჩაშენება ერთი და იგივე მონეტის ორი მხარეა - ენის სემანტიკის გაგება. სინთეზური მონაცემების მოთხოვნით, LLM-ები შეიძლება ორგანულად დაზუსტდეს ჩაშენებულებში რთული მილსადენების გარეშე.

ზოგიერთი პერსპექტიული მიმართულება მომავალი მუშაობისთვის მოიცავს:

  • ღია კოდის LLM-ების გამოყენება, როგორიცაა GPT-NeoX, სინთეტიკური მონაცემების გენერირებისთვის
  • მსუბუქი ტრენინგის შემდგომი შესწავლა, რათა მოერგოს ჩაშენებულებს უფრო ხანგრძლივ კონტექსტში
  • სწრაფი საინჟინრო ტექნიკის შემუშავება ხარისხისა და ამოცანების გაშუქების გასაკონტროლებლად
  • სამრეწველო გამოყენებისათვის დასკვნის შეყოვნებისა და შენახვის ხარჯების გაუმჯობესების მეთოდები

კრიტერიუმების მიღმა, დიდი ენობრივი მოდელების გამოყენება ტექსტის ჩაშენების გასაუმჯობესებლად ხსნის საინტერესო შესაძლებლობებს მომავლისთვის. რამდენადაც LLM-ები აგრძელებენ წინსვლას ბუნებრივ ენაზე ოსტატობის სფეროში, მათი უნარი ასევე გაუმჯობესდება მაღალი სიზუსტით სინთეზური მონაცემების გენერირებისთვის.

თუმცა, კრიტიკული კვლევის მიმართულებები რჩება ამ პოტენციალის რეალურ სამყაროში ზემოქმედებად გადაქცევისთვის.

პერსონალიზაცია და კონტროლი

სინთეზური მონაცემების მთავარი უპირატესობა არის პროგრამულად გენერირების შესაძლებლობა, რომელიც მორგებულია კონკრეტულ საჭიროებებზე. როგორც ნაშრომმა აჩვენა, სწრაფი ინჟინერია საშუალებას გაძლევთ შექმნათ სასწავლო მონაცემები ასობით ათასი ჩაშენებული ამოცანისთვის.

მიუხედავად ამისა, თანამედროვე დიზაინის პრაქტიკა უფრო ხელოვნებად რჩება, ვიდრე მეცნიერებად. სისტემატური, გამეორებადი მეთოდების შემუშავება გენერირებული მონაცემების თვისებების ზუსტად გასაკონტროლებლად გაზრდის ამ ტექნიკის გამოყენებადობას.

მაგალითად, მაგალითების სირთულის, გაურკვევლობისა და სიახლეების ისეთი ფაქტორების მოდულირების ტექნიკამ შეიძლება დაგვეხმაროს ქვედა დინების ამოცანების გამძლეობის საკითხების მოგვარებაში. დინამიური სწრაფი თაობა რეალურ სამყაროში განვითარებადი დისტრიბუციების შესატყვისად კიდევ ერთი ღია გამოწვევაა.

ტრენინგი მასშტაბით

მიუხედავად იმისა, რომ წინასწარ მომზადებული LLM-ები უკვე კოდირებენ არსებით ენობრივ ცოდნას, მათი მონაცემთა გენერირების უნარები, სავარაუდოდ, კიდევ უფრო გაუმჯობესდება დამატებითი მასშტაბით. მოდელები, როგორიცაა GPT-4, გაწვრთნილი ტრილიონობით ინტერნეტ ტექსტის ნიშნებზე, ავლენენ ძლიერ სწავლებას, მაგრამ არ არის ოპტიმიზირებული სპეციალურად სასწავლო მონაცემების სინთეზისთვის.

არქიტექტურა და მიზნები, რომლებიც მორგებულია ვებ-მასშტაბზე თვითმმართველობითი ზედამხედველობის მქონე მონაცემთა გენერირებისთვის, შეიძლება მნიშვნელოვნად გააუმჯობესოს ამ მეთოდოლოგიის ხარისხი და ეფექტურობა. მოძიებული ცოდნის ეფექტური ინტეგრაცია მიღებული ცოდნის შესავსებად კიდევ ერთი პერსპექტიული მიმართულებაა.

მრავალამოცანა და მრავალენოვანი

როგორც ნაშრომში აღინიშნა, დაბალი რესურსის ენებზე მუშაობის გაუმჯობესება კვლავ პრობლემად რჩება. იმის ნაცვლად, რომ წინასწარ მოამზადოთ ერთი მასიური LLM, ალტერნატივა არის მცირე ექსპერტთა მოდელების ფლოტის სწავლება, რომლებიც სპეციალიზირებულნი არიან მონაცემთა კონკრეტულ მოდალობაში ან ენობრივ დომენებში.

ასეთი ანსამბლის მიდგომა შეიძლება დაეხმაროს იშვიათ ამოცანებისა და ენების გაშუქების გაუმჯობესებას ექსპერტების მიერ ნასწავლი წარმოდგენების გაზიარებით. დროთა განმავლობაში ენისა და ამოცანების გამოცდილების გაფართოების მუდმივი სწავლა ასევე საინტერესო პერსპექტივაა.

დასასრულს, ეს ნაშრომი წარმოგიდგენთ ინოვაციურ კონცეფციას სასწავლო მონაცემების სინთეზის შესახებ LLM-ებიდან, რათა შეიქმნას პერსპექტიული ტექსტური ჩაშენებები. მათი შედეგები ადასტურებს ამ მეთოდოლოგიის ეფექტურობას, რაც აღემატება წინა კრიტერიუმებს. როგორც LLM-ები და სინთეზური მონაცემების ტექნიკა პროგრესირებს, მათი ცოდნის გამოყენება ჩაშენებლების მომზადებისთვის შეიძლება გახდეს უაღრესად პერსპექტიული მიმართულება.

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.