ხელოვნური ინტელექტი

შეგიძლიათ შექმნათ დიდი ენობრივი მოდელები, როგორიცაა ChatGPT, ნახევარ ფასად?

გამოქვეყნებულია

12 თვის წინ

შეიძლება 11, 2023

დიდი ენის მოდელები (LLM-ებმა), როგორიცაა GPT-3 და ChatGPT, მოახდინეს რევოლუცია AI-ში ბუნებრივი ენის გაგებისა და შინაარსის გენერირების შესაძლებლობების შეთავაზებით. მაგრამ მათ განვითარებას საკმაოდ მაღალი ფასი აქვს, რაც ზღუდავს ხელმისაწვდომობას და შემდგომ კვლევებს. მკვლევარები ვარაუდობენ, რომ GPT-3 სწავლება OpenAI-ს ღირდა $ 5 მილიონი. მიუხედავად ამისა, Microsoft-მა აღიარა პოტენციალი და ჩადო ინვესტიცია $ 1 მილიარდი წელს 2019 და $ 10 მილიარდი 2023 წელს OpenAI-ის GPT-3 და ChatGPT საწარმოში.

LLM არის მანქანათმცოდნეობის მოდელები, რომლებიც გაწვრთნილი არიან ვრცელ ტექსტურ მონაცემებზე NLP აპლიკაციებისთვის. ისინი დაფუძნებულია ტრანსფორმატორის არქიტექტურაზე და იყენებენ ყურადღების მექანიზმებს NLP ამოცანებისთვის, როგორიცაა კითხვა-პასუხი, მანქანური თარგმანი, განწყობის ანალიზი და ა.შ.

ჩნდება კითხვა: შეიძლება თუ არა ამ დიდი მოდელების ეფექტურობის გაზრდა და ამავე დროს შემცირდეს გამოთვლითი ღირებულება და ტრენინგის დრო?

რამდენიმე მიდგომა, მაგალითად პროგრესული ნერვული ქსელები, ქსელის მორფიზმი, შიდა ფენის მოდელის პარალელიზმი, ცოდნის მემკვიდრეობადა ა.შ. შემუშავებულია ნერვული ქსელების ტრენინგის გამოთვლითი ღირებულების შესამცირებლად. Ნოველა LiGO (ხაზოვანი ზრდის ოპერატორი) მიდგომა, რომელსაც ჩვენ განვიხილავთ, არის ახალი ნიშნულის დაყენება. ეს ორჯერ ამცირებს LLM-ების მომზადების გამოთვლით ღირებულებას.

ამ ტექნიკის განხილვამდე აუცილებელია LLM-ების დამზადების მაღალი ფასის ხელშემწყობი ფაქტორების გამოკვლევა.

დიდი ენობრივი მოდელების აგების ღირებულება

LLM-ების განვითარების სამი ძირითადი ხარჯი შემდეგია:

1. გამოთვლითი რესურსები

LLM-ების მშენებლობა მოითხოვს მასიური გამოთვლითი რესურსების მომზადებას მონაცემთა დიდ ნაკრებებზე. მათ უნდა დაამუშავონ მილიარდობით პარამეტრი და ისწავლონ რთული ნიმუშები მასიური ტექსტური მონაცემებიდან.

ინვესტიცია სპეციალიზებულ აპარატურაში, როგორიცაა გრაფიკული დამუშავების ერთეულები (GPUs) და ტენზორული დამუშავების ერთეულები (TPUs) საჭიროა LLM-ების მშენებლობისა და ტრენინგისთვის, რათა მიაღწიონ უახლესი ეფექტურობის მიღწევას.

მაგალითად, GPT-3 წვრთნილი იყო ა სუპერკომპიუტერი 10000 საწარმოს კლასის GPU (H100 და A100) და 285,000 CPU ბირთვით.

2. ენერგიის მოხმარება

LLM-ების მშენებლობისთვის საჭირო ინტენსიური გამოთვლითი რესურსები იწვევს ენერგიის მნიშვნელოვან მოხმარებას. მაგალითად, GPT-175-ის 3 მილიარდი პარამეტრის ვარჯიშს დასჭირდა 14.8 დღე 10,000 V100 GPU-ის გამოყენებით, რაც უდრის 3.55 მილიონ GPU საათს. ენერგიის მოხმარების ასეთ მაღალ დონეს ასევე აქვს მნიშვნელოვანი გარემოზე ზემოქმედება.

3. მონაცემთა შენახვა და მართვა

LLM-ები სწავლობენ მონაცემთა დიდ ნაკრებებზე. მაგალითად, GPT-3 გაწვრთნილი იყო ტექსტის უზარმაზარ კორპუსზე მონაცემები, მათ შორის Common Crawl, WebText2, Books1, Books2 და Wikipedia, სხვა წყაროებთან ერთად. მნიშვნელოვანი ინფრასტრუქტურის ინვესტიციაა საჭირო ამ მონაცემთა ნაკრების შეგროვების, კურირებისა და შესანახად.

ასევე, ღრუბლოვანი შენახვა საჭიროა მონაცემთა შესანახად, ხოლო ადამიანის გამოცდილება მონაცემთა წინასწარი დამუშავებისა და ვერსიის კონტროლისთვის. უფრო მეტიც, იმის უზრუნველყოფა, რომ თქვენი მონაცემთა სტრატეგია შეესაბამება რეგულაციებს, როგორიცაა GDPR, ასევე ზრდის ღირებულებას.

LiGO ტექნიკა: გაანახევრეთ დიდი ენობრივი მოდელების აგების ღირებულება

LiGO (ხაზოვანი ზრდის ოპერატორი) არის ახალი ტექნიკა, რომელიც შეიმუშავეს MIT-ის მკვლევარებმა, რათა შეამცირონ LLM-ების ტრენინგის გამოთვლითი ღირებულება 50%-ით. მეთოდი მოიცავს უფრო დიდი მოდელების წონების ინიციალიზაციას მცირე წინასწარ მომზადებული მოდელებისგან, რაც უზრუნველყოფს ნერვული ქსელების ეფექტურ სკალირებას.

სურათი ქაღალდიდან: წინასწარ მომზადებული მოდელების გაზრდის სწავლა ტრანსფორმატორის ეფექტური ტრენინგისთვის

იუნ კიმნაშრომის უფროსი ავტორი ამბობს:

„შეფასებულია, რომ ტრენინგის მოდელებს იმ მასშტაბით, რაზეც ChatGPT ვარაუდობენ, რომ შეიძლება მილიონობით დოლარი დასჭირდეს მხოლოდ ერთი ვარჯიშისთვის. შეგვიძლია გავაუმჯობესოთ ტრენინგის ამ მეთოდების ეფექტურობა, რათა მაინც მივიღოთ კარგი მოდელები ნაკლებ დროში და ნაკლებ ფულში? ჩვენ ვთავაზობთ ამის გაკეთებას უფრო მცირე ზომის ენობრივი მოდელების გამოყენებით, რომლებიც ადრე იყო მომზადებული. ”

ეს მეთოდი ინარჩუნებს უფრო დიდი მოდელების ეფექტურ სარგებელს, შემცირებული გამოთვლითი ხარჯებითა და ტრენინგის დროს შედარებით დიდი მოდელის ნულიდან ვარჯიშთან შედარებით. LiGO იყენებს მონაცემთა ხაზოვანი ზრდის ოპერატორს, რომელიც აერთიანებს სიღრმისა და სიგანის ოპერატორებს ოპტიმალური მუშაობისთვის.

ნაშრომმა გამოიყენა სხვადასხვა მონაცემთა ნაკრები ტექსტზე დაფუძნებული ექსპერიმენტების ჩასატარებლად, მათ შორის ინგლისური ვიკიპედიის კორპუსი BERT და RoBERTa მოდელების ტრენინგისთვის და C4 მონაცემთა ნაკრები GPT2-ის ტრენინგისთვის.

LiGO ტექნიკის ექსპერიმენტი მოიცავდა BERT-Small-ის გაზრდას BERT-Base-მდე, BERT-Base-დან BERT-Large-მდე, RoBERTaSmall-მდე RoBERTa-Base-მდე, GPT2-Base-მდე GPT2-Medium-მდე და CaiT-XS-მდე CaiT-S-მდე.

მკვლევარებმა შეადარეს თავიანთი მიდგომა რამდენიმე სხვა საბაზისო ხაზთან, მათ შორის ვარჯიში ნულიდან, პროგრესული ვარჯიში, bert2BERT და KI.

LiGO ტექნიკა გვთავაზობდა 44.7% დაზოგვას FLOP-ებში (მცურავი პუნქტიანი ოპერაციები წამში) და 40.7% დანაზოგი კედლის დროს ვიდრე BERT-Base-ის ვარჯიში ნულიდან BERT-Small მოდელის ხელახალი გამოყენებით. LiGO ზრდის ოპერატორი აჯობებს StackBERT-ს, MSLT-ს, bert2BERT-ს და KI-ს ეფექტური ვარჯიშებით.

ტრენინგის ოპტიმიზაციის ტექნიკის გამოყენების უპირატესობები LiGO-ს მსგავსად

LiGO არის ეფექტური ნერვული ქსელის ტრენინგის მეთოდი, რომელსაც აქვს სხვადასხვა სარგებელი, რომლებიც ჩამოთვლილია შემდეგნაირად:

1. უფრო სწრაფი ვარჯიში

როგორც უკვე აღვნიშნეთ, უფრო სწრაფი ვარჯიში არის LiGO ტექნიკის მთავარი უპირატესობა. ის ავარჯიშებს LLM-ებს ნახევარ დროში, ზრდის პროდუქტიულობას და ამცირებს ხარჯებს.

2. რესურსების ეფექტური

LiGO არის რესურს-ეფექტური, რადგან ის ამცირებს კედლის დროს და FLOP-ებს, რაც იწვევს უფრო ეკონომიურ და ეკოლოგიურ მიდგომას დიდი ტრანსფორმატორის მოდელების მომზადებისთვის.

3. განზოგადება

LiGO ტექნიკამ გააუმჯობესა როგორც ენის, ასევე მხედველობის ტრანსფორმატორების მუშაობა, რაც ვარაუდობს, რომ ეს არის განზოგადებული ტექნიკა, რომელიც შეიძლება გამოყენებულ იქნას სხვადასხვა ამოცანებზე.

კომერციული AI პროდუქტების შექმნა AI სისტემებთან დაკავშირებული საერთო ხარჯების მხოლოდ ერთი ასპექტია. ხარჯების კიდევ ერთი მნიშვნელოვანი კომპონენტი მოდის ყოველდღიური ოპერაციებიდან. მაგალითად, დაახლოებით OpenAI ღირს $700,000 ყოველდღე უპასუხეთ შეკითხვებს ChatGPT-ის გამოყენებით. მოსალოდნელია, რომ მკვლევარები გააგრძელებენ მიდგომების შესწავლას, რომლებიც გახდის LLM-ებს ხარჯთეფექტურს ტრენინგის დროს და უფრო ხელმისაწვდომს მუშაობის დროს.

AI-სთან დაკავშირებული მეტი შინაარსისთვის ეწვიეთ გაერთიანდეს.აი.