Refresh

This website www.unite.ai/ka/mistral-ais-latest-mixture-of-experts-moe-8x7b-model/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

სტუბი Mistral AI-ის ექსპერტთა უახლესი ნაზავი (MoE) 8x7B მოდელი - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

Mistral AI-ის უახლესი ექსპერტთა ნაზავი (MoE) 8x7B მოდელი

mm

გამოქვეყნებულია

 on

ექსპერტთა ნაზავი მისტრალ აი

მისტრალი AI რომელიც არის პარიზში დაფუძნებული ღია კოდის მოდელის სტარტაპი, დაუპირისპირდა ნორმებს მისი უახლესი დიდი ენობრივი მოდელის (LLM) გამოქვეყნებით, MoE 8x7B, მარტივი ვერსიით. ტორენტის ლინკი. ეს ეწინააღმდეგება Google-ის ტრადიციულ მიდგომას ტყუპების გამოშვებასთან, რაც იწვევს საუბრებს და აღფრთოვანებას AI საზოგადოებაში.

Mistral AI-ის მიდგომა გამოშვებისადმი ყოველთვის არატრადიციული იყო. ხშირად უგულებელვყოფთ ნაშრომების, ბლოგების ან პრესრელიზების ჩვეულებრივ თანხლებებს, მათი სტრატეგია ცალსახად ეფექტური იყო ხელოვნური ინტელექტის საზოგადოების ყურადღების მიპყრობაში.

ცოტა ხნის წინ კომპანიამ საოცარ წარმატებას მიაღწია $ 2 მილიარდი შეფასებით ანდრესენ ჰოროვიცის ხელმძღვანელობით დაფინანსების რაუნდის შემდეგ. დაფინანსების ეს რაუნდი ისტორიული იყო, დაამყარა რეკორდი 118 მილიონი დოლარის სათესლე რაუნდით, ყველაზე დიდი ევროპის ისტორიაში. დაფინანსების წარმატებების გარდა, Mistral AI-ის აქტიური ჩართულობა ევროკავშირის AI აქტის ირგვლივ დისკუსიებში, რომელიც მხარს უჭერს შემცირებული რეგულირების ღია კოდის AI-ში.

რატომ იპყრობს ყურადღებას MoE 8x7B

აღწერილი, როგორც „შემცირებული GPT-4“, Mixtral 8x7B იყენებს ექსპერტთა ნარევს (MoE) რვა ექსპერტთან ერთად. თითოეულ ექსპერტს აქვს 111B პარამეტრი, 55B საზიარო ყურადღების პარამეტრებთან ერთად, რათა მოდელზე სულ 166B პარამეტრი იყოს. დიზაინის ეს არჩევანი მნიშვნელოვანია, რადგან ის საშუალებას აძლევს მხოლოდ ორ ექსპერტს ჩაერთოს თითოეული ტოკენის დასკვნაში, რაც ხაზს უსვამს გადასვლას უფრო ეფექტური და ორიენტირებული AI დამუშავებისკენ.

Mixtral-ის ერთ-ერთი მთავარი მახასიათებელია მისი უნარი მართოს 32,000 ჟეტონისგან შემდგარი ვრცელი კონტექსტი, რაც უზრუნველყოფს კომპლექსური ამოცანების შესასრულებლად ფართო შესაძლებლობებს. მოდელის მრავალენოვანი შესაძლებლობები მოიცავს ინგლისური, ფრანგული, იტალიური, გერმანული და ესპანური ენის მძლავრ მხარდაჭერას, რაც ემსახურება გლობალური დეველოპერების საზოგადოებას.

Mixtral-ის წინასწარი სწავლება მოიცავს ღია ქსელიდან მოპოვებულ მონაცემებს, ერთდროული ტრენინგის მიდგომით როგორც ექსპერტებისთვის, ასევე მარშრუტიზატორებისთვის. ეს მეთოდი უზრუნველყოფს, რომ მოდელი არ იყოს მხოლოდ ვრცელი თავის პარამეტრულ სივრცეში, არამედ კარგად არის მორგებული იმ უზარმაზარი მონაცემების ნიუანსებზე, რომლებსაც იგი ექვემდებარება.

Mixtral 8x7B აღწევს შთამბეჭდავ ქულას

მიქსტრალი 8x7B აღწევს შთამბეჭდავ ქულას

Mixtral 8x7B აჯობებს LLaMA 2 70B-ს და კონკურენტს GPT-3.5-ს, განსაკუთრებით შესამჩნევია MBPP-ის ამოცანაში 60.7% წარმატების კოეფიციენტით, რაც მნიშვნელოვნად აღემატება მის კოლეგებს. მკაცრი MT-Bench-შიც კი, რომელიც მორგებულია ინსტრუქციის მიმდევრ მოდელებზე, Mixtral 8x7B აღწევს შთამბეჭდავ ქულას, თითქმის ემთხვევა GPT-3.5-ს.

ექსპერტთა ნარევის (MOE) ჩარჩოს გაგება

ექსპერტთა ნაზავი (MoE) მოდელი, მიუხედავად იმისა, რომ ბოლო დროს მიიპყრო ყურადღება უახლესი ენების მოდელებში, როგორიცაა Mistral AI-ს MoE 8x7B, ფაქტობრივად დაფუძნებულია რამდენიმე წლით დათარიღებულ ფუნდამენტურ კონცეფციებში. მოდით გადავხედოთ ამ იდეის სათავეებს ძირითადი კვლევითი ნაშრომების მეშვეობით.

განათლების სამინისტროს კონცეფცია

ექსპერტთა ნარევი (MOE) წარმოადგენს პარადიგმის ცვლილებას ნერვული ქსელის არქიტექტურაში. ტრადიციული მოდელებისგან განსხვავებით, რომლებიც იყენებენ სინგულარულ, ჰომოგენურ ქსელს ყველა ტიპის მონაცემების დასამუშავებლად, სამინისტრო იყენებს უფრო სპეციალიზებულ და მოდულურ მიდგომას. იგი შედგება მრავალი „ექსპერტის“ ქსელისგან, რომელთაგან თითოეული შექმნილია კონკრეტული ტიპის მონაცემების ან ამოცანების შესასრულებლად, რომელსაც ზედამხედველობს „გასაღების ქსელი“, რომელიც დინამიურად მიმართავს შეყვანის მონაცემებს ყველაზე შესაბამის ექსპერტთან.

ექსპერტთა ნაზავი (MoE) ფენა, რომელიც ჩართულია განმეორებადი ენის მოდელში

ექსპერტთა ნაზავი (MoE) ფენა, რომელიც ჩართულია განმეორებადი ენის მოდელში (წყარო)

 

ზემოთ მოყვანილი სურათი წარმოგიდგენთ ენობრივ მოდელში ჩაშენებული MoE ფენის მაღალი დონის ხედს. არსებითად, გარემოს დაცვის ფენა მოიცავს მრავალჯერადი მიწოდების ქვექსელებს, რომლებსაც უწოდებენ "ექსპერტებს", თითოეულს აქვს პოტენციალი სპეციალიზირებული იყოს მონაცემთა სხვადასხვა ასპექტების დამუშავებაში. დიაგრამაზე ხაზგასმული კარიბჭე ქსელი განსაზღვრავს ამ ექსპერტების რომელი კომბინაციაა ჩართული მოცემული შეყვანისთვის. ეს პირობითი გააქტიურება საშუალებას აძლევს ქსელს მნიშვნელოვნად გაზარდოს თავისი სიმძლავრე გამოთვლითი მოთხოვნის შესაბამისი ზრდის გარეშე.

MoE ფენის ფუნქციონირება

პრაქტიკაში, კარიბჭე ქსელი აფასებს შეყვანას (აღნიშნულია როგორც G(x) დიაგრამაში) და ირჩევს ექსპერტთა მწირ ჯგუფს მის დასამუშავებლად. ეს შერჩევა მოდულირებულია კარიბჭის ქსელის შედეგებით, რაც ეფექტურად განსაზღვრავს თითოეული ექსპერტის „ხმას“ ან წვლილს საბოლოო გამომუშავებაში. მაგალითად, როგორც დიაგრამაზეა ნაჩვენები, მხოლოდ ორი ექსპერტი შეიძლება შეირჩეს თითოეული კონკრეტული შეყვანის ნიშნისთვის გამოსავლის გამოსათვლელად, რაც პროცესს ეფექტურს გახდის გამოთვლითი რესურსების კონცენტრაციით იქ, სადაც ისინი ყველაზე მეტადაა საჭირო.

 

ტრანსფორმატორის შიფრატორი MoE ფენებით (წყარო)

ზემოთ მოყვანილი მეორე ილუსტრაცია უპირისპირდება ტრადიციულ ტრანსფორმატორის შიფრატორს, რომელიც გაძლიერებულია MoE ფენით. ტრანსფორმატორის არქიტექტურა, რომელიც ფართოდ არის ცნობილი ენასთან დაკავშირებულ ამოცანებში თავისი ეფექტურობით, ტრადიციულად შედგება თანმიმდევრობით დაწყობილი თვითყურადღების და წინსვლის ფენებისგან. MoE ფენების დანერგვა ცვლის ამ მიწოდების ზოგიერთ ფენას, რაც საშუალებას აძლევს მოდელს უფრო ეფექტურად გაზარდოს მოცულობა.

გაძლიერებულ მოდელში, MoE ფენები დანაწილებულია მრავალ მოწყობილობაზე, რაც აჩვენებს მოდელის პარალელურ მიდგომას. ეს კრიტიკულია ძალიან დიდ მოდელებზე სკალირებისას, რადგან ის იძლევა გამოთვლითი დატვირთვისა და მეხსიერების მოთხოვნების განაწილებას მოწყობილობების კლასტერზე, როგორიცაა GPU ან TPU. ეს დაშლა აუცილებელია მილიარდობით პარამეტრის მქონე მოდელების ეფექტური ტრენინგისა და განლაგებისთვის, რასაც მოწმობს ასობით მილიარდიდან ტრილიონზე მეტი პარამეტრის მქონე მოდელების მომზადება დიდმასშტაბიან გამოთვლით კლასტერებზე.

Sparse MoE Approach with Instruction Tuning on LLM

ნაშრომი სახელწოდებით "Sparse Mixture-of-Experts (MoE) მასშტაბური ენის მოდელირებისთვის” განიხილავს ინოვაციურ მიდგომას დიდი ენობრივი მოდელების (LLMs) გასაუმჯობესებლად ექსპერტთა ნარევის არქიტექტურის ინსტრუქციების დარეგულირების ტექნიკებთან ინტეგრირებით.

იგი ხაზს უსვამს საერთო გამოწვევას, როდესაც MoE მოდელები ნაკლებად ასრულებენ თანაბარი გამოთვლითი სიმძლავრის მჭიდრო მოდელებთან შედარებით, როდესაც სრულყოფილად არეგულირებენ კონკრეტულ ამოცანებს, ზოგადი წინასწარ ტრენინგსა და დავალების სპეციფიკურ დაზუსტებას შორის შეუსაბამობის გამო.

ინსტრუქციების დაყენება არის ტრენინგის მეთოდოლოგია, სადაც მოდელები დახვეწილია ბუნებრივი ენის ინსტრუქციების უკეთ შესასრულებლად, რაც ეფექტურად აუმჯობესებს მათ დავალების შესრულებას. ნაშრომი ვარაუდობს, რომ MoE მოდელები აჩვენებენ შესამჩნევ გაუმჯობესებას ინსტრუქციების დარეგულირებასთან ერთად, უფრო მეტად, ვიდრე მათი მკვრივი კოლეგები. ეს ტექნიკა ასწორებს მოდელის წინასწარ გაწვრთნილ წარმოდგენებს, რათა უფრო ეფექტურად მიჰყვეს ინსტრუქციებს, რაც იწვევს შესრულების მნიშვნელოვან ზრდას.

მკვლევარებმა ჩაატარეს კვლევები სამ ექსპერიმენტულ პარამეტრზე, და აჩვენეს, რომ MoE მოდელები თავდაპირველად არასაკმარისად ასრულებენ უშუალო დავალებას სპეციფიკურ დაზუსტებას. თუმცა, როდესაც გამოიყენება ინსტრუქციის tuning, MoE მოდელები გამოირჩევიან, განსაკუთრებით მაშინ, როდესაც დამატებით დაემატება დავალების დაზუსტება. ეს ვარაუდობს, რომ ინსტრუქციების დარეგულირება სასიცოცხლო მნიშვნელობის ნაბიჯია MoE მოდელებისთვის, რათა აღემატებოდეს მკვრივ მოდელებს ქვედა დინების ამოცანებზე.

ინსტრუქციის დარეგულირების ეფექტი MOE-ზე

ინსტრუქციის დარეგულირების ეფექტი MOE-ზე

იგი ასევე წარმოგიდგენთ FLAN-MOE32B, მოდელს, რომელიც აჩვენებს ამ კონცეფციების წარმატებულ გამოყენებას. აღსანიშნავია, რომ ის აჯობებს FLAN-PALM62B-ს, მკვრივ მოდელს, საორიენტაციო ამოცანებს, ხოლო გამოთვლითი რესურსების მხოლოდ მესამედს იყენებს. ეს გვიჩვენებს მწირი MoE მოდელების პოტენციალს ინსტრუქციების რეგულირებასთან ერთად, რათა შეიქმნას ახალი სტანდარტები LLM ეფექტურობისა და შესრულებისთვის.

ექსპერტთა ნარევის განხორციელება რეალურ სამყაროში სცენარებში

MoE მოდელების მრავალფეროვნება მათ იდეალურს ხდის სხვადასხვა აპლიკაციებისთვის:

  • ბუნებრივი ენის დამუშავება (NLP): MoE მოდელებს შეუძლიათ უფრო ეფექტურად გაუმკლავდნენ ადამიანის ენის ნიუანსებსა და სირთულეებს, რაც მათ იდეალურს ხდის მოწინავე NLP ამოცანებისთვის.
  • სურათის და ვიდეოს დამუშავება: ამოცანებისას, რომლებიც საჭიროებენ მაღალი გარჩევადობის დამუშავებას, MoE-ს შეუძლია მართოს სურათების ან ვიდეო ჩარჩოების სხვადასხვა ასპექტები, გაზარდოს როგორც ხარისხი, ასევე დამუშავების სიჩქარე.
  • რეგულირებადი AI გადაწყვეტილებები: ბიზნესს და მკვლევარებს შეუძლიათ მორგონ განათლების სამინისტროს მოდელები კონკრეტულ ამოცანებზე, რაც გამოიწვევს უფრო მიზანმიმართულ და ეფექტურ AI გადაწყვეტილებებს.

გამოწვევები და მოსაზრებები

მიუხედავად იმისა, რომ განათლების სამინისტროს მოდელები მრავალ სარგებელს გვთავაზობენ, ისინი ასევე წარმოადგენენ უნიკალურ გამოწვევებს:

  • სირთულე ტრენინგსა და ტუნინგში: სამინისტროს მოდელების განაწილებულმა ბუნებამ შეიძლება გაართულოს ტრენინგის პროცესი, რაც მოითხოვს ექსპერტების და კარიბჭის ქსელის ფრთხილად დაბალანსებას და რეგულირებას.
  • Რესურსების მართვა: გამოთვლითი რესურსების ეფექტური მართვა მრავალრიცხოვან ექსპერტებს შორის გადამწყვეტია ME მოდელების უპირატესობების მაქსიმალურად გაზრდისთვის.

MoE ფენების ჩართვა ნერვულ ქსელებში, განსაკუთრებით ენობრივი მოდელების დომენში, გვთავაზობს გზას მოდელების სკალირებისაკენ იმ ზომებამდე, რომელიც ადრე შეუძლებელი იყო გამოთვლითი შეზღუდვების გამო. პირობითი გამოთვლა, რომელიც ჩართულია MoE ფენებით, იძლევა გამოთვლითი რესურსების უფრო ეფექტურ განაწილებას, რაც შესაძლებელს გახდის უფრო დიდი, უფრო ეფექტური მოდელების მომზადებას. ვინაიდან ჩვენ ვაგრძელებთ მეტის მოთხოვნას ჩვენი AI სისტემებისგან, არქიტექტურები, როგორიცაა MoE-ით აღჭურვილი ტრანსფორმატორი, სავარაუდოდ, გახდება სტანდარტი რთული, ფართომასშტაბიანი ამოცანების შესასრულებლად სხვადასხვა დომენებში.

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.