სტუბი BlackMamba: ექსპერტთა ნაზავი სახელმწიფო-კოსმოსური მოდელებისთვის - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

BlackMamba: ექსპერტთა ნაზავი სახელმწიფო-კოსმოსური მოდელებისთვის

mm

გამოქვეყნებულია

 on

BlackMamba: ექსპერტთა ნაზავი სახელმწიფო-კოსმოსური მოდელებისთვის

მხოლოდ დეკოდერის ტრანსფორმატორის მოდელებისგან აგებულმა Large Language Models (LLMs) შემუშავებამ გადამწყვეტი როლი ითამაშა ბუნებრივი ენის დამუშავების (NLP) დომენის ტრანსფორმაციაში, ისევე როგორც ღრმა სწავლების მრავალფეროვანი აპლიკაციების წინსვლაში. გაძლიერების სწავლება, დროის სერიების ანალიზი, გამოსახულების დამუშავება და მრავალი სხვა. თუმცა, მიუხედავად მათი მასშტაბურობისა და ძლიერი მუშაობისა, LLM-ები, რომლებიც აშენებულია მხოლოდ დეკოდერის ტრანსფორმატორის მოდელებისგან, მაინც განიცდიან მნიშვნელოვან ხარვეზებს. მიუხედავად იმისა, რომ ექსპრესიულია, ყურადღების მექანიზმი ტრანსფორმატორიდან მიღებული LLM-ებში მოითხოვს მაღალ გამოთვლით რესურსებს, როგორც დასკვნის, ასევე ტრენინგის დროს, რაც მოითხოვს არსებით მეხსიერებას მიმდევრობის სიგრძისა და კვადრატული FLOP-ებისთვის. ეს მაღალი გამოთვლითი მოთხოვნა ზღუდავს ტრანსფორმატორის მოდელების კონტექსტის სიგრძეს, აქცევს ავტორეგრესიული გენერირების ამოცანებს პროპორციულად ძვირი მასშტაბით და აფერხებს მონაცემთა უწყვეტი ნაკადების სწავლას და ჭეშმარიტად შეუზღუდავი თანმიმდევრობის დამუშავების შესაძლებლობას.

Ბოლო დროს, სახელმწიფო კოსმოსური მოდელები (SSM-ებმა) აჩვენეს შესანიშნავი შესაძლებლობები და შესრულება, კონკურენციას უწევენ ტრანსფორმატორულ-არქიტექტურულ მოდელებს ფართომასშტაბიანი მოდელირების ეტალონებში, ხოლო მიაღწიეს მეხსიერების სირთულეს მიმდევრობის სიგრძისა და წრფივი დროის ფუნქციის მიხედვით. უფრო მეტიც, Mamba, ახლახან გამოშვებულმა სახელმწიფო კოსმოსურმა მოდელმა, აჩვენა შესანიშნავი შესრულება ენის მოდელირებისა და გრძელი თანმიმდევრობის დამუშავების ამოცანების მიმართ. ამავდროულად, Mixture of Expert (MoE) მოდელებმა ასევე აჩვენეს შთამბეჭდავი შესრულება, ხოლო მნიშვნელოვნად შეამცირეს დასკვნის შეყოვნება და გამოთვლითი ხარჯები, თუმცა უფრო დიდი მეხსიერების ანაბეჭდის ხარჯზე. Mamba-სა და MoE-ის მოდელებზე დაყრდნობით, ეს სტატია განიხილავს BlackMamba-ს, ახალ არქიტექტურას, რომელიც აერთიანებს Mamba State Space Model-ს და MoE მოდელებს, რათა გამოიყენოს ორივე ჩარჩოს მიერ შემოთავაზებული უპირატესობები. BlackMamba-ზე ჩატარებულმა ექსპერიმენტებმა აჩვენა მისი უნარი, აჯობოს არსებულ Mamba ჩარჩოს და ტრანსფორმატორის საბაზისო ხაზებს, როგორც სასწავლო FLOP-ებში, ასევე დასკვნაში. BlackMamba ჩარჩოს განსაკუთრებული შესრულება აჩვენებს, რომ მას შეუძლია ეფექტურად დააკავშიროს Mamba და MoE ჩარჩოების შესაძლებლობები, გთავაზობთ სწრაფ და ეკონომიურ დასკვნას MoE-დან ხაზოვანი სირთულის გენერირებით Mamba-დან.

ეს სტატია მიზნად ისახავს BlackMamba ჩარჩოს სიღრმისეულად გაშუქებას. ჩვენ ვიკვლევთ ჩარჩოს მექანიზმს, მეთოდოლოგიას და არქიტექტურას, მის შედარებასთან ერთად უახლესი გამოსახულების და ვიდეო გენერირების ჩარჩოებთან. Დავიწყოთ.

BlackMamba: შესავალი განათლების სამინისტროში სახელმწიფო კოსმოსური მოდელებისთვის

დიდი ენობრივი მოდელების (LLM) პროგრესირებამ, განსაკუთრებით დეკოდერზე დამყარებულ ტრანსფორმატორულ არქიტექტურებზე დაფუძნებულმა, მნიშვნელოვანი გავლენა მოახდინა ბუნებრივი ენის დამუშავება (NLP) სფერო და გაფართოვდა ღრმა სწავლების სხვადასხვა აპლიკაციებში, მათ შორის განმამტკიცებელი სწავლა, დროის სერიების ანალიზი, გამოსახულების დამუშავება და სხვა. მიუხედავად ამისა, მიუხედავად მათი მასშტაბურობისა და მძლავრი მუშაობისა, ეს მხოლოდ დეკოდერზე დაფუძნებული ტრანსფორმატორებზე დაფუძნებული LLM-ები მნიშვნელოვან გამოწვევებს აწყდებიან. ყურადღების მექანიზმი, ტრანსფორმატორის ძირითადი მახასიათებელი LLMss, მოითხოვს ვრცელ გამოთვლით რესურსებს როგორც დასკვნისთვის, ასევე ტრენინგისთვის. ეს გულისხმობს მეხსიერების საჭიროებას, რომელიც იზრდება მიმდევრობის სიგრძისა და გამოთვლითი ოპერაციების (FLOPs) ერთად, რომლებიც იზრდება კვადრატულად. ასეთი ინტენსიური გამოთვლითი მოთხოვნილებები ზღუდავს მოდელების კონტექსტის სიგრძეს, ზრდის ავტორეგრესიული გენერირების ამოცანების ხარჯებს მოდელის მასშტაბის მიხედვით და ხელს უშლის მოდელების უნარს ისწავლოს მონაცემთა უწყვეტი ნაკადებიდან ან შეუზღუდავი სიგრძის თანმიმდევრობების ეფექტურად დამუშავება. 

მნიშვნელოვანი ძალისხმევა გაკეთდა ბოლო რამდენიმე წლის განმავლობაში ამ შეზღუდვების გადალახვის მცდელობაზე და ყურადღება გადატანილი იქნა არქიტექტურული ალტერნატივების შემუშავებაზე კანონიკური მკვრივი ყურადღების ტრანსფორმატორის მოდელებისთვის, სადაც SSMs და MoE მოდელები არიან ყველაზე პერსპექტიული კანდიდატი არქიტექტურები. სატრანსფორმატორო არქიტექტურის მოდელებთან შედარებით სახელმწიფო კოსმოსური მოდელების უპირატესობის მიღებით მიღებული ძირითადი სარგებელი არის წრფივი გამოთვლითი სირთულე შეყვანის მიმდევრობის სიგრძესთან მიმართებაში, რომელსაც გთავაზობთ SSM-ები, განსხვავებით ტრანსფორმატორების მიერ შემოთავაზებული კვადრატული სირთულისგან. თეორიულად, წრფივი გამოთვლითი სირთულე შეყვანის თანმიმდევრობის სიგრძესთან მიმართებაში საშუალებას აძლევს სახელმწიფო კოსმოსურ მოდელებს დაამუშავონ უფრო დიდი თანმიმდევრობები, ვიდრე ტრანსფორმატორულ-არქიტექტურულ მოდელებს მოცემული FLOPS ან მცურავი წერტილის ოპერაციებისთვის წამში, და გამოთვალონ ავტორეგრესიული გენერაცია მუდმივი KV ქეშის გარეშე. ახლახან განვითარებულმა სახელმწიფო კოსმოსურმა მოდელებმა, მათ შორის Mamba-მ, RetNet-მა და რამდენიმე სხვამ, აჩვენეს ეფექტური ხანგრძლივი თანმიმდევრობის დასკვნები და ტრენინგი, კონკურენტული ენის მოდელირების ამოცანის შესრულება ტრანსფორმატორებისთვის მსგავსი მასშტაბირების თვისებებით. მეორეს მხრივ, Mixture of Expert მოდელების არქიტექტურები იძენს პოპულარობას, როგორც მკვრივი ტრანსფორმატორების ალტერნატივა, რადგან ეს ხელს უწყობს დასკვნების მნიშვნელოვან შემცირებას და FLOP-ების მომზადებას, რომლებიც აუცილებელია მკვრივი მოდელის შესადარებელი ხარისხის მისაღწევად. MoE (ექსპერტთა ნაზავი) მოდელები მოქმედებენ მთლიანი პარამეტრების მხოლოდ მწირი შერჩევის გააქტიურებით ერთი წინ გადასვლის დროს. ისინი იყენებენ მარშრუტიზაციის ფუნქციას იმის დასადგენად, თუ რომელი „ექსპერტები“ გამოიძახებენ მოქმედებას მოცემულ კონტექსტზე დაყრდნობით. ეს მიდგომა ქმნის გამიჯვნას დასკვნის გამოთვლით ღირებულებასა და პარამეტრთა მთლიან რაოდენობას შორის, რაც საშუალებას იძლევა გაუმჯობესებული შესრულება ფიქსირებული დასკვნის ბიუჯეტის ფარგლებში, თუმცა პარამეტრების გაზრდილი რაოდენობისა და მეხსიერების უფრო დიდი მოთხოვნილების შემთხვევაში.

ეს წინსვლა არქიტექტურაში შესამჩნევ სარგებელს გვთავაზობს ტრადიციულ ტრანსფორმატორებთან შედარებით და წარმოადგენს საინტერესო მიმართულებას შემდგომი განვითარებისთვის. ჩვენ ვვარაუდობთ, რომ ამ გაუმჯობესებების ინტეგრირება კომბინირებულ Mamba-MoE მოდელში შეიძლება მნიშვნელოვნად დააჩქაროს ენის მოდელირების შესაძლებლობები და ეფექტურობა სტანდარტული ტრანსფორმატორის მოდელების მიღმა. Mamba-MoE არქიტექტურის მოსალოდნელი უპირატესობები ტრადიციულ მკვრივ ტრანსფორმატორის მოდელთან შედარებით მოიცავს:

მამბა: აღწევს წრფივ გამოთვლით სირთულეს შეყვანის თანმიმდევრობის სიგრძესთან შედარებით, როგორც ტრენინგის, ასევე დასკვნის ფაზებისთვის. ის საშუალებას აძლევს ავტორეგრესიულ გენერირებას მოხდეს მუდმივი დროის ჩარჩოში და მეხსიერების მუდმივი გამოყენებით.

MoE: გთავაზობთ დასკვნის სიჩქარეს და სწავლების გამოთვლით ეფექტურობას შედარებით პატარა, მკვრივი საბაზისო მოდელთან შედარებით მოდელის ხარისხის დონის შენარჩუნებით, რომელიც ეწინააღმდეგება მოდელის ექვივალენტური რაოდენობის პარამეტრებს, როგორც უფრო მკვრივი ვერსია.

ამის გათვალისწინებით, აუცილებელია განვაცხადოთ, რომ ტრანსფორმატორის არქიტექტურის მოდელები ჯერ კიდევ თანამედროვეა და აჩვენეს თანმიმდევრული და შესანიშნავი ძლიერი შესრულება ენის მოდელირების ამოცანებსა და თანმიმდევრობის დამუშავების ამოცანებს. თავის არსში, ტრანსფორმატორის არქიტექტურა იყენებს საკუთარ ყურადღებას, რომელიც ახორციელებს წერტილოვანი პროდუქტის მსგავსების კვადრატულ შედარებას სხვადასხვა ნიშნების ჩაშენებებს შორის თანმიმდევრობით, და ასრულებს ხაზოვან რუკას გამომავალ ვექტორთან. სატრანსფორმატორო მოდელი შედგება MLP ან მრავალშრიანი პერცეპტრონის ბლოკებს შორის თავმოყრილი ბლოკებისგან, რომლებიც შემდგომში შედგება ორი ფენის MLP-ისგან მოცემული აქტივაციის ფუნქციით. 

BlackMamba: არქიტექტურა და მეთოდოლოგია

სახელმწიფო კოსმოსური მოდელები

სახელმწიფო სივრცის მოდელები მიეკუთვნება მიმდევრობის მოდელების ჯგუფს ხაზოვანი სირთულით შეყვანის მიმდევრობის სიგრძის მიმართ. სახელმწიფო კოსმოსური მოდელების არქიტექტურა უფრო მეტად შეესაბამება მორეციდივე ნერვულ ქსელებს და კონვოლუციურ ნერვულ ქსელებს, ვიდრე ყურადღებაზე დაფუძნებულ არქიტექტურას და შთაგონებულია უწყვეტი დინამიური სისტემიდან, რომელიც ასახავს 1-განზომილებიან ფუნქციას ფარული სივრცის მეშვეობით. ხაზოვანი დინამიური სისტემა პარალელურ გამოთვლებს ეფექტურს ხდის ასოციაციური ან კონვოლუციური სკანირების გამოყენებით. პრაქტიკულ სცენარებში, სახელმწიფო კოსმოსური მოდელების განმეორებადი ბუნება იყო მიზეზი იმისა, რომ ის კვლავ უნდა იქნას მიღებული მაღალ პარალელურ AI აპარატურებზე, როგორიცაა GPU. თუმცა, SSM-ების გაჩენა, როგორიცაა RWKV და მამბა გამოიყენეს პარალელური სკანირების ბირთვები განმეორებითი ოპერაციების ეფექტურად გამოსახულების მიზნით GPU-ებზე, რითაც ხელი შეუწყო ახალი არქიტექტურის ტრენინგს ტრანსფორმატორის მოდელებით მიღწეული ეფექტურობით. 

თანდაყოლილი კვადრატული სირთულე ტრანსფორმატორებში მიმდევრობის სიგრძესთან მიმართებაში არის ცნობილი შეზღუდვა, რომელიც აფერხებს მსჯელობას და გაგებას ძალიან გრძელ კონტექსტში. ბოლოდროინდელმა ინოვაციებმა დანერგა კონტექსტის სიგრძის გაფართოების იდეა, რაც საშუალებას მისცემს ტრანსფორმატორებს ავარჯიშონ შესაძლებელ მასშტაბზე, სანამ გამოიყენებდნენ უფრო დიდ კონტექსტს დასკვნის დროს. მიუხედავად ამ მიღწევებისა, დასკვნის პროცესი კვლავ მოითხოვს მნიშვნელოვან რაოდენობას გამოთვლით რესურსებსა და მეხსიერებას, განსაკუთრებით Key-Value (KV) ქეშის შესანარჩუნებლად, რაც მას რესურსზე ინტენსიურად აქცევს. ბოლო კვლევის მცდელობები ფოკუსირებულია სახელმწიფო-სივრცის მოდელების ექსპრესიული შესაძლებლობების გაღრმავებაზე შეყვანაზე დამოკიდებული კარიბჭის მექანიზმების ჩართვით, ყურადღების მექანიზმებში ნაპოვნი Query, Key, Value (QKV) მატრიცების მსგავსი. 

ეს მცდელობები მიზნად ისახავს შეინარჩუნოს სახელმწიფო-სივრცის რეკურსიის თანდაყოლილი წრფივი პროგრესირება, რაც შესაძლებელს გახდის ეფექტური შესრულების ან კონვოლუციის ან შერჩევითი სკანირების პროცესის მეშვეობით. ეს მიდგომა მნიშვნელოვნად ამცირებს შესრულების განსხვავებას ტრანსფორმატორებთან პრაქტიკულ პროგრამებში. ამ მიღწევებს შორის მამბა გამოირჩევა, როგორც სახელმწიფო-სივრცის მოდელი, რომელიც ასახავს წინა კვლევის მიზნებს, აჩვენებს შთამბეჭდავი შესრულების დონეებს ტრანსფორმატორებთან შედარებით მასშტაბით 2.8 მილიარდ პარამეტრამდე. ის ამას აღწევს სახელმწიფო-სივრცის მოდელის (SSM) რეკურსიის შეყვანაზე დამოკიდებული კარიბჭის გამოყენებით, ამავდროულად უზრუნველყოფს ეფექტურ გამოთვლას შერჩევითი შერჩევითი სკანირების ბირთვების გამოყენებით.

საექსპერტო მოდელების ნაზავი

ექსპერტთა (MoE) მოდელების ნაზავია დასკვნის ღირებულებისა და მთლიანი პარამეტრების რაოდენობას შორის გამიჯვნას პარამეტრების შერჩევითი გააქტიურებით წინ გადასვლის დროს. ყველა პარამეტრის გამოყენების ნაცვლად, ეს მოდელები მიმართავენ ტოკენებს სპეციფიკურ მრავალშრიანი პერცეპტრონის (MLP) ექსპერტებს. იდეალურ შემთხვევაში, თითოეული ექსპერტი მორგებულია კონკრეტული ტიპის შეყვანის დასამუშავებლად, მარშრუტიზაციის მექანიზმით, არსებითად კომპაქტური ნერვული ქსელით, რომელიც განსაზღვრავს ყველაზე შესაფერის ექსპერტს თითოეული ტოკენისთვის. ეს მიდგომა მიზნად ისახავს შეინარჩუნოს მოდელის ყოვლისმომცველი ექსპრესიული ძალა პარამეტრების ექვივალენტური რაოდენობით უფრო მჭიდრო კონფიგურაციაში, მაგრამ მნიშვნელოვნად შემცირებული გამოთვლითი მოთხოვნებით. როგორც წესი, როუტერი წარმოადგენს ხაზოვანი ფენების რუკს ტოკენებიდან საექსპერტო ინდექსებამდე, სადაც თითოეული ექსპერტი უბრალოდ სტანდარტული ტრანსფორმატორია მრავალშრიანი პერცეპტრონი. თუმცა, დეველოპერებს ჯერ კიდევ არ აქვთ გაერკვნენ როუტერის ტრენინგის ოპტიმალური მეთოდი, რადგან ექსპერტის დავალების პრობლემა არ არის დიფერენცირებული და Mixture of Expert მოდელები ხშირად ებრძვიან დატვირთვის დაბალანსებას და ტრენინგის სტაბილურობას სხვადასხვა ექსპერტებს შორის ტექნიკის ეფექტურობისთვის. 

არქიტექტურა

თავის არსში, BlackMamba იყენებს სტანდარტული ტრანსფორმატორის მოდელს, რომელიც შედგება გადახლართული MLP ბლოკებისგან და ყურადღების ბლოკებისგან, რომლებიც თანმიმდევრობით დამატებულია ნარჩენი ნაკადის გასწვრივ. ახლა, Mixture of Expert მოდელების უმეტესობა უბრალოდ ცვლის მრავალშრიანი პერცეპტრონის ბლოკებს მარშრუტირებული ექსპერტის ფენით. მეორეს მხრივ, BlackMamba ჩარჩო არა მხოლოდ ცვლის მრავალშრიანი პერცეპტრონის ბლოკს ტრანსფორმატორში მარშრუტირებული ექსპერტი ფენით, არამედ ცვლის ყურადღების ფენას Mamba State Space Model ფენით. BlackMamba ჩარჩოს არქიტექტურა ნაჩვენებია შემდეგ ფიგურაში. 

ტრენინგი და მონაცემთა ნაკრები

BlackMamba მოდელი ივარჯიშება 300 მილიარდზე მეტ ჟეტონზე მორგებულ მონაცემთა ბაზაზე და იყენებს SwiGLU აქტივაციის ფუნქციას ექსპერტი მრავალშრიანი პერცეპტრონებისთვის. ჩარჩო ვარჯიშობს 8 ექსპერტთან ერთად, რიცხვი, რომელიც დეველოპერებმა დაადგინეს, რომ არის სწორი ბალანსი და შეცვალეს მოდელის მეხსიერების ანაბეჭდსა და დასკვნის ღირებულებას შორის. მორგებული მონაცემთა ნაკრები, რომელიც გამოიყენება BlackMamba ჩარჩოს მოსამზადებლად, შედგება უკვე არსებული ღია კოდის მონაცემთა ნარევებისგან, მათ შორის Starcoder, SlimPajama, Pile და სხვა. შემდეგი ცხრილი გვიჩვენებს თითოეული მონაცემთა ნაკრების წონებს, რომლებიც გამოიყენება BlackMamba ჩარჩოს სწავლებისთვის. მთლიანობაში, მონაცემთა ნაკრებში 1.8 ტრილიონი ჟეტონია. 

BlackMamba: შედეგები

Mamba-სა და BlackMamba-ს სამართლიანი შედარების უზრუნველსაყოფად, დეველოპერებმა მოამზადეს ორივე მოდელი ერთი და იგივე ტრენინგის პარამეტრებით იმავე სასწავლო მონაცემებზე. BlackMamba ჩარჩოს შეუძლია აჯობოს როგორც მამბას, ასევე ტრანსფორმატორის მოდელებს წინგადასვლის მოდელის იდენტური ზომისთვის დასკვნის დროს, ასევე ავარჯიშებს მცურავი წერტილის ოპერაციებს წამში. ქვემოთ მოყვანილი ფიგურა გვიჩვენებს დროს, რომელიც საჭიროა მოცემული სიგრძის მიმდევრობის ავტორეგრესიულად გენერირებისთვის საწყისი ერთი ნიშნის მოთხოვნიდან მიმდევრობის სიგრძის ფუნქციით. 

გარდა ამისა, როგორც ექსპერტის, ასევე მამბას მოდელების შეყოვნების უპირატესობები გაერთიანებულია BlackMamba ჩარჩოში, რაც იწვევს მნიშვნელოვნად უფრო სწრაფ დასკვნის დროს ტრანსფორმატორის მოდელებთან, სუფთა მამბას მოდელებთან და MoE მოდელებთან შედარებით. გარდა ამისა, BlackMamba ჩარჩოს დასკვნის უპირატესობა მიმდევრობის სიგრძის პირდაპირპროპორციულია, რაც BlackMamba-ს უკიდურესად ეფექტურს ხდის გრძელი თანმიმდევრობის გენერირებაში. მოძრაობით, შემდეგი ფიგურა ასახავს BlackMamba-ს მოდელებს მინიჭებული ტოკენების რაოდენობას, შესაბამისად 340 მილიონი და 640 მილიონი პარამეტრით. როგორც ჩანს, ფენების უმეტესობა აჩვენებს მაღალი დონის ექსპერტის ბალანსს BlackMamba მოდელების მიერ განხორციელებული გაუმჯობესებული Sinkhorn ალგორითმის შედეგად. 

შემდეგი ცხრილი მოიცავს BlackMamba ჩარჩოს შეფასების ქულებს, ღია კოდის წინასწარ მომზადებული ენების მოდელებთან შედარებით. როგორც ჩანს, BlackMamba ჩარჩოს შეუძლია კონკურენცია გაუწიოს და აჯობოს ფრეიმიკების უმეტესობას ყველა საბაზისო ხაზით. გარდა ამისა, აღსანიშნავია, რომ მოდელებს, რომლებიც აჯობებენ BlackMamba-ს, აქვთ მნიშვნელოვნად მაღალი პარამეტრების რაოდენობა და შესრულების უფსკრული მინიმალურია, რაც მიუთითებს BlackMamba ჩარჩოს უნარზე ნაკლები პარამეტრებით. 

საბოლოო ფიქრები

ამ სტატიაში ჩვენ ვისაუბრეთ BlackMamba-ზე, ახალ არქიტექტურაზე, რომელიც აერთიანებს მამბას სახელმწიფო კოსმოსურ მოდელს ექსპერტთა მოდელებთან ერთად, რათა ორივე ამ ჩარჩოს მიერ შემოთავაზებული სარგებელი მიიღოთ. BlackMamba-ზე ჩატარებულმა ექსპერიმენტებმა აჩვენა, რომ ის აღემატება არსებულ Mamba ჩარჩოს და ტრანსფორმატორის საბაზისო ხაზებს, როგორც სასწავლო FLOP-ებში, ასევე დასკვნაში. BlackMamba ჩარჩოს განსაკუთრებული შესრულება ცხადყოფს, რომ მას შეუძლია მემკვიდრეობით მიიღოს და დააკავშიროს Mamba და MoE ჩარჩოების შესაძლებლობები, რადგან ის აერთიანებს იაფი და სწრაფ დასკვნას MoE-დან ხაზოვანი სირთულის გამომუშავებასთან Mamba-დან. ჩვენ ვისაუბრეთ იმაზე, თუ როგორ ახერხებს BlackMamba Framework-ის არქიტექტურას აჯობოს ძლიერი გაწვრთნილი Large Language Models, არსებული Mamba Framework და Mixture of Expert მოდელები ტრენინგის FLOP-ების და დასკვნის ღირებულების თვალსაზრისით. გარდა ამისა, BlackMamba ჩარჩო ასევე მემკვიდრეობით იღებს FLOP-ების თაობას და შემცირებულ ტრენინგს როგორც Mixture of Expert მოდელებისგან, ასევე Mamba Framework-ისგან ერთდროულად. 

 

"პროფესიით ინჟინერი, ზეპირად მწერალი". კუნალი არის ტექნიკური მწერალი, რომელსაც აქვს AI და ML ღრმა სიყვარული და გაგება, რომელიც ეძღვნება ამ სფეროებში რთული კონცეფციების გამარტივებას მისი საინტერესო და ინფორმაციული დოკუმენტაციის საშუალებით.