Umjetna inteligencija
Mistral AI najnoviji Mixture of Experts (MoE) model 8x7B

koja je startup modela otvorenog koda sa sjedištem u Parizu, izazvao je norme objavljujući svoj najnoviji model velikog jezika (LLM), MoE 8x7B, putem jednostavnog torrent link. Ovo je u suprotnosti s Googleovim tradicionalnim pristupom s njihovim izdanjem Gemini, što je izazvalo razgovore i uzbuđenje unutar AI zajednice.
Pristup Mistral AI izdanjima uvijek je bio nekonvencionalan. Često izostavljajući uobičajenu pratnju novina, blogova ili priopćenja za tisak, njihova je strategija bila jedinstveno učinkovita u privlačenju pozornosti AI zajednice.
Nedavno je tvrtka postigla izvanredan uspjeh Procjena vrijednosti $ 2 milijarda nakon runde financiranja koju je vodio Andreessen Horowitz. Ovaj krug financiranja bio je povijesni, postavljajući rekord sa početnim krugom od 118 milijuna dolara, najvećim u europskoj povijesti. Osim uspjeha u financiranju, aktivna uključenost Mistral AI-ja u rasprave oko Zakona o umjetnoj inteligenciji EU-a, zagovaranje smanjenja regulacije umjetne inteligencije otvorenog koda.
Zašto MoE 8x7B privlači pozornost
Opisan kao "smanjeni GPT-4", Mixtral 8x7B koristi okvir Mixture of Experts (MoE) s osam stručnjaka. Svaki stručnjak ima 111B parametara, zajedno s 55B parametara zajedničke pažnje, da bi se dobilo ukupno 166B parametara po modelu. Ovaj izbor dizajna je značajan jer omogućuje da samo dva stručnjaka budu uključena u zaključivanje svakog tokena, naglašavajući pomak prema učinkovitijoj i fokusiranijoj AI obradi.
Jedan od ključnih vrhunaca Mixtrala je njegova sposobnost upravljanja opsežnim kontekstom od 32,000 tokena, pružajući dovoljno prostora za rješavanje složenih zadataka. Višejezične mogućnosti modela uključuju robusnu podršku za engleski, francuski, talijanski, njemački i španjolski, uslužno za globalnu zajednicu programera.
Prethodno osposobljavanje Mixtrala uključuje izvore podataka s otvorenog weba, uz istovremeni pristup osposobljavanju i za stručnjake i za usmjerivače. Ova metoda osigurava da model nije samo golem u svom prostoru parametara, već i fino usklađen s nijansama golemih podataka kojima je bio izložen.

Mixtral 8x7B postiže impresivan rezultat
Mixtral 8x7B nadmašuje LLaMA 2 70B i rivala GPT-3.5, posebno značajan u MBPP zadatku sa 60.7% uspješnosti, znatno više od svojih kolega. Čak i u rigoroznom MT-Benchu prilagođenom za modele koji slijede upute, Mixtral 8x7B postiže impresivan rezultat, gotovo jednak GPT-3.5
Razumijevanje okvira mješavine stručnjaka (MoE).
Model Mixture of Experts (MoE), iako je nedavno privukao pozornost zbog svoje ugradnje u najsuvremenije jezične modele kao što je Mistral AI MoE 8x7B, zapravo je ukorijenjen u temeljne koncepte koji datiraju prije nekoliko godina. Razmotrimo podrijetlo ove ideje kroz temeljne istraživačke radove.
Koncept MoE
Mješavina stručnjaka (MoE) predstavlja promjenu paradigme u arhitekturi neuronske mreže. Za razliku od tradicionalnih modela koji koriste jedinstvenu, homogenu mrežu za obradu svih vrsta podataka, MoE usvaja specijaliziraniji i modularni pristup. Sastoji se od višestrukih 'stručnih' mreža, od kojih je svaka dizajnirana za rukovanje specifičnim vrstama podataka ili zadataka, nadgledanih 'mrežom usmjernika' koja dinamički usmjerava ulazne podatke najprikladnijem stručnjaku.

Sloj mješavine stručnjaka (MoE) ugrađen u ponavljajući jezični model (izvor)
Gornja slika predstavlja pogled visoke razine MoE sloja ugrađenog u jezični model. U svojoj suštini, sloj MoE sastoji se od više podmreža za prijenos podataka, nazvanih 'stručnjaci', od kojih svaka ima potencijal da se specijalizira za obradu različitih aspekata podataka. Mreža usmjeravanja, istaknuta na dijagramu, određuje koja je kombinacija ovih stručnjaka angažirana za određeni unos. Ova uvjetna aktivacija omogućuje mreži značajno povećanje kapaciteta bez odgovarajućeg porasta računalne potražnje.
Funkcionalnost MoE sloja
U praksi, mreža usmjernika procjenjuje ulaz (označen kao G(x)
u dijagramu) i odabire rijetki skup stručnjaka koji će ga obraditi. Ovaj odabir je moduliran izlazima mreže usmjernika, učinkovito određujući 'glas' ili doprinos svakog stručnjaka konačnom izlazu. Na primjer, kao što je prikazano na dijagramu, samo dva stručnjaka mogu biti izabrana za izračunavanje izlaza za svaki specifični ulazni token, čineći proces učinkovitim koncentriranjem računalnih resursa tamo gdje su najpotrebniji.

Enkoder transformatora s MoE slojevima (izvor)
Druga gornja ilustracija suprotstavlja tradicionalni Transformer koder s onim koji je proširen MoE slojem. Transformerova arhitektura, nadaleko poznata po svojoj učinkovitosti u zadacima povezanim s jezikom, tradicionalno se sastoji od slojeva samopažnje i obrade naprijed naslaganih u nizu. Uvođenje MoE slojeva zamjenjuje neke od ovih feed-forward slojeva, omogućujući modelu učinkovitije skaliranje s obzirom na kapacitet.
U proširenom modelu, slojevi MoE podijeljeni su na više uređaja, prikazujući pristup paralelan modelu. Ovo je kritično kada se skalira na vrlo velike modele, budući da omogućuje distribuciju računalnog opterećenja i memorijskih zahtjeva preko klastera uređaja, kao što su GPU ili TPU. Ovo dijeljenje ključno je za učinkovito uvježbavanje i implementaciju modela s milijardama parametara, što dokazuje uvježbavanje modela sa stotinama milijardi do više od trilijun parametara na velikim računalnim klasterima.
Sparse MoE pristup s podešavanjem instrukcija na LLM-u
Rad pod nazivom „Rijetka mješavina stručnjaka (MoE) za modeliranje skalabilnog jezika” raspravlja o inovativnom pristupu za poboljšanje modela velikih jezika (LLM) integracijom arhitekture Mixture of Experts s tehnikama podešavanja instrukcija.
Naglašava zajednički izazov u kojem MoE modeli imaju slabije rezultate u usporedbi s gustim modelima jednakog računalnog kapaciteta kada su fino podešeni za specifične zadatke zbog razlika između općeg prethodnog treninga i finog podešavanja specifičnog zadatka.
Podešavanje uputa je metodologija obuke u kojoj se modeli usavršavaju kako bi bolje slijedili upute prirodnog jezika, učinkovito poboljšavajući njihovu izvedbu zadatka. U radu se sugerira da MoE modeli pokazuju značajno poboljšanje u kombinaciji s podešavanjem instrukcija, više nego njihovi gusti parnjaci. Ova tehnika usklađuje unaprijed uvježbane prikaze modela kako bi se učinkovitije slijedile upute, što dovodi do značajnog povećanja performansi.
Istraživači su proveli studije u tri eksperimentalne postavke, otkrivajući da modeli MoE u početku imaju slabije rezultate u izravnom finom podešavanju specifičnom za zadatak. Međutim, kada se primijeni ugađanje instrukcija, MoE modeli su izvrsni, osobito kada su dodatno nadopunjeni finim ugađanjem specifičnim za zadatak. Ovo sugerira da je podešavanje instrukcija vitalni korak za modele MoE da nadmaše guste modele na nizvodnim zadacima.
Također predstavlja FLAN-MOE32B, model koji pokazuje uspješnu primjenu ovih koncepata. Naime, nadmašuje FLAN-PALM62B, gusti model, na referentnim zadacima dok koristi samo jednu trećinu računalnih resursa. Ovo prikazuje potencijal za rijetke modele MoE u kombinaciji s podešavanjem instrukcija za postavljanje novih standarda za učinkovitost i performanse LLM-a.
Implementacija mješavine stručnjaka za scenarije stvarnog svijeta
Svestranost MoE modela čini ih idealnim za niz primjena:
- Obrada prirodnog jezika (NLP): MoE modeli mogu se učinkovitije nositi s nijansama i složenošću ljudskog jezika, što ih čini idealnim za napredne NLP zadatke.
- Obrada slike i videa: U zadacima koji zahtijevaju obradu visoke razlučivosti, MoE može upravljati različitim aspektima slika ili video okvira, poboljšavajući kvalitetu i brzinu obrade.
- Prilagodljiva AI rješenja: Poduzeća i istraživači mogu prilagoditi modele MoE određenim zadacima, što dovodi do ciljanijih i učinkovitijih rješenja umjetne inteligencije.
Izazovi i razmatranja
Dok MoE modeli nude brojne prednosti, oni također predstavljaju jedinstvene izazove:
- Složenost u obuci i ugađanju: Distribuirana priroda MoE modela može zakomplicirati proces obuke, zahtijevajući pažljivo balansiranje i podešavanje stručnjaka i mreže usmjernika.
- Upravljanje resursima: Učinkovito upravljanje računalnim resursima višestrukih stručnjaka ključno je za maksimiziranje prednosti modela MoE.
Uključivanje MoE slojeva u neuronske mreže, posebno u domeni jezičnih modela, nudi put prema skaliranju modela do veličina koje su prije bile neizvedive zbog računalnih ograničenja. Uvjetno izračunavanje omogućeno MoE slojevima omogućuje učinkovitiju distribuciju računalnih resursa, što omogućuje treniranje većih, sposobnijih modela. Kako nastavljamo zahtijevati više od naših AI sustava, arhitekture poput Transformera opremljenog MoE-om vjerojatno će postati standard za rješavanje složenih zadataka velikih razmjera u raznim domenama.