Povežite se s nama

Umjetna inteligencija

Uni-MoE: Skaliranje unificiranih multimodalnih LLM-ova s ​​mješavinom stručnjaka

mm

Nedavni napredak u arhitekturi i izvedbi multimodalnih velikih jezičnih modela ili MLLM-ova istaknuo je značaj skalabilnih podataka i modela za poboljšanje izvedbe. Iako ovaj pristup poboljšava izvedbu, iziskuje značajne računalne troškove koji ograničavaju praktičnost i upotrebljivost takvih pristupa. Tijekom godina, modeli Mixture of Expert ili MoE pojavili su se kao uspješan alternativni pristup za učinkovito skaliranje modela slika-tekst i velikih jezika budući da modeli Mixture of Expert imaju znatno niže računalne troškove i snažne performanse. Međutim, unatoč svojim prednostima, mješavina modela nije idealan pristup skaliranju velikih jezičnih modela budući da često uključuje manje stručnjaka i ograničene modalitete, čime se ograničavaju primjene. 

Kako bismo se suprotstavili preprekama na koje nailaze trenutni pristupi i kako bismo učinkovito skalirali velike jezične modele, u ovom ćemo članku govoriti o Uni-MoE, unificiranom multimodalnom velikom jezičnom modelu s MoE ili Mixture of Expert arhitekturom koji je sposoban rukovati širokim niz modaliteta i stručnjaka. Okvir Uni-MoE također implementira oskudnu mješavinu Expert arhitekture unutar velikih jezičnih modela u pokušaju da učini proces obuke i zaključivanja učinkovitijim korištenjem paralelizma modela na razini stručnjaka i paralelizma podataka. Nadalje, kako bi se poboljšala generalizacija i suradnja više stručnjaka, okvir Uni-MoE predstavlja progresivnu strategiju obuke koja je kombinacija triju različitih procesa. U prvom, okvir Uni-MoE postiže usklađivanje više modaliteta pomoću različitih konektora s različitim podacima o različitim modalitetima. Drugo, okvir Uni-MoE aktivira preferencije stručnih komponenti obučavanjem stručnjaka specifičnih za modalitet s podacima o uputama za više modaliteta. Konačno, model Uni-MoE implementira tehniku ​​učenja LoRA ili Low-Rank Adaptation na mješovitim multimodalnim podacima o uputama za ugađanje modela. Kada je Uni-MoE okvir usklađen s uputama procijenjen na sveobuhvatnom skupu multimodalnih skupova podataka, opsežni eksperimentalni rezultati istaknuli su glavnu prednost Uni-MoE okvira u značajnom smanjenju pristranosti izvedbe pri rukovanju mješovitim multimodalnim skupovima podataka. Rezultati su također ukazali na značajan napredak u suradnji više stručnjaka i generalizaciji. 

Ovaj članak ima za cilj detaljno pokriti okvir Uni-MoE, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa počnimo. 

Uni-MoE: Skaliranje objedinjenih multimodalnih LLM-ova

Pojava open-source multimodalnih velikih jezičnih modela, uključujući LLama i InstantBlip, ukazala je na značajan uspjeh i napredak u zadacima koji uključuju razumijevanje slike i teksta tijekom proteklih nekoliko godina. Nadalje, AI zajednica aktivno radi na izgradnji jedinstvenog multimodalnog velikog jezičnog modela koji bi mogao prihvatiti široku lepezu modaliteta uključujući sliku, tekst, audio, video i još mnogo toga, nadilazeći tradicionalnu paradigmu slika-tekst. Uobičajeni pristup koji slijedi zajednica otvorenog koda za jačanje sposobnosti multimodalnih velikih jezičnih modela je povećanje veličine modela temelja vizije i njihova integracija s velikim jezičnim modelima s milijardama parametara i korištenje različitih multimodalnih skupova podataka za poboljšanje podešavanja uputa. Ovi razvoji su istaknuli sve veću sposobnost multimodalnih velikih jezičnih modela za razmišljanje i obradu višestrukih modaliteta, pokazujući važnost proširenja multimodalnih nastavnih podataka i skalabilnosti modela. 

Iako je skaliranje modela isproban i testiran pristup koji daje značajne rezultate, skaliranje modela računalno je skup proces i za procese obuke i za zaključivanje. 

Kako bi se suočila s problemom visokih režijskih računalnih troškova, zajednica otvorenog koda kreće se prema integraciji MoE ili Mixture of Expert arhitektura modela u velikim jezičnim modelima kako bi se poboljšala učinkovitost obuke i zaključivanja. Suprotno multimodalnim velikim jezicima i modelima velikih jezika koji koriste sve dostupne parametre za obradu svakog ulaza što rezultira gustim računalnim pristupom, Mixture of Expert arhitektura od korisnika zahtijeva samo aktiviranje podskupa stručnih parametara za svaki ulaz. Kao rezultat toga, pristup Mixture of Expert pojavljuje se kao održiv put za poboljšanje učinkovitosti velikih modela bez ekstenzivne aktivacije parametara i visokih režijskih troškova računanja. Iako su postojeći radovi istaknuli uspješnu implementaciju i integraciju modela Mixture of Expert u konstrukciji velikih modela samo s tekstom i tekstualnom slikom, istraživači tek trebaju u potpunosti istražiti potencijal razvoja arhitekture Mixture of Expert za izgradnju moćnih unificiranih multimodalnih velikih jezični modeli. 

Uni-MoE je multimodalni veliki jezični model koji koristi rijetku mješavinu stručnih modela za tumačenje i upravljanje višestrukim modalitetima u pokušaju istraživanja skaliranja unificiranih multimodalnih velikih jezičnih modela s MoE arhitekturom. Kao što je prikazano na sljedećoj slici, okvir Uni-MoE prvo dobiva kodiranje različitih modaliteta pomoću kodera specifičnih za modalitet, a zatim preslikava ta kodiranja u prostor jezične reprezentacije velikih jezičnih modela pomoću različitih dizajniranih konektora. Ovi priključci sadrže model transformatora koji se može uvježbati s naknadnim linearnim projekcijama za destilaciju i projekciju izlaznih prikaza zamrznutog kodera. Okvir Uni-MoE zatim uvodi rijetku mješavinu stručnih slojeva unutar unutarnjeg bloka gustog modela velikog jezika. Kao rezultat toga, svaki blok temeljen na mješavini stručnjaka ima zajednički sloj samopažnje primjenjiv na sve modalitete, rijetki usmjerivač za dodjelu stručnosti na razini tokena i različite stručnjake temeljene na mreži s unaprijednim praćenjem. Zahvaljujući ovom pristupu, okvir Uni-MoE sposoban je razumjeti više modaliteta uključujući govor, audio, tekst, video, sliku, i zahtijeva samo aktiviranje parcijalnih parametara tijekom zaključivanja. 

Nadalje, kako bi se poboljšala suradnja i generalizacija više stručnjaka, okvir Uni-MoE implementira strategiju obuke u tri faze. U prvoj fazi, okvir koristi opsežne parove slika/zvuk/govor u jezik kako bi uvježbao odgovarajući konektor zahvaljujući jedinstvenoj reprezentaciji modaliteta u jezičnom prostoru velikog jezičnog modela. Drugo, model Uni-MoE obučava stručnjake specifične za modalitet koristeći odvojeno skupove podataka o različitim modalitetima u pokušaju da se poboljša stručnost svakog stručnjaka unutar njegove domene. U trećoj fazi, okvir Uni-MoE integrira ove obučene stručnjake u sloj Mixture of Expert velikog jezičnog modela i obučava cijeli okvir Uni-MoE s mješovitim multimodalnim podacima o nastavi. Kako bi se dodatno smanjio trošak obuke, okvir Uni-MoE koristi pristup učenja LoRA za fino podešavanje ovih slojeva samopažnje i unaprijed podešenih stručnjaka. 

Uni-MOE : Metodologija i arhitektura

Osnovna motivacija koja stoji iza Uni-MoE okvira je visoka obuka i trošak zaključivanja skaliranja multimodalnih velikih jezičnih modela zajedno s učinkovitošću Mixture of Expert modela i istraživanje mogućnosti stvaranja učinkovitog, moćnog i jedinstvenog multimodalnog velikog jezičnog modela korištenjem the MOE arhitektura. Sljedeća slika prikazuje arhitekturu implementiranu u okviru Uni-MoE, demonstrirajući dizajn koji uključuje pojedinačne kodere za različite modalitete, tj. audio, govor i vizualni sadržaj, zajedno s njihovim odgovarajućim konektorima modaliteta. 

Okvir Uni-MoE zatim integrira Mixture of Expert arhitekturu s ključnim velikim blokovima jezičnog modela, proces ključan za jačanje ukupne učinkovitosti i procesa obuke i zaključivanja. Okvir Uni-MoE to postiže implementacijom mehanizma rijetkog usmjeravanja. Cjelokupni proces obuke okvira Uni-MoE može se podijeliti u tri faze: usklađivanje više modaliteta, obuka stručnjaka specifičnih za modalitet i podešavanje Uni-MoE korištenjem raznolikog skupa skupova podataka multimodalnih instrukcija. Za učinkovito pretvaranje različitih modalnih unosa u lingvistički format, okvir Uni-MoE izgrađen je na temelju LLaVA, okvira unaprijed obučenog vizualnog jezika. Osnovni model LLaVA integrira CLIP kao svoj vizualni koder uz sloj linearne projekcije koji pretvara značajke slike u odgovarajuće tokene meke slike. Nadalje, za obradu videosadržaja Uni-MoE okvir odabire osam reprezentativnih okvira iz svakog videa i transformira ih u video tokene prosječnim udruživanjem kako bi agregirao njihovu sliku ili prikaz temeljen na okviru. Za audio zadatke, Uni-MoE okvir postavlja dva kodera, BEATs i Whisper koder za poboljšanje ekstrakcije značajki. Model potom destilira audio značajke vektora i govora fiksne duljine i preslikava ih u govorne tokene i meki zvuk putem sloja linearne projekcije. 

Strategija treninga

Okvir Uni-MoE uvodi progresivnu strategiju obuke za inkrementalni razvoj modela. Progresivna strategija obuke uvela je pokušaje da se iskoriste različite sposobnosti različitih stručnjaka, poboljša učinkovitost suradnje više stručnjaka i potakne ukupna mogućnost generalizacije okvira. Trenažni proces je podijeljen u tri faze s pokušajem aktualizacije MLLM struktura izgrađena na vrhu integrirane mješavine stručnjaka. 

Faza 1: Usklađivanje više modaliteta

U prvoj fazi, okvir Uni-MoE pokušava uspostaviti povezanost između različitih lingvistika i modaliteta. Okvir Uni-MoE to postiže prevođenjem modalnih podataka u meke tokene konstruiranjem konektora. Primarni cilj prve faze obuke je minimiziranje generativnog gubitka entropije.  Unutar Uni-MoE okvira, LLM je optimiziran za generiranje opisa za unose u različitim modalitetima, a model podvrgava samo konektore obuci, strategiji koja omogućuje Uni-MoE okviru da integrira različite modalitete unutar jedinstvenog jezičnog okvira. 

Faza 2: Stručnjaci za specifičan modalitet obuke

U drugoj fazi, okvir Uni-MoE fokusiran je na razvoj stručnjaka za jedan modalitet obučavanjem modela posvećeno specifičnim podacima o različitim modalitetima. Primarni cilj je poboljšati stručnost svakog stručnjaka unutar njegove domene, čime se poboljšava ukupna izvedba sustava Mixture of Expert na širokom nizu multimodalnih podataka. Nadalje, okvir Uni-MoE kroji mreže unaprijed kako bi se bolje uskladile s karakteristikama modaliteta, a istovremeno održavaju generativni gubitak entropije kao fokusnu metričku obuku. 

Faza 3: Podešavanje Uni-MoE

U trećoj i posljednjoj fazi, Uni-MoE okvir integrira težine koje su podesili stručnjaci tijekom druge faze u mješavinu stručnih slojeva. Okvir Uni-MoE zatim fino podešava MLLM-ove zajedničkim korištenjem mješovitih multimodalnih podataka o uputama. Krivulje gubitaka na sljedećoj slici odražavaju napredak procesa treninga. 

Usporedna analiza između konfiguracija Mixture of Expert otkrila je da su stručnjaci koje je model dotjerao tijekom druge faze obuke pokazali poboljšanu stabilnost i postigli bržu konvergenciju na mješovitim modalnim skupovima podataka. Nadalje, na zadacima koji su uključivali složene multimodalne podatke uključujući tekst, slike, audio i video zapise, okvir Uni-MoE pokazao je dosljedniju izvedbu obuke i smanjenu varijabilnost gubitaka kada je zapošljavao četiri stručnjaka nego kada je zapošljavao dva stručnjaka. 

Uni-MoE : Eksperimenti i rezultati

Sljedeća tablica sažima arhitektonske specifikacije okvira Uni-MoE. Primarni cilj okvira Uni-MoE, izgrađenog na LLaMA-7B arhitekturi, je skaliranje veličine modela. 

Sljedeća tablica sažima dizajn i optimizaciju okvira Uni-MoE prema specijaliziranim zadacima obuke. Ovi su zadaci ključni za usavršavanje sposobnosti MLP slojeva, čime se iskorištava njihovo specijalizirano znanje za poboljšanu izvedbu modela. Okvir Uni-MoE poduzima osam stručnih zadataka s jednim modalitetom kako bi se razjasnili različiti učinci različitih metodologija obuke. 

Model ocjenjuje izvedbu različitih varijanti modela kroz raznolik skup mjerila koja obuhvaćaju dva zadatka za razumijevanje videa, tri zadatka za razumijevanje zvuka i pet zadataka povezanih s govorom. Najprije se testira sposobnost modela da razumije zadatke govorne slike i govornog teksta, a rezultati su sadržani u sljedećoj tablici. 

Kao što se može primijetiti, prethodni osnovni modeli daju lošije rezultate u zadacima razumijevanja govora što dodatno utječe na izvedbu zadataka slikovno-govornog zaključivanja. Rezultati pokazuju da uvođenje Mixture of Expert arhitekture može poboljšati mogućnost generalizacije MLLM-ova na zadatke rasuđivanja nevidljive zvučne slike. Sljedeća tablica predstavlja eksperimentalne rezultate na zadacima razumijevanja slike i teksta. Kao što se može primijetiti, najbolji rezultati iz Uni-MoE modela nadmašuju osnovne vrijednosti i nadmašuju zadatak finog podešavanja za prosječnu marginu od 4 boda. 

Final Misli

U ovom smo članku govorili o Uni-MoE, unificiranom multimodalnom velikom jezičnom modelu s arhitekturom MoE ili Mixture of Expert koja je sposobna rukovati širokim spektrom modaliteta i stručnjaka. Okvir Uni-MoE također implementira oskudnu mješavinu Expert arhitekture unutar velikih jezičnih modela u pokušaju da učini proces obuke i zaključivanja učinkovitijim korištenjem paralelizma modela na razini stručnjaka i paralelizma podataka. Nadalje, kako bi se poboljšala generalizacija i suradnja više stručnjaka, okvir Uni-MoE predstavlja progresivnu strategiju obuke koja je kombinacija triju različitih procesa. U prvom, okvir Uni-MoE postiže usklađivanje više modaliteta pomoću različitih konektora s različitim podacima o različitim modalitetima. Drugo, okvir Uni-MoE aktivira preferencije stručnih komponenti obučavanjem stručnjaka specifičnih za modalitet s podacima o uputama za više modaliteta. Konačno, model Uni-MoE implementira tehniku ​​učenja LoRA ili Low-Rank Adaptation na mješovitim multimodalnim podacima o uputama za ugađanje modela.

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.