škrbina MoE-LLaVA: Mješavina stručnjaka za modele velikog vida i jezika - Unite.AI
Povežite se s nama

Umjetna inteligencija

MoE-LLaVA: Mješavina stručnjaka za modele širokog vida i jezika

mm
Ažurirano on
MoE-LLaVA: Mješavina stručnjaka za modele širokog vida i jezika

Nedavni napredak u Large Vision Language Models (LVLM) pokazao je da skaliranje ovih okvira značajno povećava performanse u nizu nizvodnih zadataka. LVLM-ovi, uključujući MiniGPT, LLaMA i druge, postigli su izvanredne mogućnosti ugradnjom slojeva vizualne projekcije i kodera slike u svoju arhitekturu. Implementacijom ovih komponenti, LVLM poboljšavaju mogućnosti vizualne percepcije velikih jezičnih modela (LLM). Performanse se mogu dodatno poboljšati povećanjem veličine modela i broja parametara, kao i proširenjem skale skupa podataka.

Modeli kao što je InternVL proširili su svoj koder slike na više od 6 milijardi parametara, dok su drugi proširili pozadinu LVLM-ova na 13 milijardi parametara, postižući vrhunske performanse u širokom nizu zadataka. IDEFICS je trenirao LVLM s preko 80 milijardi parametara. Ove metode skaliranja su se poklopile ili premašile performanse LLM-a koji su prethodno obučeni na više od 34, 70 ili čak 100 milijardi parametara. Međutim, skaliranje ima lošu stranu: značajno povećava troškove obuke i zaključivanja. To je zato što zahtijeva da svi parametri budu aktivni za svaki token u izračunu, što dovodi do velikih računalnih potreba i, posljedično, većih troškova.

Ovaj članak govori o MoE-LLaVA, mješavini stručnjaka (MoE) baziranoj na rijetkoj LVLM arhitekturi koja koristi učinkovitu strategiju obuke, MoE-Tuning, za LVLM. MoE-Tuning inovativno rješava degradaciju performansi u multimodalnom učenju s rijetkošću, što rezultira modelom s velikim brojem parametara, ali dosljednim troškovima obuke i zaključivanja. Arhitektura MoE-LLaVA dizajnirana je da aktivira samo vrhunske stručnjake tijekom implementacije, dok ostale drži neaktivnima.

Istražit ćemo okvir MoE-LLaVA, ispitujući njegov mehanizam, metodologiju, arhitekturu i kako se uspoređuje s vodećim okvirima za generiranje slika i videa.

MoE-LLaVA: Pristupačno skaliranje jezičnih modela široke vizije

Uz iskorištavanje slojeva vizualne projekcije i kodera slike, Large Vision Language Models također povećavaju veličinu modela povećanjem broja parametara kako bi se poboljšala izvedba modela. Neki značajni primjeri Large Vision Language Models koji su slijedili ovaj pristup kako bi poboljšali svoje performanse su MiniGPT-4, InternGPT, InternVL i drugi. U stvarnim aplikacijama, skaliranje Large Language Model ili Large Vision Language Model s visokokvalitetnim podacima o obuci često postaje nužnost za poboljšanje izvedbe modela. Iako skaliranje veličine modela poboljšava izvedbu, ono također povećava računalne troškove obuke i implementacije modela, te dodatno povećava komplikacije i učinkovitost simultane implementacije modela na paralelnim uređajima. Glavni razlog iza povećanih troškova obuke i zaključivanja zajedno s računalnim zahtjevima je taj što svaki token u okviru zahtijeva izračunavanje sa svakim pojedinačnim parametrom unutar modela poznatog kao gusti model. 

S druge strane, rijetki MoE ili mješavina ekspertnih modela pokazali su učinkovito skaliranje okvira obradom podataka uz pomoć fiksnih aktiviranih parametara, pristup koji je široko prihvaćen u polju obrade prirodnog jezika. Međutim, korištenje Mixture of Expert za izravno treniranje rijetkih Large Vision Language Models je izazovno jer pretvaranje LLM-ova u LVLM-ove i razrjeđivanje modela istovremeno rezultira značajnim smanjenjem performansi. Za implementaciju mješavine modela za skaliranje LLM-ova i LVLM-ova, bitno je prvo inicijalizirati LVLM za razrjeđivanje. Kako bi se to postiglo, okvir MoE-LLaVA uvodi MoE-Tuning, jednostavnu, ali učinkovitu strategiju obuke u tri faze. 

Kao što je prikazano na gornjoj slici, proces MoE-Tuning prvo obučava MLP ili višeslojni perceptron koji prilagođava vizualne tokene modelu velikog jezika u prvoj fazi. Okvir zatim obučava cjelokupne parametre LLM-a kako bi unaprijed osnažio jezični model velike vizije s općim multimodalnim mogućnostima razumijevanja. Konačno, u trećoj fazi, okvir replicira FFN ili Feed Forward Network kao inicijalizacijske težine za stručnjake i trenira samo mješavinu stručnih slojeva. Sve u svemu, proces obuke pomaže u postupnom prijelazu prorijeđenog modela s LVLM inicijalizacije na oskudnu mješavinu ekspertnih modela. 

Budući da je proces obuke pokriven, bacimo malo svjetla na MoE-LLaVA, osnovu za Large Vision Language Models s mješavinom stručnih modela koji uključuje usmjerivače koji se mogu naučiti i MoE modele. U svojoj srži, model MoE-LLaVA sastoji se od višestrukih rijetkih puteva, a okvir koristi te putove za slanje svakog tokena različitim stručnjacima putem usmjerivača koji se može naučiti. Aktivirani eksperti zatim zajedno obrađuju tokene dok neaktivne staze ostaju tihe. Okvir zatim iterativno slaže mješavinu slojeva Expert kodera kako bi pružio rijetki put prema većem i snažnijem LVLM-u. 

Zahvaljujući pristupu implementiranom okvirom MoE-LLaVA, on je u stanju nadmašiti modele sa sličnim brojem aktiviranih parametara i nadmašiti ih velikom razlikom na referentnoj vrijednosti halucinacija objekata POPE, unatoč tome što ima samo 2.2 milijarde parametara. Nadalje, okvir MoE-LLaVA s 2.2 milijarde parametara može postići performanse usporedive s okvirom InternVL-Chat-19B s gotovo 8 puta većim brojem aktiviranih parametara. 

Implementirani su moćni modeli velikog jezika sa snažnom generalizacijom i mogućnostima praćenja instrukcija Jezični modeli velike vizije. Rani LLM-ovi poput BLIP-a kodirali su vizualne signale u niz vizualnih tokena što im je omogućilo da uspješno prilagode vid LLM-ovima koristeći više slojeva projekcije. U isto vrijeme, nedavni radovi usmjereni su na poboljšanje performansi modela implementacijom metoda poput proširenja skupa podataka za podešavanje instrukcija, povećanja razlučivosti slike, optimiziranja strategija obuke, usklađivanja ulaza, poboljšanja kodera slike i još mnogo toga. Ovi su pristupi pomogli osnaživanju LVLM-ova snažnim sposobnostima vizualnog razumijevanja širenjem skupa podataka za fino podešavanje vizualnih uputa i mjerila modela. Nadalje, neki LVLM također posjeduju mogućnosti finog razumijevanja slike kao što je razumijevanje regije i više regija zajedno s mogućnostima uzemljenja po pikselima. Međutim, računalni trošak popraćen skaliranjem gustih vizualnih podataka i modela često je značajno visok što ga čini izazovnim za nošenje. S druge strane, okvir MoE-LLaVA ima za cilj učiniti istraživanje LVLM pristupačnijim iskorištavanjem mogućnosti modela MoE. 

MOE-LLaVA : Metoda i arhitektura

U svojoj srži, okvir MoE-LLaVA sastoji se od sloja vizualne projekcije (Multilayer Perceptron), enkodera vizije, MoE blokova, više naslaganih LLM blokova i sloja za ugrađivanje riječi. 

Arhitektura

Sljedeća tablica sažima detaljne konfiguracije okvira MoE-LLaVA. 

Za danu RGB sliku, vizualni koder obrađuje slike kako bi dobio niz vizualnih tokena sa slojem vizualne projekcije koji preslikava slijed vizualnih tokena na ulazne slike. Tekstualne unose obrađuje sloj za ugrađivanje riječi koji ga zatim projicira kako bi se dobili tokeni slijeda. Istodobno, okvir MoE-LLaVA povezuje tekstualne i vizualne tokene zajedno i prenosi ih na Mr. Međutim, okvir samo obučava sloj vizualne projekcije s velikim jezičnim modelom koji se sastoji od FFN ili Feedforward neuronskih mreža i slojeva samopažnje s više glava. Konačno, okvir primjenjuje zaostale veze i normalizaciju slojeva na svaki blok. 

U nastavku, okvir MoE-LLaVA replicira FFN ili Feedforward neuronske mreže iz druge faze kako bi se formirao skup stručnjaka kao korak inicijalizacije. Budući da je usmjerivač linearni sloj, predviđa vjerojatnost da će svaki token biti dodijeljen svakom stručnjaku. Svaki token obrađuje top-k stručnjaka s maksimalnom vjerojatnošću i izračunava ponderirani zbroj na temelju softmax rezultata vjerojatnosti. 

MoE-podešavanje

MoE-Tuning je jednostavna, ali učinkovita strategija obuke u tri faze koja prvo trenira MLP ili višeslojni perceptron koji u prvoj fazi prilagođava vizualne tokene modelu velikog jezika. Okvir zatim obučava cjelokupne parametre LLM-a kako bi unaprijed osnažio jezični model velike vizije s općim multimodalnim mogućnostima razumijevanja. Konačno, u trećoj fazi, okvir replicira FFN ili Feed Forward Network kao inicijalizacijske težine za stručnjake i trenira samo mješavinu stručnih slojeva. 

Pozornica 1

U prvoj fazi, primarni cilj je prilagoditi slikovne tokene velikom jezičnom modelu koji omogućuje LLM-u razumijevanje instanci na slici. Okvir MoE-LLaVA koristi višeslojni perceptron za projiciranje slikovnih tokena u ulaznu domenu velikog jezičnog modela i tretira slikovne zakrpe kao pseudotekstualne tokene. U ovoj fazi okvir MoE-LLaVA obučava LLM za opisivanje slika i ne primjenjuje slojeve MoE na LLM tijekom ove faze.

Pozornica 2

U drugoj fazi, MoE-LLaVA pokušava poboljšati sposobnosti i upravljivost okvira podešavanjem modela s multimodalnim podacima o uputama. Okvir MoE-LLaVA to postiže prilagodbom LLM-a da postane LVLM s multimodalnim mogućnostima razumijevanja. Okvir koristi složenije upute, uključujući zadatke prepoznavanja teksta i logičkog zaključivanja slika koji zahtijevaju da model posjeduje jače multimodalne sposobnosti. Tradicionalno, proces obuke za guste modele smatra se dovršenim ovim korakom. Međutim, okvir MOE-LLaVA naišao je na izazove pri transformaciji LLM-a u a LVLM istovremeno s prorjeđivanjem LVLM. Kako bi se suprotstavio ovom izazovu, okvir koristi težine iz faze kao inicijalizaciju za sljedeću fazu u pokušaju da ublaži poteškoće učenja prorijeđenog modela. 

Pozornica 3

U trećoj fazi, model replicira povratnu neuronsku mrežu nekoliko puta kako bi inicijalizirao eksperte kao postupak inicijalizacije. Okvir zatim ubacuje tekstualne i slikovne tokene u mješavinu stručnih slojeva nakon čega usmjerivač izračunava podudarne težine između stručnjaka i svakog tokena. Svaki token zatim obrađuje vrhunski k stručnjak s agregiranim izlazom izračunatim ponderiranim zbrajanjem na temelju težina usmjerivača. Nakon što se top-k eksperti aktiviraju, model isključuje preostale eksperte, pristup koji oprema MoE-LLaVA okvir beskonačno mogućim rijetkim stazama, opremajući tako model širokim rasponom mogućnosti. 

MOE-LLaVA : Rezultati i eksperimenti

Okvir MoE-LLaVA prihvaća CLIP-Large kao vidni koder s višeslojnim perceptronom koji se sastoji od dva sloja s GELU aktivacijskim slojem koji ih razdvaja. Prema zadanim postavkama, okvir koristi naizmjeničnu zamjenu naprijed neuralnih mreža mješavinom stručnih slojeva, što znači da mješavina stručnih slojeva čini 50% ukupnog broja slojeva. Sljedeća tablica sadrži različite skupove podataka zajedno s njihovom veličinom uzorka koji se koristi za obuku i evaluaciju okvira MoE-LLaVA. 

Zero-Shot Image Odgovaranje na pitanje

Sljedeća slika pokazuje da je MoE-LLaVA rijetki model s mekim usmjerivačem koji se temelji na LVLM-u. Okvir se procjenjuje na temelju 5 referentnih vrijednosti slikovnih pitanja, a kao što se može primijetiti, okvir MoE-LLaVA pokazuje izvanredne sposobnosti razumijevanja slike i pruža performanse usporedive s najsuvremenijim okvirom LLaVA 1.5 na pet različitih mjerila. 

Procjena halucinacije objekta

Za procjenu halucinacije objekta, okvir MoE-LLaVA usvaja cjevovod za procjenu POPE, metodu upita temeljenu na anketiranju, a rezultati su prikazani u sljedećoj tablici. Kao što se može primijetiti, od svih okvira, MoE-LLaVA daje najjače rezultate, ukazujući na sposobnost okvira da generira objekte u skladu s ulaznom slikom. Dodatno, vrijedi napomenuti da okvir MoE-LLaVA dobro uravnotežuje omjer da, što ukazuje na sposobnost rijetkog modela da pruži točnu povratnu informaciju za dano pitanje. 

Sljedeća slika sadrži distribuciju stručnih opterećenja, gdje diskontinuirane linije predstavljaju dobro uravnoteženu distribuciju tokena među modalitetima ili ekspertima. Prva slika ilustrira radno opterećenje stručnjaka, dok preostale slike pokazuju učinak stručnjaka prema različitim modalitetima. 

Nadalje, sljedeća slika pokazuje distribuciju modaliteta među različitim stručnjacima. 

Final Misli

U ovom smo članku govorili o MoE-LLaVA, osnovici za Large Vision Language Models s mješavinom Expert modela koji uključuje usmjerivače koji se mogu naučiti i MoE modele. U svojoj srži, model MoE-LLaVA sastoji se od višestrukih rijetkih puteva, a okvir koristi te putove za slanje svakog tokena različitim stručnjacima putem usmjerivača koji se može naučiti. Aktivirani eksperti zatim zajedno obrađuju tokene dok neaktivne staze ostaju tihe. Okvir zatim iterativno slaže mješavinu slojeva Expert kodera kako bi pružio rijetki put prema većem i snažnijem LVLM-u. Strategija MoE-Tuning inovativno se bavi zajedničkim problemom degradacije performansi u multimodalnom učenju s rijetkošću, posljedično konstruirajući model sa značajno velikim brojem parametara, ali dosljednim troškovima obuke i zaključivanja. Arhitektura okvira MoE-LLaVA dizajnirana je na način da aktivira samo top-k stručnjake tijekom implementacije, dok preostale stručnjake drži neaktivnima. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.