stomp MoE-LLaVA: Mengsel van kundiges vir grootvisie-taalmodelle - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

MoE-LLaVA: Mengsel van kundiges vir grootvisietaalmodelle

mm
Opgedateer on
MoE-LLaVA: Mengsel van kundiges vir grootvisietaalmodelle

Onlangse vooruitgang in Large Vision Language Models (LVLMs) het getoon dat die skaal van hierdie raamwerke prestasie aansienlik verhoog oor 'n verskeidenheid stroomaf take. LVLM's, insluitend MiniGPT, LLaMA, en ander, het merkwaardige vermoëns bereik deur visuele projeksielae en 'n beeldenkodeerder in hul argitektuur in te sluit. Deur hierdie komponente te implementeer, verbeter LVLM'e die visuele persepsievermoëns van Groottaalmodelle (LLM's). Werkverrigting kan verder verbeter word deur die model se grootte en aantal parameters te vergroot, asook die datastelskaal uit te brei.

Modelle soos InternVL het hul beeldenkodeerder uitgebrei na meer as 6 miljard parameters, terwyl ander die agterkant van LVLM's uitgebrei het na 13 miljard parameters, wat uitstekende werkverrigting op 'n wye verskeidenheid take behaal. IDEFICS het 'n LVLM opgelei met meer as 80 miljard parameters. Hierdie skaalmetodes het ooreenstem met of oortref die prestasie van LLM's wat vooraf opgelei is op meer as 34, 70 of selfs 100 miljard parameters. Skaal het egter 'n nadeel: dit verhoog opleiding en afleidingskoste aansienlik. Dit is omdat dit vereis dat alle parameters aktief moet wees vir elke teken in berekening, wat lei tot hoë berekeningsbehoeftes en gevolglik hoër koste.

Hierdie artikel bespreek MoE-LLaVA, 'n mengsel van kundiges (MoE)-gebaseerde yl LVLM-argitektuur wat 'n effektiewe opleidingstrategie, MoE-Tuning, vir LVLM's gebruik. MoE-Tuning spreek vernuwend prestasie-agteruitgang in multi-modale yl leer, wat lei tot 'n model met 'n groot aantal parameters maar konsekwente opleiding en afleidingskoste. Die MoE-LLaVA-argitektuur is ontwerp om slegs die top-k-kundiges tydens ontplooiing te aktiveer, en die res onaktief te hou.

Ons sal die MoE-LLaVA-raamwerk ondersoek, die meganisme, metodologie, argitektuur daarvan ondersoek en hoe dit vergelyk met toonaangewende beeld- en videogenereringsraamwerke.

MoE-LLaVA: Skaal grootvisietaalmodelle bekostigbaar

Benewens die gebruik van visuele projeksielae en beeldenkodeerders, skaal Large Vision Language Models ook die modelgrootte op deur die aantal parameters te verhoog om die werkverrigting van die model te verbeter. Enkele noemenswaardige voorbeelde van grootvisietaalmodelle wat hierdie benadering gevolg het om hul werkverrigting te verbeter, is MiniGPT-4, InternGPT, InternVL en ander. In werklike toepassings word die skaal van 'n Groottaalmodel of 'n Grootvisietaalmodel met opleidingsdata van hoë gehalte dikwels 'n noodsaaklikheid om die werkverrigting van die model te verbeter. Alhoewel die skaal van 'n modelgrootte wel die werkverrigting verbeter, verhoog dit ook die berekeningskoste van opleiding en ontplooiing van die model, en verhoog verder die komplikasies en doeltreffendheid om die model gelyktydig op parallelle toestelle te ontplooi. 'n Groot rede agter die verhoogde opleiding- en afleidingskoste tesame met berekeningsvereistes is dat elke teken in die raamwerk berekening vereis met elke enkele parameter binne die model bekend as die digte model. 

Aan die ander kant het yl MoE of Mixture of Expert Models effektiewe skaal van raamwerke getoon deur data te verwerk met behulp van vaste geaktiveerde parameters, 'n benadering wat wyd in die natuurlike taalverwerkingsveld gebruik is. Die gebruik van Mengsel van kundiges om yl grootvisietaalmodelle direk op te lei, is egter uitdagend aangesien die omskakeling van LLM's na LVLM's en die besparing van die model terselfdertyd beduidende prestasieverlaging tot gevolg het. Om Mengsel van modelle te implementeer om LLM's en LVLM's te skaal, is dit noodsaaklik om eers die LVLM vir sparsifikasie te inisialiseer. Om dit te bereik, stel die MoE-LLaVA-raamwerk MoE-Tuning bekend, 'n eenvoudige dog effektiewe driefase-opleidingstrategie. 

Soos getoon in die bostaande figuur, lei die MoE-Tuning-proses eers 'n MLP of 'n Multilayer Perceptron op wat die visuele tekens aanpas by 'n Groot Taalmodel in die eerste fase. Die raamwerk lei dan die hele parameters van die LLM op om die Grootvisietaalmodel vooraf te bemagtig met 'n algemene multimodale begripsvermoë. Laastens, in die derde fase, herhaal die raamwerk die FFN of Feed Forward Network as die inisialiseringsgewigte vir die kundiges, en lei slegs die mengsel van kundige lae op. Oor die algemeen help die opleidingsproses in die geleidelike oorgang van die yl model van 'n LVLM-inisialisering na 'n yl mengsel van deskundige modelle. 

Met die opleidingsproses wat gedek word, laat ons bietjie lig skyn op MoE-LLaVA, 'n basislyn vir grootvisietaalmodelle met 'n mengsel van kundige modelle wat leerbare roeteerders en MoE-modelle insluit. In sy kern bestaan ​​die MoE-LLaVA-model uit veelvuldige yl paaie, en die raamwerk gebruik hierdie paaie om elke teken na verskillende kundiges deur die leerbare router te stuur. Die tokens word dan gesamentlik deur die geaktiveerde kundiges verwerk terwyl die onaktiewe paaie stil gehou word. Die raamwerk stapel dan die Mixture of Expert-enkodeerderlae iteratief om 'n yl pad na 'n groter en kragtiger LVLM te verskaf. 

Danksy die benadering wat deur die MoE-LLaVA-raamwerk geïmplementeer is, is dit in staat om modelle met 'n soortgelyke aantal geaktiveerde parameters te oortref, en dit te oortref met 'n groot verskil op die POPE objek hallusinasie maatstaf, ten spyte daarvan dat dit slegs 2.2 miljard parameters het. Verder is die MoE-LLaVA-raamwerk met 2.2 miljard parameters in staat om prestasie te behaal wat vergelykbaar is met die InternVL-Chat-19B-raamwerk met byna 8 keer die aantal geaktiveerde parameters. 

Kragtige groottaalmodelle met sterk veralgemening en onderrigvolgende vermoëns is geïmplementeer om Groot Visie Taalmodelle. Vroeë LLM's soos BLIP het visuele seine in 'n reeks visuele tekens geënkodeer wat hulle in staat stel om visie suksesvol aan te pas by LLM's deur veelvuldige projeksielae te gebruik. Terselfdertyd fokus onlangse werke op die verbetering van die modelwerkverrigting deur metodes te implementeer soos die uitbreiding van die instruksie-insteldatastel, die verhoging van die resolusie van die beeld, die optimalisering van opleidingstrategieë, die belyning van die invoer, die verbetering van die beeldenkodeerders, en nog baie meer. Hierdie benaderings het gehelp om LVLM's te bemagtig met kragtige visuele begripsvermoëns deur die visuele instruksie-fynafstelling van datastel en modelskale uit te brei. Verder beskik sommige LVLM's ook oor fynkorrelige beeldverstaanvermoë soos streek- en multi-streekbegrip tesame met pixel-gewyse grondvermoëns. Die berekeningskoste wat gepaard gaan met die opskaling van digte visuele data en modelle is egter dikwels aansienlik hoog, wat dit uitdagend maak om te dra. Aan die ander kant is die MoE-LLaVA-raamwerk daarop gemik om LVLM-navorsing meer bekostigbaar te maak deur die vermoëns van MoE-modelle te benut. 

MoE-LLaVA: Metode en Argitektuur

Die MoE-LLaVA-raamwerk bestaan ​​in sy kern uit 'n visuele projeksielaag (Multilayer Perceptron), 'n visie-enkodeerder, MoE-blokke, veelvuldige gestapelde LLM-blokke en 'n woordinbeddingslaag. 

argitektuur

Die volgende tabel som die gedetailleerde konfigurasies van die MoE-LLaVA-raamwerk op. 

Vir 'n gegewe RGB-beeld verwerk die visie-enkodeerder die beelde om 'n reeks visuele tekens te verkry met 'n visuele projeksielaag wat die visuele tekenvolgorde karteer na invoerbeelde. Die teksinvoere word verwerk deur die woordinbedlaag wat dit dan projekteer om die volgordetokens te verkry. Terselfdertyd koppel die MoE-LLaVA-raamwerk die teks en visuele tekens saam, en voer dit aan die LLM. Die raamwerk lei egter slegs die visuele projeksielaag op met die groot taalmodel wat bestaan ​​uit FFN of Feedforward Neurale Netwerke, en Multi-Head Self Attention Layers. Laastens pas die raamwerk oorblywende verbindings en laagnormalisering op elke blok toe. 

Deur voort te beweeg, herhaal die MoE-LLaVA-raamwerk die FFN of Feedforward Neurale Netwerke vanaf die tweede fase om 'n ensemble van kundiges te vorm as die inisialiseringstap. Die router, wat 'n lineêre laag is, voorspel die waarskynlikheid dat elke teken aan elke kundige toegeken word. Elke teken word verwerk deur die top-k kundiges met die maksimum waarskynlikheid, en bereken die geweegde som gebaseer op die softmax resultaat van die waarskynlikhede. 

MoE-Tuning

MoE-Tuning is 'n eenvoudige dog effektiewe driefase-opleidingstrategie wat eers 'n MLP of 'n Multilayer Perceptron oplei wat die visuele tekens aanpas by 'n Groot Taalmodel in die eerste fase. Die raamwerk lei dan die hele parameters van die LLM op om die Grootvisietaalmodel vooraf te bemagtig met 'n algemene multimodale begripsvermoë. Laastens, in die derde fase, herhaal die raamwerk die FFN of Feed Forward Network as die inisialiseringsgewigte vir die kundiges, en lei slegs die mengsel van kundige lae op. 

Stadium 1

In die eerste fase is die primêre doelwit om die beeldtekens aan te pas by die groot taalmodel wat die LLM toelaat om die gevalle in die beeld te begryp. Die MoE-LLaVA-raamwerk gebruik 'n meerlaagperseptron om die beeldtekens in die invoerdomein van die groottaalmodel te projekteer, en behandel beeldkolle as pseudo-tekstokens. In hierdie stadium lei die MoE-LLaVA-raamwerk die LLM op om die beelde te beskryf, en pas nie die MoE-lae op die LLM toe tydens hierdie stadium nie.

Stadium 2

In die tweede fase poog die MoE-LLaVA om die vermoëns en beheerbaarheid van die raamwerk te verbeter deur die model met multi-modale instruksiedata in te stem. Die MoE-LLaVA-raamwerk bereik dit deur die LLM aan te pas om 'n LVLM te word met multi-modale begripsvermoëns. Die raamwerk gebruik meer komplekse instruksies, insluitend teksherkenning en logiese beeldredeneringstake wat vereis dat die model sterker multimodale vermoëns moet besit. Tradisioneel word die opleidingsproses vir digte modelle deur hierdie stap as voltooi beskou. Die MoE-LLaVA-raamwerk het egter uitdagings ondervind om die LLM in 'n LVLM gelyktydig met die sparsifisering van die LVLM. Om hierdie uitdaging die hoof te bied, gebruik die raamwerk die gewigte van die stadium as inisialisering vir die volgende fase in 'n poging om die leermoeilikheid van die yl model te verlig. 

Stadium 3

In die derde fase herhaal die model die voorwaartse neurale netwerk verskeie kere om die kundiges as 'n inisialiseringsprosedure te inisialiseer. Die raamwerk voer dan die teks- en beeldtekens in die mengsel van deskundige lae in, waarna die router die bypassende gewigte tussen kenners en elke tokens bereken. Elke teken word dan deur die top-k-kundiges verwerk met die saamgestelde uitset bereken deur geweegde opsomming gebaseer op die gewigte van die router. Sodra die top-k-kundiges geaktiveer is, sluit die model die oorblywende kundiges, 'n benadering wat die MoE-LLaVA-raamwerk met oneindig moontlike yl paaie toerus, en sodoende die model met 'n wye reeks vermoëns toerus. 

MoE-LLaVA: Resultate en eksperimente

Die MoE-LLaVA-raamwerk neem CLIP-Large aan as die visie-enkodeerder met die Multilayer Perceptron wat uit twee lae bestaan ​​met 'n GELU-aktiveringslaag wat die twee skei. By verstek gebruik die raamwerk 'n afwisselende vervanging van die voorwaartse neurale netwerke met die mengsel van deskundige lae, wat beteken dat die mengsel van deskundige lae 50% van die totale aantal lae uitmaak. Die volgende tabel bevat die verskillende datastelle saam met hul steekproefgrootte wat gebruik word om die MoE-LLaVA-raamwerk op te lei en te evalueer. 

Zero-Shot Image Vraag beantwoord

Die volgende figuur toon dat MoE-LLaVA 'n yl model is met 'n sagte roeteerder gebaseer op LVLM. Die raamwerk word geëvalueer op 5 beeldvrae-antwoord-maatstawwe, en soos dit waargeneem kan word, demonstreer die MoE-LLaVA-raamwerk merkwaardige beeldverstaanvermoëns, en lewer vergelykbare prestasie met die nuutste LLaVA 1.5-raamwerk op vyf verskillende maatstawwe. 

Voorwerp Hallusinasie Evaluering

Om objekhallusinasie te evalueer, neem die MoE-LLaVA-raamwerk die POPE-evalueringspyplyn aan, 'n peiling-gebaseerde navraagmetode, en die resultate word in die volgende tabel gedemonstreer. Soos waargeneem kan word, lewer die MoE-LLaVA uit al die raamwerke die sterkste resultate, wat die vermoë van die raamwerk aandui om voorwerpe te genereer wat ooreenstem met die insetbeeld. Daarbenewens is dit opmerklik dat die MoE-LLaVA-raamwerk die ja-verhouding goed balanseer, wat die vermoë van die yl model aandui om akkurate terugvoer vir die gegewe vraag te gee. 

Die volgende beeld bevat die verspreiding van kundige ladings, waar die diskontinue lyne 'n goed gebalanseerde verspreiding van tekens tussen die modaliteite of kundiges verteenwoordig. Die eerste figuur illustreer die werklading binne die kundiges terwyl die oorblywende beelde die prestasie van kundiges ten opsigte van verskillende modaliteite demonstreer. 

Verder demonstreer die volgende figuur die verspreiding van modaliteite oor verskillende kundiges. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor MoE-LLaVA, 'n basislyn vir grootvisietaalmodelle met 'n mengsel van kundige modelle wat leerbare roeteerders en MoE-modelle insluit. In sy kern bestaan ​​die MoE-LLaVA-model uit veelvuldige yl paaie, en die raamwerk gebruik hierdie paaie om elke teken na verskillende kundiges deur die leerbare router te stuur. Die tokens word dan gesamentlik deur die geaktiveerde kundiges verwerk terwyl die onaktiewe paaie stil gehou word. Die raamwerk stapel dan die Mixture of Expert-enkodeerderlae iteratief om 'n yl pad na 'n groter en kragtiger LVLM te verskaf. Die MoE-Tuning-strategie spreek die algemene kwessie van prestasieagteruitgang in multimodale ylheidsleer innoverend aan, wat gevolglik 'n model met 'n aansienlike groot aantal parameters maar konsekwente opleiding- en afleidingskoste konstrueer. Die argitektuur van die MoE-LLaVA-raamwerk is so ontwerp dat dit slegs die top-k-kundiges aktiveer tydens ontplooiing terwyl die oorblywende kundiges onaktief gehou word. 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.