Anslut dig till vÄrt nÀtverk!

MoE-LLaVA: Blandning av experter för stora vision-sprÄkmodeller

Artificiell intelligens

MoE-LLaVA: Blandning av experter för stora vision-sprÄkmodeller

mm
MoE-LLaVA: Blandning av experter för stora vision-sprÄkmodeller

Nya framsteg inom Large Vision Language Models (LVLM) har visat att skalning av dessa ramverk avsevÀrt ökar prestandan för en mÀngd olika nedströmsuppgifter. LVLMs, inklusive MiniGPT, LLaMA och andra, har uppnÄtt anmÀrkningsvÀrda egenskaper genom att inkorporera visuella projektionslager och en bildkodare i sin arkitektur. Genom att implementera dessa komponenter förbÀttrar LVLM:er den visuella uppfattningsförmÄgan hos Large Language Models (LLM). Prestandan kan förbÀttras ytterligare genom att öka modellens storlek och antal parametrar, samt utöka datauppsÀttningsskalan.

Modeller som InternVL har utökat sin bildkodare till över 6 miljarder parametrar, medan andra har utökat backend av LVLM:er till 13 miljarder parametrar, vilket uppnÄr överlÀgsen prestanda för ett brett spektrum av uppgifter. IDEFICS har utbildat en LVLM med över 80 miljarder parametrar. Dessa skalningsmetoder har matchat eller övertrÀffat prestandan för LLM:er förutbildade pÄ över 34, 70 eller till och med 100 miljarder parametrar. Skalning har dock en baksida: det ökar avsevÀrt utbildnings- och slutledningskostnaderna. Detta beror pÄ att det krÀver att alla parametrar Àr aktiva för varje token i berÀkningen, vilket leder till höga berÀkningsbehov och följaktligen högre kostnader.

Den hÀr artikeln diskuterar MoE-LLaVA, en blandning av experter (MoE)-baserad sparsam LVLM-arkitektur som anvÀnder en effektiv trÀningsstrategi, MoE-Tuning, för LVLM:er. MoE-Tuning adresserar innovativt prestationsförsÀmring i multimodalt sparsitetsinlÀrning, vilket resulterar i en modell med ett stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. MoE-LLaVA-arkitekturen Àr designad för att endast aktivera topp-k-experterna under driftsÀttning, och hÄlla resten inaktiva.

Vi kommer att utforska MoE-LLaVA-ramverket, undersöka dess mekanism, metodik, arkitektur och hur det kan jÀmföras med ledande ramverk för bild- och videogenerering.

MoE-LLaVA: Skala stora visionssprÄkmodeller till ett överkomligt pris

Förutom att utnyttja visuella projektionslager och bildkodare, skalar Large Vision Language Models ocksĂ„ upp modellstorleken genom att öka antalet parametrar för att förbĂ€ttra modellens prestanda. NĂ„gra anmĂ€rkningsvĂ€rda exempel pĂ„ Large Vision Language Models som har följt detta tillvĂ€gagĂ„ngssĂ€tt för att förbĂ€ttra sin prestanda Ă€r MiniGPT-4, InternGPT, InternVL och andra. I verkliga applikationer blir det ofta en nödvĂ€ndighet att skala en Large Language Model eller en Large Vision Language Model med högkvalitativ trĂ€ningsdata för att förbĂ€ttra modellens prestanda. Även om skalning av en modellstorlek förbĂ€ttrar prestandan, ökar det ocksĂ„ berĂ€kningskostnaderna för utbildning och driftsĂ€ttning av modellen, och ökar ytterligare komplikationerna och effektiviteten av att distribuera modellen pĂ„ parallella enheter samtidigt. En huvudorsak bakom de ökade utbildnings- och slutledningskostnaderna tillsammans med berĂ€kningskrav Ă€r att varje token i ramverket krĂ€ver berĂ€kning med varje enskild parameter inom modellen som kallas den tĂ€ta modellen. 

Å andra sidan har sparsam MoE eller Mixture of Expert Models visat effektiv skalning av ramverk genom att bearbeta data med hjĂ€lp av fasta aktiverade parametrar, ett tillvĂ€gagĂ„ngssĂ€tt som har antagits allmĂ€nt inom omrĂ„det Natural Language Processing. Men att anvĂ€nda Mixture of Expert för att trĂ€na glesa Large Vision-sprĂ„kmodeller direkt Ă€r utmanande eftersom konvertering av LLM till LVLM och sparsifiering av modellen samtidigt resulterar i betydande prestandaförsĂ€mring. För att implementera Mixture of Models för att skala LLM och LVLM Ă€r det viktigt att först initiera LVLM för sparsifiering. För att uppnĂ„ detta introducerar MoE-LLaVA-ramverket MoE-Tuning, en enkel men effektiv trĂ€ningsstrategi i tre faser. 

Som visas i ovanstĂ„ende figur trĂ€nar MoE-Tuning-processen först en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket trĂ€nar sedan hela parametrarna för LLM för att förstĂ€rka Large Vision Language Model med en allmĂ€n multimodal förstĂ„else. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och trĂ€nar endast Mixture of Expert-skikten. Sammantaget hjĂ€lper utbildningsprocessen till den gradvisa övergĂ„ngen av den sparsamma modellen frĂ„n en LVLM-initiering till en sparsam blandning av expertmodeller. 

NĂ€r utbildningsprocessen behandlas, lĂ„t oss belysa MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehĂ„ller inlĂ€rbara routrar och MoE-modeller. I sin kĂ€rna bestĂ„r MoE-LLaVA-modellen av flera glesa vĂ€gar, och ramverket anvĂ€nder dessa vĂ€gar för att skicka varje token till olika experter genom den lĂ€rbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vĂ€garna hĂ„lls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam vĂ€g mot en större och kraftfullare LVLM. 

Tack vare tillvĂ€gagĂ„ngssĂ€ttet som implementerats av MoE-LLaVA-ramverket kan den övertrĂ€ffa modeller med ett liknande antal aktiverade parametrar och övertrĂ€ffa dem med en stor skillnad pĂ„ POPE-objektets hallucinationsbenchmark, trots att de bara har 2.2 miljarder parametrar. Dessutom kan MoE-LLaVA-ramverket med 2.2 miljarder parametrar uppnĂ„ prestanda jĂ€mförbart med InternVL-Chat-19B-ramverket med nĂ€stan 8 gĂ„nger antalet aktiverade parametrar. 

Kraftfulla stora sprĂ„kmodeller med stark generalisering och instruktionsföljande förmĂ„ga har implementerats Stora Vision Language Models. Tidiga LLMs som BLIP kodade visuella signaler till en sekvens av visuella tokens som gör det möjligt för dem att anpassa synen till LLMs framgĂ„ngsrikt med hjĂ€lp av flera projektionslager. Samtidigt fokuserar de senaste arbetena pĂ„ att förbĂ€ttra modellens prestanda genom att implementera metoder som att utöka datasetet för instruktionsjustering, öka bildens upplösning, optimera trĂ€ningsstrategier, anpassa indata, förbĂ€ttra bildkodarna och mycket mer. Dessa tillvĂ€gagĂ„ngssĂ€tt har hjĂ€lpt till att ge LVLMs kraftfulla visuella förstĂ„elsemöjligheter genom att utöka den visuella instruktionsfinjusteringsdatauppsĂ€ttningen och modellskalorna. Dessutom har vissa LVLM:er ocksĂ„ finkorniga bildförstĂ„elsemöjligheter sĂ„som region- och multiregionförstĂ„else tillsammans med pixelvis jordning. Men den berĂ€kningskostnad som Ă„tföljs av att skala upp tĂ€ta visuella data och modeller Ă€r ofta avsevĂ€rt hög vilket gör det utmanande att bĂ€ra. Å andra sidan syftar MoE-LLaVA-ramverket till att göra LVLM-forskning mer överkomlig genom att utnyttja kapaciteten hos MoE-modeller. 

MoE-LLaVA : Metod och arkitektur

I sin kĂ€rna bestĂ„r MoE-LLaVA-ramverket av ett visuellt projektionslager (Multilayer Perceptron), en vision-kodare, MoE-block, flera staplade LLM-block och ett ordinbĂ€ddningslager. 

arkitektur

Följande tabell sammanfattar de detaljerade konfigurationerna av MoE-LLaVA-ramverket. 

För en given RGB-bild bearbetar visionkodaren bilderna för att erhĂ„lla en sekvens av visuella tokens med ett visuellt projektionslager som kartlĂ€gger den visuella tokensekvensen till ingĂ„ngsbilder. Textinmatningarna bearbetas av ordinbĂ€ddningsskiktet som sedan projicerar det för att erhĂ„lla sekvenssymbolerna. Samtidigt lĂ€nkar MoE-LLaVA-ramverket samman text och visuella tokens och matar dem till LLM. Ramverket trĂ€nar dock bara det visuella projektionsskiktet med den stora sprĂ„kmodellen som bestĂ„r av FFN eller Feedforward Neural Networks och Multi-Head Self Attention Layers. Slutligen tillĂ€mpar ramverket restanslutningar och lagernormalisering pĂ„ varje block. 

MoE-LLaVA-ramverket replikerar FFN eller Feedforward Neural Networks frĂ„n det andra steget för att bilda en ensemble av experter som initialiseringssteget. Routern Ă€r ett linjĂ€rt lager och förutsĂ€ger sannolikheten för att varje token tilldelas varje expert. Varje token bearbetas av topp-k-experterna med maximal sannolikhet och berĂ€knar den viktade summan baserat pĂ„ softmax-resultatet av sannolikheterna. 

MoE-Tuning

MoE-Tuning Ă€r en enkel men effektiv trĂ€ningsstrategi i tre faser som först trĂ€nar en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket trĂ€nar sedan hela parametrarna för LLM för att förstĂ€rka Large Vision Language Model med en allmĂ€n multimodal förstĂ„else. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och trĂ€nar endast Mixture of Expert-skikten. 

Steg 1

I det första steget Àr det primÀra mÄlet att anpassa bildsymbolerna till den stora sprÄkmodellen som gör att LLM kan förstÄ förekomsterna i bilden. MoE-LLaVA-ramverket anvÀnder en flerskiktsperceptron för att projicera bildsymbolerna i ingÄngsdomÀnen för den stora sprÄkmodellen, och behandlar bildlappar som pseudotext-tokens. I detta skede trÀnar MoE-LLaVA-ramverket LLM att beskriva bilderna och applicerar inte MoE-skikten pÄ LLM under detta steg.

Steg 2

I det andra steget försöker MoE-LLaVA förbĂ€ttra ramverkets kapacitet och kontrollerbarhet genom att stĂ€lla in modellen med multimodala instruktionsdata. MoE-LLaVA-ramverket uppnĂ„r detta genom att justera LLM för att bli ett LVLM med multimodal förstĂ„else. Ramverket anvĂ€nder mer komplexa instruktioner inklusive textigenkĂ€nning och logiska bildresonemangsuppgifter som krĂ€ver att modellen har starkare multimodala möjligheter. Traditionellt anses utbildningsprocessen för tĂ€ta modeller vara avslutad med detta steg. MoE-LLaVA-ramverket stötte dock pĂ„ utmaningar nĂ€r det gĂ€llde att omvandla LLM till en LVLM samtidigt med sparsifiering av LVLM. För att möta denna utmaning anvĂ€nder ramverket vikterna frĂ„n steget som initialisering för nĂ€sta steg i ett försök att lindra inlĂ€rningssvĂ„righeterna med den sparsamma modellen. 

Steg 3

I det tredje steget replikerar modellen det framkopplade neurala nĂ€tverket flera gĂ„nger för att initiera experterna som en initialiseringsprocedur. Ramverket matar sedan in text- och bildsymbolerna i blandningen av expertlager, varefter routern berĂ€knar matchande vikter mellan experter och varje token. Varje token bearbetas sedan av topp-k-experterna med den aggregerade produktionen berĂ€knad genom viktad summering baserat pĂ„ routerns vikter. NĂ€r topp-k-experterna vĂ€l har aktiverats, stĂ€nger modellen de Ă„terstĂ„ende experterna, ett tillvĂ€gagĂ„ngssĂ€tt som utrustar MoE-LLaVA-ramverket med oĂ€ndligt mĂ„nga glesa vĂ€gar, vilket förser modellen med ett brett utbud av möjligheter. 

MoE-LLaVA: Resultat och experiment

MoE-LLaVA-ramverket anvĂ€nder CLIP-Large som vision-kodare med Multilayer Perceptron som bestĂ„r av tvĂ„ lager med ett GELU-aktiveringslager som separerar de tvĂ„. Som standard anvĂ€nder ramverket en alternerande ersĂ€ttning av de framkopplade neurala nĂ€tverken med en blandning av expertlager, vilket innebĂ€r att blandningen av expertlager utgör 50 % av det totala antalet lager. Följande tabell innehĂ„ller de olika datamĂ€ngderna tillsammans med deras urvalsstorlek som anvĂ€nds för att trĂ€na och utvĂ€rdera MoE-LLaVA-ramverket. 

Zero-Shot BildfrÄga Besvara

Följande figur visar att MoE-LLaVA Ă€r en sparsam modell med en mjuk router baserad pĂ„ LVLM. Ramverket utvĂ€rderas pĂ„ 5 riktmĂ€rken för svar pĂ„ bildfrĂ„gor, och som det kan observeras visar MoE-LLaVA-ramverket anmĂ€rkningsvĂ€rda bildförstĂ„elsemöjligheter och ger jĂ€mförbar prestanda med det senaste LLaVA 1.5-ramverket pĂ„ fem olika riktmĂ€rken. 

UtvÀrdering av objekthallucinationer

För att utvĂ€rdera objekthallucination anvĂ€nder MoE-LLaVA-ramverket POPE-utvĂ€rderingspipelinen, en pollningsbaserad frĂ„gemetod, och resultaten visas i följande tabell. Som det kan observeras, av alla ramverk, levererar MoE-LLaVA de starkaste resultaten, vilket indikerar ramverkets förmĂ„ga att generera objekt som överensstĂ€mmer med ingĂ„ngsbilden. Dessutom Ă€r det vĂ€rt att notera att MoE-LLaVA-ramverket balanserar ja-förhĂ„llandet vĂ€l, vilket indikerar förmĂ„gan hos den glesa modellen att ge korrekt feedback för den givna frĂ„gan. 

Följande bild innehĂ„ller fördelningen av expertladdningar, dĂ€r de diskontinuerliga linjerna representerar en vĂ€lbalanserad fördelning av tokens mellan modaliteterna eller experterna. Den första figuren illustrerar arbetsbelastningen inom experterna medan de Ă„terstĂ„ende bilderna visar experternas prestation mot olika modaliteter. 

Dessutom visar följande figur fördelningen av modaliteter mellan olika experter. 

Avslutande tankar

I den hĂ€r artikeln har vi pratat om MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehĂ„ller inlĂ€rningsbara routrar och MoE-modeller. I sin kĂ€rna bestĂ„r MoE-LLaVA-modellen av flera glesa vĂ€gar, och ramverket anvĂ€nder dessa vĂ€gar för att skicka varje token till olika experter genom den lĂ€rbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vĂ€garna hĂ„lls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam vĂ€g mot en större och kraftfullare LVLM. MoE-Tuning-strategin tar upp den vanliga frĂ„gan om prestationsförsĂ€mring i multimodalt sparsitetsinlĂ€rning innovativt, och konstruerar följaktligen en modell med ett avsevĂ€rt stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. Arkitekturen för MoE-LLaVA-ramverket har utformats pĂ„ ett sĂ€tt sĂ„ att det bara aktiverar topp-k-experterna under driftsĂ€ttning samtidigt som de Ă„terstĂ„ende experterna hĂ„lls inaktiva. 

"En ingenjör till yrket, en författare utantill". Kunal Àr en teknisk skribent med en djup kÀrlek och förstÄelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa omrÄden genom sin engagerande och informativa dokumentation.