Artificiell intelligens
MoE-LLaVA: Blandning av experter för stora vision-sprÄkmodeller

Nya framsteg inom Large Vision Language Models (LVLM) har visat att skalning av dessa ramverk avsevÀrt ökar prestandan för en mÀngd olika nedströmsuppgifter. LVLMs, inklusive MiniGPT, LLaMA och andra, har uppnÄtt anmÀrkningsvÀrda egenskaper genom att inkorporera visuella projektionslager och en bildkodare i sin arkitektur. Genom att implementera dessa komponenter förbÀttrar LVLM:er den visuella uppfattningsförmÄgan hos Large Language Models (LLM). Prestandan kan förbÀttras ytterligare genom att öka modellens storlek och antal parametrar, samt utöka datauppsÀttningsskalan.
Modeller som InternVL har utökat sin bildkodare till över 6 miljarder parametrar, medan andra har utökat backend av LVLM:er till 13 miljarder parametrar, vilket uppnÄr överlÀgsen prestanda för ett brett spektrum av uppgifter. IDEFICS har utbildat en LVLM med över 80 miljarder parametrar. Dessa skalningsmetoder har matchat eller övertrÀffat prestandan för LLM:er förutbildade pÄ över 34, 70 eller till och med 100 miljarder parametrar. Skalning har dock en baksida: det ökar avsevÀrt utbildnings- och slutledningskostnaderna. Detta beror pÄ att det krÀver att alla parametrar Àr aktiva för varje token i berÀkningen, vilket leder till höga berÀkningsbehov och följaktligen högre kostnader.
Den hÀr artikeln diskuterar MoE-LLaVA, en blandning av experter (MoE)-baserad sparsam LVLM-arkitektur som anvÀnder en effektiv trÀningsstrategi, MoE-Tuning, för LVLM:er. MoE-Tuning adresserar innovativt prestationsförsÀmring i multimodalt sparsitetsinlÀrning, vilket resulterar i en modell med ett stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. MoE-LLaVA-arkitekturen Àr designad för att endast aktivera topp-k-experterna under driftsÀttning, och hÄlla resten inaktiva.
Vi kommer att utforska MoE-LLaVA-ramverket, undersöka dess mekanism, metodik, arkitektur och hur det kan jÀmföras med ledande ramverk för bild- och videogenerering.
MoE-LLaVA: Skala stora visionssprÄkmodeller till ett överkomligt pris
Förutom att utnyttja visuella projektionslager och bildkodare, skalar Large Vision Language Models ocksĂ„ upp modellstorleken genom att öka antalet parametrar för att förbĂ€ttra modellens prestanda. NĂ„gra anmĂ€rkningsvĂ€rda exempel pĂ„ Large Vision Language Models som har följt detta tillvĂ€gagĂ„ngssĂ€tt för att förbĂ€ttra sin prestanda Ă€r MiniGPT-4, InternGPT, InternVL och andra. I verkliga applikationer blir det ofta en nödvĂ€ndighet att skala en Large Language Model eller en Large Vision Language Model med högkvalitativ trĂ€ningsdata för att förbĂ€ttra modellens prestanda. Ăven om skalning av en modellstorlek förbĂ€ttrar prestandan, ökar det ocksĂ„ berĂ€kningskostnaderna för utbildning och driftsĂ€ttning av modellen, och ökar ytterligare komplikationerna och effektiviteten av att distribuera modellen pĂ„ parallella enheter samtidigt. En huvudorsak bakom de ökade utbildnings- och slutledningskostnaderna tillsammans med berĂ€kningskrav Ă€r att varje token i ramverket krĂ€ver berĂ€kning med varje enskild parameter inom modellen som kallas den tĂ€ta modellen.
à andra sidan har sparsam MoE eller Mixture of Expert Models visat effektiv skalning av ramverk genom att bearbeta data med hjÀlp av fasta aktiverade parametrar, ett tillvÀgagÄngssÀtt som har antagits allmÀnt inom omrÄdet Natural Language Processing. Men att anvÀnda Mixture of Expert för att trÀna glesa Large Vision-sprÄkmodeller direkt Àr utmanande eftersom konvertering av LLM till LVLM och sparsifiering av modellen samtidigt resulterar i betydande prestandaförsÀmring. För att implementera Mixture of Models för att skala LLM och LVLM Àr det viktigt att först initiera LVLM för sparsifiering. För att uppnÄ detta introducerar MoE-LLaVA-ramverket MoE-Tuning, en enkel men effektiv trÀningsstrategi i tre faser.
Som visas i ovanstÄende figur trÀnar MoE-Tuning-processen först en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket trÀnar sedan hela parametrarna för LLM för att förstÀrka Large Vision Language Model med en allmÀn multimodal förstÄelse. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och trÀnar endast Mixture of Expert-skikten. Sammantaget hjÀlper utbildningsprocessen till den gradvisa övergÄngen av den sparsamma modellen frÄn en LVLM-initiering till en sparsam blandning av expertmodeller.
NÀr utbildningsprocessen behandlas, lÄt oss belysa MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehÄller inlÀrbara routrar och MoE-modeller. I sin kÀrna bestÄr MoE-LLaVA-modellen av flera glesa vÀgar, och ramverket anvÀnder dessa vÀgar för att skicka varje token till olika experter genom den lÀrbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vÀgarna hÄlls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam vÀg mot en större och kraftfullare LVLM.
Tack vare tillvÀgagÄngssÀttet som implementerats av MoE-LLaVA-ramverket kan den övertrÀffa modeller med ett liknande antal aktiverade parametrar och övertrÀffa dem med en stor skillnad pÄ POPE-objektets hallucinationsbenchmark, trots att de bara har 2.2 miljarder parametrar. Dessutom kan MoE-LLaVA-ramverket med 2.2 miljarder parametrar uppnÄ prestanda jÀmförbart med InternVL-Chat-19B-ramverket med nÀstan 8 gÄnger antalet aktiverade parametrar.
Kraftfulla stora sprÄkmodeller med stark generalisering och instruktionsföljande förmÄga har implementerats Stora Vision Language Models. Tidiga LLMs som BLIP kodade visuella signaler till en sekvens av visuella tokens som gör det möjligt för dem att anpassa synen till LLMs framgÄngsrikt med hjÀlp av flera projektionslager. Samtidigt fokuserar de senaste arbetena pÄ att förbÀttra modellens prestanda genom att implementera metoder som att utöka datasetet för instruktionsjustering, öka bildens upplösning, optimera trÀningsstrategier, anpassa indata, förbÀttra bildkodarna och mycket mer. Dessa tillvÀgagÄngssÀtt har hjÀlpt till att ge LVLMs kraftfulla visuella förstÄelsemöjligheter genom att utöka den visuella instruktionsfinjusteringsdatauppsÀttningen och modellskalorna. Dessutom har vissa LVLM:er ocksÄ finkorniga bildförstÄelsemöjligheter sÄsom region- och multiregionförstÄelse tillsammans med pixelvis jordning. Men den berÀkningskostnad som Ätföljs av att skala upp tÀta visuella data och modeller Àr ofta avsevÀrt hög vilket gör det utmanande att bÀra. à andra sidan syftar MoE-LLaVA-ramverket till att göra LVLM-forskning mer överkomlig genom att utnyttja kapaciteten hos MoE-modeller.
MoE-LLaVA : Metod och arkitektur
I sin kÀrna bestÄr MoE-LLaVA-ramverket av ett visuellt projektionslager (Multilayer Perceptron), en vision-kodare, MoE-block, flera staplade LLM-block och ett ordinbÀddningslager.
arkitektur
Följande tabell sammanfattar de detaljerade konfigurationerna av MoE-LLaVA-ramverket.
För en given RGB-bild bearbetar visionkodaren bilderna för att erhÄlla en sekvens av visuella tokens med ett visuellt projektionslager som kartlÀgger den visuella tokensekvensen till ingÄngsbilder. Textinmatningarna bearbetas av ordinbÀddningsskiktet som sedan projicerar det för att erhÄlla sekvenssymbolerna. Samtidigt lÀnkar MoE-LLaVA-ramverket samman text och visuella tokens och matar dem till LLM. Ramverket trÀnar dock bara det visuella projektionsskiktet med den stora sprÄkmodellen som bestÄr av FFN eller Feedforward Neural Networks och Multi-Head Self Attention Layers. Slutligen tillÀmpar ramverket restanslutningar och lagernormalisering pÄ varje block.
MoE-LLaVA-ramverket replikerar FFN eller Feedforward Neural Networks frÄn det andra steget för att bilda en ensemble av experter som initialiseringssteget. Routern Àr ett linjÀrt lager och förutsÀger sannolikheten för att varje token tilldelas varje expert. Varje token bearbetas av topp-k-experterna med maximal sannolikhet och berÀknar den viktade summan baserat pÄ softmax-resultatet av sannolikheterna.
MoE-Tuning
MoE-Tuning Àr en enkel men effektiv trÀningsstrategi i tre faser som först trÀnar en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket trÀnar sedan hela parametrarna för LLM för att förstÀrka Large Vision Language Model med en allmÀn multimodal förstÄelse. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och trÀnar endast Mixture of Expert-skikten.
Steg 1
I det första steget Àr det primÀra mÄlet att anpassa bildsymbolerna till den stora sprÄkmodellen som gör att LLM kan förstÄ förekomsterna i bilden. MoE-LLaVA-ramverket anvÀnder en flerskiktsperceptron för att projicera bildsymbolerna i ingÄngsdomÀnen för den stora sprÄkmodellen, och behandlar bildlappar som pseudotext-tokens. I detta skede trÀnar MoE-LLaVA-ramverket LLM att beskriva bilderna och applicerar inte MoE-skikten pÄ LLM under detta steg.
Steg 2
I det andra steget försöker MoE-LLaVA förbÀttra ramverkets kapacitet och kontrollerbarhet genom att stÀlla in modellen med multimodala instruktionsdata. MoE-LLaVA-ramverket uppnÄr detta genom att justera LLM för att bli ett LVLM med multimodal förstÄelse. Ramverket anvÀnder mer komplexa instruktioner inklusive textigenkÀnning och logiska bildresonemangsuppgifter som krÀver att modellen har starkare multimodala möjligheter. Traditionellt anses utbildningsprocessen för tÀta modeller vara avslutad med detta steg. MoE-LLaVA-ramverket stötte dock pÄ utmaningar nÀr det gÀllde att omvandla LLM till en LVLM samtidigt med sparsifiering av LVLM. För att möta denna utmaning anvÀnder ramverket vikterna frÄn steget som initialisering för nÀsta steg i ett försök att lindra inlÀrningssvÄrigheterna med den sparsamma modellen.
Steg 3
I det tredje steget replikerar modellen det framkopplade neurala nÀtverket flera gÄnger för att initiera experterna som en initialiseringsprocedur. Ramverket matar sedan in text- och bildsymbolerna i blandningen av expertlager, varefter routern berÀknar matchande vikter mellan experter och varje token. Varje token bearbetas sedan av topp-k-experterna med den aggregerade produktionen berÀknad genom viktad summering baserat pÄ routerns vikter. NÀr topp-k-experterna vÀl har aktiverats, stÀnger modellen de ÄterstÄende experterna, ett tillvÀgagÄngssÀtt som utrustar MoE-LLaVA-ramverket med oÀndligt mÄnga glesa vÀgar, vilket förser modellen med ett brett utbud av möjligheter.
MoE-LLaVA: Resultat och experiment
MoE-LLaVA-ramverket anvÀnder CLIP-Large som vision-kodare med Multilayer Perceptron som bestÄr av tvÄ lager med ett GELU-aktiveringslager som separerar de tvÄ. Som standard anvÀnder ramverket en alternerande ersÀttning av de framkopplade neurala nÀtverken med en blandning av expertlager, vilket innebÀr att blandningen av expertlager utgör 50 % av det totala antalet lager. Följande tabell innehÄller de olika datamÀngderna tillsammans med deras urvalsstorlek som anvÀnds för att trÀna och utvÀrdera MoE-LLaVA-ramverket.
Zero-Shot BildfrÄga Besvara
Följande figur visar att MoE-LLaVA Àr en sparsam modell med en mjuk router baserad pÄ LVLM. Ramverket utvÀrderas pÄ 5 riktmÀrken för svar pÄ bildfrÄgor, och som det kan observeras visar MoE-LLaVA-ramverket anmÀrkningsvÀrda bildförstÄelsemöjligheter och ger jÀmförbar prestanda med det senaste LLaVA 1.5-ramverket pÄ fem olika riktmÀrken.
UtvÀrdering av objekthallucinationer
För att utvÀrdera objekthallucination anvÀnder MoE-LLaVA-ramverket POPE-utvÀrderingspipelinen, en pollningsbaserad frÄgemetod, och resultaten visas i följande tabell. Som det kan observeras, av alla ramverk, levererar MoE-LLaVA de starkaste resultaten, vilket indikerar ramverkets förmÄga att generera objekt som överensstÀmmer med ingÄngsbilden. Dessutom Àr det vÀrt att notera att MoE-LLaVA-ramverket balanserar ja-förhÄllandet vÀl, vilket indikerar förmÄgan hos den glesa modellen att ge korrekt feedback för den givna frÄgan.
Följande bild innehÄller fördelningen av expertladdningar, dÀr de diskontinuerliga linjerna representerar en vÀlbalanserad fördelning av tokens mellan modaliteterna eller experterna. Den första figuren illustrerar arbetsbelastningen inom experterna medan de ÄterstÄende bilderna visar experternas prestation mot olika modaliteter.
Dessutom visar följande figur fördelningen av modaliteter mellan olika experter.
Avslutande tankar
I den hÀr artikeln har vi pratat om MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehÄller inlÀrningsbara routrar och MoE-modeller. I sin kÀrna bestÄr MoE-LLaVA-modellen av flera glesa vÀgar, och ramverket anvÀnder dessa vÀgar för att skicka varje token till olika experter genom den lÀrbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vÀgarna hÄlls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam vÀg mot en större och kraftfullare LVLM. MoE-Tuning-strategin tar upp den vanliga frÄgan om prestationsförsÀmring i multimodalt sparsitetsinlÀrning innovativt, och konstruerar följaktligen en modell med ett avsevÀrt stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. Arkitekturen för MoE-LLaVA-ramverket har utformats pÄ ett sÀtt sÄ att det bara aktiverar topp-k-experterna under driftsÀttning samtidigt som de ÄterstÄende experterna hÄlls inaktiva.