Artificiell intelligens

MoE-LLaVA: Blandning av experter för stora vision-språkmodeller

publicerade 1 april 2024

Uppdaterad 23 april 2024

Kunal Kejriwal

MoE-LLaVA: Blandning av experter för stora vision-språkmodeller

Nya framsteg inom Large Vision Language Models (LVLM) har visat att skalning av dessa ramverk avsevärt ökar prestandan för en mängd olika nedströmsuppgifter. LVLMs, inklusive MiniGPT, LLaMA och andra, har uppnått anmärkningsvärda egenskaper genom att inkorporera visuella projektionslager och en bildkodare i sin arkitektur. Genom att implementera dessa komponenter förbättrar LVLM:er den visuella uppfattningsförmågan hos Large Language Models (LLM). Prestandan kan förbättras ytterligare genom att öka modellens storlek och antal parametrar, samt utöka datauppsättningsskalan.

Modeller som InternVL har utökat sin bildkodare till över 6 miljarder parametrar, medan andra har utökat backend av LVLM:er till 13 miljarder parametrar, vilket uppnår överlägsen prestanda för ett brett spektrum av uppgifter. IDEFICS har utbildat en LVLM med över 80 miljarder parametrar. Dessa skalningsmetoder har matchat eller överträffat prestandan för LLM:er förutbildade på över 34, 70 eller till och med 100 miljarder parametrar. Skalning har dock en baksida: det ökar avsevärt utbildnings- och slutledningskostnaderna. Detta beror på att det kräver att alla parametrar är aktiva för varje token i beräkningen, vilket leder till höga beräkningsbehov och följaktligen högre kostnader.

Den här artikeln diskuterar MoE-LLaVA, en blandning av experter (MoE)-baserad sparsam LVLM-arkitektur som använder en effektiv träningsstrategi, MoE-Tuning, för LVLM:er. MoE-Tuning adresserar innovativt prestationsförsämring i multimodalt sparsitetsinlärning, vilket resulterar i en modell med ett stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. MoE-LLaVA-arkitekturen är designad för att endast aktivera topp-k-experterna under driftsättning, och hålla resten inaktiva.

Vi kommer att utforska MoE-LLaVA-ramverket, undersöka dess mekanism, metodik, arkitektur och hur det kan jämföras med ledande ramverk för bild- och videogenerering.

MoE-LLaVA: Skala stora visionsspråkmodeller till ett överkomligt pris

Förutom att utnyttja visuella projektionslager och bildkodare, skalar Large Vision Language Models också upp modellstorleken genom att öka antalet parametrar för att förbättra modellens prestanda. Några anmärkningsvärda exempel på Large Vision Language Models som har följt detta tillvägagångssätt för att förbättra sin prestanda är MiniGPT-4, InternGPT, InternVL och andra. I verkliga applikationer blir det ofta en nödvändighet att skala en Large Language Model eller en Large Vision Language Model med högkvalitativ träningsdata för att förbättra modellens prestanda. Även om skalning av en modellstorlek förbättrar prestandan, ökar det också beräkningskostnaderna för utbildning och driftsättning av modellen, och ökar ytterligare komplikationerna och effektiviteten av att distribuera modellen på parallella enheter samtidigt. En huvudorsak bakom de ökade utbildnings- och slutledningskostnaderna tillsammans med beräkningskrav är att varje token i ramverket kräver beräkning med varje enskild parameter inom modellen som kallas den täta modellen.

Å andra sidan har sparsam MoE eller Mixture of Expert Models visat effektiv skalning av ramverk genom att bearbeta data med hjälp av fasta aktiverade parametrar, ett tillvägagångssätt som har antagits allmänt inom området Natural Language Processing. Men att använda Mixture of Expert för att träna glesa Large Vision-språkmodeller direkt är utmanande eftersom konvertering av LLM till LVLM och sparsifiering av modellen samtidigt resulterar i betydande prestandaförsämring. För att implementera Mixture of Models för att skala LLM och LVLM är det viktigt att först initiera LVLM för sparsifiering. För att uppnå detta introducerar MoE-LLaVA-ramverket MoE-Tuning, en enkel men effektiv träningsstrategi i tre faser.

Som visas i ovanstående figur tränar MoE-Tuning-processen först en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket tränar sedan hela parametrarna för LLM för att förstärka Large Vision Language Model med en allmän multimodal förståelse. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och tränar endast Mixture of Expert-skikten. Sammantaget hjälper utbildningsprocessen till den gradvisa övergången av den sparsamma modellen från en LVLM-initiering till en sparsam blandning av expertmodeller.

När utbildningsprocessen behandlas, låt oss belysa MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehåller inlärbara routrar och MoE-modeller. I sin kärna består MoE-LLaVA-modellen av flera glesa vägar, och ramverket använder dessa vägar för att skicka varje token till olika experter genom den lärbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vägarna hålls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam väg mot en större och kraftfullare LVLM.

Tack vare tillvägagångssättet som implementerats av MoE-LLaVA-ramverket kan den överträffa modeller med ett liknande antal aktiverade parametrar och överträffa dem med en stor skillnad på POPE-objektets hallucinationsbenchmark, trots att de bara har 2.2 miljarder parametrar. Dessutom kan MoE-LLaVA-ramverket med 2.2 miljarder parametrar uppnå prestanda jämförbart med InternVL-Chat-19B-ramverket med nästan 8 gånger antalet aktiverade parametrar.

Kraftfulla stora språkmodeller med stark generalisering och instruktionsföljande förmåga har implementerats Stora Vision Language Models. Tidiga LLMs som BLIP kodade visuella signaler till en sekvens av visuella tokens som gör det möjligt för dem att anpassa synen till LLMs framgångsrikt med hjälp av flera projektionslager. Samtidigt fokuserar de senaste arbetena på att förbättra modellens prestanda genom att implementera metoder som att utöka datasetet för instruktionsjustering, öka bildens upplösning, optimera träningsstrategier, anpassa indata, förbättra bildkodarna och mycket mer. Dessa tillvägagångssätt har hjälpt till att ge LVLMs kraftfulla visuella förståelsemöjligheter genom att utöka den visuella instruktionsfinjusteringsdatauppsättningen och modellskalorna. Dessutom har vissa LVLM:er också finkorniga bildförståelsemöjligheter såsom region- och multiregionförståelse tillsammans med pixelvis jordning. Men den beräkningskostnad som åtföljs av att skala upp täta visuella data och modeller är ofta avsevärt hög vilket gör det utmanande att bära. Å andra sidan syftar MoE-LLaVA-ramverket till att göra LVLM-forskning mer överkomlig genom att utnyttja kapaciteten hos MoE-modeller.

MoE-LLaVA : Metod och arkitektur

I sin kärna består MoE-LLaVA-ramverket av ett visuellt projektionslager (Multilayer Perceptron), en vision-kodare, MoE-block, flera staplade LLM-block och ett ordinbäddningslager.

arkitektur

Följande tabell sammanfattar de detaljerade konfigurationerna av MoE-LLaVA-ramverket.

För en given RGB-bild bearbetar visionkodaren bilderna för att erhålla en sekvens av visuella tokens med ett visuellt projektionslager som kartlägger den visuella tokensekvensen till ingångsbilder. Textinmatningarna bearbetas av ordinbäddningsskiktet som sedan projicerar det för att erhålla sekvenssymbolerna. Samtidigt länkar MoE-LLaVA-ramverket samman text och visuella tokens och matar dem till LLM. Ramverket tränar dock bara det visuella projektionsskiktet med den stora språkmodellen som består av FFN eller Feedforward Neural Networks och Multi-Head Self Attention Layers. Slutligen tillämpar ramverket restanslutningar och lagernormalisering på varje block.

MoE-LLaVA-ramverket replikerar FFN eller Feedforward Neural Networks från det andra steget för att bilda en ensemble av experter som initialiseringssteget. Routern är ett linjärt lager och förutsäger sannolikheten för att varje token tilldelas varje expert. Varje token bearbetas av topp-k-experterna med maximal sannolikhet och beräknar den viktade summan baserat på softmax-resultatet av sannolikheterna.

MoE-Tuning

MoE-Tuning är en enkel men effektiv träningsstrategi i tre faser som först tränar en MLP eller en Multilayer Perceptron som anpassar de visuella tokens till en Large Language Model i det första steget. Ramverket tränar sedan hela parametrarna för LLM för att förstärka Large Vision Language Model med en allmän multimodal förståelse. Slutligen, i det tredje steget, replikerar ramverket FFN eller Feed Forward Network som initieringsvikter för experterna och tränar endast Mixture of Expert-skikten.

Steg 1

I det första steget är det primära målet att anpassa bildsymbolerna till den stora språkmodellen som gör att LLM kan förstå förekomsterna i bilden. MoE-LLaVA-ramverket använder en flerskiktsperceptron för att projicera bildsymbolerna i ingångsdomänen för den stora språkmodellen, och behandlar bildlappar som pseudotext-tokens. I detta skede tränar MoE-LLaVA-ramverket LLM att beskriva bilderna och applicerar inte MoE-skikten på LLM under detta steg.

Steg 2

I det andra steget försöker MoE-LLaVA förbättra ramverkets kapacitet och kontrollerbarhet genom att ställa in modellen med multimodala instruktionsdata. MoE-LLaVA-ramverket uppnår detta genom att justera LLM för att bli ett LVLM med multimodal förståelse. Ramverket använder mer komplexa instruktioner inklusive textigenkänning och logiska bildresonemangsuppgifter som kräver att modellen har starkare multimodala möjligheter. Traditionellt anses utbildningsprocessen för täta modeller vara avslutad med detta steg. MoE-LLaVA-ramverket stötte dock på utmaningar när det gällde att omvandla LLM till en LVLM samtidigt med sparsifiering av LVLM. För att möta denna utmaning använder ramverket vikterna från steget som initialisering för nästa steg i ett försök att lindra inlärningssvårigheterna med den sparsamma modellen.

Steg 3

I det tredje steget replikerar modellen det framkopplade neurala nätverket flera gånger för att initiera experterna som en initialiseringsprocedur. Ramverket matar sedan in text- och bildsymbolerna i blandningen av expertlager, varefter routern beräknar matchande vikter mellan experter och varje token. Varje token bearbetas sedan av topp-k-experterna med den aggregerade produktionen beräknad genom viktad summering baserat på routerns vikter. När topp-k-experterna väl har aktiverats, stänger modellen de återstående experterna, ett tillvägagångssätt som utrustar MoE-LLaVA-ramverket med oändligt många glesa vägar, vilket förser modellen med ett brett utbud av möjligheter.

MoE-LLaVA: Resultat och experiment

MoE-LLaVA-ramverket använder CLIP-Large som vision-kodare med Multilayer Perceptron som består av två lager med ett GELU-aktiveringslager som separerar de två. Som standard använder ramverket en alternerande ersättning av de framkopplade neurala nätverken med en blandning av expertlager, vilket innebär att blandningen av expertlager utgör 50 % av det totala antalet lager. Följande tabell innehåller de olika datamängderna tillsammans med deras urvalsstorlek som används för att träna och utvärdera MoE-LLaVA-ramverket.

Zero-Shot Bildfråga Besvara

Följande figur visar att MoE-LLaVA är en sparsam modell med en mjuk router baserad på LVLM. Ramverket utvärderas på 5 riktmärken för svar på bildfrågor, och som det kan observeras visar MoE-LLaVA-ramverket anmärkningsvärda bildförståelsemöjligheter och ger jämförbar prestanda med det senaste LLaVA 1.5-ramverket på fem olika riktmärken.

Utvärdering av objekthallucinationer

För att utvärdera objekthallucination använder MoE-LLaVA-ramverket POPE-utvärderingspipelinen, en pollningsbaserad frågemetod, och resultaten visas i följande tabell. Som det kan observeras, av alla ramverk, levererar MoE-LLaVA de starkaste resultaten, vilket indikerar ramverkets förmåga att generera objekt som överensstämmer med ingångsbilden. Dessutom är det värt att notera att MoE-LLaVA-ramverket balanserar ja-förhållandet väl, vilket indikerar förmågan hos den glesa modellen att ge korrekt feedback för den givna frågan.

Följande bild innehåller fördelningen av expertladdningar, där de diskontinuerliga linjerna representerar en välbalanserad fördelning av tokens mellan modaliteterna eller experterna. Den första figuren illustrerar arbetsbelastningen inom experterna medan de återstående bilderna visar experternas prestation mot olika modaliteter.

Dessutom visar följande figur fördelningen av modaliteter mellan olika experter.

Avslutande tankar

I den här artikeln har vi pratat om MoE-LLaVA, en baslinje för Large Vision Language Models med Mixture of Expert-modeller som innehåller inlärningsbara routrar och MoE-modeller. I sin kärna består MoE-LLaVA-modellen av flera glesa vägar, och ramverket använder dessa vägar för att skicka varje token till olika experter genom den lärbara routern. Tokens bearbetas sedan kollektivt av de aktiverade experterna samtidigt som de inaktiva vägarna hålls tysta. Ramverket staplar sedan Mixture of Expert-kodarlagren iterativt för att ge en sparsam väg mot en större och kraftfullare LVLM. MoE-Tuning-strategin tar upp den vanliga frågan om prestationsförsämring i multimodalt sparsitetsinlärning innovativt, och konstruerar följaktligen en modell med ett avsevärt stort antal parametrar men konsekventa utbildnings- och slutledningskostnader. Arkitekturen för MoE-LLaVA-ramverket har utformats på ett sätt så att det bara aktiverar topp-k-experterna under driftsättning samtidigt som de återstående experterna hålls inaktiva.

Strax

Hailo revolutionerar Edge AI med lansering av kraftfull Hailo-10 Accelerator och säkrar 120 miljoner dollar finansiering

Missa inte

Gartner Data & Analytics Summit São Paulo: Mercado Livres AI och datademokratisering i Brasilien

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.