Artificiell intelligens

Uni-MoE: Skalning av enhetliga multimodala LLM med Mixture of Experts

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

De senaste framstegen i arkitektur och prestanda för multimodala stora språkmodeller eller MLLM har betonat vikten av skalbar data och modeller för att förbättra prestandan. Även om denna metod förbättrar prestandan, medför den betydande beräkningskostnader som begränsar praktiskheten och användbarheten av sådana metoder. Under de senaste åren har Mixture of Expert eller MoE-modeller framgångsrikt använts som en alternativ metod för att skala bild-text och stora språkmodeller effektivt, eftersom Mixture of Expert-modeller har avsevärt lägre beräkningskostnader och stark prestanda. Men trots sina fördelar är Mixture of Models inte den idealiska metoden för att skala stora språkmodeller, eftersom de ofta innehåller färre experter och begränsade modaliteter, vilket begränsar tillämpningarna.

För att motverka de hinder som möter nuvarande metoder och för att skala stora språkmodeller effektivt, kommer vi i den här artikeln att diskutera Uni-MoE, en enhetlig multimodal stor språkmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera en mängd olika modaliteter och experter. Uni-MoE-ramverket implementerar också en sparse Mixture of Expert-arkitektur inom de stora språkmodellerna i ett försök att göra tränings- och inferensprocessen mer effektiv genom att använda expertnivåmodellparallellism och dataparallellism. Dessutom, för att förbättra generalisering och multi-expert-samarbete, presenterar Uni-MoE-ramverket en progressiv träningsstrategi som är en kombination av tre olika processer. I den första, uppnår Uni-MoE-ramverket cross-modalitetsjustering med hjälp av olika kopplingar med olika cross-modalitetsdata. Andra, Uni-MoE-ramverket aktiverar företräde för expertkomponenterna genom att träna modalspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen LoRA eller Low-Rank Adaptation-lärandetekniken på blandad multimodal instruktionsdata för att justera modellen.

Denna artikel syftar till att täcka Uni-MoE-ramverket i detalj, och vi utforskar mekanismen, metodiken, arkitekturen i ramverket samt dess jämförelse med state-of-the-art-ramverk. Så låt oss komma igång.

Uni-MoE: Skalning av enhetliga multimodala LLM

Tillkomsten av öppen källkod multimodala stora språkmodeller, inklusive LLama och InstantBlip, har markerat den betydande framgången och utvecklingen i uppgifter som involverar bild-textförståelse under de senaste åren. Dessutom arbetar AI-samhället aktivt mot att bygga en enhetlig multimodal stor språkmodell som kan rymma en mängd olika modaliteter, inklusive bild, text, ljud, video och mer, och gå utöver den traditionella bild-textparadigmen. En vanlig metod som följs av den öppna källkods-samhället för att förbättra förmågan hos multimodala stora språkmodeller är att öka storleken på vision grundmodeller och integrera dem med stora språkmodeller med miljarder parametrar, och använda olika multimodala dataset för att förbättra instruktionsjustering. Dessa utvecklingar har betonat den ökande förmågan hos multimodala stora språkmodeller att resonera och bearbeta flera modaliteter, och visar på vikten av att expandera multimodal instruktionsdata och modellskalbarhet.

Även om att skala upp en modell är en beprövad metod som ger betydande resultat, är att skala en modell en beräkningsmässigt dyr process för både tränings- och inferensprocesserna.

För att motverka problemet med höga beräkningskostnader, rör sig den öppna källkods-samhället mot att integrera MoE eller Mixture of Expert-modellarkitekturen i stora språkmodeller för att förbättra både tränings- och inferenseffektiviteten. Till skillnad från multimodala stora språk- och stora språkmodeller som använder alla tillgängliga parametrar för att bearbeta varje indata, vilket resulterar i en tät beräkningsmetod, kräver Mixture of Expert-arkitekturen endast att användarna aktiverar en delmängd av expertparametrar för varje indata. Som ett resultat framstår Mixture of Expert-metoden som en livskraftig väg för att förbättra effektiviteten hos stora modeller utan omfattande parameteraktivering och höga beräkningskostnader. Även om befintliga arbeten har betonat den framgångsrika implementeringen och integrationen av Mixture of Expert-modeller i konstruktionen av text-endast och text-bild stora modeller, har forskare ännu inte fullt ut utforskat potentialen för att utveckla Mixture of Expert-arkitekturen för att konstruera kraftfulla enhetliga multimodala stora språkmodeller.

Uni-MoE är en multimodal stor språkmodell som utnyttjar sparse Mixture of Expert-modeller för att tolka och hantera flera modaliteter i ett försök att utforska skalning av enhetliga multimodala stora språkmodeller med MoE-arkitekturen. Som visas i följande bild, får Uni-MoE-ramverket först encoding av olika modaliteter med hjälp av modalspecifika encoders, och kartar sedan dessa encoding till språkrepresentationen av de stora språkmodellerna med hjälp av olika designade kopplingar. Dessa kopplingar innehåller en träbar transformermodell med efterföljande linjära projiceringar för att destillera och projicera utdatarepresentationerna av den frusna encodern. Uni-MoE-ramverket introducerar sedan en sparse Mixture of Expert-lager inom den interna blocken av den täta stora språkmodellen. Som ett resultat har varje Mixture of Expert-baserat block en delad självuppmärksamhetslag som är tillämplig på alla modaliteter, en sparse router för att allokera expertis på token-nivå och olika experter baserade på feedforward-nätverket. På grund av denna metod är Uni-MoE-ramverket kapabelt att förstå flera modaliteter, inklusive tal, ljud, text, video, bild och kräver endast aktivering av partiella parametrar under inferens.

Dessutom, för att förbättra multi-expert-samarbete och generalisering, implementerar Uni-MoE-ramverket en tre-stegs träningsstrategi. I den första etappen, använder ramverket omfattande bild/ljud/tal till språkpar för att träna den motsvarande kopplingen på grund av den enhetliga modalitetsrepresentationen i språkrummet för den stora språkmodellen. Andra, tränar Uni-MoE-modellen modalspecifika experter med hjälp av cross-modalitetsdataset separat i ett försök att förfinansiera färdigheterna hos varje expert inom dess respektive domän. I den tredje etappen, integrerar Uni-MoE-ramverket dessa tränade experter i Mixture of Expert-lagret av den stora språkmodellen och tränar hela Uni-MoE-ramverket med blandad multimodal instruktionsdata. För att ytterligare minska träningskostnaden, använder Uni-MoE-ramverket LoRA-lärandetillvägagångssättet för att finjustera dessa självuppmärksamhetslager och de förtränade experterna.

Uni-MoE : Metodik och Arkitektur

Den grundläggande motivationen bakom Uni-MoE-ramverket är den höga tränings- och inferenskostnaden för att skala multimodala stora språkmodeller, samt effektiviteten hos Mixture of Expert-modeller, och utforska möjligheten att skapa en effektiv, kraftfull och enhetlig multimodal stor språkmodell med hjälp av MoE-arkitekturen. Följande figur presenterar en representation av arkitekturen som implementeras i Uni-MoE-ramverket, som visar designen som innehåller enskilda encoders för olika modaliteter, t.ex. ljud, tal och visuella, samt deras respektive modalkopplingar.

Uni-MoE-ramverket integrerar sedan Mixture of Expert-arkitekturen med de centrala stora språkmodellblocken, en process som är avgörande för att förbättra den övergripande effektiviteten hos både tränings- och inferensprocessen. Uni-MoE-ramverket uppnår detta genom att implementera en sparse router-mekanism. Den övergripande träningsprocessen för Uni-MoE-ramverket kan delas in i tre faser: cross-modalitetsjustering, träningsmodalspecifika experter och justering av Uni-MoE med hjälp av en diversificerad uppsättning multimodal instruktionsdataset. För att effektivt omvandla olika modalinmatningar till en lingvistisk format, byggs Uni-MoE-ramverket på toppen av LLaVA, en förtränad visuell språkram.

Träningsstrategi

Uni-MoE-ramverket introducerar en progressiv träningsstrategi för den inkrementella utvecklingen av modellen. Den progressiva träningsstrategin som introduceras försöker utnyttja de distinkta förmågorna hos olika experter, förbättra multi-expert-samarbete-effektiviteten och förbättra den övergripande generaliserbarheten hos ramverket. Träningsprocessen delas in i tre etapper i ett försök att förverkliga MLLM-strukturen byggd på toppen av integrerade Mixture of Experts.

Etapp 1 : Cross-Modalitetsjustering

I den första etappen, försöker Uni-MoE-ramverket att etablera en koppling mellan olika lingvistik och modaliteter. Uni-MoE-ramverket uppnår detta genom att översätta modaldata till mjuka token med hjälp av kopplingar. Det primära målet med den första tränings-etappen är att minimera den generativa entropiförlusten.

Etapp 2: Träningsmodalspecifika Experter

I den andra etappen, fokuserar Uni-MoE-ramverket på att utveckla enskilda modalspecifika experter genom att träna modellen dedikerat på specifik cross-modalitetsdata. Det primära målet är att förfinansiera färdigheterna hos varje expert inom dess respektive domän, och därmed förbättra den övergripande prestandan hos Mixture of Expert-systemet på en mängd olika multimodal data.

Etapp 3: Justering av Uni-MoE

I den tredje och sista etappen, integrerar Uni-MoE-ramverket de viktade som experterna under etapp 2 i Mixture of Expert-lagren. Uni-MoE-ramverket justerar sedan MLLM med hjälp av blandad multimodal instruktionsdata gemensamt. Förlustkurvorna i följande bild visar framstegen i träningsprocessen.

En jämförande analys mellan konfigurationerna av Mixture of Expert visade att experterna som modellen förfinansierade under den andra tränings-etappen visade förbättrad stabilitet och uppnådde snabbare konvergens på blandade multimodala dataset. Dessutom, på uppgifter som involverade komplexa multimodala data, inklusive text, bilder, ljud, video, visade Uni-MoE-ramverket mer konsekvent träningsprestanda och minskad förlustvariabilitet när det använde fyra experter jämfört med när det använde två experter.

Uni-MoE : Experiment och Resultat

Följande tabell sammanfattar de arkitektoniska specifikationerna för Uni-MoE-ramverket. Det primära målet med Uni-MoE-ramverket, byggt på LLaMA-7B-arkitekturen, är att skala modellstorleken.

Följande tabell sammanfattar designen och optimeringen av Uni-MoE-ramverket, som styrs av specialiserade träningsuppgifter. Dessa uppgifter är avgörande för att förfinansiera förmågan hos MLP-lagren, och därmed utnyttja deras specialiserade kunskap för förbättrad modellprestanda. Uni-MoE-ramverket utför åtta enskilda modalspecifika expertuppgifter för att belysa de differentiala effekterna av olika träningsmetoder.

Modellen utvärderar prestandan hos olika modellvarianter över en diversifierad uppsättning benchmark, som omfattar två video-förståelse, tre ljud-förståelse och fem tal-relaterade uppgifter. Först testas modellen på dess förmåga att förstå tal-bild och tal-textuppgifter, och resultaten visas i följande tabell.

Som det kan observeras, levererar de tidigare baslinje-modellerna underlägsna resultat över tal-förståelseuppgifter, vilket påverkar prestandan på bild-tal-resonemangs-uppgifter. Resultaten indikerar att introduktionen av Mixture of Expert-arkitekturen kan förbättra generaliserbarheten hos MLLM på osett audi-bild-resonemangs-uppgifter. Följande tabell presenterar de experimentella resultaten på bild-text-förståelseuppgifter. Som det kan observeras, överträffar de bästa resultaten från Uni-MoE-modellerna baslinjerna och överträffar finjusteringsuppgiften med en genomsnittlig marginal på 4 poäng.

Slutliga Tankar

I den här artikeln har vi diskuterat Uni-MoE, en enhetlig multimodal stor språkmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera en mängd olika modaliteter och experter. Uni-MoE-ramverket implementerar också en sparse Mixture of Expert-arkitektur inom de stora språkmodellerna i ett försök att göra tränings- och inferensprocessen mer effektiv genom att använda expertnivåmodellparallellism och dataparallellism. Dessutom, för att förbättra generalisering och multi-expert-samarbete, presenterar Uni-MoE-ramverket en progressiv träningsstrategi som är en kombination av tre olika processer. I den första, uppnår Uni-MoE-ramverket cross-modalitetsjustering med hjälp av olika kopplingar med olika cross-modalitetsdata. Andra, Uni-MoE-ramverket aktiverar företräde för expertkomponenterna genom att träna modalspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen LoRA eller Low-Rank Adaptation-lärandetekniken på blandad multimodal instruktionsdata för att justera modellen.

Related Topics:image generation Large Multimodal Models Mixture of Experts MLLMs Multimodal Large Language Model Uni-MoE vision language model

Kunal Kejriwal

En ingenjör till yrket, en författare av hjärtat. Kunal är en teknisk skribent med ett djupt kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa begrepp inom dessa områden genom sin engagerande och informativa dokumentation.