Artificiell intelligens
Uni-MoE: Skala Unified Multimodal LLMs med blandning av experter

De senaste framstegen i arkitekturen och prestanda för multimodala stora sprĂ„kmodeller eller MLLMs har belyst betydelsen av skalbara data och modeller för att förbĂ€ttra prestandan. Ăven om detta tillvĂ€gagĂ„ngssĂ€tt förbĂ€ttrar prestandan, medför det avsevĂ€rda berĂ€kningskostnader som begrĂ€nsar det praktiska och anvĂ€ndbarheten av sĂ„dana tillvĂ€gagĂ„ngssĂ€tt. Under Ă„ren har Mixture of Expert- eller MoE-modeller dykt upp som ett framgĂ„ngsrikt alternativt tillvĂ€gagĂ„ngssĂ€tt för att effektivt skala bildtext- och stora sprĂ„kmodeller, eftersom Mixture of Expert-modeller har betydligt lĂ€gre berĂ€kningskostnader och bra prestanda. Men trots sina fördelar Ă€r Mixture of Models inte den idealiska metoden för att skala stora sprĂ„kmodeller eftersom de ofta involverar fĂ€rre experter och begrĂ€nsade modaliteter, vilket begrĂ€nsar tillĂ€mpningarna.
För att motverka de vÀgspÀrrar som nuvarande tillvÀgagÄngssÀtt möter, och för att effektivt skala stora sprÄkmodeller, kommer vi i den hÀr artikeln att prata om Uni-MoE, en enhetlig multimodal storsprÄksmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera en bred en rad metoder och experter. Uni-MoE-ramverket implementerar ocksÄ en sparsam blandning av expertarkitektur inom de stora sprÄkmodellerna i ett försök att göra trÀnings- och slutledningsprocessen mer effektiv genom att anvÀnda modellparallellism och dataparallellism pÄ expertnivÄ. Dessutom, för att förbÀttra generalisering och samarbete mellan flera experter, presenterar Uni-MoE-ramverket en progressiv utbildningsstrategi som Àr en kombination av tre olika processer. I det första uppnÄr Uni-MoE-ramverket korsmodalitetsanpassning med hjÀlp av olika kopplingar med olika korsmodalitetsdata. För det andra aktiverar Uni-MoE-ramverket preferensen för expertkomponenterna genom att utbilda modalitetsspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen inlÀrningstekniken LoRA eller Low-Rank Adaptation pÄ blandade multimodala instruktionsdata för att stÀlla in modellen. NÀr det instruktionsjusterade Uni-MoE-ramverket utvÀrderades pÄ en omfattande uppsÀttning multimodala datamÀngder, framhÀvde de omfattande experimentella resultaten den huvudsakliga fördelen med Uni-MoE-ramverket för att reducera prestandabias vid hantering av blandade multimodala dataset avsevÀrt. Resultaten indikerade ocksÄ en signifikant förbÀttring av samarbete mellan flera experter och generalisering.
Den hÀr artikeln syftar till att tÀcka Uni-MoE-ramverket pÄ djupet, och vi utforskar mekanismen, metodiken, arkitekturen för ramverket tillsammans med dess jÀmförelse med toppmoderna ramverk. SÄ lÄt oss börja.
Uni-MoE: Skala Unified Multimodal LLMs
Tillkomsten av multimodala stora sprÄkmodeller med öppen kÀllkod, inklusive LLama och InstantBlip, har beskrivit den anmÀrkningsvÀrda framgÄngen och framstegen i uppgifter som involverar bild-textförstÄelse under de senaste Ären. Dessutom arbetar AI-communityt aktivt för att bygga en enhetlig multimodal stor sprÄkmodell som kan rymma ett brett utbud av modaliteter inklusive bild, text, ljud, video och mer, och gÄr bortom det traditionella bild-text-paradigmet. Ett vanligt tillvÀgagÄngssÀtt som följs av communityn med öppen kÀllkod för att öka förmÄgan hos multimodala stora sprÄkmodeller Àr att öka storleken pÄ visionbasmodeller, och integrera den med stora sprÄkmodeller med miljarder parametrar, och att anvÀnda olika multimodala datauppsÀttningar för att förbÀttra instruktionsinstÀllningen. Denna utveckling har belyst den ökande förmÄgan hos multimodala stora sprÄkmodeller att resonera och bearbeta flera modaliteter, vilket visar vikten av att utöka multimodala instruktionsdata och modellskalbarhet.
Ăven om uppskalning av en modell Ă€r ett beprövat tillvĂ€gagĂ„ngssĂ€tt som ger betydande resultat, Ă€r det en berĂ€kningsmĂ€ssigt dyr process för bĂ„de utbildnings- och slutledningsprocesser att skala upp en modell.
För att motverka frĂ„gan om höga berĂ€kningskostnader, gĂ„r open source-gemenskapen mot att integrera MoE eller Mixture of Expert modellarkitektur i stora sprĂ„kmodeller för att förbĂ€ttra bĂ„de trĂ€nings- och slutledningseffektiviteten. I motsats till multimodala stora sprĂ„k- och stora sprĂ„kmodeller som anvĂ€nder alla tillgĂ€ngliga parametrar för att bearbeta varje inmatning, vilket resulterar i en tĂ€t berĂ€kningsmetod, krĂ€ver Mixture of Expert-arkitekturen endast att anvĂ€ndarna aktiverar en delmĂ€ngd av expertparametrar för varje ingĂ„ng. Som ett resultat framstĂ„r Mixture of Expert-metoden som en gĂ„ngbar vĂ€g för att förbĂ€ttra effektiviteten hos stora modeller utan omfattande parameteraktivering och höga berĂ€kningskostnader. Ăven om befintliga arbeten har belyst den framgĂ„ngsrika implementeringen och integreringen av Mixture of Expert-modeller i konstruktionen av stora modeller med enbart text och text-bild, har forskarna Ă€nnu inte helt utforskat potentialen i att utveckla Mixture of Expert-arkitekturen för att konstruera kraftfulla enhetliga multimodala stora modeller. sprĂ„kmodeller.
Uni-MoE Àr en multimodal storsprÄksmodell som utnyttjar glesa Mixture of Expert-modeller för att tolka och hantera flera modaliteter i ett försök att utforska skalning av enhetliga multimodala stora sprÄkmodeller med MoE-arkitekturen. Som visas i följande bild, erhÄller Uni-MoE-ramverket först kodningen av olika modaliteter med hjÀlp av modalitetsspecifika kodare, och mappar sedan dessa kodningar till sprÄkrepresentationsutrymmet för de stora sprÄkmodellerna med hjÀlp av olika designade kontakter. Dessa kontakter innehÄller en trÀningsbar transformatormodell med efterföljande linjÀra projektioner för att destillera och projicera utgÄngsrepresentationerna frÄn den frusna kodaren. Uni-MoE-ramverket introducerar sedan en gles blandning av expertlager inom det interna blocket av den tÀta stora sprÄkmodellen. Som ett resultat har varje Mixture of Expert-baserat block ett delat sjÀlvuppmÀrksamhetslager som Àr tillÀmpligt över alla modaliteter, en sparsam router för att tilldela expertis pÄ tokennivÄ och olika experter baserade pÄ feedforward-nÀtverket. Tack vare detta tillvÀgagÄngssÀtt kan Uni-MoE-ramverket förstÄ flera modaliteter inklusive tal, ljud, text, video, bild och krÀver endast aktivering av partiella parametrar under slutledning.
Dessutom, för att förbÀttra samarbete och generalisering av flera experter, implementerar Uni-MoE-ramverket en utbildningsstrategi i tre steg. I det första steget anvÀnder ramverket omfattande bild/ljud/tal till sprÄkpar för att trÀna motsvarande koppling pÄ grund av den enhetliga modalitetsrepresentationen i den stora sprÄkmodellens sprÄkrymd. För det andra utbildar Uni-MoE-modellen modalitetsspecifika experter som anvÀnder datauppsÀttningar över olika modaliteter separat i ett försök att förfina kompetensen hos varje expert inom dess respektive domÀn. I det tredje steget integrerar Uni-MoE-ramverket dessa utbildade experter i Mixture of Expert-skiktet i den stora sprÄkmodellen, och trÀnar hela Uni-MoE-ramverket med blandade multimodala instruktionsdata. För att minska utbildningskostnaderna ytterligare anvÀnder Uni-MoE-ramverket LoRA-inlÀrningsmetoden för att finjustera dessa sjÀlvuppmÀrksamhetslager och de förinstÀllda experterna.
Uni-MoE : Metodik och arkitektur
Den grundlÀggande motivationen bakom Uni-MoE-ramverket Àr den höga utbildnings- och slutledningskostnaden för att skala multimodala stora sprÄkmodeller tillsammans med effektiviteten hos Mixture of Expert-modeller, och utforska möjligheten att skapa en effektiv, kraftfull och enhetlig multimodal storsprÄksmodell med anvÀndning av de MoE-arkitektur. Följande figur presenterar en representation av arkitekturen implementerad i Uni-MoE-ramverket och visar designen som inkluderar individuella kodare för olika modaliteter, t.ex. ljud, tal och bild, tillsammans med deras respektive modalitetsanslutningar.
Uni-MoE-ramverket integrerar sedan Mixture of Expert-arkitekturen med de centrala stora sprÄkmodellblocken, en process som Àr avgörande för att öka den övergripande effektiviteten av bÄde utbildnings- och slutledningsprocessen. Uni-MoE-ramverket uppnÄr detta genom att implementera en gles routingmekanism. Den övergripande utbildningsprocessen för Uni-MoE-ramverket kan delas upp i tre faser: korsmodalitetsanpassning, utbildning av modalitetsspecifika experter och instÀllning av Uni-MoE med hjÀlp av en mÄngsidig uppsÀttning multimodala instruktionsdatauppsÀttningar. För att effektivt omvandla olika modala indata till ett sprÄkligt format Àr Uni-MoE-ramverket byggt ovanpÄ LLaVA, ett förutbildat ramverk för visuellt sprÄk. LLaVA-basmodellen integrerar CLIP som sin visuella kodare tillsammans med ett linjÀrt projektionslager som omvandlar bildegenskaper till deras motsvarande mjuka bildtokens. Dessutom, för att bearbeta videoinnehÄll, vÀljer Uni-MoE-ramverket Ätta representativa bildrutor frÄn varje video och omvandlar dem till videotokens genom genomsnittlig pooling för att aggregera deras bild- eller rambaserade representation. För ljuduppgifter distribuerar Uni-MoE-ramverket tvÄ kodare, BEATs och Whisper-kodaren för att förbÀttra funktionsextraktionen. Modellen destillerar sedan ljudfunktioner med vektortal och tal med fast lÀngd, och mappar dem till taltokens respektive mjukt ljud via ett linjÀrt projektionslager.
Utbildningsstrategi
Uni-MoE-ramverket introducerar en progressiv utbildningsstrategi för den stegvisa utvecklingen av modellen. Den progressiva utbildningsstrategin introducerade försök att utnyttja olika experters distinkta kapacitet, förbÀttra effektiviteten i samarbetet mellan flera experter och öka ramverkets övergripande generaliserbarhet. Utbildningsprocessen Àr uppdelad i tre steg med ett försök att förverkliga MLLM struktur byggd ovanpÄ en integrerad blandning av experter.
Steg 1: Cross Modality Alignment
I det första steget försöker Uni-MoE-ramverket skapa kopplingar mellan olika lingvistik och modaliteter. Uni-MoE-ramverket uppnÄr detta genom att översÀtta modal data till mjuka tokens genom att konstruera kontakter. Det primÀra syftet med det första trÀningssteget Àr att minimera den generativa entropiförlusten. Inom Uni-MoE-ramverket Àr LLM optimerat för att generera beskrivningar för indata över olika modaliteter, och modellen utsÀtter endast anslutningarna för utbildning, en strategi som gör det möjligt för Uni-MoE-ramverket att integrera olika modaliteter inom ett enhetligt sprÄkramverk.
Steg 2: Utbildning av modalitetsspecifika experter
I det andra steget fokuserar Uni-MoE-ramverket pÄ att utveckla experter pÄ enstaka modaliteter genom att utbilda modellen dedikerat pÄ specifik korsmodalitetsdata. Det primÀra mÄlet Àr att förfina kompetensen hos varje expert inom dess respektive domÀn, och pÄ sÄ sÀtt förbÀttra den övergripande prestandan för Mixture of Expert-systemet pÄ ett brett spektrum av multimodala data. Dessutom skrÀddarsyr Uni-MoE-ramverket feedforward-nÀtverken för att mer anpassas till modalitetens egenskaper samtidigt som generativ entropiförlust bibehÄlls som fokal metrisk trÀning.
Steg 3: Tuning Uni-MoE
I det tredje och sista steget integrerar Uni-MoE-ramverket vikterna som stÀllts in av experter under steg 2 i blandningen av expertskikt. Uni-MoE-ramverket finjusterar sedan MLLM:erna genom att anvÀnda blandade multimodala instruktionsdata gemensamt. Förlustkurvorna i följande bild Äterspeglar trÀningsprocessens framsteg.
JÀmförande analys mellan konfigurationerna av Mixture of Expert avslöjade att experterna som modellen förfinade under det andra utbildningsstadiet visade ökad stabilitet och uppnÄdde snabbare konvergens pÄ mixed-modala dataset. Vidare, för uppgifter som involverade komplexa multimodala data inklusive text, bilder, ljud, videor, visade Uni-MoE-ramverket mer konsekvent trÀningsprestanda och minskad förlustvariabilitet nÀr den anstÀllde fyra experter Àn nÀr den anstÀllde tvÄ experter.
Uni-MoE: Experiment och resultat
Följande tabell sammanfattar de arkitektoniska specifikationerna för Uni-MoE-ramverket. Det primÀra mÄlet med Uni-MoE-ramverket, byggt pÄ LLaMA-7B-arkitektur, Àr att skala modellstorleken.
Följande tabell sammanfattar designen och optimeringen av Uni-MoE-ramverket som styrs av specialiserade trÀningsuppgifter. Dessa uppgifter Àr avgörande för att förfina MLP-lagrens kapacitet och dÀrigenom utnyttja deras specialiserade kunskap för förbÀttrad modellprestanda. Uni-MoE-ramverket Ätar sig Ätta expertuppgifter för singelmodalitet för att belysa de olika effekterna av olika utbildningsmetoder.
Modellen utvÀrderar prestandan för olika modellvarianter över en mÄngsidig uppsÀttning riktmÀrken som omfattar tvÄ videoförstÄelse, tre ljudförstÄelse och fem talrelaterade uppgifter. Först testas modellen pÄ dess förmÄga att förstÄ tal-bild- och tal-text-uppgifter, och resultaten finns i följande tabell.
Som det kan observeras ger de tidigare baslinjemodellerna sÀmre resultat över talförstÄelseuppgifter, vilket ytterligare pÄverkar prestandan pÄ bild-talresonemangsuppgifter. Resultaten indikerar att införandet av Mixture of Expert-arkitektur kan förbÀttra generaliserbarheten av MLLMs pÄ osynliga audi-image-resonemangsuppgifter. Följande tabell presenterar de experimentella resultaten av uppgifter om bild-textförstÄelse. Som det kan observeras övertrÀffar de bÀsta resultaten frÄn Uni-MoE-modellerna baslinjerna och övertrÀffar finjusteringsuppgiften med en genomsnittlig marginal pÄ 4 poÀng.
Avslutande tankar
I den hÀr artikeln har vi pratat om Uni-MoE, , en enhetlig multimodal stor sprÄkmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera ett brett spektrum av modaliteter och experter. Uni-MoE-ramverket implementerar ocksÄ en sparsam blandning av expertarkitektur inom de stora sprÄkmodellerna i ett försök att göra trÀnings- och slutledningsprocessen mer effektiv genom att anvÀnda modellparallellism och dataparallellism pÄ expertnivÄ. Dessutom, för att förbÀttra generalisering och samarbete mellan flera experter, presenterar Uni-MoE-ramverket en progressiv utbildningsstrategi som Àr en kombination av tre olika processer. I det första uppnÄr Uni-MoE-ramverket korsmodalitetsanpassning med hjÀlp av olika kopplingar med olika korsmodalitetsdata. För det andra aktiverar Uni-MoE-ramverket preferensen för expertkomponenterna genom att utbilda modalitetsspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen inlÀrningstekniken LoRA eller Low-Rank Adaptation pÄ blandade multimodala instruktionsdata för att stÀlla in modellen.