Anslut dig till vÄrt nÀtverk!

Uni-MoE: Skala Unified Multimodal LLMs med blandning av experter

Artificiell intelligens

Uni-MoE: Skala Unified Multimodal LLMs med blandning av experter

mm

De senaste framstegen i arkitekturen och prestanda för multimodala stora sprĂ„kmodeller eller MLLMs har belyst betydelsen av skalbara data och modeller för att förbĂ€ttra prestandan. Även om detta tillvĂ€gagĂ„ngssĂ€tt förbĂ€ttrar prestandan, medför det avsevĂ€rda berĂ€kningskostnader som begrĂ€nsar det praktiska och anvĂ€ndbarheten av sĂ„dana tillvĂ€gagĂ„ngssĂ€tt. Under Ă„ren har Mixture of Expert- eller MoE-modeller dykt upp som ett framgĂ„ngsrikt alternativt tillvĂ€gagĂ„ngssĂ€tt för att effektivt skala bildtext- och stora sprĂ„kmodeller, eftersom Mixture of Expert-modeller har betydligt lĂ€gre berĂ€kningskostnader och bra prestanda. Men trots sina fördelar Ă€r Mixture of Models inte den idealiska metoden för att skala stora sprĂ„kmodeller eftersom de ofta involverar fĂ€rre experter och begrĂ€nsade modaliteter, vilket begrĂ€nsar tillĂ€mpningarna. 

För att motverka de vĂ€gspĂ€rrar som nuvarande tillvĂ€gagĂ„ngssĂ€tt möter, och för att effektivt skala stora sprĂ„kmodeller, kommer vi i den hĂ€r artikeln att prata om Uni-MoE, en enhetlig multimodal storsprĂ„ksmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera en bred en rad metoder och experter. Uni-MoE-ramverket implementerar ocksĂ„ en sparsam blandning av expertarkitektur inom de stora sprĂ„kmodellerna i ett försök att göra trĂ€nings- och slutledningsprocessen mer effektiv genom att anvĂ€nda modellparallellism och dataparallellism pĂ„ expertnivĂ„. Dessutom, för att förbĂ€ttra generalisering och samarbete mellan flera experter, presenterar Uni-MoE-ramverket en progressiv utbildningsstrategi som Ă€r en kombination av tre olika processer. I det första uppnĂ„r Uni-MoE-ramverket korsmodalitetsanpassning med hjĂ€lp av olika kopplingar med olika korsmodalitetsdata. För det andra aktiverar Uni-MoE-ramverket preferensen för expertkomponenterna genom att utbilda modalitetsspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen inlĂ€rningstekniken LoRA eller Low-Rank Adaptation pĂ„ blandade multimodala instruktionsdata för att stĂ€lla in modellen. NĂ€r det instruktionsjusterade Uni-MoE-ramverket utvĂ€rderades pĂ„ en omfattande uppsĂ€ttning multimodala datamĂ€ngder, framhĂ€vde de omfattande experimentella resultaten den huvudsakliga fördelen med Uni-MoE-ramverket för att reducera prestandabias vid hantering av blandade multimodala dataset avsevĂ€rt. Resultaten indikerade ocksĂ„ en signifikant förbĂ€ttring av samarbete mellan flera experter och generalisering. 

Den hĂ€r artikeln syftar till att tĂ€cka Uni-MoE-ramverket pĂ„ djupet, och vi utforskar mekanismen, metodiken, arkitekturen för ramverket tillsammans med dess jĂ€mförelse med toppmoderna ramverk. SĂ„ lĂ„t oss börja. 

Uni-MoE: Skala Unified Multimodal LLMs

Tillkomsten av multimodala stora sprĂ„kmodeller med öppen kĂ€llkod, inklusive LLama och InstantBlip, har beskrivit den anmĂ€rkningsvĂ€rda framgĂ„ngen och framstegen i uppgifter som involverar bild-textförstĂ„else under de senaste Ă„ren. Dessutom arbetar AI-communityt aktivt för att bygga en enhetlig multimodal stor sprĂ„kmodell som kan rymma ett brett utbud av modaliteter inklusive bild, text, ljud, video och mer, och gĂ„r bortom det traditionella bild-text-paradigmet. Ett vanligt tillvĂ€gagĂ„ngssĂ€tt som följs av communityn med öppen kĂ€llkod för att öka förmĂ„gan hos multimodala stora sprĂ„kmodeller Ă€r att öka storleken pĂ„ visionbasmodeller, och integrera den med stora sprĂ„kmodeller med miljarder parametrar, och att anvĂ€nda olika multimodala datauppsĂ€ttningar för att förbĂ€ttra instruktionsinstĂ€llningen. Denna utveckling har belyst den ökande förmĂ„gan hos multimodala stora sprĂ„kmodeller att resonera och bearbeta flera modaliteter, vilket visar vikten av att utöka multimodala instruktionsdata och modellskalbarhet. 

Även om uppskalning av en modell Ă€r ett beprövat tillvĂ€gagĂ„ngssĂ€tt som ger betydande resultat, Ă€r det en berĂ€kningsmĂ€ssigt dyr process för bĂ„de utbildnings- och slutledningsprocesser att skala upp en modell. 

För att motverka frĂ„gan om höga berĂ€kningskostnader, gĂ„r open source-gemenskapen mot att integrera MoE eller Mixture of Expert modellarkitektur i stora sprĂ„kmodeller för att förbĂ€ttra bĂ„de trĂ€nings- och slutledningseffektiviteten. I motsats till multimodala stora sprĂ„k- och stora sprĂ„kmodeller som anvĂ€nder alla tillgĂ€ngliga parametrar för att bearbeta varje inmatning, vilket resulterar i en tĂ€t berĂ€kningsmetod, krĂ€ver Mixture of Expert-arkitekturen endast att anvĂ€ndarna aktiverar en delmĂ€ngd av expertparametrar för varje ingĂ„ng. Som ett resultat framstĂ„r Mixture of Expert-metoden som en gĂ„ngbar vĂ€g för att förbĂ€ttra effektiviteten hos stora modeller utan omfattande parameteraktivering och höga berĂ€kningskostnader. Även om befintliga arbeten har belyst den framgĂ„ngsrika implementeringen och integreringen av Mixture of Expert-modeller i konstruktionen av stora modeller med enbart text och text-bild, har forskarna Ă€nnu inte helt utforskat potentialen i att utveckla Mixture of Expert-arkitekturen för att konstruera kraftfulla enhetliga multimodala stora modeller. sprĂ„kmodeller. 

Uni-MoE Ă€r en multimodal storsprĂ„ksmodell som utnyttjar glesa Mixture of Expert-modeller för att tolka och hantera flera modaliteter i ett försök att utforska skalning av enhetliga multimodala stora sprĂ„kmodeller med MoE-arkitekturen. Som visas i följande bild, erhĂ„ller Uni-MoE-ramverket först kodningen av olika modaliteter med hjĂ€lp av modalitetsspecifika kodare, och mappar sedan dessa kodningar till sprĂ„krepresentationsutrymmet för de stora sprĂ„kmodellerna med hjĂ€lp av olika designade kontakter. Dessa kontakter innehĂ„ller en trĂ€ningsbar transformatormodell med efterföljande linjĂ€ra projektioner för att destillera och projicera utgĂ„ngsrepresentationerna frĂ„n den frusna kodaren. Uni-MoE-ramverket introducerar sedan en gles blandning av expertlager inom det interna blocket av den tĂ€ta stora sprĂ„kmodellen. Som ett resultat har varje Mixture of Expert-baserat block ett delat sjĂ€lvuppmĂ€rksamhetslager som Ă€r tillĂ€mpligt över alla modaliteter, en sparsam router för att tilldela expertis pĂ„ tokennivĂ„ och olika experter baserade pĂ„ feedforward-nĂ€tverket. Tack vare detta tillvĂ€gagĂ„ngssĂ€tt kan Uni-MoE-ramverket förstĂ„ flera modaliteter inklusive tal, ljud, text, video, bild och krĂ€ver endast aktivering av partiella parametrar under slutledning. 

Dessutom, för att förbĂ€ttra samarbete och generalisering av flera experter, implementerar Uni-MoE-ramverket en utbildningsstrategi i tre steg. I det första steget anvĂ€nder ramverket omfattande bild/ljud/tal till sprĂ„kpar för att trĂ€na motsvarande koppling pĂ„ grund av den enhetliga modalitetsrepresentationen i den stora sprĂ„kmodellens sprĂ„krymd. För det andra utbildar Uni-MoE-modellen modalitetsspecifika experter som anvĂ€nder datauppsĂ€ttningar över olika modaliteter separat i ett försök att förfina kompetensen hos varje expert inom dess respektive domĂ€n. I det tredje steget integrerar Uni-MoE-ramverket dessa utbildade experter i Mixture of Expert-skiktet i den stora sprĂ„kmodellen, och trĂ€nar hela Uni-MoE-ramverket med blandade multimodala instruktionsdata. För att minska utbildningskostnaderna ytterligare anvĂ€nder Uni-MoE-ramverket LoRA-inlĂ€rningsmetoden för att finjustera dessa sjĂ€lvuppmĂ€rksamhetslager och de förinstĂ€llda experterna. 

Uni-MoE : Metodik och arkitektur

Den grundlĂ€ggande motivationen bakom Uni-MoE-ramverket Ă€r den höga utbildnings- och slutledningskostnaden för att skala multimodala stora sprĂ„kmodeller tillsammans med effektiviteten hos Mixture of Expert-modeller, och utforska möjligheten att skapa en effektiv, kraftfull och enhetlig multimodal storsprĂ„ksmodell med anvĂ€ndning av de MoE-arkitektur. Följande figur presenterar en representation av arkitekturen implementerad i Uni-MoE-ramverket och visar designen som inkluderar individuella kodare för olika modaliteter, t.ex. ljud, tal och bild, tillsammans med deras respektive modalitetsanslutningar. 

Uni-MoE-ramverket integrerar sedan Mixture of Expert-arkitekturen med de centrala stora sprĂ„kmodellblocken, en process som Ă€r avgörande för att öka den övergripande effektiviteten av bĂ„de utbildnings- och slutledningsprocessen. Uni-MoE-ramverket uppnĂ„r detta genom att implementera en gles routingmekanism. Den övergripande utbildningsprocessen för Uni-MoE-ramverket kan delas upp i tre faser: korsmodalitetsanpassning, utbildning av modalitetsspecifika experter och instĂ€llning av Uni-MoE med hjĂ€lp av en mĂ„ngsidig uppsĂ€ttning multimodala instruktionsdatauppsĂ€ttningar. För att effektivt omvandla olika modala indata till ett sprĂ„kligt format Ă€r Uni-MoE-ramverket byggt ovanpĂ„ LLaVA, ett förutbildat ramverk för visuellt sprĂ„k. LLaVA-basmodellen integrerar CLIP som sin visuella kodare tillsammans med ett linjĂ€rt projektionslager som omvandlar bildegenskaper till deras motsvarande mjuka bildtokens. Dessutom, för att bearbeta videoinnehĂ„ll, vĂ€ljer Uni-MoE-ramverket Ă„tta representativa bildrutor frĂ„n varje video och omvandlar dem till videotokens genom genomsnittlig pooling för att aggregera deras bild- eller rambaserade representation. För ljuduppgifter distribuerar Uni-MoE-ramverket tvĂ„ kodare, BEATs och Whisper-kodaren för att förbĂ€ttra funktionsextraktionen. Modellen destillerar sedan ljudfunktioner med vektortal och tal med fast lĂ€ngd, och mappar dem till taltokens respektive mjukt ljud via ett linjĂ€rt projektionslager. 

Utbildningsstrategi

Uni-MoE-ramverket introducerar en progressiv utbildningsstrategi för den stegvisa utvecklingen av modellen. Den progressiva utbildningsstrategin introducerade försök att utnyttja olika experters distinkta kapacitet, förbĂ€ttra effektiviteten i samarbetet mellan flera experter och öka ramverkets övergripande generaliserbarhet. Utbildningsprocessen Ă€r uppdelad i tre steg med ett försök att förverkliga MLLM struktur byggd ovanpĂ„ en integrerad blandning av experter. 

Steg 1: Cross Modality Alignment

I det första steget försöker Uni-MoE-ramverket skapa kopplingar mellan olika lingvistik och modaliteter. Uni-MoE-ramverket uppnĂ„r detta genom att översĂ€tta modal data till mjuka tokens genom att konstruera kontakter. Det primĂ€ra syftet med det första trĂ€ningssteget Ă€r att minimera den generativa entropiförlusten.  Inom Uni-MoE-ramverket Ă€r LLM optimerat för att generera beskrivningar för indata över olika modaliteter, och modellen utsĂ€tter endast anslutningarna för utbildning, en strategi som gör det möjligt för Uni-MoE-ramverket att integrera olika modaliteter inom ett enhetligt sprĂ„kramverk. 

Steg 2: Utbildning av modalitetsspecifika experter

I det andra steget fokuserar Uni-MoE-ramverket pĂ„ att utveckla experter pĂ„ enstaka modaliteter genom att utbilda modellen dedikerat pĂ„ specifik korsmodalitetsdata. Det primĂ€ra mĂ„let Ă€r att förfina kompetensen hos varje expert inom dess respektive domĂ€n, och pĂ„ sĂ„ sĂ€tt förbĂ€ttra den övergripande prestandan för Mixture of Expert-systemet pĂ„ ett brett spektrum av multimodala data. Dessutom skrĂ€ddarsyr Uni-MoE-ramverket feedforward-nĂ€tverken för att mer anpassas till modalitetens egenskaper samtidigt som generativ entropiförlust bibehĂ„lls som fokal metrisk trĂ€ning. 

Steg 3: Tuning Uni-MoE

I det tredje och sista steget integrerar Uni-MoE-ramverket vikterna som stĂ€llts in av experter under steg 2 i blandningen av expertskikt. Uni-MoE-ramverket finjusterar sedan MLLM:erna genom att anvĂ€nda blandade multimodala instruktionsdata gemensamt. Förlustkurvorna i följande bild Ă„terspeglar trĂ€ningsprocessens framsteg. 

JĂ€mförande analys mellan konfigurationerna av Mixture of Expert avslöjade att experterna som modellen förfinade under det andra utbildningsstadiet visade ökad stabilitet och uppnĂ„dde snabbare konvergens pĂ„ mixed-modala dataset. Vidare, för uppgifter som involverade komplexa multimodala data inklusive text, bilder, ljud, videor, visade Uni-MoE-ramverket mer konsekvent trĂ€ningsprestanda och minskad förlustvariabilitet nĂ€r den anstĂ€llde fyra experter Ă€n nĂ€r den anstĂ€llde tvĂ„ experter. 

Uni-MoE: Experiment och resultat

Följande tabell sammanfattar de arkitektoniska specifikationerna för Uni-MoE-ramverket. Det primĂ€ra mĂ„let med Uni-MoE-ramverket, byggt pĂ„ LLaMA-7B-arkitektur, Ă€r att skala modellstorleken. 

Följande tabell sammanfattar designen och optimeringen av Uni-MoE-ramverket som styrs av specialiserade trĂ€ningsuppgifter. Dessa uppgifter Ă€r avgörande för att förfina MLP-lagrens kapacitet och dĂ€rigenom utnyttja deras specialiserade kunskap för förbĂ€ttrad modellprestanda. Uni-MoE-ramverket Ă„tar sig Ă„tta expertuppgifter för singelmodalitet för att belysa de olika effekterna av olika utbildningsmetoder. 

Modellen utvĂ€rderar prestandan för olika modellvarianter över en mĂ„ngsidig uppsĂ€ttning riktmĂ€rken som omfattar tvĂ„ videoförstĂ„else, tre ljudförstĂ„else och fem talrelaterade uppgifter. Först testas modellen pĂ„ dess förmĂ„ga att förstĂ„ tal-bild- och tal-text-uppgifter, och resultaten finns i följande tabell. 

Som det kan observeras ger de tidigare baslinjemodellerna sĂ€mre resultat över talförstĂ„elseuppgifter, vilket ytterligare pĂ„verkar prestandan pĂ„ bild-talresonemangsuppgifter. Resultaten indikerar att införandet av Mixture of Expert-arkitektur kan förbĂ€ttra generaliserbarheten av MLLMs pĂ„ osynliga audi-image-resonemangsuppgifter. Följande tabell presenterar de experimentella resultaten av uppgifter om bild-textförstĂ„else. Som det kan observeras övertrĂ€ffar de bĂ€sta resultaten frĂ„n Uni-MoE-modellerna baslinjerna och övertrĂ€ffar finjusteringsuppgiften med en genomsnittlig marginal pĂ„ 4 poĂ€ng. 

Avslutande tankar

I den hÀr artikeln har vi pratat om Uni-MoE, , en enhetlig multimodal stor sprÄkmodell med en MoE eller Mixture of Expert-arkitektur som kan hantera ett brett spektrum av modaliteter och experter. Uni-MoE-ramverket implementerar ocksÄ en sparsam blandning av expertarkitektur inom de stora sprÄkmodellerna i ett försök att göra trÀnings- och slutledningsprocessen mer effektiv genom att anvÀnda modellparallellism och dataparallellism pÄ expertnivÄ. Dessutom, för att förbÀttra generalisering och samarbete mellan flera experter, presenterar Uni-MoE-ramverket en progressiv utbildningsstrategi som Àr en kombination av tre olika processer. I det första uppnÄr Uni-MoE-ramverket korsmodalitetsanpassning med hjÀlp av olika kopplingar med olika korsmodalitetsdata. För det andra aktiverar Uni-MoE-ramverket preferensen för expertkomponenterna genom att utbilda modalitetsspecifika experter med cross-modalitetsinstruktionsdata. Slutligen implementerar Uni-MoE-modellen inlÀrningstekniken LoRA eller Low-Rank Adaptation pÄ blandade multimodala instruktionsdata för att stÀlla in modellen.

"En ingenjör till yrket, en författare utantill". Kunal Àr en teknisk skribent med en djup kÀrlek och förstÄelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa omrÄden genom sin engagerande och informativa dokumentation.