Kunstmatige intelligentie

Uni-MoE: Schalen van Unified Multimodal LLMs met Mixture of Experts

Gepubliceerd op 31 mei 2024

Bijgewerkt op 15 mei 2026

Door

Kunal Kejriwal

De recente vooruitgang in de architectuur en prestaties van Multimodale Large Language Models of MLLMs heeft de belangrijkheid van schaalbare data en modellen benadrukt om de prestaties te verbeteren. Hoewel deze aanpak de prestaties verbetert, gaat het gepaard met aanzienlijke computationele kosten die de praktische toepasbaarheid en bruikbaarheid van dergelijke benaderingen beperken. In de loop der jaren zijn Mixture of Expert- of MoE-modellen opgekomen als een succesvolle alternatieve benadering om beeld- en taalmodellen en grote taalmodellen efficiënt te schalen, aangezien Mixture of Expert-modellen aanzienlijk lagere computationele kosten hebben en sterke prestaties. Echter, ondanks hun voordelen, zijn Mixture of Models niet de ideale benadering om grote taalmodellen te schalen, omdat ze vaak minder experts en beperkte modaliteiten omvatten, waardoor de toepassingen worden beperkt.

Om de obstakels die door de huidige benaderingen worden gegenereerd, te counteren en om grote taalmodellen efficiënt te schalen, zullen we in dit artikel praten over Uni-MoE, een unified multimodaal grote taalmodel met een MoE- of Mixture of Expert-architectuur dat in staat is om een breed scala aan modaliteiten en experts te behandelen. Het Uni-MoE-kader implementeert ook een sparse Mixture of Expert-architectuur binnen de grote taalmodellen in een poging om het trainings- en inferentieproces efficiënter te maken door expertniveau-modelparallelisme en dataparallelisme te gebruiken. Bovendien, om generalisatie en multi-expert-samenwerking te verbeteren, presenteert het Uni-MoE-kader een progressieve trainingsstrategie die een combinatie is van drie verschillende processen. In de eerste, bereikt het Uni-MoE-kader cross-modality-alignement met behulp van verschillende connectors met verschillende cross-modality-gegevens. Ten tweede, activeert het Uni-MoE-kader de voorkeur van de expertcomponenten door modality-specifieke experts te trainen met cross-modality-instructiegegevens. Ten slotte, implementeert het Uni-MoE-model de LoRA- of Low-Rank Adaptation-lerntechniek op gemengde multimodale instructiegegevens om het model te finetunen. Toen het instructie-gefinetune Uni-MoE-kader werd geëvalueerd op een uitgebreide set van multimodale datasets, benadrukte de uitgebreide experimentele resultaten het belangrijkste voordeel van het Uni-MoE-kader in het verminderen van prestatiebevooroordeeldheid bij het omgaan met gemengde multimodale datasets aanzienlijk. De resultaten gaven ook een aanzienlijke verbetering van multi-expert-samenwerking en generalisatie aan.

Dit artikel heeft als doel het Uni-MoE-kader diepgaand te behandelen en we onderzoeken de mechanisme, de methodologie, de architectuur van het kader, evenals de vergelijking met state-of-the-art-kaders. Laten we dus beginnen.

Uni-MoE: Schalen van Unified Multimodal LLMs

De introductie van open-source multimodale grote taalmodellen, waaronder LLama en InstantBlip, heeft de opvallende successen en vooruitgang in taken die image-text-begrip omvatten, de afgelopen jaren benadrukt. Bovendien werkt de AI-gemeenschap actief aan het bouwen van een unified multimodaal groot taalmodel dat een breed scala aan modaliteiten kan omvatten, waaronder beeld, tekst, audio, video en meer, en gaat verder dan het traditionele image-text-paradigma. Een veel voorkomende benadering die door de open-source-gemeenschap wordt gevolgd om de mogelijkheden van multimodale grote taalmodellen te verbeteren, is het vergroten van de grootte van visiebasismodellen en het integreren ervan met grote taalmodellen met miljarden parameters, en het gebruik van diverse multimodale datasets om instructie-afstemming te verbeteren. Deze ontwikkelingen hebben de toenemende mogelijkheden van multimodale grote taalmodellen om meerdere modaliteiten te verwerken en te begrijpen, benadrukt, en hebben de belangrijkheid van het uitbreiden van multimodale instructiegegevens en model schaalbaarheid aangetoond.

Hoewel het schalen van een model een bewezen aanpak is die aanzienlijke resultaten oplevert, is het schalen van een model een computationeel duur proces voor zowel het trainings- als het inferentieproces.

Om het probleem van hoge overhead computationele kosten te counteren, beweegt de open-source-gemeenschap zich in de richting van het integreren van de MoE- of Mixture of Expert-modelarchitectuur in grote taalmodellen om zowel de trainings- als de inferentie-efficiëntie te verbeteren. In tegenstelling tot multimodale grote taal- en grote taalmodellen die alle beschikbare parameters gebruiken om elk invoer te verwerken, wat resulteert in een dichte computationele aanpak, vereist de Mixture of Expert-architectuur alleen dat de gebruiker een subset van expertparameters activeert voor elk invoer. Als gevolg daarvan komt de Mixture of Expert-aanpak naar voren als een haalbare route om de efficiëntie van grote modellen te verbeteren zonder uitgebreide parameteractivatie en hoge overhead computationele kosten. Hoewel bestaande werken de succesvolle implementatie en integratie van Mixture of Expert-modellen in de constructie van tekst-only en tekst-beeld grote modellen hebben benadrukt, moeten onderzoekers nog steeds volledig de potentie van het ontwikkelen van de Mixture of Expert-architectuur onderzoeken om krachtige unified multimodale grote taalmodellen te bouwen.

Uni-MoE is een multimodaal groot taalmodel dat sparse Mixture of Expert-modellen gebruikt om meerdere modaliteiten te interpreteren en te beheren in een poging om het schalen van unified multimodale grote taalmodellen met de MoE-architectuur te onderzoeken. Zoals wordt aangetoond in de volgende afbeelding, verkrijgt het Uni-MoE-kader eerst de codering van verschillende modaliteiten met behulp van modality-specifieke encoders en kaart deze coderingen vervolgens naar de taalrepresentatieruimte van de grote taalmodellen met behulp van verschillende ontworpen connectors. Deze connectors bevatten een trainbaar transformatiemodel met daaropvolgende lineaire projecties om de uitvoerrepresentaties van de bevroren encoder te destilleren en te projecteren. Het Uni-MoE-kader introduceert vervolgens een sparse Mixture of Expert-laag binnen de interne block van de dichte Large Language Model. Als gevolg hiervan, bevat elke Mixture of Expert-gebaseerde block een gedeelde self-attention-laag die toepasbaar is op alle modaliteiten, een sparse router voor het toewijzen van expertise op tokenniveau en diverse experts op basis van het feedforward-netwerk. Door deze aanpak is het Uni-MoE-kader in staat om meerdere modaliteiten te begrijpen, waaronder spraak, audio, tekst, video, beeld en vereist alleen het activeren van gedeeltelijke parameters tijdens de inferentie.

Bovendien, om multi-expert-samenwerking en generalisatie te verbeteren, implementeert het Uni-MoE-kader een drie-fasen trainingsstrategie. In de eerste fase, gebruikt het kader uitgebreide image/audio/spraak-tot-taal-paren om de overeenkomstige connector te trainen vanwege de unified modality-representatie in de taalruimte van het grote taalmodel. Ten tweede, traint het Uni-MoE-model modality-specifieke experts met behulp van cross-modality-datasets afzonderlijk in een poging om de vaardigheid van elke expert binnen zijn respectieve domein te verfijnen. In de derde fase, integreert het Uni-MoE-kader deze getrainde experts in de Mixture of Expert-laag van het grote taalmodel en traint het hele Uni-MoE-kader met gemengde multimodale instructiegegevens. Om de trainingskosten verder te verminderen, gebruikt het Uni-MoE-kader de LoRA-leren-aanpak om deze self-attention-lagen en de vooraf getrainde experts te finetunen.

Uni-MoE : Methodologie en Architectuur

De basisbeweegreden achter het Uni-MoE-kader is de hoge trainings- en inferentiekosten van het schalen van multimodale grote taalmodellen, evenals de efficiëntie van Mixture of Expert-modellen, en het onderzoeken van de mogelijkheid om een efficiënt, krachtig en unified multimodaal groot taalmodel te creëren met behulp van de MoE-architectuur. De volgende figuur toont een weergave van de architectuur die in het Uni-MoE-kader is geïmplementeerd, waarin het ontwerp wordt getoond dat bestaat uit individuele encoders voor verschillende modaliteiten, zoals audio, spraak en visuele elementen, evenals hun respectieve modality-connectors.

Het Uni-MoE-kader integreert vervolgens de Mixture of Expert-architectuur met de core-grote taalmodel-blokken, een proces dat cruciaal is voor het verbeteren van de algehele efficiëntie van zowel het trainings- als het inferentieproces. Het Uni-MoE-kader bereikt dit door een sparse router-mechanisme te implementeren. Het algehele trainingsproces van het Uni-MoE-kader kan worden opgesplitst in drie fasen: cross-modality-alignement, trainen van modality-specifieke experts en finetunen van Uni-MoE met behulp van een diverse set van multimodale instructiegegevens. Om diverse modale invoer efficiënt om te zetten in een linguïstische vorm, is het Uni-MoE-kader gebouwd op LLaVA, een voorgetraind visueel taalmodel. Het LLaVA-basismodel integreert CLIP als visuele encoder, evenals een lineaire projectielaag die beeldkenmerken omzet in hun overeenkomstige zachte beeldtokens. Bovendien, om video-inhoud te verwerken, selecteert het Uni-MoE-kader acht representatieve frames uit elke video en transformeert deze in videotokens door middel van gemiddelde pooling om hun beeld- of frame-gebaseerde representatie te aggregeren. Voor audio-taken, gebruikt het Uni-MoE-kader twee encoders, BEATs en de Whisper-encoder, om kenmerkextractie te verbeteren. Het model destilleert vervolgens audio-kenmerken vectoren en vaste lengte spraak en kaart deze om in spraaktokens en zachte audio via een lineaire projectielaag.

Trainingsstrategie

Het Uni-MoE-kader introduceert een progressieve trainingsstrategie voor de incrementele ontwikkeling van het model. De progressieve trainingsstrategie die wordt geïntroduceerd, probeert de distincte capaciteiten van verschillende experts te benutten, multi-expert-samenwerking efficiëntie te verbeteren en de algehele generaliseerbaarheid van het kader te vergroten. Het trainingsproces is opgesplitst in drie fasen in een poging om de MLLM-structuur te actualiseren die is gebouwd op geïntegreerde Mixture of Experts.

Fase 1 : Cross-Modality-Alignement

In de eerste fase, probeert het Uni-MoE-kader verbinding te maken tussen verschillende linguïstiek en modaliteiten. Het Uni-MoE-kader bereikt dit door modale gegevens om te zetten in zachte tokens door connectors te construeren. Het primaire doel van de eerste trainingsfase is om de generatieve entropie-verlies te minimaliseren.Binnen het Uni-MoE-kader, wordt de LLM geoptimaliseerd om beschrijvingen te genereren voor invoer over verschillende modaliteiten, en wordt het model alleen onderworpen aan training, een strategie die het Uni-MoE-kader in staat stelt om verschillende modaliteiten binnen een unified taalkader te integreren.

Fase 2: Trainen van Modality-Specifieke Experts

In de tweede fase, richt het Uni-MoE-kader zich op het ontwikkelen van single-modality-experts door het model specifiek te trainen op cross-modality-gegevens. Het primaire doel is om de vaardigheid van elke expert binnen zijn respectieve domein te verfijnen, waardoor de algehele prestatie van het Mixture of Expert-systeem op een breed scala aan multimodale gegevens wordt verbeterd. Bovendien, past het Uni-MoE-kader de feedforward-netwerken aan om beter te worden afgestemd op de kenmerken van de modality, terwijl het generatieve entropie-verlies als focale metrische trainingsdoelstelling behoudt.

Fase 3: Finetunen van Uni-MoE

In de derde en laatste fase, integreert het Uni-MoE-kader de gewichten die zijn aangepast door experts tijdens Fase 2 in de Mixture of Expert-lagen. Het Uni-MoE-kader finetuned vervolgens de MLLM’s met behulp van gemengde multimodale instructiegegevens. De verliescurves in de volgende afbeelding weerspiegelen de voortgang van het trainingsproces.

Een vergelijkende analyse tussen de configuraties van Mixture of Expert onthulde dat de experts die het model verfijnde tijdens de 2e trainingsfase een verbeterde stabiliteit vertoonden en sneller convergeerden op gemengde modale datasets. Bovendien, op taken die complexe multimodale gegevens omvatten, waaronder tekst, beelden, audio, video, toonde het Uni-MoE-kader een meer consistente trainingsprestatie en verminderde verliesvariabiliteit toen het vier experts gebruikte in plaats van twee experts.

Uni-MoE : Experimenten en Resultaten

De volgende tabel samenvat de architecturale specificaties van het Uni-MoE-kader. Het primaire doel van het Uni-MoE-kader, gebouwd op LLaMA-7B-architectuur, is om de modelgrootte te schalen.

De volgende tabel samenvat de ontwerp- en optimalisatie van het Uni-MoE-kader, zoals geleid door gespecialiseerde trainingsTaken. Deze taken zijn instrumenteel in het verfijnen van de capaciteiten van de MLP-lagen, waardoor hun gespecialiseerde kennis kan worden benut voor verbeterde modelprestaties. Het Uni-MoE-kader ondernam acht single-modality-expert-taken om de differentiële effecten van verschillende trainingsmethoden te verduidelijken.

Het model evalueert de prestaties van verschillende modelvarianten over een diverse set van benchmarks die twee video-begrijpende, drie audio-begrijpende en vijf spraak-gerelateerde taken omvat. Eerst, wordt het model getest op zijn vermogen om spraak-beeld- en spraak-tekst-taken te begrijpen, en de resultaten zijn opgenomen in de volgende tabel.

Zoals te zien is, leveren de voorgaande baseline-modellen inferieure resultaten over spraak-begrijpende taken, wat de prestatie op image-spraak-redeneringstaken beïnvloedt. De resultaten geven aan dat het introduceren van Mixture of Expert-architectuur de generaliseerbaarheid van MLLM’s op ongezien audi-image-redeneringstaken aanzienlijk kan verbeteren. De volgende tabel toont de experimentele resultaten op image-tekst-begrijpende taken. Zoals te zien is, overtreft de beste resultaten van de Uni-MoE-modellen de baselines en overschrijdt de fine-tuning-taak met een gemiddelde marge van 4 punten.

Slotgedachten

In dit artikel hebben we gesproken over Uni-MoE, een unified multimodaal groot taalmodel met een MoE- of Mixture of Expert-architectuur dat in staat is om een breed scala aan modaliteiten en experts te behandelen. Het Uni-MoE-kader implementeert ook een sparse Mixture of Expert-architectuur binnen de grote taalmodellen in een poging om het trainings- en inferentieproces efficiënter te maken door expertniveau-modelparallelisme en dataparallelisme te gebruiken. Bovendien, om generalisatie en multi-expert-samenwerking te verbeteren, presenteert het Uni-MoE-kader een progressieve trainingsstrategie die een combinatie is van drie verschillende processen. In de eerste, bereikt het Uni-MoE-kader cross-modality-alignement met behulp van verschillende connectors met verschillende cross-modality-gegevens. Ten tweede, activeert het Uni-MoE-kader de voorkeur van de expertcomponenten door modality-specifieke experts te trainen met cross-modality-instructiegegevens. Ten slotte, implementeert het Uni-MoE-model de LoRA- of Low-Rank Adaptation-lerntechniek op gemengde multimodale instructiegegevens om het model te finetunen.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.