Inteligență artificială

Uni-MoE: Scalarea Modelelor Unificate Multimodale LLM cu Mixture of Experts

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

Progresele recente în arhitectura și performanța Modelelor Mari de Limbaj Multimodale sau MLLM au subliniat importanța datelor și a modelelor scalabile pentru a îmbunătăți performanța. Deși această abordare îmbunătățește performanța, implică costuri computaționale substanțiale care limitează practicitatea și utilizabilitatea unor astfel de abordări. De-a lungul anilor, modelele Mixture of Experts sau MoE au apărut ca o abordare alternativă de succes pentru a scala eficient modelele de imagine-text și limbaj mare, deoarece modelele Mixture of Experts au costuri computaționale semnificativ mai mici și o performanță puternică. Cu toate acestea, în ciuda avantajelor lor, modelele Mixture of Experts nu sunt abordarea ideală pentru a scala modelele de limbaj mare, deoarece acestea implică adesea mai puțini experți și modalități limitate, limitând astfel aplicațiile.

Pentru a contracara obstacolele întâmpinate de abordările actuale și pentru a scala eficient modelele de limbaj mare, în acest articol, vom discuta despre Uni-MoE, un model de limbaj mare multimodal unificat cu o arhitectură Mixture of Experts sau MoE care poate gestiona o gamă largă de modalități și experți. Cadru Uni-MoE implementează, de asemenea, o arhitectură Mixture of Experts rară în interiorul modelelor de limbaj mare pentru a face procesul de antrenare și inferență mai eficient prin utilizarea paralelismului de model la nivel de expert și paralelism de date. Mai mult, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadru Uni-MoE prezintă o strategie de antrenare progresivă care este o combinație a trei procese diferite. În primul rând, cadru Uni-MoE realizează alinierea cross-modală utilizând diverse conectoare cu date cross-modale diferite. În al doilea rând, cadru Uni-MoE activează preferința componentelor expert prin antrenarea experților specifici modalității cu date de instruire cross-modale. În final, modelul Uni-MoE implementează tehnica de învățare Low-Rank Adaptation sau LoRA pe date de instruire multimodale mixte pentru a ajusta modelul. Când modelul Uni-MoE ajustat cu instruire a fost evaluat pe un set cuprinzător de seturi de date multimodale, rezultatele experimentale extinse au subliniat avantajul principal al cadrului Uni-MoE în reducerea bias-ului de performanță la gestionarea seturilor de date multimodale mixte în mod semnificativ. Rezultatele au indicat, de asemenea, o îmbunătățire semnificativă a colaborării multi-expert și a generalizării.

Acest articol își propune să acopere cadru Uni-MoE în profunzime, și explorăm mecanismul, metodologia, arhitectura cadrului, împreună cu comparația sa cu cadrurile de ultimă oră. Deci, să începem.

Uni-MoE: Scalarea Modelelor Unificate Multimodale LLM

Apariția modelelor de limbaj mare multimodale open-source, incluzând LLama și InstantBlip, a subliniat succesul notabil și progresul în sarcinile care implică înțelegerea imaginilor-text în ultimii ani. Mai mult, comunitatea de inteligență artificială lucrează activ pentru a construi un model de limbaj mare multimodal unificat care ar putea găzdui o gamă largă de modalități, incluzând imagine, text, audio, video și multe altele, mergând dincolo de paradigma tradițională imagine-text. O abordare comună urmată de comunitatea open-source pentru a îmbunătăți capacitățile modelelor de limbaj mare multimodale este de a crește dimensiunea modelelor de fundație de viziune și de a le integra cu modele de limbaj mare cu miliarde de parametri și de a utiliza seturi de date multimodale diverse pentru a îmbunătăți ajustarea instruirii. Aceste dezvoltări au subliniat capacitatea crescută a modelelor de limbaj mare multimodale de a raționa și de a procesa multiple modalități, demonstrând importanța extinderii datelor de instruire multimodale și a scalabilității modelului.

Deși scalarea unui model este o abordare testată care oferă rezultate substanțiale, scalarea unui model este un proces computațional scump atât pentru procesul de antrenare, cât și pentru cel de inferență.

Pentru a contracara problema costurilor computaționale ridicate, comunitatea open-source se îndreaptă spre integrarea arhitecturii de model Mixture of Experts sau MoE în modelele de limbaj mare pentru a îmbunătăți eficiența atât a procesului de antrenare, cât și a celui de inferență. În contrast cu modelele de limbaj mare multimodale și modelele de limbaj mare care utilizează toți parametrii disponibili pentru a procesa fiecare intrare, rezultând într-o abordare computațională densă, arhitectura Mixture of Experts necesită doar activarea unui subset de parametri experți pentru fiecare intrare. Ca rezultat, abordarea Mixture of Experts apare ca o cale viabilă pentru a îmbunătăți eficiența modelelor mari fără activarea extinsă a parametrilor și costuri computaționale ridicate. Deși lucrările existente au subliniat implementarea cu succes și integrarea modelelor Mixture of Experts în construirea modelelor de text-numai și text-imagine, cercetătorii nu au explorat încă pe deplin potențialul dezvoltării arhitecturii Mixture of Experts pentru a construi modele de limbaj mare multimodale unificate puternice.

Uni-MoE este un model de limbaj mare multimodal care utilizează modele Mixture of Experts rare pentru a interpreta și gestiona multiple modalități în încercarea de a explora scalarea modelelor de limbaj mare multimodale unificate cu arhitectura MoE. Așa cum se demonstrează în imaginea următoare, cadru Uni-MoE obține mai întâi codarea diferitelor modalități utilizând encodatori specifici modalității și apoi mapă aceste codări în spațiul de reprezentare a limbajului modelelor de limbaj mare utilizând diverse conectoare proiectate. Aceste conectoare conțin un model de transformator antrenabil cu proiecții liniare ulterioare pentru a distila și a proiecta reprezentările de ieșire ale encoderului înghețat. Cadru Uni-MoE introduce apoi straturi Mixture of Experts rare în interiorul blocului intern al modelului de limbaj mare dens. Ca rezultat, fiecare bloc bazat pe Mixture of Experts prezintă un strat de auto-atentie partajat aplicabil tuturor modalităților, un router rar pentru alocarea expertizei la nivel de token și experți diversi bazati pe rețeaua feedforward. Datorită acestei abordări, cadru Uni-MoE este capabil să înțeleagă multiple modalități, incluzând vorbire, audio, text, video, imagine și necesită doar activarea parțială a parametrilor în timpul inferenței.

Mai mult, pentru a îmbunătăți colaborarea multi-expert și generalizarea, cadru Uni-MoE implementează o strategie de antrenare în trei etape. În prima etapă, cadru utilizează extinse perechi de imagine/audio/vorbire la limbaj pentru a antrena connectorul corespunzător datorită reprezentării unificate a modalității în spațiul limbajului modelului de limbaj mare. În a doua etapă, modelul Uni-MoE antrenează experți specifici modalității utilizând seturi de date cross-modale separate în încercarea de a rafina priceperea fiecărui expert în domeniul său respectiv. În a treia etapă, cadru Uni-MoE integrează acești experți antrenați în stratul Mixture of Experts al modelului de limbaj mare și antrenează întregul cadru Uni-MoE cu date de instruire multimodale mixte. Pentru a reduce costul de antrenare și mai mult, cadru Uni-MoE utilizează abordarea de învățare LoRA pentru a ajusta aceste straturi de auto-atentie și experții pre-antrenați.

Uni-MoE : Metodologie și Arhitectură

Motivația de bază din spatele cadrului Uni-MoE este costul ridicat de antrenare și inferență al scalării modelelor de limbaj mare multimodale, împreună cu eficiența modelelor Mixture of Experts, și explorarea posibilității de a crea un model de limbaj mare multimodal unificat eficient, puternic și utilizând arhitectura MoE. Următoarea figură prezintă o reprezentare a arhitecturii implementate în cadru Uni-MoE, demonstrând designul care include encodatori individuali pentru diferite modalități, cum ar fi audio, vorbire și vizual, împreună cu conectoarele lor respective.

Cadru Uni-MoE integrează apoi arhitectura Mixture of Experts cu blocurile centrale ale modelului de limbaj mare, un proces crucial pentru îmbunătățirea eficienței atât a procesului de antrenare, cât și a celui de inferență. Cadru Uni-MoE realizează acest lucru prin implementarea unui mecanism de rutare rară. Procesul de antrenare general al cadrului Uni-MoE poate fi împărțit în trei faze: alinierea cross-modală, antrenarea experților specifici modalității și ajustarea Uni-MoE utilizând un set divers de seturi de date de instruire multimodale. Pentru a transforma eficient intrări multimodale diverse într-un format lingvistic, cadru Uni-MoE este construit pe baza LLaVA, un cadru de limbaj vizual pre-antrenat. Modelul de bază LLaVA integrează CLIP ca encoder vizual, împreună cu un strat de proiecție liniară care convertește caracteristicile imaginii în tokeni de imagine moi. Mai mult, pentru a procesa conținutul video, cadru Uni-MoE selectează opt cadre reprezentative din fiecare video și le transformă în tokeni video prin average pooling pentru a agrega reprezentarea bazată pe imagine sau cadre. Pentru sarcinile audio, cadru Uni-MoE utilizează două encodatori, BEATs și encoderul Whisper, pentru a îmbunătăți extragerea caracteristicilor. Modelul apoi distilează vectorul de caracteristici audio și speech fix și îi mapă în tokeni de vorbire și audio moi, respectiv, prin intermediul unui strat de proiecție liniară.

Strategia de Antrenare

Cadru Uni-MoE introduce o strategie de antrenare progresivă pentru dezvoltarea incrementală a modelului. Strategia de antrenare progresivă introdusă încearcă să valorifice capacitățile distincte ale diverselor experți, să îmbunătățească eficiența colaborării multi-expert și să crească generalizabilitatea generală a cadrului. Procesul de antrenare este împărțit în trei etape, în încercarea de a actualiza structura MLLM construită pe baza modelelor Mixture of Experts integrate.

Etapa 1 : Alinierea Cross-Modală

În prima etapă, cadru Uni-MoE încearcă să stabilească o legătură între diversele lingvistici și modalități. Cadru Uni-MoE realizează acest lucru prin traducerea datelor modale în tokeni moi prin construirea de conectoare. Obiectivul principal al primei etape de antrenare este de a minimiza pierderea entropiei generative. În cadrul Uni-MoE, modelul de limbaj mare este optimizat pentru a genera descrieri pentru intrări din diverse modalități, și modelul supune doar conectoarele antrenării, o strategie care permite cadrului Uni-MoE să integreze diverse modalități într-un cadru lingvistic unificat.

Etapa 2: Antrenarea Experților Specifici Modalității

În a doua etapă, cadru Uni-MoE se concentrează pe dezvoltarea experților individuali pentru o singură modalitate prin antrenarea modelului dedicat pe date cross-modale specifice. Obiectivul principal este de a rafina priceperea fiecărui expert în domeniul său respectiv, îmbunătățind astfel performanța generală a sistemului Mixture of Experts pe o gamă largă de date multimodale. Mai mult, cadru Uni-MoE adaptează rețelele feedforward pentru a se potrivi mai bine cu caracteristicile modalității, menținând în același timp pierderea entropiei generative ca metrică de antrenare focală.

Etapa 3: Ajustarea Uni-MoE

În a treia și ultima etapă, cadru Uni-MoE integrează greutățile ajustate de experți în timpul etapei 2 în straturile Mixture of Experts. Cadru Uni-MoE ajustează apoi MLLM-urile utilizând date de instruire multimodale mixte în comun. Curbele de pierdere din imaginea următoare reflectă progresul procesului de antrenare.

Analiza comparativă între configurațiile Mixture of Experts a arătat că experții pe care modelul i-a rafinat în timpul etapei a 2-a de antrenare au prezentat o stabilitate îmbunătățită și au atins convergența mai rapidă pe seturi de date mixte multimodale. Mai mult, în sarcinile care implică date multimodale complexe, incluzând text, imagini, audio, video, cadru Uni-MoE a demonstrat o performanță de antrenare mai consistentă și o variabilitate redusă a pierderii atunci când a utilizat patru experți decât atunci când a utilizat doi experți.

Uni-MoE : Experimente și Rezultate

Tabela următoare rezumă specificațiile arhitecturale ale cadrului Uni-MoE. Obiectivul principal al cadrului Uni-MoE, construit pe arhitectura LLaMA-7B, este de a scala dimensiunea modelului.

Tabela următoare rezumă designul și optimizarea cadrului Uni-MoE, ghidate de sarcini de antrenare specializate. Aceste sarcini sunt instrumentale în rafinarea capacităților straturilor MLP, valorificând astfel cunoștințele specializate pentru o performanță îmbunătățită a modelului. Cadru Uni-MoE întreprinde opt sarcini de expert pentru o singură modalitate pentru a elucidă impactul diferit al diverselor metodologii de antrenare.

Modelul evaluează performanța diverselor variante de model pe o gamă largă de benchmark-uri care cuprinde două sarcini de înțelegere a videoului, trei sarcini de înțelegere a audio și cinci sarcini legate de vorbire. Mai întâi, modelul este testat pe capacitatea sa de a înțelege sarcinile de vorbire-imagine și vorbire-text, și rezultatele sunt conținute în tabela următoare.

Așa cum se poate observa, modelele de referință anterioare oferă rezultate inferioare pe sarcinile de înțelegere a vorbirii, ceea ce afectează și performanța pe sarcinile de raționament imagine-vorbire. Rezultatele indică faptul că introducerea arhitecturii Mixture of Experts poate îmbunătăți generalizabilitatea MLLM-urilor pe sarcinile de raționament audio-imagine nefamiliare. Tabela următoare prezintă rezultatele experimentale pe sarcinile de înțelegere a imaginilor-text. Așa cum se poate observa, cele mai bune rezultate din modelele Uni-MoE depășesc modelele de referință și depășesc ajustarea sarcinii cu o marjă medie de 4 puncte.

Gânduri Finale

În acest articol am discutat despre Uni-MoE, un model de limbaj mare multimodal unificat cu o arhitectură Mixture of Experts sau MoE care poate gestiona o gamă largă de modalități și experți. Cadru Uni-MoE implementează, de asemenea, o arhitectură Mixture of Experts rară în interiorul modelelor de limbaj mare pentru a face procesul de antrenare și inferență mai eficient prin utilizarea paralelismului de model la nivel de expert și paralelism de date. Mai mult, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadru Uni-MoE prezintă o strategie de antrenare progresivă care este o combinație a trei procese diferite. În primul rând, cadru Uni-MoE realizează alinierea cross-modală utilizând diverse conectoare cu date cross-modale diferite. În al doilea rând, cadru Uni-MoE activează preferința componentelor expert prin antrenarea experților specifici modalității cu date de instruire cross-modale. În final, modelul Uni-MoE implementează tehnica de învățare Low-Rank Adaptation sau LoRA pe date de instruire multimodale mixte pentru a ajusta modelul.

Kunal Kejriwal

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.