Modele și platforme AI

Uni-MoE: Scalarea Modelelor Unificate Multimodale LLM cu Mixture of Experts

mm

Avansurile recente în arhitectura și performanța Modelelor Mari de Limbaj Multimodale (MLLM) au subliniat importanța datelor și a modelelor scalabile pentru a îmbunătăți performanța. Deși această abordare îmbunătățește performanța, ea implică costuri computaționale substanțiale care limitează practicitatea și utilizabilitatea unor astfel de abordări. De-a lungul anilor, modelele Mixture of Expert (MoE) au apărut ca o abordare alternativă de succes pentru a scala eficient modelele de imagine-text și limbaj mare, deoarece modelele MoE au costuri computaționale semnificativ mai mici și o performanță puternică. Cu toate acestea, în ciuda avantajelor lor, modelele MoE nu sunt abordarea ideală pentru a scala modelele de limbaj mare, deoarece ele implică adesea mai puțini experți și modalități limitate, ceea ce limitează aplicațiile.

Pentru a contracara obstacolele întâmpinate de abordările actuale și pentru a scala eficient modelele de limbaj mare, în acest articol, vom discuta despre Uni-MoE, un model de limbaj mare multimodal unificat cu arhitectură MoE, care este capabil să gestioneze o gamă largă de modalități și experți. Cadru Uni-MoE implementează, de asemenea, o arhitectură MoE rară în cadrul modelelor de limbaj mare, în încercarea de a face procesul de antrenare și inferență mai eficient prin utilizarea paralelismului la nivel de model și date. Mai mult, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadru Uni-MoE prezintă o strategie de antrenare progresivă, care este o combinație a trei procese diferite. În primul rând, cadru Uni-MoE realizează alinierea cross-modală utilizând diverse conectoare cu date cross-modale diferite. În al doilea rând, cadru Uni-MoE activează preferința componentelor expert prin antrenarea experților specifici modalității cu date de instruire cross-modale. În final, modelul Uni-MoE implementează tehnica de învățare Low-Rank Adaptation (LoRA) pe date de instruire multimodale mixte pentru a ajusta modelul. Când a fost evaluat pe o gamă cuprinzătoare de seturi de date multimodale, rezultatele experimentale extinse au subliniat avantajul principal al cadru Uni-MoE în reducerea semnificativă a bias-ului de performanță la gestionarea seturilor de date multimodale mixte. Rezultatele au indicat, de asemenea, o îmbunătățire semnificativă a colaborării multi-expert și a generalizării.

Acest articol își propune să acopere cadru Uni-MoE în profunzime și explorăm mecanismul, metodologia, arhitectura cadru, împreună cu comparația cu cadrele de stat-of-the-art. Deci, să începem.

Uni-MoE: Scalarea Modelelor Unificate Multimodale LLM

Apariția modelelor de limbaj mare multimodale deschise, incluzând LLama și InstantBlip, a subliniat succesul notabil și avansarea în sarcinile care implică înțelegerea imagine-text pe parcursul ultimilor ani. Mai mult, comunitatea de inteligență artificială lucrează activ pentru a construi un model de limbaj mare multimodal unificat care ar putea să gestioneze o gamă largă de modalități, incluzând imagine, text, audio, video și mai mult, mergând dincolo de paradigma tradițională imagine-text. O abordare comună urmată de comunitatea deschisă pentru a îmbunătăți capacitățile modelelor de limbaj mare multimodale este de a crește dimensiunea modelelor de bază de viziune și de a le integra cu modele de limbaj mare cu miliarde de parametri, utilizând seturi de date multimodale diverse pentru a îmbunătăți ajustarea instruirii. Aceste evoluții au subliniat capacitatea din ce în ce mai mare a modelelor de limbaj mare multimodale de a raționa și procesa multiple modalități, demonstrând importanța extinderii datelor de instruire multimodale și a scalabilității modelului.

Deși scalarea unui model este o abordare testată și verificată care oferă rezultate substanțiale, scalarea unui model este un proces computațional scump atât pentru procesul de antrenare, cât și pentru procesul de inferență.

Pentru a contracara problema costurilor computaționale ridicate, comunitatea deschisă se îndreaptă spre integrarea arhitecturii MoE sau Mixture of Expert în modelele de limbaj mare pentru a îmbunătăți atât eficiența antrenării, cât și a inferenței. În contrast cu modelele de limbaj mare multimodale și modelele de limbaj mare care utilizează toți parametrii disponibili pentru a procesa fiecare intrare, rezultând într-o abordare computațională densă, arhitectura MoE necesită doar activarea unui subset de parametri experți pentru fiecare intrare. Ca urmare, arhitectura MoE apare ca o cale viabilă pentru a îmbunătăți eficiența modelelor mari fără o activare extinsă a parametrilor și costuri computaționale ridicate. Deși lucrările existente au subliniat implementarea cu succes și integrarea modelelor MoE în construirea modelelor de limbaj mare text-numai și text-imagine, cercetătorii sunt încă departe de a explora pe deplin potențialul dezvoltării arhitecturii MoE pentru a construi modele de limbaj mare multimodale puternice și unificate.

Uni-MoE este un model de limbaj mare multimodal care utilizează modele MoE rare pentru a interpreta și gestiona multiple modalități, în încercarea de a explora scalarea modelelor de limbaj mare multimodale unificate cu arhitectura MoE. Așa cum se demonstrează în imaginea de mai jos, cadru Uni-MoE obține mai întâi codificarea diferitelor modalități utilizând codificatori specifici modalității și apoi le mappează în spațiul de reprezentare a limbajului modelelor de limbaj mare utilizând diverse conectoare proiectate. Aceste conectoare conțin un model de transformator antrenabil cu proiecții liniare ulterioare pentru a distila și proiecta reprezentările de ieșire ale codificatorului înghețat. Cadru Uni-MoE introduce apoi straturi MoE rare în cadrul blocului intern al modelului de limbaj mare dens. Ca urmare, fiecare bloc bazat pe MoE prezintă un strat de auto-atentie partajat aplicabil tuturor modalităților, un router rar pentru alocarea expertizei la nivel de token și experți diversi bazati pe rețeaua feedforward. Datorită acestei abordări, cadru Uni-MoE este capabil să înțeleagă multiple modalități, incluzând vorbire, audio, text, video, imagine și necesită doar activarea parțială a parametrilor în timpul inferenței.

Mai mult, pentru a îmbunătăți colaborarea multi-expert și generalizarea, cadru Uni-MoE implementează o strategie de antrenare în trei etape. În prima etapă, cadru utilizează perechi extinse de imagine/audio/vorbire-lingvistică pentru a antrena conectatorul corespunzător, datorită reprezentării unificate a modalității în spațiul lingvistic al modelului de limbaj mare. În a doua etapă, modelul Uni-MoE antrenează experți specifici modalității, utilizând seturi de date cross-modale separate, în încercarea de a rafina priceperea fiecărui expert în domeniul său respectiv. În a treia etapă, cadru Uni-MoE integrează acești experți antrenați în stratul MoE al modelului de limbaj mare și antrenează întregul cadru Uni-MoE cu date de instruire multimodale mixte. Pentru a reduce costul antrenării și mai mult, cadru Uni-MoE utilizează abordarea de învățare LoRA pentru a ajusta straturile de auto-atentie și experții pre-antrenați.

Uni-MoE: Metodologie și Arhitectură

Motivația de bază din spatele cadru Uni-MoE este reprezentată de costurile ridicate de antrenare și inferență ale scalării modelelor de limbaj mare multimodale, împreună cu eficiența modelelor MoE, și explorarea posibilității de a crea un model de limbaj mare multimodal unificat, eficient și puternic, utilizând arhitectura MoE. Figura de mai jos prezintă o reprezentare a arhitecturii implementate în cadru Uni-MoE, demonstrând designul care include codificatori individuali pentru diferite modalități, cum ar fi audio, vorbire și vizual, împreună cu conectoarele lor respective.

Cadru Uni-MoE integrează apoi arhitectura MoE cu blocurile centrale ale modelului de limbaj mare, un proces crucial pentru îmbunătățirea eficienței atât a procesului de antrenare, cât și a procesului de inferență. Cadru Uni-MoE realizează acest lucru prin implementarea unui mecanism de rutare rară. Procesul de antrenare al cadru Uni-MoE poate fi împărțit în trei faze: alinierea cross-modală, antrenarea experților specifici modalității și ajustarea Uni-MoE utilizând un set divers de seturi de date de instruire multimodale. Pentru a transforma eficient intrările multimodale într-un format lingvistic, cadru Uni-MoE se bazează pe LLaVA, un cadru de limbaj vizual pre-antrenat. Modelul de bază LLaVA integrează CLIP ca encoder vizual, împreună cu un strat de proiecție liniară care convertește caracteristicile imaginii în tokeni de imagine moi. Mai mult, pentru a procesa conținutul video, cadru Uni-MoE selectează opt cadre reprezentative din fiecare video și le transformă în tokeni video prin average pooling pentru a agrega reprezentarea bazată pe imagine sau cadre. Pentru sarcinile audio, cadru Uni-MoE utilizează două encodere, BEATs și encoderul Whisper, pentru a îmbunătăți extragerea caracteristicilor. Modelul apoi distilează vectorul de caracteristici audio și speech de lungime fixă și le mappează în tokeni de vorbire și audio moi, respectiv, prin intermediul unui strat de proiecție liniară.

Strategia de Antrenare

Cadru Uni-MoE introduce o strategie de antrenare progresivă pentru dezvoltarea incrementală a modelului. Strategia de antrenare progresivă introdusă încearcă să valorifice capacitățile distincte ale diferiților experți, să îmbunătățească eficiența colaborării multi-expert și să crească generalizabilitatea generală a cadru. Procesul de antrenare este împărțit în trei etape, în încercarea de a actualiza structura MLLM construită pe baza modelelor MoE integrate.

Etapa 1: Alinierea Cross-Modală

În prima etapă, cadru Uni-MoE încearcă să stabilească o legătură între diferitele limbaje și modalități. Cadru Uni-MoE realizează acest lucru prin traducerea datelor modale în tokeni moi, construind conectoare. Obiectivul principal al primei etape de antrenare este de a minimiza pierderea entropiei generative. În cadrul cadru Uni-MoE, modelul de limbaj mare este optimizat pentru a genera descrieri pentru intrări din diferite modalități, iar modelul supune doar conectoarele antrenării, o strategie care permite cadru Uni-MoE să integreze diferite modalități într-un cadru lingvistic unificat.

Etapa 2: Antrenarea Experților Specifici Modalității

În a doua etapă, cadru Uni-MoE se concentrează pe dezvoltarea experților specifici unei singure modalități, prin antrenarea modelului dedicat pe date cross-modale specifice. Obiectivul principal este de a rafina priceperea fiecărui expert în domeniul său respectiv, îmbunătățind astfel performanța generală a sistemului MoE pe o gamă largă de date multimodale. Mai mult, cadru Uni-MoE adaptează rețelele feedforward pentru a se potrivi mai bine cu caracteristicile modalității, menținând în același timp pierderea entropiei generative ca metrică de antrenare focală.

Etapa 3: Ajustarea Uni-MoE

În a treia și ultima etapă, cadru Uni-MoE integrează greutățile ajustate de experți în timpul etapei a 2-a în straturile MoE. Cadru Uni-MoE ajustează apoi modelul de limbaj mare utilizând date de instruire multimodale mixte, în mod conjunct. Curbele de pierdere din imaginea de mai jos reflectă progresul procesului de antrenare.

Analiza comparativă a configurațiilor MoE a arătat că experții pe care modelul i-a rafinat în timpul etapei a 2-a de antrenare au prezentat o stabilitate îmbunătățită și au atins convergența mai rapid pe seturi de date mixte. Mai mult, la sarcinile care implică date multimodale complexe, incluzând text, imagini, audio, videoclipuri, cadru Uni-MoE a demonstrat o performanță de antrenare mai consistentă și o variabilitate redusă a pierderii atunci când a utilizat patru experți, comparativ cu utilizarea a doi experți.

Uni-MoE: Experimente și Rezultate

Tabela de mai jos rezumă specificațiile arhitecturale ale cadru Uni-MoE. Obiectivul principal al cadru Uni-MoE, construit pe arhitectura LLaMA-7B, este de a scala dimensiunea modelului.

Tabela de mai jos rezumă designul și optimizarea cadru Uni-MoE, ghidate de sarcini de antrenare specializate. Aceste sarcini sunt instrumentale în rafinarea capacităților straturilor MLP, valorificând astfel cunoștințele specializate pentru o performanță îmbunătățită a modelului. Cadru Uni-MoE întreprinde opt sarcini de expertiză unică pentru modalitate pentru a explica impactul diferit al diverselor metodologii de antrenare.

Modelul evaluează performanța diverselor variante de model pe un set cuprinzător de benchmark-uri care include două sarcini de înțelegere a videoclipurilor, trei sarcini de înțelegere a audio și cinci sarcini legate de vorbire. Mai întâi, modelul este testat pe capacitatea sa de a înțelege sarcinile de vorbire-imagine și vorbire-text, iar rezultatele sunt conținute în tabela de mai jos.

Așa cum se poate observa, modelele de referință anterioare oferă rezultate inferioare pe sarcinile de înțelegere a vorbirii, ceea ce afectează și performanța pe sarcinile de raționament imagine-vorbire. Rezultatele indică faptul că introducerea arhitecturii MoE poate îmbunătăți generalizabilitatea modelelor de limbaj mare pe sarcinile de raționament imagine-vorbire nevizibile. Tabela de mai jos prezintă rezultatele experimentale pe sarcinile de înțelegere a imaginilor-text. Așa cum se poate observa, cele mai bune rezultate din modelele Uni-MoE depășesc modelele de referință și depășesc sarcina de ajustare cu o marjă medie de 4 puncte.

Gânduri Finale

În acest articol am discutat despre Uni-MoE, un model de limbaj mare multimodal unificat cu arhitectură MoE, care este capabil să gestioneze o gamă largă de modalități și experți. Cadru Uni-MoE implementează, de asemenea, o arhitectură MoE rară în cadrul modelelor de limbaj mare, în încercarea de a face procesul de antrenare și inferență mai eficient prin utilizarea paralelismului la nivel de model și date. Mai mult, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadru Uni-MoE prezintă o strategie de antrenare progresivă, care este o combinație a trei procese diferite. În primul rând, cadru Uni-MoE realizează alinierea cross-modală utilizând diverse conectoare cu date cross-modale diferite. În al doilea rând, cadru Uni-MoE activează preferința componentelor expert prin antrenarea experților specifici modalității cu date de instruire cross-modale. În final, modelul Uni-MoE implementează tehnica de învățare LoRA pe date de instruire multimodale mixte pentru a ajusta modelul.

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.