Conectează-te cu noi

Inteligența artificială

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

mm

Progresele recente în arhitectura și performanța modelelor multimodale de limbaj mari sau MLLM-urilor au evidențiat importanța datelor și modelelor scalabile pentru îmbunătățirea performanței. Deși această abordare îmbunătățește performanța, implică costuri de calcul substanțiale care limitează caracterul practic și capacitatea de utilizare a unor astfel de abordări. De-a lungul anilor, modelele Mixture of Expert sau MoE au apărut ca o abordare alternativă de succes pentru scalarea eficientă a modelelor imagine-text și limbaj mari, deoarece modelele Mixture of Expert au costuri de calcul semnificativ mai mici și performanțe puternice. Cu toate acestea, în ciuda avantajelor lor, Mixture of Models nu reprezintă abordarea ideală pentru scalarea modelelor lingvistice mari, deoarece implică adesea mai puțini experți și modalități limitate, limitând astfel aplicațiile. 

Pentru a contracara obstacolele întâmpinate de abordările actuale și pentru a scala modele mari de limbaj în mod eficient, în acest articol, vom vorbi despre Uni-MoE, un model de limbă mare multimodal unificat cu o arhitectură MoE sau Mixture of Expert care este capabil să gestioneze o arhitectură largă. gamă de modalități și experți. Cadrul Uni-MoE implementează, de asemenea, un amestec rar de arhitectură expert în modelele mari de limbaj, în încercarea de a face procesul de instruire și inferență mai eficient prin utilizarea paralelismului modelului la nivel de expert și paralelismului de date. În plus, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadrul Uni-MoE prezintă o strategie de formare progresivă care este o combinație a trei procese diferite. În primul, cadrul Uni-MoE realizează alinierea între modalități folosind diferiți conectori cu date diferite de modalități. În al doilea rând, cadrul Uni-MoE activează preferința componentelor experți prin instruirea experților specifici modalității cu date de instrucțiuni încrucișate. În cele din urmă, modelul Uni-MoE implementează tehnica de învățare LoRA sau Low-Rank Adaptation pe date mixte de instrucțiuni multimodale pentru a regla modelul. Când cadrul Uni-MoE reglat cu instrucțiuni a fost evaluat pe un set cuprinzător de seturi de date multimodale, rezultatele experimentale extinse au evidențiat avantajul principal al cadrului Uni-MoE în reducerea distorsiunii de performanță în manipularea seturilor de date multimodale mixte în mod semnificativ. Rezultatele au indicat, de asemenea, o îmbunătățire semnificativă a colaborării cu mai mulți experți și a generalizării. 

Acest articol își propune să acopere cadrul Uni-MoE în profunzime și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Asadar, haideti sa începem. 

Uni-MoE: Scaling Unified Multimodal LLMs

Apariția modelelor de limbaj mari multimodale cu sursă deschisă, inclusiv LLama și InstantBlip, a subliniat succesul notabil și progresul în sarcinile care implică înțelegerea imaginii-text în ultimii câțiva ani. În plus, comunitatea AI lucrează activ pentru construirea unui model de limbă mare multimodal unificat care ar putea găzdui o gamă largă de modalități, inclusiv imagine, text, audio, video și multe altele, trecând dincolo de paradigma tradițională imagine-text. O abordare comună urmată de comunitatea open source pentru a spori abilitățile modelelor de limbaj mari multimodale este de a crește dimensiunea modelelor de fundație a viziunii și de a le integra cu modele de limbaj mari cu miliarde de parametri și de a folosi diverse seturi de date multimodale pentru a îmbunătăți reglarea instrucțiunilor. Aceste evoluții au evidențiat capacitatea crescândă a modelelor de limbaj mari multimodale de a raționa și procesa modalități multiple, evidențiind importanța extinderii datelor de instruire multimodale și a scalabilității modelului. 

Deși extinderea unui model este o abordare încercată și testată care oferă rezultate substanțiale, scalarea unui model este un proces costisitor din punct de vedere computațional atât pentru procesele de instruire, cât și pentru cele de inferență. 

Pentru a contracara problema costurilor de calcul generale ridicate, comunitatea open source se îndreaptă spre integrarea MoE sau amestec de experți arhitectura modelului în modele de limbaj mari pentru a spori atât eficiența antrenamentului, cât și a inferenței. Spre deosebire de modelele multimodale de limbaj mare și de limbaj mari care folosesc toți parametrii disponibili pentru a procesa fiecare intrare, rezultând o abordare computațională densă, arhitectura Mixture of Expert necesită doar ca utilizatorii să activeze un subset de parametri experți pentru fiecare intrare. Ca rezultat, abordarea Mixture of Expert apare ca o cale viabilă pentru a spori eficiența modelelor mari fără activarea extinsă a parametrilor și costuri de calcul overhead ridicate. Deși lucrările existente au evidențiat implementarea și integrarea cu succes a modelelor Mixture of Expert în construcția de modele mari doar text și text-image, cercetătorii nu au explorat încă pe deplin potențialul dezvoltării arhitecturii Mixture of Expert pentru a construi un puternic multimodal unificat. modele de limbaj. 

Uni-MoE este un model de limbă mare multimodal care folosește un amestec rară de modele Expert pentru a interpreta și gestiona mai multe modalități în încercarea de a explora scalarea modelelor de limbaj mari multimodale unificate cu arhitectura MoE. După cum se demonstrează în imaginea următoare, cadrul Uni-MoE obține mai întâi codificarea diferitelor modalități folosind codificatori specifici modalității și apoi mapează aceste codificări în spațiul de reprezentare a limbajului al modelelor mari de limbaj folosind diverși conectori proiectați. Acești conectori conțin un model de transformator antrenabil cu proiecții liniare ulterioare pentru a distila și proiecta reprezentările de ieșire ale codificatorului înghețat. Cadrul Uni-MoE introduce apoi un amestec rar de straturi Expert în blocul intern al modelului dens al limbajului mare. Ca rezultat, fiecare bloc bazat pe Mixture of Expert are un strat de auto-atenție partajat aplicabil în toate modalitățile, un router rar pentru alocarea expertizei la nivel de simbol și experți diverși bazați pe rețeaua feedforward. Datorită acestei abordări, cadrul Uni-MoE este capabil să înțeleagă mai multe modalități, inclusiv vorbire, audio, text, video, imagine și necesită doar activarea unor parametri parțiali în timpul inferenței. 

În plus, pentru a îmbunătăți colaborarea și generalizarea multi-expert, cadrul Uni-MoE implementează o strategie de formare în trei etape. În prima etapă, cadrul utilizează perechi extinse imagine/audio/vorbire pentru a antrena conectorul corespunzător datorită reprezentării modalității unificate în spațiul lingvistic al modelului de limbaj mare. În al doilea rând, modelul Uni-MoE antrenează experți specifici modalității, utilizând seturi de date intermodale separat, în încercarea de a rafina competența fiecărui expert în domeniul său respectiv. În a treia etapă, cadrul Uni-MoE integrează acești experți instruiți în stratul Mixture of Expert al modelului de limbaj mare și antrenează întregul cadru Uni-MoE cu date mixte de instrucțiuni multimodale. Pentru a reduce costurile de formare și mai mult, cadrul Uni-MoE utilizează abordarea de învățare LoRA pentru a ajusta aceste straturi de autoatenție și experții pre-ajustați. 

Uni-MoE: Metodologie și Arhitectură

Motivația de bază din spatele cadrului Uni-MoE este costul ridicat de instruire și inferență al scalării modelelor de limbaj mari multimodale împreună cu eficiența modelelor Mixture of Expert și explorează posibilitatea de a crea un model de limbaj mari multimodal eficient, puternic și unificat, utilizând cel Arhitectura MoE. Următoarea figură prezintă o reprezentare a arhitecturii implementate în cadrul Uni-MoE care demonstrează designul care include codificatoare individuale pentru diferite modalități, adică audio, vorbire și imagini, împreună cu conectorii de modalități respectivi. 

Cadrul Uni-MoE integrează apoi arhitectura Mixture of Expert cu principalele blocuri de model de limbaj mari, un proces crucial pentru creșterea eficienței generale atât a procesului de instruire, cât și a procesului de inferență. Cadrul Uni-MoE realizează acest lucru prin implementarea unui mecanism de rutare rar. Procesul general de instruire al cadrului Uni-MoE poate fi împărțit în trei faze: alinierea între modalități, formarea experților specifici modalității și ajustarea Uni-MoE folosind un set divers de seturi de date de instrucțiuni multimodale. Pentru a transforma eficient diversele intrări modale într-un format lingvistic, cadrul Uni-MoE este construit pe LLaVA, un cadru de limbaj vizual pre-antrenat. Modelul de bază LLaVA integrează CLIP ca codificator vizual alături de un strat de proiecție liniară care convertește caracteristicile imaginii în simbolurile lor de imagine soft corespunzătoare. Mai mult, pentru a procesa conținut video, cadrul Uni-MoE selectează opt cadre reprezentative din fiecare videoclip și le transformă în jetoane video prin grupare medie pentru a-și agrega imaginea sau reprezentarea bazată pe cadre. Pentru sarcini audio, cadrul Uni-MoE implementează două codificatoare, BEAT-uri și codificatorul Whisper pentru a îmbunătăți extragerea caracteristicilor. Modelul distilează apoi caracteristicile audio vector și vorbire cu lungime fixă ​​și le mapează în simboluri de vorbire și, respectiv, audio soft printr-un strat de proiecție liniară. 

Strategia de formare

Cadrul Uni-MoE introduce o strategie de instruire progresivă pentru dezvoltarea incrementală a modelului. Strategia de formare progresivă a introdus încercări de a valorifica capacitățile diferite ale diferiților experți, de a spori eficiența colaborării cu mai mulți experți și de a spori generalizarea generală a cadrului. Procesul de instruire este împărțit în trei etape cu încercarea de a actualiza MLLM structură construită pe un amestec integrat de experți. 

Etapa 1: Alinierea modalității încrucișate

În prima etapă, cadrul Uni-MoE încearcă să stabilească conectivitatea între diferitele lingvistice și modalități. Cadrul Uni-MoE realizează acest lucru prin traducerea datelor modale în token-uri soft prin construirea de conectori. Obiectivul principal al primei etape de antrenament este de a minimiza pierderea de entropie generativă.  În cadrul Uni-MoE, LLM este optimizat pentru a genera descrieri pentru intrări în diferite modalități, iar modelul supune conectorii doar instruirii, o strategie care permite cadrului Uni-MoE să integreze diferite modalități într-un cadru lingvistic unificat. 

Etapa 2: Experți specifici modalității de formare

În a doua etapă, cadrul Uni-MoE se concentrează pe dezvoltarea experților cu o singură modalitate prin antrenarea modelului în mod dedicat pe date specifice încrucișate. Obiectivul principal este de a rafina competența fiecărui expert în domeniul său respectiv, îmbunătățind astfel performanța generală a sistemului Mixture of Expert pe o gamă largă de date multimodale. În plus, cadrul Uni-MoE adaptează rețelele feedforward pentru a se alinia mai strâns cu caracteristicile modalității, menținând în același timp pierderea generativă de entropie ca antrenament metric focal. 

Etapa 3: Tuning Uni-MoE

În a treia și ultima etapă, cadrul Uni-MoE integrează ponderile reglate de experți în timpul Etapei 2 în straturile Mixture of Expert. Cadrul Uni-MoE ajustează apoi MLLM-urile utilizând în comun date de instrucțiuni multimodale mixte. Curbele de pierdere din imaginea următoare reflectă progresul procesului de antrenament. 

Analiza comparativă între configurațiile Mixture of Expert a arătat că experții modelul rafinat în timpul celei de-a doua etape de instruire au afișat o stabilitate îmbunătățită și au realizat o convergență mai rapidă pe seturile de date mixte-modale. În plus, în cazul sarcinilor care implicau date multimodale complexe, inclusiv text, imagini, audio, videoclipuri, cadrul Uni-MoE a demonstrat performanțe de antrenament mai consistente și a redus variabilitatea pierderilor atunci când a angajat patru experți decât atunci când a angajat doi experți. 

Uni-MoE: Experimente și rezultate

Următorul tabel rezumă specificațiile arhitecturale ale cadrului Uni-MoE. Scopul principal al cadrului Uni-MoE, construit pe arhitectura LLaMA-7B, este de a scala dimensiunea modelului. 

Următorul tabel rezumă proiectarea și optimizarea cadrului Uni-MoE, ghidate de sarcini de formare specializate. Aceste sarcini sunt esențiale în perfecționarea capacităților straturilor MLP, valorificând astfel cunoștințele lor specializate pentru performanța îmbunătățită a modelului. Cadrul Uni-MoE întreprinde opt sarcini de experți cu o singură modalitate pentru a elucida impactul diferențial al diferitelor metodologii de formare. 

Modelul evaluează performanța diferitelor variante de model într-un set divers de criterii de referință care cuprinde două sarcini de înțelegere video, trei de înțelegere audio și cinci sarcini legate de vorbire. În primul rând, modelul este testat cu privire la capacitatea sa de a înțelege sarcinile vorbire-imagine și vorbire-text, iar rezultatele sunt cuprinse în tabelul următor. 

După cum se poate observa, modelele de bază anterioare oferă rezultate inferioare în sarcinile de înțelegere a vorbirii, ceea ce afectează și mai mult performanța sarcinilor de raționament imagine-vorbire. Rezultatele indică faptul că introducerea arhitecturii Mixture of Expert poate spori generalizarea MLLM-urilor pe sarcini nevăzute de raționament audi-image. Următorul tabel prezintă rezultatele experimentale privind sarcinile de înțelegere imagine-text. După cum se poate observa, cele mai bune rezultate de la modelele Uni-MoE depășesc liniile de bază și depășesc sarcina de reglare fină cu o marjă medie de 4 puncte. 

Gânduri finale

În acest articol am vorbit despre Uni-MoE, , un model de limbă mare multimodal unificat cu o arhitectură MoE sau Mixture of Expert care este capabil să gestioneze o gamă largă de modalități și experți. Cadrul Uni-MoE implementează, de asemenea, un amestec rar de arhitectură expert în modelele mari de limbaj, în încercarea de a face procesul de instruire și inferență mai eficient prin utilizarea paralelismului modelului la nivel de expert și paralelismului de date. În plus, pentru a îmbunătăți generalizarea și colaborarea multi-expert, cadrul Uni-MoE prezintă o strategie de formare progresivă care este o combinație a trei procese diferite. În primul, cadrul Uni-MoE realizează alinierea între modalități folosind diferiți conectori cu date diferite de modalități. În al doilea rând, cadrul Uni-MoE activează preferința componentelor experți prin instruirea experților specifici modalității cu date de instrucțiuni încrucișate. În cele din urmă, modelul Uni-MoE implementează tehnica de învățare LoRA sau Low-Rank Adaptation pe date mixte de instrucțiuni multimodale pentru a regla modelul.

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.