tynkä MoE-LLaVA: Asiantuntijoiden yhdistelmä suuriin visio-kielimalleihin - Unite.AI
Liity verkostomme!

Tekoäly

MoE-LLaVA: Asiantuntijoiden yhdistelmä suurille visio-kielimalleille

mm
Päivitetty on
MoE-LLaVA: Asiantuntijoiden yhdistelmä suurille visio-kielimalleille

Large Vision Language Models (LVLM) -mallien viimeaikaiset edistysaskeleet ovat osoittaneet, että näiden kehysten skaalaaminen parantaa merkittävästi suorituskykyä useissa loppupään tehtävissä. LVLM:t, mukaan lukien MiniGPT, LLaMA ja muut, ovat saavuttaneet merkittäviä ominaisuuksia sisällyttämällä visuaaliset projektiokerrokset ja kuvakooderin arkkitehtuuriinsa. Toteuttamalla nämä komponentit LVLM:t parantavat suurten kielimallien (LLM) visuaalista havaitsemiskykyä. Suorituskykyä voidaan edelleen parantaa lisäämällä mallin kokoa ja parametrien määrää sekä laajentamalla tietojoukon mittakaavaa.

InternVL:n kaltaiset mallit ovat laajentaneet kuvakooderinsa yli 6 miljardiin parametriin, kun taas toiset ovat laajentaneet LVLM:ien taustajärjestelmän 13 miljardiin parametriin, mikä on saavuttanut erinomaisen suorituskyvyn monissa tehtävissä. IDEFICS on kouluttanut LVLM:n, jolla on yli 80 miljardia parametria. Nämä skaalausmenetelmät ovat vastanneet tai ylittäneet yli 34, 70 tai jopa 100 miljardiin parametriin valmiiksi koulutettujen LLM:ien suorituskyvyn. Skaalauksella on kuitenkin varjopuolensa: se lisää merkittävästi koulutus- ja päättelykuluja. Tämä johtuu siitä, että se edellyttää, että kaikki parametrit ovat aktiivisia kullekin tokenille laskennassa, mikä johtaa suuriin laskentatarpeisiin ja siten korkeampiin kustannuksiin.

Tässä artikkelissa käsitellään MoE-LLaVAa, Mixture of Experts (MoE) -pohjaista harvaan LVLM-arkkitehtuuria, joka käyttää tehokasta koulutusstrategiaa, MoE-Tuning, LVLM:ille. MoE-Tuning puuttuu innovatiivisesti suorituskyvyn heikkenemiseen multimodaalisen harvoin oppimisessa, mikä johtaa malliin, jossa on suuri määrä parametreja, mutta johdonmukaiset koulutus- ja päättelykustannukset. MoE-LLaVA-arkkitehtuuri on suunniteltu aktivoimaan vain huippu-k-asiantuntijaa käyttöönoton aikana, jolloin loput eivät ole aktiivisia.

Tutkimme MoE-LLaVA-kehystä tarkastelemalla sen mekanismia, metodologiaa, arkkitehtuuria ja sitä, miten se verrataan johtaviin kuva- ja videotuotantokehyksiin.

MoE-LLaVA: Skaalaa Large Vision -kielimalleja edullisesti

Visuaalisten projektiokerrosten ja kuvakooderien hyödyntämisen lisäksi Large Vision Language -mallit myös skaalaavat mallin kokoa lisäämällä parametrien määrää mallin suorituskyvyn parantamiseksi. Joitakin merkittäviä esimerkkejä Large Vision -kielimalleista, jotka ovat noudattaneet tätä lähestymistapaa suorituskyvyn parantamiseksi, ovat MiniGPT-4, InternGPT, InternVL ja muut. Tosimaailman sovelluksissa Large Language Model- tai Large Vision Language Model -mallin skaalaaminen korkealaatuisella harjoitustiedolla on usein välttämätöntä mallin suorituskyvyn parantamiseksi. Vaikka mallin koon skaalaaminen parantaa suorituskykyä, se lisää myös mallin koulutuksen ja käyttöönoton laskentakustannuksia ja lisää entisestään mallin samanaikaisen käyttöönoton komplikaatioita ja tehokkuutta. Suurin syy kasvaneiden koulutus- ja päättelykustannusten sekä laskentavaatimusten takana on, että jokainen kehyksen merkki vaatii laskennan jokaisen yksittäisen parametrin kanssa mallissa, joka tunnetaan nimellä tiheä malli. 

Toisaalta harvat MoE tai Mixture of Expert Models ovat osoittaneet tehokkaan kehysten skaalauksen käsittelemällä tietoja kiinteiden aktivoitujen parametrien avulla. Tämä lähestymistapa on laajalti otettu käyttöön luonnollisen kielen käsittelyn alalla. Mixture of Expertin käyttäminen harvojen Large Vision -kielimallien kouluttamiseen suoraan on kuitenkin haastavaa, koska LLM:ien muuntaminen LVLM:iksi ja mallin harventaminen samanaikaisesti johtaa merkittävään suorituskyvyn heikkenemiseen. Mallien sekoituksen toteuttamiseksi LLM:iden ja LVLM:ien skaalaamiseksi on välttämätöntä alustaa LVLM ensin harventamista varten. Tämän saavuttamiseksi MoE-LLaVA-kehys esittelee MoE-Tuningin, yksinkertaisen mutta tehokkaan kolmivaiheisen koulutusstrategian. 

Kuten yllä olevasta kuvasta näkyy, MoE-tuning-prosessi kouluttaa ensin MLP:n tai monikerroksisen perceptronin, joka mukauttaa visuaaliset tunnukset suureen kielimalliin ensimmäisessä vaiheessa. Sen jälkeen kehys kouluttaa LLM:n kaikki parametrit mahdollistamaan Large Vision Language Modelin yleisen multimodaalisen ymmärtämiskyvyn. Lopuksi, kolmannessa vaiheessa, kehys replikoi FFN- tai Feed Forward -verkon asiantuntijoiden alustuspainoiksi ja kouluttaa vain Mixture of Expert -kerroksia. Kaiken kaikkiaan koulutusprosessi auttaa harvaan mallin asteittaisessa siirtymisessä LVLM-alustamisesta asiantuntijamallien harvaan sekoitukseen. 

Kun koulutusprosessi on käsitelty, valaistakaamme hieman MoE-LLaVAa, perusmallia Large Vision Language Models with Mixture of Expert -malleille, jotka sisältävät opittavia reitittimiä ja MoE-malleja. MoE-LLaVA-malli koostuu ytimestä useista harvoista poluista, ja kehys käyttää näitä polkuja lähettääkseen jokaisen tunnuksen eri asiantuntijoille opittavan reitittimen kautta. Aktivoidut asiantuntijat käsittelevät sitten tokeneita yhdessä pitäen passiiviset polut hiljaa. Kehys pinoaa sitten Mixture of Expert -enkooderikerrokset iteratiivisesti tarjotakseen harvoin polun kohti suurempaa ja tehokkaampaa LVLM:ää. 

MoE-LLaVA-kehyksen toteuttaman lähestymistavan ansiosta se pystyy ylittämään mallit, joissa on samanlainen määrä aktivoituja parametreja, ja ylittää ne suurella erolla POPE-objektien hallusinaatioiden vertailuarvossa, vaikka sillä on vain 2.2 miljardia parametria. Lisäksi MoE-LLaVA-kehys 2.2 miljardilla parametrilla pystyy saavuttamaan InternVL-Chat-19B-kehykseen verrattavan suorituskyvyn lähes 8 kertaa suuremmalla määrällä aktivoituja parametreja. 

Tehokkaat suuret kielimallit, joissa on vahva yleistys ja ohjeiden seuraaminen, on otettu käyttöön Suuret Vision-kielimallit. Varhaiset LLM:t, kuten BLIP, koodasivat visuaaliset signaalit visuaalisten merkkien sekvenssiksi, jolloin ne voivat mukauttaa näkemyksen LLM:ihin onnistuneesti käyttämällä useita projektiokerroksia. Samaan aikaan viimeaikaiset työt keskittyvät mallin suorituskyvyn parantamiseen ottamalla käyttöön menetelmiä, kuten laajentamalla käskyn viritystietojoukon, lisäämällä kuvan resoluutiota, optimoimalla koulutusstrategioita, kohdistamalla tuloa, parantamalla kuvakoodareita ja paljon muuta. Nämä lähestymistavat ovat auttaneet antamaan LVLM:ille tehokkaat visuaaliset ymmärtämisominaisuudet laajentamalla visuaalisten ohjeiden hienosäätöä tietojoukon ja mallin asteikot. Lisäksi joissakin LVLM:issä on myös hienojakoiset kuvan ymmärtämisominaisuudet, kuten alueen ja usean alueen ymmärtäminen, sekä pikselikohtaiset maadoitusominaisuudet. Tiheän visuaalisen datan ja mallien skaalaamiseen liittyvät laskentakustannukset ovat kuitenkin usein merkittävästi korkeat, mikä tekee siitä haastavan käyttää. Toisaalta MEM-LLaVA-kehyksen tavoitteena on tehdä LVLM-tutkimuksesta edullisempaa hyödyntämällä SM-mallien kykyjä. 

MOE-LLaVA: Menetelmä ja arkkitehtuuri

MoE-LLaVA-kehys koostuu pohjimmiltaan visuaalisesta projektiokerroksesta (Multlayer Perceptron), visiokooderista, MoE-lohkoista, useista pinotuista LLM-lohkoista ja sanan upotuskerroksesta. 

arkkitehtuuri

Seuraavassa taulukossa on yhteenveto MoE-LLaVA-kehyksen yksityiskohtaisista kokoonpanoista. 

Tietylle RGB-kuvalle visiokooderi käsittelee kuvat saadakseen sarjan visuaalisia tunnisteita visuaalisen projektiokerroksen kanssa, joka kartoittaa visuaalisen merkkijonon syötekuviin. Tekstin syötteet käsittelee sanan upotuskerros, joka sitten projisoi sen saadakseen sekvenssivaltuudet. Samalla MoE-LLaVA-kehys linkittää tekstin ja visuaaliset tunnukset yhteen ja syöttää ne OTK. Kehys kuitenkin kouluttaa vain visuaalista projektiokerrosta suurella kielimallilla, joka koostuu FFN- tai Feedforward-hermoverkoista ja Multi-Head Self Attention -kerroksista. Lopuksi kehys soveltaa jäännösyhteyksiä ja kerrosten normalisointia jokaiseen lohkoon. 

Jatkossa MoE-LLaVA-kehys replikoi FFN- tai Feedforward Neural Networks -verkkoja toisesta vaiheesta muodostaen asiantuntijaryhmän alustusvaiheena. Reititin, joka on lineaarinen kerros, ennustaa todennäköisyyden, että jokainen merkki osoitetaan kullekin asiantuntijalle. Top-k-asiantuntijat käsittelevät jokaisen tokenin suurimmalla todennäköisyydellä ja laskee painotetun summan todennäköisyyksien softmax-tuloksen perusteella. 

MoE-Tuning

MoE-Tuning on yksinkertainen mutta tehokas kolmivaiheinen koulutusstrategia, joka ensin kouluttaa MLP:n tai Multilayer Perceptronin, joka mukauttaa visuaaliset tunnukset Large Language Model -malliin ensimmäisessä vaiheessa. Sen jälkeen kehys kouluttaa LLM:n kaikki parametrit mahdollistamaan Large Vision Language Modelin yleisen multimodaalisen ymmärtämiskyvyn. Lopuksi, kolmannessa vaiheessa, kehys replikoi FFN- tai Feed Forward -verkon asiantuntijoiden alustuspainoiksi ja kouluttaa vain Mixture of Expert -kerroksia. 

Stage 1

Ensimmäisessä vaiheessa ensisijaisena tavoitteena on sovittaa kuvatunnisteet suureen kielimalliin, jonka avulla LLM voi ymmärtää kuvan ilmentymiä. MoE-LLaVA-kehys käyttää monikerroksista perceptronia projisoimaan kuvatunnisteet suuren kielimallin syöttöalueelle ja käsittelee kuvakorjauksia pseudotekstitunnisteina. Tässä vaiheessa MoE-LLaVA-kehys kouluttaa LLM:n kuvaamaan kuvat, eikä käytä MoE-kerroksia LLM:ään tässä vaiheessa.

Stage 2

Toisessa vaiheessa MoE-LLaVA pyrkii tehostamaan viitekehyksen ominaisuuksia ja ohjattavuutta virittämällä mallia multimodaalisilla käskytiedoilla. MoE-LLaVA-kehys saavuttaa tämän säätämällä LLM:stä LVLM:ksi, jolla on multimodaaliset ymmärtämisominaisuudet. Kehys käyttää monimutkaisempia ohjeita, mukaan lukien tekstintunnistus- ja loogiset kuvan päättelytehtävät, jotka vaativat mallilta vahvempia multimodaalisia ominaisuuksia. Perinteisesti tiheiden mallien koulutusprosessin katsotaan olevan valmis tähän vaiheeseen. MoE-LLaVA-kehys kohtasi kuitenkin haasteita muuntaessaan LLM:tä a LVLM samanaikaisesti LVLM:n harventamisen kanssa. Tämän haasteen torjumiseksi viitekehys käyttää vaiheen painoja seuraavan vaiheen alustuksena yrittääkseen lievittää harvan mallin oppimisvaikeutta. 

Stage 3

Kolmannessa vaiheessa malli toistaa myötäkytkentäisen hermoverkon useita kertoja alustaakseen asiantuntijat alustusmenettelynä. Kehys syöttää sitten teksti- ja kuvatunnisteet asiantuntijakerrosten seokseen, minkä jälkeen reititin laskee asiantuntijoiden ja kunkin tunnuksen väliset vastaavat painot. Huippu-k-asiantuntijat käsittelevät jokaisen tunnuksen, jolloin kokonaistulos lasketaan painotetulla summauksella reitittimen painojen perusteella. Kun huippu-k-asiantuntijat on aktivoitu, malli sulkee jäljellä olevat asiantuntijat. Tämä lähestymistapa varustaa MoE-LLaVA-kehyksen äärettömän mahdollisilla harvoilla poluilla, mikä varustaa mallin laajalla valikoimalla ominaisuuksia. 

MoE-LLaVA : Tulokset ja kokeet

MoE-LLaVA-kehys käyttää CLIP-Largea visiokooderina, ja monikerroksinen Perceptron koostuu kahdesta kerroksesta ja GELU-aktivointikerros erottaa nämä kaksi kerrosta. Oletusarvon mukaan kehys korvaa eteenpäin syötetyt neuroverkot vuorotellen asiantuntijakerrosten sekoituksella, mikä tarkoittaa, että asiantuntijakerrosten sekoitus muodostaa 50 % kerrosten kokonaismäärästä. Seuraava taulukko sisältää eri tietojoukot ja niiden otoskoon, joita käytetään MoE-LLaVA-kehyksen kouluttamiseen ja arviointiin. 

Zero-Shot Image -kysymykseen vastaaminen

Seuraava kuva osoittaa, että MoE-LLaVA on harvassa mallissa pehmeä LVLM-pohjainen reititin. Kehys arvioidaan viidellä kuvakysymykseen vastaavalla vertailuarvolla, ja kuten voidaan havaita, MoE-LLaVA-kehys osoittaa merkittäviä kuvan ymmärtämiskykyjä ja tarjoaa vertailukelpoisen suorituskyvyn viimeisimmän LLaVA 5 -kehyksen kanssa viidellä eri vertailuarvolla. 

Objektin hallusinaatioiden arviointi

Objektihalusinaatioiden arvioimiseksi MoE-LLaVA-kehys käyttää POPE-arviointiputkea, kyselyyn perustuvaa kyselymenetelmää, ja tulokset esitetään seuraavassa taulukossa. Kuten voidaan havaita, kaikista kehyksistä MoE-LLaVA tuottaa vahvimmat tulokset, mikä osoittaa viitekehyksen kyvyn luoda objekteja, jotka ovat yhdenmukaisia ​​syöttökuvan kanssa. Lisäksi on syytä huomata, että MoE-LLaVA-kehys tasapainottaa kyllä-suhdetta hyvin, mikä osoittaa harvan mallin kyvyn antaa tarkkaa palautetta annettuun kysymykseen. 

Seuraava kuva sisältää asiantuntijalatausten jakauman, jossa epäjatkuvat viivat edustavat tokenien tasapainoista jakautumista modaliteettien tai asiantuntijoiden kesken. Ensimmäinen kuva havainnollistaa asiantuntijoiden työtaakkaa, kun taas loput kuvat havainnollistavat asiantuntijoiden suorituskykyä eri modaliteettien suhteen. 

Lisäksi seuraava kuva havainnollistaa toimintatapojen jakautumista eri asiantuntijoiden kesken. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet MoE-LLaVAsta, peruslinjasta Large Vision -kielimalleille, joissa on Mixture of Expert -malleja, jotka sisältävät opittavia reitittimiä ja MoE-malleja. MoE-LLaVA-malli koostuu ytimestä useista harvoista poluista, ja kehys käyttää näitä polkuja lähettääkseen jokaisen tunnuksen eri asiantuntijoille opittavan reitittimen kautta. Aktivoidut asiantuntijat käsittelevät sitten tokeneita yhdessä pitäen passiiviset polut hiljaa. Kehys pinoaa sitten Mixture of Expert -enkooderikerrokset iteratiivisesti tarjotakseen harvoin polun kohti suurempaa ja tehokkaampaa LVLM:ää. MoE-Tuning-strategia käsittelee yleistä suorituskyvyn heikkenemistä multimodaalisessa harvassa oppimisessa innovatiivisesti ja rakentaa siten mallin, jossa on huomattavasti paljon parametreja, mutta johdonmukaiset koulutus- ja päättelykustannukset. MoE-LLaVA-kehyksen arkkitehtuuri on suunniteltu siten, että se aktivoi käyttöönoton aikana vain huippu-k-asiantuntijaa ja pitää loput asiantuntijat passiivisina. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.