Tekoäly
EAGLE: Multimodaalisten suurten kielimallien suunnittelutilan tutkiminen enkooderien sekoituksella

Kyky tulkita monimutkaista visuaalista tietoa tarkasti on multimodaalisten suurten kielimallien (MLLM) keskeinen painopiste. Viimeaikaiset työt osoittavat, että parannettu visuaalinen havainto vähentää merkittävästi hallusinaatioita ja parantaa suorituskykyä resoluutioherkissä tehtävissä, kuten optisessa merkintunnistuksessa ja asiakirja-analyysissä. Useat viimeaikaiset MLLM:t saavuttavat tämän käyttämällä näönkooderien yhdistelmää. Menestyksestä huolimatta järjestelmällisistä vertailuista ja yksityiskohtaisista ablaatiotutkimuksista puuttuu kriittisiä näkökohtia, kuten asiantuntijoiden valintaa ja useiden näköasiantuntijoiden integrointia. Tämä artikkeli tarjoaa laajan selvityksen MLLM:ien suunnittelutilasta, jossa käytetään yhdistelmää näönkoodaajia ja resoluutioita, Eagle-kehystä, joka yrittää tutkia suunnitteluavaruutta multimodaalisille suurille kielimalleille, joissa on sekoitus koodereita. Tulokset paljastavat useita taustalla olevia periaatteita, jotka ovat yhteisiä useille olemassa oleville strategioille, mikä johtaa virtaviivaistettuun mutta tehokkaaseen suunnittelutapaan. Eagle huomaa, että pelkkä visuaalisten merkkien ketjuttaminen toisiaan täydentävistä näönkoodereista on yhtä tehokasta kuin monimutkaisemmat sekoitusarkkitehtuurit tai strategiat. Lisäksi Eagle esittelee Pre-Alignmentin, joka kaventaa visioon keskittyneiden kooderien ja kielitunnusten välistä kuilua, mikä parantaa mallien yhtenäisyyttä. Tuloksena oleva MLLM-perhe, Eagle, ylittää muut johtavat avoimen lähdekoodin mallit tärkeimmillä MLLM-vertailuarvoilla.
Eaglen työ liittyy multimodaalisten suurten kielimallien (MLLM) yleiseen arkkitehtuurisuunnitteluun. Aiemmin mainitun edustavan avoimen lähdekoodin tutkimuksen lisäksi muita merkittäviä MLLM-perheitä ovat, mutta niihin rajoittumatta, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini ja Llama 3.1. Riippuen siitä, kuinka näkösignaalit on integroitu kielimalliin, MLLM:t voidaan luokitella laajalti "ristimodaalisen huomion" ja "etuliiteviritys" -malleihin. Ensin mainittu ruiskuttaa visuaalista tietoa LLM:ien eri kerroksiin käyttämällä cross-modaalista huomiota, kun taas jälkimmäinen käsittelee visuaalisia tunnisteita osana kielen merkkijonoa ja liittää ne suoraan tekstin upotuksilla. Eaglen malli kuuluu etuliiteviritysperheeseen noudattamalla LLaVA-tyylistä multimodaalista arkkitehtuuria. Koska MLLM on nopeasti kasvava ala, Eagle suosittelee tutustumaan tarkempiin tutkimuksiin ja kyselyihin lisänäkemysten saamiseksi.
Eaglen työ liittyy läheisesti tutkimukseen, joka keskittyy MLLM:n näönkooderisuunnittelun parantamiseen. Varhaisissa töissä käytettiin yleensä näönkoodereita, jotka oli koulutettu näön ja kielen kohdistustehtäviin, kuten CLIP ja EVA-CLIP. Vahvempia näönkoodaajia, kuten SigLIP ja InternVL, on ehdotettu parantamaan visiokielitehtäviä paremmalla suunnittelulla, suuremmilla mallikooilla ja tehokkaammilla harjoitusresepteillä. Koska mallit on usein esikoulutettu matalaresoluutioisille kuville ja niiltä ei välttämättä pystytä koodaamaan hienojakoisia yksityiskohtia, korkeamman resoluution mukautuksia suoritetaan usein MLLM-tuloresoluution lisäämiseksi. Korkeamman resoluution mukautuksen lisäksi mallit, kuten LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer ja InternVL, käyttävät laatoitusta tai mukautuvaa laatoitusta korkearesoluutioisen syötteen käsittelyyn, jossa kuvat jaetaan pienempiresoluutioisiin patcheihin ja käsitellään erikseen. Vaikka kyky käsitellä korkeampaa resoluutiota on mahdollista ottamalla käyttöön muita näköasiantuntijoita, tämä lähestymistapa eroaa hieman laatoitustekniikoista, vaikka molemmat ovat yhteensopivia ja niitä voidaan yhdistää.
EAGLE: Enkooderisekoituksen käyttäminen multimodaalisten LLM-yritysten suunnittelutilan tutkimiseen
Suurten kielimallien (LLM) menestys on herättänyt merkittävää kiinnostusta mahdollistaa niiden visuaalinen havaintokyky, jonka avulla he voivat nähdä, ymmärtää ja järkeillä todellisessa maailmassa. Näiden ytimessä multimodaaliset suuret kielimallit (MLLM) on tyypillinen malli, jossa näönkooderit muuntavat kuvat sarjaksi visuaalisia tunnuksia ja liitetään niihin tekstin upotuksia. CLIP valitaan usein näönkooderiksi, koska sen visuaalinen esitys on kohdistettu tekstiavaruuteen esiopettamalla kuva-teksti-pareja. Riippuen arkkitehtuurista, koulutusresepteistä ja tavasta, jolla visiotunnukset injektoidaan kielimalliin, merkittäviä MLLM-perheitä ovat Flamingo, BLIP, PaLI, PaLM-E ja LLaVA. Useimmat näistä malleista säilyttävät suhteellisen alhaiset tuloresoluutiot esikoulutettujen näönkooderien ja LLM-sekvenssin pituuden rajoitusten vuoksi. Eaglen työ liittyy tiiviisti malleihin, joissa käytetään useita näkökoodareita havainnoinnin parantamiseksi. Mini-Gemini ja LLaVA-HR ehdottavat korkearesoluutioisten visuaalisten ominaisuuksien yhdistämistä matalaresoluutioisiksi visuaalisiksi tunnisteiksi. Ratkaisuongelmien lisäksi näiltä valmiiksi koulutetuilta näönkoodereilta saattaa puuttua tiettyjä ominaisuuksia, kuten tekstin lukemista tai objektien lokalisointia. Tämän ratkaisemiseksi useat mallit integroivat näönkoodereita, jotka on valmiiksi koulutettu erilaisiin näkötehtäviin parantaakseen näönkooderin ominaisuuksia.
Esimerkiksi mallit, kuten Mousi ja Brave, yhdistävät visuaaliset tunnukset eri näönkoodereista ketjuttamalla kanavaa tai merkkiä pitkin. RADIO esittelee usean opettajan tislausmenetelmän, joka yhdistää eri näönkoodaajien kyvyt yhdeksi malliksi. MoAI, IVE ja Prismer käyttävät edelleen näköasiantuntijoiden tuloksia, kuten tekstintunnistusta, tunnistusta tai syvyysestimointia täydentämään lisätietoa MLLM:ille vastausten luomiseksi. MoVA suunnittelee reititysverkon optimaalisen näkömallin määrittämiseksi annetun kuvan ja ohjeiden perusteella.
Viimeaikaiset tutkimukset ovat osoittaneet, että vahvemmat visioenkooderit ovat tärkeitä vähentämisen kannalta MLLM:n hallusinaatiot ja parantaa suorituskykyä resoluutioherkissä tehtävissä, kuten optisessa merkintunnistuksessa (OCR). Useat työt keskittyvät näönkooderin kyvyn parantamiseen joko skaalaamalla koulutusta edeltäviä tietoja ja parametreja tai jakamalla kuvat matalaresoluutioisiin tiloihin. Nämä lähestymistavat vaativat kuitenkin usein suuria koulutusresursseja. Tehokas mutta tehokas strategia on sekoittaa visuaalisia koodereja, jotka on valmiiksi koulutettu erilaisiin tehtäviin ja syöttöresoluutioihin joko yhdistämällä korkearesoluutioiset enkooderit CLIP-enkooderiin, liittämällä peräkkäin ominaisuuksia eri koodereista tai ottamalla käyttöön monimutkaisempia fuusio- ja reititysstrategioita maksimoimaan erilaisia koodereita. Tämä "näön asiantuntijoiden sekoitus" -lähestymistapa on osoittautunut tehokkaaksi, vaikka yksityiskohtainen tutkimus sen suunnittelutilasta, jossa on tiukka ablaatio, vielä puuttuu, mikä motivoi Eaglea palaamaan tälle alueelle. Keskeisiä kysymyksiä ovat edelleen: mitkä näönkoodausyhdistelmät valita, miten eri asiantuntijat yhdistetään ja miten koulutusstrategioita mukautetaan useammilla näönkoodereilla.
Vastatakseen näihin kysymyksiin Eagle tutkii systemaattisesti yhdistelmä-näönkooderien suunnittelutilaa parantaakseen MLLM-havaintoa. Tämän suunnittelutilan tutkiminen sisältää seuraavat vaiheet: 1) Erilaisten näönkooderien benchmarking ja korkeamman resoluution mukautuksen etsiminen; 2) "omenat omenoihin" -vertailu vision kooderin fuusiostrategioiden välillä; 3) Useiden näkökoodainten optimaalisen yhdistelmän tunnistaminen asteittain; 4) Näönasiantuntijan esikohdistuksen ja datasekoituksen parantaminen. Tutkimusvaiheet on kuvattu seuraavassa kuvassa.
Eaglen tutkimus kattaa eri tehtäviin ja resoluutioihin, kuten näön ja kielen kohdistuksen, itseohjatun oppimisen, havaitsemisen, segmentoinnin ja OCR:n, valmiiksi koulutettujen näönkoodereiden suorituskyvyn. Round-robin-lähestymistapaa käyttämällä Eagle aloittaa CLIP-peruskooderilla ja lisää yhden lisäasiantuntijan kerrallaan ja valitsee asiantuntijan, joka tarjoaa parhaan parannuksen jokaisella kierroksella.
Vaikka Eaglen työ ei ole ensimmäinen, joka hyödyntää useita näönkoodereita MLLM:issä, järjestelmällinen tutkimus johtaa useisiin keskeisiin havaintoihin tässä asetuksessa:
- Näönkoodereiden lukituksen avaaminen MLLM-koulutuksen aikana on tärkeää. Tämä on toisin kuin LLaVA ja muut mallit, jotka harkitsevat useita näönkoodaajia tai opettajia, joissa näönkoodauslaitteiden jäädyttäminen on ollut yleinen käytäntö.
- Joillakin äskettäin ehdotetuilla fuusiostrategioilla ei ole merkittäviä etuja. Sen sijaan suoraviivainen kanavien yhdistäminen syntyy yksinkertaisena mutta kilpailukykyisenä fuusiostrategiana, joka tarjoaa parhaan tehokkuuden ja suorituskyvyn.
- Uusien näköasiantuntijoiden mukaan ottaminen johtaa johdonmukaisiin hyötyihin. Tämä tekee siitä lupaavan tavan parantaa järjestelmällisesti MLLM-käsitystä yksittäisten kooderien skaalaamisen lisäksi. Parannus on erityisen selvä, kun näönkooderit on avattu.
- Esikohdistusvaihe on avainasemassa. Eagle esittelee esikohdistusvaiheen, jossa tekstiin tasaamattomat näönasiantuntijat hienosäädetään yksilöllisesti jäädytetyllä LLM:llä ennen kuin heidät koulutetaan yhdessä. Tämä vaihe parantaa merkittävästi MLLM-suorituskykyä näönyhdistelmä-enkooderin suunnittelussa.
Eagle: Metodologia ja arkkitehtuuri
Toisin kuin aikaisemmissa menetelmissä, jotka keskittyvät uusiin fuusiostrategioihin tai -arkkitehtuureihin näönkooderien keskuudessa, Eaglen tavoitteena on tunnistaa minimalistinen muotoilu erilaisten näönkooderien yhdistämiseksi, jota tukevat yksityiskohtaiset ablaatiot ja tarpeettomien komponenttien poistaminen. Kuten seuraavassa kuvassa näkyy, Eagle aloittaa laajentamalla CLIP-peruskooderin joukolle näköasiantuntijoita, joilla on eri arkkitehtuurit, esikoulutustehtävät ja resoluutiot. Näiden asiantuntijoiden kanssa Eagle vertailee sitten erilaisia fuusioarkkitehtuureja ja menetelmiä ja tutkii, kuinka optimoida esikoulutusstrategioita useilla koodereilla.
Lopuksi Eagle yhdistää kaikki havainnot ja laajentaa lähestymistavan useisiin asiantunteviin näönkooderiin, joilla on vaihtelevat resoluutiot ja aluetuntemukset. Käyttämällä samoja esikoulutustietoja kuin LLaVA-1.5, joka koostuu 595 1.5 kuva-teksti-parista, Eagle siirtyy valvottuun hienosäätövaiheeseen keräämällä tietoja tehtävistä ja muuntamalla ne multimodaalisiksi keskusteluiksi, mukaan lukien LLaVA-4, Laion-GPT4V, ShareGPT-2V, DocVQA, synDog-EN, ChartQA, DVQA ja AI934D, tuloksena XNUMX XNUMX näytettä.
Malli on ensin esikoulutettu kuva-teksti-pareilla yhdelle aikakaudelle eräkoolla 256, jolloin koko malli jäädytetään ja vain projektorikerros päivitetään. Toisessa vaiheessa mallia hienosäädetään yhden aikakauden valvotuilla hienosäätötiedoilla, joiden eräkoko on 128. Tässä etsinnässä Eagle käyttää Vicuna-7B:tä taustalla olevana kielimallina. Oppimisnopeudet on asetettu arvoon 1e-3 ensimmäisessä vaiheessa ja 2e-5 toisessa vaiheessa.
Vahvempi CLIP Encoder
Eagle aloittaa tutkimisen CLIP-mallilla, koska siitä on tullut monien ensisijainen valinta MLLM:t. Vaikka CLIP-mallien tiedetään tehostavan multimodaalisia tehtäviä, niiden rajoitukset on myös dokumentoitu hyvin. Esimerkiksi monet olemassa olevat MLLM:t käyttävät yleensä valmiita CLIP-tarkkuuksia (kuten 224 × 224 tai 336 × 336) syöttöresoluutioina. Näissä tapauksissa koodereilla on usein vaikeuksia siepata tarkkoja yksityiskohtia, jotka ovat tärkeitä tarkkuusherkissä tehtävissä, kuten tekstintunnistus ja asiakirjan ymmärtäminen.
Lisääntyneen syöttöresoluution käsittelyyn yleinen lähestymistapa on laatoitus, jossa syöttökuvat jaetaan ruutuihin ja koodataan erikseen. Toinen yksinkertaisempi tapa on skaalata suoraan sisääntuloresoluutiota ja interpoloida näkömuuntajamallin sijainti upotukset tarvittaessa. Eagle vertaa näitä kahta lähestymistapaa jäädytettyihin ja jäätymättömiin näönkooderiin eri resoluutioilla yllä olevan taulukon tuloksiin. Havainnot voidaan tiivistää seuraavasti:
- CLIP-kooderin jäätymisen purkaminen johtaa merkittävään parannukseen, kun interpoloidaan korkeampaan MLLM-tuloresoluutioon, joka eroaa CLIP-harjoittelun esitarkkuudesta, ilman suorituskyvyn heikkenemistä, kun resoluutiot pysyvät samoina.
- CLIP-kooderin jäädyttäminen ja sen sovittaminen suoraan korkeampaan MLLM-tuloresoluutioon heikentää merkittävästi suorituskykyä.
- Vertailustrategioiden joukossa suora interpolointi 448 × 448:aan jäätymättömällä CLIP-kooderilla osoittautuu sekä tehokkaaksi että tehokkaaksi suorituskyvyn ja kustannusten kannalta.
- Paras CLIP-enkooderi saavuttaa suorituskyvyn lähellä InternVL:tä, vaikka se on paljon pienempi malli (300M vs. 6B), jossa on vähemmän esikoulutustietoja.
On syytä huomata, että CLIP-448 sallii Eaglen sovittaa asetuksen LLaVA-HR:n ja InternVL:n kanssa, joissa CLIP-kooderit on samalla tavalla sovitettu ottamaan 448 × 448 tulo- ja ulostulo 1024 korjausmerkkiä. Lisätutkimuksia varten Eagle noudattaa tätä yksinkertaista strategiaa, jossa skaalataan tuloresoluutio ja avataan visiokooderin lukitus harjoituksen aikana.
Eagle huomauttaa, että olemassa olevat suositut fuusiostrategiat voidaan niiden suunnittelun vaihteluista huolimatta luokitella laajasti seuraavasti:
- Jakso Liitä: visuaaliset tunnukset suoraan liittämisestä eri rungoista pidemmäksi sarjaksi.
- Kanavien ketjuttaminen: Visuaalisten merkkien ketjuttaminen kanavan ulottuvuutta pitkin lisäämättä sekvenssin pituutta.
- LLaVA-HR: Korkearesoluutioisten ominaisuuksien injektoiminen matalaresoluutioisiin näönkooderiin käyttämällä yhdistelmä-resoluutioadapteria.
- Mini-Gemini: CLIP-tunnisteiden käyttäminen matalaresoluutioisina kyselyinä toisen korkearesoluutioisen visioenkooderin ristikkäiskäyttöön samassa paikassa sijaitsevissa paikallisissa ikkunoissa.
- Muotoileva huomio: Mini-Geminin päälle esitelty uusi perusviiva, jossa vaniljaikkunan huomio korvataan muotoutuvalla huomiolla.
Sen sijaan, että kouluttaisimme projektoria kohdistamaan samanaikaisesti useita näköasiantuntijoita, kuten LLaVA:n alkuperäisessä esikoulutusstrategiassa, kohdistamme jokaisen yksittäisen asiantuntijan esityksen ensin pienempään kielimalliin (käytännössä Vicuna-7B) seuraavan token-ennustuksen valvonnan avulla. Kuten alla olevasta kuvasta näkyy, esikohdistuksen yhteydessä koko koulutusprosessi koostuu kolmesta vaiheesta: 1) jokaisen esikoulutetun näönasiantuntijan kouluttaminen omalla projektorillaan SFT-datan avulla pitäen samalla kielimallin jäädytettynä; 2) yhdistämällä kaikki näönasiantuntijat ensimmäisestä vaiheesta lähtien ja kouluttamalla vain projektori kuva-teksti-paritietojen kanssa; 3) koko mallin koulutus SFT-datalla.
Eagle: Kokeilut ja tulokset
Suunniteltuaan huolellisesti strategioitaan Eagle on määritellyt mallille seuraavat periaatteet: (1) integroimalla enemmän näköasiantuntijoita optimoidun koulutusreseptin avulla; (2) useiden näköasiantuntijoiden yhdistäminen suoran kanavaketjun kautta; (3) näönasiantuntijoiden esikoulutus erikseen esikohdistuksen kautta. Tässä osiossa Eagle-mallien edut osoittavat edelleen lisää koulutustietoja ja Eaglea verrataan nykyiseen huippuluokan MLLM:ään eri tehtävien aikana. Eagle käyttää kielimalleina Vicuna-v1.5-7B, Llama3-8B ja Vicuna-v1.5-13B. Näönkoodereissa osion 2.6 tulosten perusteella Eagle-mallit on merkitty Eagle-X4:ksi, joka sisältää neljä näköenkooderia: CLIP, ConvNeXt, Pix2Struct ja EVA-02, ja Eagle-X5, joka sisältää ylimääräisen SAM-vision enkooderi.
Visuaaliset kysymysvastaustehtävät
Eagle vertaa mallisarjaa kolmen Visual Question Answering (VQA) -benchmarkin välillä, mukaan lukien GQA, VQAv2 ja VizWiz. Kuten seuraavasta taulukosta käy ilmi, Eagle-X5 saavuttaa huippuluokan suorituskyvyn GQA:ssa ja VQAv2:ssa, mikä korostaa lisänäköasiantuntijoiden mukanaolon etuja.
Tekstintunnistuksen ja kaavioiden ymmärtämiseen liittyvät tehtävät
Eaglen OCR-, asiakirjojen ja kaavioiden ymmärtämiskyvyn arvioimiseksi mallia on vertailtu OCRBench-, TextVQA- ja ChartQA-ominaisuuksilla. Kuten yllä olevasta taulukosta näkyy, Eagle ohittaa huomattavasti kilpailijansa TextVQA:ssa hyötyessään korkearesoluutioisesta arkkitehtuuristaan ja erilaisten näönkooderien integroinnista. Erityisesti Eagle ylläpitää suoraviivaista suunnittelua, joka tukee jopa 1024 merkkiä ilman, että kuvien monimutkaista ruutujakoa tarvitaan.
Alla olevassa kuvassa on esimerkkejä tekstintunnistus- ja asiakirjan ymmärtämistapauksista. Korkean resoluution mukauttamisen ja useampien näköasiantuntijoiden ansiosta Eagle voi tunnistaa kuvista pientä tekstiä ja poimia tietoja tarkasti käyttäjän ohjeiden perusteella.
Ymmärtääksemme paremmin muihin näkötehtäviin valmiiksi koulutettujen asiantuntijoiden esittelyn edut seuraavassa kuvassa visualisoidaan tulokset mallista, jossa on vain ConvNeXt- ja CLIP-näönkooderit verrattuna Eagle-X5:n tuloksiin. Täydellisen näkökoodauslaitteen avulla malli korjaa onnistuneesti virheet osoittaen, että vaikka se olisi varustettu korkearesoluutioisilla näönkoodereilla, jotka on esikoulutettu näön ja kielen kohdistukseen, Eaglen kykyjä parannetaan entisestään integroimalla lisää näköasiantuntijoita, jotka on koulutettu monipuoliseen näkemiseen. tehtäviä.
Multimodaalinen vertailuarvojen arviointi
Eaglea arvioidaan seitsemällä MLLM:n benchmarkilla osoittaakseen kykynsä eri näkökulmista, mukaan lukien MME, MMBench, SEED, MathVista, MMMU, ScienceQA ja POPE. Erityisesti MME, MMBench ja SEED arvioivat yleistä suorituskykyä erilaisissa reaalimaailman tehtävissä, joihin liittyy päättelyä, tunnistamista, tietoa ja tekstintunnistusta. MMMU keskittyy haastaviin ongelmiin eri aloilta, jotka vaativat korkeakoulutason tietoa. POPE arvioi MLLM:n visuaalisia hallusinaatioita. Tässä arvioinnissa käytetyt mittarit noudattavat näiden vertailuarvojen oletusasetuksia. Eagle raportoi MME:n havaintopisteet, MMBenchin en_dev-jaon, SEEDin kuvajaon, MathVistan testi-minijaon, MMMU:n val-jaon, POPE:n F1-pistemäärän ja ScienceQA:n kuvapisteet, mikä varmistaa kohdistuksen. muiden mallien raportoitujen tulosten kanssa.
Tiivistelmä
Tässä artikkelissa olemme puhuneet Eaglesta, joka on syvällinen analyysi suunnittelutilasta näönkoodereiden integroimiseksi multimodaalisiin suuriin kielimalleihin. Toisin kuin aikaisemmissa töissä, joissa keskitytään uusien fuusioparadigmien suunnitteluun, Eagle huomaa, että systemaattisilla suunnitteluvalinnoilla on merkitystä ja löytää useita hyödyllisiä tekniikoita. Eagle optimoi askel askeleelta yksittäisten näönkoodaajien koulutusreseptin, tunnistaa laajennettavan ja tehokkaan fuusiomenetelmän ja yhdistää vähitellen näönkooderit eri toimialuetietoihin. Tulokset korostavat perussuunnittelun tilanäkökohtien kriittistä merkitystä.