Connect with us

EAGLE: Kartoittamalla monimodaalisten suurten kielen mallien suunnittelutilaa useiden koodaajien sekoituksella

Tekoäly

EAGLE: Kartoittamalla monimodaalisten suurten kielen mallien suunnittelutilaa useiden koodaajien sekoituksella

mm
EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

Monimodaalisten suurten kielen mallien (MLLM) kyky tulkita tarkasti monimutkaisia visuaalisia tietoja on tärkeä keskittyminen. Viimeaikaiset tutkimukset osoittavat, että parannettu visuaalinen havainnointi vähentää merkittävästi hallucinaatioita ja parantaa suorituskykyä resoluutioherkkissä tehtävissä, kuten optisessa merkintunnistuksessa ja asiakirjan analyysissä. Useat viimeaikaiset MLLM:t saavuttavat tämän käyttämällä visio-koodaajien sekoitusta. Vaikka heillä on menestystä, niiden välillä on systemaattisten vertailujen ja yksityiskohtaisten ablaatiotutkimusten puute, jotka koskevat kriittisiä aspekteja, kuten asiantuntijoiden valintaa ja useiden visio-asiantuntijoiden integrointia. Tämä artikkeli tarjoaa laajan kartoituksen MLLM:ien suunnittelutilasta, jotka käyttävät visio-koodaajien ja resoluutioiden sekoitusta, Eagle-kehyksellä, joka pyrkii kartoittamaan monimodaalisten suurten kielen mallien suunnittelutilaa useiden koodaajien sekoituksella. Tulokset paljastavat useita yleisiä periaatteita, jotka ovat yhteisiä eri strategioille, joista johtuu sujuvasti vaikuttava suunnittelukäytäntö. Eagle havaitsee, että visuaalisten tokenien yksinkertainen konkatenaatio useiden täydentävien visio-koodaajien joukosta on yhtä tehokas kuin monimutkaisemmat sekoitusarkkitehtuurit tai -strategiat. Lisäksi Eagle esittelee Pre-Alignmentin, joka siltaa visio-keskittyneiden koodaajien ja kielen tokenien välinen aukko, parantaen mallin johdonmukaisuutta. Tuloksena oleva MLLM:ien perhe, Eagle, ylittää muut johtavat avoimen lähdekoodin mallit suurten MLLM-benchmarkien osalla.

Eaglen työ on liitetty monimodaalisten suurten kielen mallien yleiseen arkkitehtuuriin. Paitsi edellä mainittujen edustavien avoimen lähdekoodin tutkimusten linjassa, muut merkittävät MLLM-perheet sisältävät, mutta eivät rajoitu, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini ja Llama 3.1. Riippuen siitä, miten visiosignaaleja integroidaan kielen malliin, MLLM:t voidaan laajasti luokitella “cross-modal attention” -malleihin ja “prefix-tuning” -malleihin. Entiset injektoivat visuaalista tietoa LLM:ien eri kerroksiin cross-modaalisen huomion avulla, kun taas jälkimmäiset käsittävät visuaaliset tokenit kielen tokenijonon osana ja liittävät ne suoraan tekstin upotuksiin. Eaglen malli kuuluu prefix-tuning-perheeseen seuraamalla LLaVA-tyylistä monimodaalista arkkitehtuuria. Ottaen huomioon, että MLLM on nopeasti kasvava ala, Eagle suosittelee viittaamaan yksityiskohtaisiin tutkimuksiin ja katsauksiin saadakseen lisätietoja.

Eaglen työ on läheisesti liitetty tutkimukseen, joka keskittyy visio-koodaajien suunnittelun parantamiseen MLLM:ille. Varhaiset työt omaksuivat yleensä visio-koodaajat, jotka oli koulutettu visio-kieli -sopimustehtävissä, kuten CLIP ja EVA-CLIP. Vahvemmat visio-koodaajat, kuten SigLIP ja InternVL, on ehdotettu parantamaan visio-kieli -tehtäviä paremmilla suunnittelulla, suuremmilla mallikokoilla ja tehokkaammilla koulutusresepteillä. Koska mallit usein koulutetaan matalaresoluutioisilla kuvilla ja saattavat puuttua hienojen yksityiskohtien koodaamisesta, korkeampi resoluutioon sopeutuminen tehdään usein MLLM:n syötteen resoluution lisäämiseksi. Lisäksi korkeampi resoluutioon sopeutumisen, mallit kuten LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer ja InternVL käyttävät tiili- tai sopeutuvaa tiiliä korkearesoluutioisen syötteen käsittelyyn, jossa kuvat jaetaan matalaresoluutioisiksi paloiksi ja prosessoidaan erikseen. Vaikka kyky käsitellä korkeampi resoluutio tehdään mahdolliseksi lisäämällä lisää visio-asiantuntijoita, tämä lähestymistapa poikkeaa hieman tiilitekniikoista, vaikka molemmat ovat yhteensopivia ja voidaan yhdistää.
… (rest of the content remains the same, following the exact same structure and translation rules)

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.