tynkä Mini-Gemini: Multimodaalisten visiokielimallien potentiaalin louhinta - Unite.AI
Liity verkostomme!

Tekoäly

Mini-Gemini: Multimodaalisten visiokielimallien potentiaalin louhinta

mm

Julkaistu

 on

Mini-Gemini: Multimodaalisten visiokielimallien potentiaalin louhinta

Edistykset sisällä suuria kielimalleja ovat merkittävästi nopeuttaneet kehitystä luonnollinen kielenkäsittelytai NLP. Muuntajakehyksen käyttöönotto osoittautui virstanpylväksi, joka helpotti uuden aallon kielimallien kehittämistä, mukaan lukien OPT ja BERT, jotka osoittavat syvällistä kielellistä ymmärrystä. Lisäksi GPT eli Generatiivinen esikoulutettu muuntajamallien perustaminen toi käyttöön uuden paradigman autoregressiivisen mallintamisen kanssa ja loi vankan menetelmän kielen ennustamiseen ja luomiseen. Kielimallit, kuten GPT-4, ChatGPT, Mixtral, LLaMA ja muut, ovat lisänneet nopeaa kehitystä, ja jokainen malli on osoittanut parannettua suorituskykyä monimutkaisten kieltenkäsittelyyn liittyvissä tehtävissä. Olemassa olevien menetelmien joukossa käskyn viritys on noussut keskeiseksi tekniikaksi valmiiksi koulutettujen suurten kielimallien tuotoksen jalostamiseksi, ja näiden mallien integrointi erityisillä työkaluilla visuaalisiin tehtäviin on korostanut niiden mukautumiskykyä ja avannut ovia tuleville sovelluksille. Ne ulottuvat paljon pidemmälle kuin perinteinen LLM:ien tekstipohjainen käsittely sisältäen myös multimodaalisen vuorovaikutuksen.

Lisäksi luonnollisen kielen käsittelyn ja tietokonenäkömallien lähentyminen on synnyttänyt VLM:itä eli Vision Language Models -malleja, jotka yhdistävät kielellisiä ja visiomalleja monimuotoisen ymmärtämisen ja päättelyn kyvyn saavuttamiseksi. Visuaalisten ja kielellisten mallien integroinnilla ja tulolla on ollut ratkaiseva rooli kielenkäsittelyä ja visuaalista ymmärtämistä vaativien tehtävien edistämisessä. Vallankumouksellisten mallien, kuten CLIP:n, ilmaantuminen on entisestään kuronut siltaa visiotehtävien ja kielimallien välillä, mikä on osoittanut monimuotoisten sovellusten toteutettavuuden ja käytännöllisyyden. Uudemmat puitteet, kuten LLaMA ja BLIP, hyödyntävät räätälöityjä ohjetietoja tehokkaiden strategioiden kehittämiseksi, jotka osoittavat mallin tehokkaat ominaisuudet. Lisäksi suurten kielimallien yhdistäminen kuvatulosteisiin on viimeaikaisen multimodaalitutkimuksen painopiste, ja viimeaikaisilla menetelmillä on pystytty ohittamaan suora generointi hyödyntämällä kuvanhakulähestymistapaa kuvatulosteiden ja lomiteltujen tekstien tuottamisessa.

Tästä huolimatta ja huolimatta peruspäättelyä ja visuaalista dialogia helpottavista näkökielimallien nopeasta edistymisestä, kehittyneiden mallien, kuten GPT-4, ja visiokielimallien välillä on edelleen merkittävä suorituskykyero. Mini-Gemini on yritys kaventaa visiokielimallien ja edistyneempien mallien välistä kuilua kaivaamalla VLM:ien potentiaalia paremman suorituskyvyn saavuttamiseksi kolmesta näkökulmasta: VLM-ohjattu generointi, korkealaatuinen data ja korkearesoluutioiset visuaaliset tunnukset. Visuaalisten merkkien parantamiseksi Mini-Gemini-kehys ehdottaa ylimääräisen visuaalisen kooderin käyttöä korkearesoluutioiseen tarkennukseen lisäämättä visuaalisten merkkien määrää. Mini-Gemini-kehys rakentaa edelleen korkealaatuisen tietojoukon, jolla pyritään edistämään kuvien tarkkaa ymmärtämistä ja päättelyyn perustuvaa generointia. Kaiken kaikkiaan Mini-Gemini-kehys yrittää louhia visiokielimallien potentiaalia ja pyrkii antamaan olemassa oleville kehyksille mahdollisuuden kuvien päättelyyn, ymmärtämiseen ja luomiseen samanaikaisesti. Tämän artikkelin tarkoituksena on kattaa Mini-Gemini-kehys perusteellisesti, ja tutkimme kehyksen mekanismia, metodologiaa, arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Joten aloitetaan. 

Mini-Gemini: Kiihdyttävä monimuotoinen VLM

Vuosien mittaan suuret kielimallit ovat kehittyneet, ja ne ylpeilevät nyt merkittävistä multimodaalisista ominaisuuksista, ja niistä on tulossa olennainen osa nykyisiä visiokielimalleja. Suurien kielimallien ja näkemyskielimallien multimodaalisen suorituskyvyn välillä on kuitenkin kuilu, kun viimeaikaiset tutkimukset etsivät tapoja yhdistää näkemys suuriin kielimalleihin kuvien ja videoiden avulla. Itse näkötehtävissä kuvan resoluutio on ratkaiseva tekijä, joka on eksplisiittisesti huolimatta ympäröivästä ympäristöstä vähäisin visuaalisilla hallusinaatioilla. Eron kuromiseksi tutkijat kehittävät malleja parantaakseen visuaalista ymmärrystä nykyhetkellä visiokielimallit, ja kaksi yleisintä lähestymistapaa ovat: resoluution lisääminen ja visuaalisten merkkien määrän lisääminen. Vaikka visuaalisten merkkien määrän lisääminen korkeamman resoluution kuvilla parantaa visuaalista ymmärrystä, tehostukseen liittyy usein lisääntyviä laskentavaatimuksia ja siihen liittyviä kustannuksia erityisesti käsiteltäessä useita kuvia. Lisäksi olemassa olevien mallien ominaisuudet, olemassa olevan tiedon laatu ja sovellettavuus ovat edelleen riittämättömiä nopeutettuun kehitysprosessiin, mikä jättää tutkijoille kysymyksen:kuinka nopeuttaa visiokielimallien kehitystä hyväksyttävin kustannuksin"?

Mini-Gemini-kehys on yritys vastata kysymykseen, sillä se yrittää tutkia visiokielimallien potentiaalia kolmesta näkökulmasta: VLM-ohjattu sukupolvi tai laajennetut sovellukset, korkealaatuinen data ja korkearesoluutioiset visuaaliset tunnukset. Ensinnäkin Mini-Gemini-kehys toteuttaa ConvNet-arkkitehtuurin, joka tuottaa korkearesoluutioisia ehdokkaita tehokkaasti parantaen visuaalisia yksityiskohtia ja säilyttäen samalla visuaalisten merkkien määrät suuressa kielimallissa. Mini-Gemini-kehys yhdistää julkisesti saatavilla olevia korkealaatuisia tietojoukkoja yrittääkseen parantaa tietojen laatua ja integroi nämä parannukset uusimpiin generatiivisiin ja suuriin kielimalleihin yrittääkseen parantaa VLM:ien suorituskykyä ja parantaa. käyttökokemusta. Mini-Gemini-kehyksen toteuttaman monitahoisen strategian avulla se voi tutkia visiokielimallien piilotettuja ominaisuuksia ja saavuttaa merkittäviä edistysaskeleita ilmeisin resurssirajoittein. 

Yleisesti ottaen Mini-Gemini-kehys käyttää mistä tahansa paradigmaa, koska se pystyy käsittelemään sekä tekstiä että kuvia syötteenä ja tulosteena. Erityisesti Mini-Gemini-kehys tuo tehokkaan putkilinjan syöttökuvien visuaalisten merkkien parantamiseen, ja siinä on kaksoisenkooderijärjestelmä, joka koostuu kaksoiskoodereista: ensimmäinen kooderi on tarkoitettu korkearesoluutioisille kuville, kun taas toinen kooderi on tarkoitettu matalan resoluution kuville. laadukas visuaalinen upotus. Päättelyn aikana kooderit toimivat huomiomekanismissa, jossa matalaresoluutioinen kooderi luo visuaalisia kyselyitä, kun taas korkearesoluutioinen kooderi tarjoaa avaimen ja arvot viitteeksi. Tietojen laadun parantamiseksi Mini-Gemini-kehys kerää ja tuottaa enemmän julkisiin resursseihin perustuvaa dataa, mukaan lukien tehtäväkohtaiset ohjeet, sukupolviin liittyvät tiedot ja korkearesoluutioiset vastaukset, ja lisääntynyt määrä ja parannettu laatu parantavat yleistä suorituskykyä ja suorituskykyä. mallin ominaisuudet. Lisäksi Mini-Gemini-kehys tukee samanaikaista tekstin ja kuvan luomista, koska visiokielimalli on integroitu edistyneisiin generatiivisiin malleihin. 

Mini-Gemini: Metodologia ja arkkitehtuuri

Pohjimmiltaan Mini-Gemini-kehys on käsitteellisesti yksinkertainen ja koostuu kolmesta osasta. 

  1. Kehys käyttää kaksoisnäkökoodareita, jotka tarjoavat matalaresoluutioisia visuaalisia upotuksia ja korkearesoluutioisia ehdokkaita. 
  2. Kehys ehdottaa korjaustiedostotietojen louhinnan toteuttamista louhinnan suorittamiseksi korjaustiedostotasolla matalaresoluutioisten visuaalisten kyselyjen ja korkearesoluutioisten alueiden välillä. 
  3. Mini-Gemini-kehys käyttää suurta kielimallia yhdistääkseen tekstin kuviin sekä luomisen että ymmärtämisen kannalta samanaikaisesti. 

Dual-Vision Enkooderit

Mini-Gemini-kehys pystyy käsittelemään sekä teksti- että kuvasyötteitä, ja niitä voidaan käsitellä joko yksittäin tai yhdistelmänä. Kuten seuraavassa kuvassa näkyy, Mini-Gemini-kehys aloittaa prosessin käyttämällä bilineaarista interpolaatiota matalaresoluutioisen kuvan luomiseksi vastaavasta korkearesoluutioisesta kuvastaan. 

Kehys käsittelee sitten nämä kuvat ja koodaa ne moniruudukoiseksi visuaaliseksi upotukseksi kahteen rinnakkaiseen kuvavirtaan. Tarkemmin sanottuna Mini-Gemini-kehys ylläpitää perinteistä putkilinjaa matalaresoluutioisille virroille ja käyttää CLIP-valmiiksi koulutettua Visual Transformeria visuaalisten upotusten koodaamiseen, mikä helpottaa mallin säilyttämistä visuaalisten korjaustiedostojen välisen pitkän kantaman suhteen myöhempää vuorovaikutusta varten suurella kielellä. mallit. Korkearesoluutioisille virtauksille Mini-Gemini-kehys käyttää CNN- tai Convolution Neural Networks -pohjaista kooderia mukautuvaa ja tehokasta korkearesoluutioista kuvankäsittelyä varten. 

Patch Info Mining

LR-upotuksia ja HR-ominaisuuksia tuottavien kaksoisnäönkooderien kanssa Mini-Gemini-kehys ehdottaa korjaustietojen louhinnan toteuttamista tavoitteena laajentaa visiokielimallien potentiaalia parannetuilla visuaalisilla tunnuksilla. Säilyttääkseen visuaalisten merkkien määrän tehokkuuden parantamiseksi suurissa kielimalleissa Mini-Gemini-kehys käyttää kyselynä matalaresoluutioisia visuaalisia upotuksia ja pyrkii hakemaan asiaankuuluvia visuaalisia vihjeitä HR-ominaisuusehdokkailta, ja kehys ottaa HR-ominaisuuskartta avaimena ja arvona.

Kuten yllä olevassa kuvassa osoitetaan, kaava tiivistää visuaalisten vihjeiden jalostus- ja syntetisointiprosessin, joka johtaa kehittyneiden visuaalisten tunnuksien luomiseen myöhempää laajan kielimallin käsittelyä varten. Prosessi varmistaa, että kehys pystyy rajoittamaan kunkin kyselyn louhinnan sen vastaavalle alialueelle HR-ominaisuuskartassa pikselikohtaisella ominaisuusmäärällä, mikä parantaa tehokkuutta. Tämän suunnittelun ansiosta Mini-Gemini-kehys pystyy poimimaan HR-ominaisuuksien yksityiskohtia lisäämättä visuaalisten merkkien määrää ja ylläpitää tasapainoa laskennallisen toteutettavuuden ja yksityiskohtien rikkauden välillä. 

Tekstin ja kuvan luominen

Mini-Gemini-kehys yhdistää visuaaliset tunnukset ja syöttötekstitunnisteet syötteeksi suuriin kielimalleihin automaattista regressiivistä generointia varten. Perinteisistä visiokielimalleista poiketen Mini-Gemini-kehys tukee vain tekstiä sekä tekstikuvan luomista syötteenä ja tulosteena, eli minkä tahansa päätelmänä, ja se on tulosta tästä erinomaisesta kuva-tekstin ymmärtämisestä ja päättelykyvystä. Mini-Gemini pystyy luomaan korkealaatuisia kuvia. Toisin kuin viimeaikaisissa töissä, joissa keskitytään sukupolvimallien tekstin upotusten ja suurten kielimallien väliseen aukkoon, Mini-Gemini-kehys yrittää optimoida aukon kielikehotteiden alalla muuntamalla käyttäjän ohjeet korkealaatuisiksi kehotteiksi, jotka tuottavat kontekstikohtaisia ​​kuvia. piilevissä diffuusiomalleissa. Lisäksi Mini-Gemini-kehys kerää näytteitä julkisesti saatavilla olevista korkealaatuisista tietojoukoista ja käyttää GPT-4-turbo-kehystä 13K-ohjeiden rakentamiseen datajoukon jälkeen kuvan luomisen tukemiseksi. 

Mini-Gemini: Kokeilut ja tulokset

Sen suorituskyvyn arvioimiseksi Mini-Gemini-kehys on toteutettu esikoulutetulla ConvNext-L-kehyksellä HR-näönkooderille ja CLIP-esikoulutetulla kehyksellä. Visuaalinen muuntaja LR-näkökooderille. Harjoittelutehokkuuden varmistamiseksi Mini-Gemini-kehys pitää kaksi visiokooderia paikoillaan ja optimoi patch-info louhinnan projektorit kaikissa vaiheissa ja optimoi suuren kielimallin itse ohjeiden viritysvaiheessa. 

Seuraavassa taulukossa verrataan Mini-Gemini-kehyksen suorituskykyä uusimpiin malleihin eri asetuksissa, ja se ottaa huomioon myös yksityiset mallit. Kuten voidaan havaita, Mini-Gemini ylittää olemassa olevat puitteet useissa LLM:issä johdonmukaisesti normaalilla resoluutiolla ja osoittaa ylivoimaista suorituskykyä, kun se on määritetty Gemma-2B:n kanssa tehokkaiden mallien luokassa. Lisäksi kun käytetään suurempia suuria kielimalleja, Mini-Gemini-kehyksen skaalautuvuus on ilmeistä. 

Sen suorituskyvyn arvioimiseksi korkearesoluutioisilla ja laajennetuilla visuaalisilla tunnuksilla kokeet suoritetaan tulokoolla 672 LR-näkökooderille ja 1536 visuaaliselle kooderille. Kuten aiemmin mainittiin, HR-visuaalisen kooderin päätarkoitus on tarjota korkearesoluutioisia ehdokastietoja. Kuten voidaan havaita, Mini-Gemini-kehys tarjoaa ylivertaisen suorituskyvyn verrattuna huipputason kehyksiin. 

Lisäksi arvioidakseen Mini-Gemini-kehyksen visuaalista ymmärtämistä reaalimaailmassa kehittäjät soveltavat mallia erilaisiin päättely- ja ymmärrystehtäviin, kuten seuraavassa kuvassa näkyy. Kuten voidaan havaita, Mini-Gemini-kehys pystyy ratkaisemaan laajan joukon monimutkaisia ​​​​tehtäviä korjaustietojen louhinnan ja korkealaatuisen tiedon ansiosta. Mutta mikä vielä vaikuttavampaa, on se, että Mini-Gemini-kehys on innokas lisäys yksityiskohtiin, joka ulottuu pelkän tunnistuskyvyn lisäksi ja kuvailee monimutkaisia ​​elementtejä monimutkaisesti. 

Seuraava kuva tarjoaa kattavan arvion Mini-Gemini-kehyksen generatiivisista kyvyistä. 

Verrattuna uusimpiin malleihin, kuten ChatIllusion ja AnyGPT, Mini-Gemini-kehys osoittaa vahvemmat multimodaaliset ymmärtämiskyvyt, mikä mahdollistaa sen luomisen. tekstistä kuvaksi kuvatekstit, jotka vastaavat paremmin syöttöohjeita ja johtavat kuva-tekstivastauksiin, joissa on vahvempi käsitteellinen samankaltaisuus. Vielä vaikuttavampaa on se, että Mini-Gemini-kehys osoittaa huomattavaa kykyä luoda korkealaatuista sisältöä käyttämällä monimallillisia ihmisohjeita vain tekstin opetusdatan avulla. Tämä ominaisuus kuvaa Mini-Geminin vankkaa semanttista tulkintaa ja kuvan ja tekstin kohdistustaitoja. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet Mini-Geministä, joka on tehokas ja virtaviivaistettu kehys multimodaalisille visiokielimalleille. Mini-Gemini-kehyksen ensisijaisena tavoitteena on valjastaa visiokielimallien piilevät ominaisuudet käyttämällä korkealaatuista dataa, viitekehyksen strategista suunnittelua ja laajennettua toiminnallista ulottuvuutta. Mini-Gemini on yritys kaventaa visiokielimallien ja edistyneempien mallien välistä kuilua kaivaamalla VLM:ien potentiaalia paremman suorituskyvyn saavuttamiseksi kolmesta näkökulmasta: VLM-ohjattu generointi, korkealaatuinen data ja korkearesoluutioiset visuaaliset tunnukset. Visuaalisten merkkien parantamiseksi Mini-Gemini-kehys ehdottaa ylimääräisen visuaalisen kooderin käyttöä korkearesoluutioiseen tarkennukseen lisäämättä visuaalisten merkkien määrää. Mini-Gemini-kehys rakentaa edelleen korkealaatuisen tietojoukon, jolla pyritään edistämään kuvien tarkkaa ymmärtämistä ja päättelyyn perustuvaa generointia. Kaiken kaikkiaan Mini-Gemini-kehys yrittää louhia visiokielimallien potentiaalia ja pyrkii antamaan olemassa oleville kehyksille mahdollisuuden kuvien päättelyyn, ymmärtämiseen ja luomiseen samanaikaisesti.

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.