Mesterséges Intelligencia

Mini-Gemini: A multimodalitású látásnyelvi modellek potenciáljának bányászása

Közzététel:

3 napja

April 26, 2024

Mini-Gemini: A multimodalitású látásnyelvi modellek potenciáljának bányászása

Az előrelépések ben nagy nyelvi modellek fejlődését jelentősen felgyorsították természetes nyelvfeldolgozás, vagy NLP. A transzformátor keretrendszer bevezetése mérföldkőnek bizonyult, amely elősegítette a nyelvi modellek új hullámának kifejlesztését, beleértve az OPT-t és a BERT-t, amelyek mély nyelvi megértést mutatnak. Ezen túlmenően a GPT vagy a generatív előképzett transzformátor modellek kezdete egy új paradigmát vezetett be az autoregresszív modellezéssel, és robusztus módszert hozott létre a nyelvi előrejelzéshez és generáláshoz. Az olyan nyelvi modellek megjelenése, mint a GPT-4, ChatGPT, Mixtral, LLaMA és mások, tovább ösztönözte a gyors fejlődést, és mindegyik modell fokozott teljesítményt mutat a bonyolult nyelvi feldolgozást igénylő feladatokban. A meglévő módszerek közül az utasításhangolás kulcsfontosságú technikává vált az előre betanított nagy nyelvi modellek kimenetének finomításában, és ezeknek a modelleknek a vizuális feladatokhoz speciális eszközeivel való integrációja rávilágított az alkalmazkodóképességükre, és megnyitotta kapuit a jövőbeli alkalmazások előtt. Ezek messze túlmutatnak az LLM-ek hagyományos szövegalapú feldolgozásán, és magukban foglalják a multimodális interakciókat is.

Ezenkívül a természetes nyelvi feldolgozás és a számítógépes látásmodellek konvergenciája eredményezte a VLM-eket vagy a Vision Language Models-eket, amelyek a nyelvi és látási modelleket kombinálják a többmodális megértés és érvelési képességek elérése érdekében. A vizuális és nyelvi modellek integrációja és megjelenése döntő szerepet játszott a nyelvi feldolgozást és vizuális megértést egyaránt igénylő feladatok előmozdításában. Az olyan forradalmi modellek megjelenése, mint a CLIP, tovább hidalta a szakadékot a látási feladatok és a nyelvi modellek között, bemutatva a keresztmodális alkalmazások megvalósíthatóságát és gyakorlatiasságát. Az újabb keretrendszerek, mint például a LLaMA és a BLIP, személyre szabott utasításadatokat használnak fel, hogy hatékony stratégiákat dolgozzanak ki, amelyek demonstrálják a modell nagyszerű képességeit. Ezenkívül a nagy nyelvi modellek képkimenetekkel való kombinálása áll a közelmúltbeli multimodális kutatások középpontjában, a legújabb módszerek pedig képesek megkerülni a közvetlen generálást a képkimenetek és interleaved szövegek képkimenetek és átlapolt szövegek előállításához a képvisszakereső megközelítés használatával.

Mindezek ellenére, és a látásnyelvi modellek gyors fejlődése ellenére, amely megkönnyíti az alapvető érvelést és a vizuális párbeszédet, még mindig jelentős teljesítménybeli különbség van az olyan fejlett modellek, mint a GPT-4, és a látásnyelvi modellek között. A Mini-Gemini kísérlet arra, hogy csökkentse a látásnyelvi modellek és a fejlettebb modellek közötti szakadékot azáltal, hogy a VLM-ekben rejlő lehetőségeket a jobb teljesítmény érdekében három szempontból bányászza ki: VLM-vezérelt generálás, kiváló minőségű adatok és nagy felbontású vizuális tokenek. A vizuális tokenek javítása érdekében a Mini-Gemini keretrendszer egy további vizuális kódoló használatát javasolja a nagy felbontású finomításhoz a vizuális tokenek számának növelése nélkül. A Mini-Gemini keretrendszer további kiváló minőségű adatkészletet hoz létre, hogy elősegítse a képek pontos megértését és az érvelésalapú generálást. Összességében a Mini-Gemini keretrendszer megpróbálja kiaknázni a látásnyelvi modellekben rejlő lehetőségeket, és célja, hogy a meglévő keretrendszereket egyszerre erősítse fel képi érvelési, megértési és generatív képességekkel. Ennek a cikknek a célja a Mini-Gemini keretrendszer részletes bemutatása, és megvizsgáljuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legkorszerűbb keretrendszerekkel. Tehát kezdjük.

Mini-Gemini: Multi-Modalitás VLM-ek felgyorsítása

Az évek során nagy nyelvi modellek fejlődtek ki, amelyek mára figyelemre méltó multimodális képességekkel büszkélkedhetnek, és a jelenlegi látásnyelvi modellek elengedhetetlen részévé válnak. Azonban szakadék tátong a nagy nyelvi modellek és a látásnyelvi modellek multimodális teljesítménye között, mivel a közelmúltban végzett kutatások a látás és a nagy nyelvi modellek kombinálásának módjait keresik képek és videók segítségével. Magában a látási feladatokban a képfelbontás kulcsfontosságú elem, kifejezetten annak ellenére, hogy a környező környezet minimális vizuális hallucinációkkal jár. A szakadék áthidalása érdekében a kutatók olyan modelleket fejlesztenek, amelyek javítják a jelenlegi vizuális megértést látásnyelvi modellek, és a két leggyakoribb megközelítés a következő: a felbontás növelése és a vizuális tokenek számának növelése. Bár a vizuális tokenek számának növelése nagyobb felbontású képekkel javítja a vizuális megértést, a fellendülés gyakran megnövekedett számítási követelményekkel és kapcsolódó költségekkel jár, különösen több kép feldolgozásakor. Ezenkívül a meglévő modellek képességei, a meglévő adatok minősége és alkalmazhatósága továbbra sem megfelelő a felgyorsított fejlesztési folyamathoz, így a kutatók számára felmerül a kérdés:hogyan lehet elfogadható költségekkel felgyorsítani a látásnyelvi modellek kidolgozását"?

A Mini-Gemini keretrendszer kísérletet tesz a kérdés megválaszolására, mivel három aspektusból próbálja feltárni a látásnyelvi modellekben rejlő lehetőségeket: VLM-vezérelt generálás vagy kiterjesztett alkalmazások, kiváló minőségű adatok és nagy felbontású vizuális tokenek. Először is, a Mini-Gemini keretrendszer ConvNet architektúrát valósít meg a nagyobb felbontású jelöltek hatékony generálására, javítva a vizuális részleteket, miközben fenntartja a vizuális tokenszámot a nagy nyelvi modellben. A Mini-Gemini keretrendszer egyesíti a nyilvánosan elérhető kiváló minőségű adatkészleteket, hogy javítsa az adatok minőségét, és integrálja ezeket a fejlesztéseket a legkorszerűbb generatív és nagy nyelvi modellekkel, hogy megkísérelje javítani a VLM-ek teljesítményét és javítani. a felhasználói élményt. A Mini-Gemini keretrendszer által megvalósított sokrétű stratégia lehetővé teszi a látásnyelvi modellek rejtett képességeinek feltárását, és jelentős előrelépéseket ér el nyilvánvaló erőforrás-korlátokkal.

Általánosságban elmondható, hogy a Mini-Gemini keretrendszer bármely paradigmát alkalmaz, mivel képes szöveget és képeket egyaránt kezelni bemenetként és kimenetként. A Mini-Gemini keretrendszer különösen hatékony folyamatot vezet be a bemeneti képek vizuális tokenek javítására, és egy kettős kódoló rendszert tartalmaz, amely iker kódolókból áll: az első kódoló a nagy felbontású képekhez, míg a második kódoló az alacsony felbontású képekhez. minőségi vizuális beágyazás. A következtetés során a kódolók figyelmi mechanizmusban működnek, ahol az alacsony felbontású kódoló vizuális lekérdezéseket generál, míg a nagy felbontású kódoló kulcsot és értékeket biztosít referenciaként. Az adatok minőségének javítása érdekében a Mini-Gemini keretrendszer több adatot gyűjt össze és állít elő nyilvános erőforrások alapján, ideértve a feladatorientált utasításokat, a generálással kapcsolatos adatokat és a nagy felbontású válaszokat, a megnövekedett mennyiség és a minőség javítása pedig javítja az általános teljesítményt és a minőséget. a modell képességei. Ezenkívül a Mini-Gemini keretrendszer támogatja a párhuzamos szöveg- és képgenerálást a látásnyelvi modell és a fejlett generatív modellek integrálása eredményeként.

Mini-Gemini: Módszertan és építészet

Lényegében a Mini-Gemini keretrendszer fogalmilag egyszerű, és három összetevőből áll.

A keretrendszer dual vision kódolókat alkalmaz, hogy alacsony felbontású vizuális beágyazásokat és nagy felbontású jelölteket biztosítson.
A keretrendszer a foltinformációk bányászatának megvalósítását javasolja, hogy javítsa a bányászatot az alacsony felbontású vizuális lekérdezések és a nagy felbontású régiók között.
A Mini-Gemini keretrendszer egy nagy nyelvi modellt használ a szöveg és a kép összekapcsolására a generálás és a megértés érdekében.

Dual-Vision kódolók

A Mini-Gemini keretrendszer képes szöveg- és képbevitelt is feldolgozni, és lehetőség van arra, hogy ezeket külön-külön vagy kombinációban is kezelje. Amint az a következő képen látható, a Mini-Gemini keretrendszer úgy indítja el a folyamatot, hogy bilineáris interpolációt alkalmaz, hogy alacsony felbontású képet állítson elő a megfelelő nagy felbontású képből.

A keretrendszer ezután feldolgozza ezeket a képeket, és több rácsos vizuális beágyazásba kódolja két párhuzamos képfolyamba. Pontosabban, a Mini-Gemini keretrendszer fenntartja a hagyományos folyamatot az alacsony felbontású folyamokhoz, és egy CLIP-re előképzett Visual Transformert alkalmaz a vizuális beágyazások kódolására, megkönnyítve a modellnek a vizuális foltok közötti hosszú távú kapcsolat megőrzését a későbbi nagy nyelvű interakciókhoz. modellek. A nagy felbontású adatfolyamokhoz a Mini-Gemini keretrendszer a CNN vagy a Convolution Neural Networks alapú kódolót alkalmazza az adaptív és hatékony nagy felbontású képfeldolgozáshoz.

Patch Info Mining

Az LR beágyazásokat és HR funkciókat generáló kettős látáskódolókkal a Mini-Gemini keretrendszer a patch info bányászat megvalósítását javasolja azzal a céllal, hogy a látásnyelvi modellek lehetőségeit továbbfejlesztett vizuális tokenekkel bővítsék. A nagy nyelvi modellekben a hatékonyság érdekében a vizuális tokenek számának megőrzése érdekében a Mini-Gemini keretrendszer az alacsony felbontású vizuális beágyazásokat használja lekérdezésként, és célja, hogy releváns vizuális jelzéseket kérjen le a HR funkciójelöltektől, a keretrendszer pedig a A HR funkciótérkép kulcs és érték.

Amint a fenti képen látható, a képlet magában foglalja a vizuális jelzések finomításának és szintetizálásának folyamatát, amely fejlett vizuális tokenek létrehozásához vezet a későbbi nagy nyelvi modellfeldolgozáshoz. A folyamat biztosítja, hogy a keretrendszer képes legyen az egyes lekérdezések bányászatát a HR jellemzőtérkép megfelelő alrégiójára korlátozni a pixelenkénti jellemzőszámmal, ami fokozott hatékonyságot eredményez. Ennek a kialakításnak köszönhetően a Mini-Gemini keretrendszer képes kivonni a HR funkció részleteit anélkül, hogy növelné a vizuális tokenek számát, és megőrzi az egyensúlyt a számítási megvalósíthatóság és a részletgazdagság között.

Szöveg- és képgenerálás

A Mini-Gemini keretrendszer összefűzi a vizuális tokeneket és a beviteli szöveges tokeneket, mint bemenetet a nagy nyelvi modellekhez az automatikus regresszív generáláshoz. A hagyományos látásnyelvi modellektől eltérően a Mini-Gemini keretrendszer támogatja a csak szöveget, valamint a szöveges kép generálását be- és kimenetként, azaz bármilyen következtetésre, és ennek a kiemelkedő kép-szöveg megértési és érvelési képességének az eredménye, a A Mini-Gemini kiváló minőségű képeket képes generálni. Ellentétben a legújabb munkákkal, amelyek a generációs modellek szövegbeágyazásai és a nagy nyelvi modellek közötti tartománybeli szakadékra összpontosítanak, a Mini-Gemini keretrendszer megpróbálja optimalizálni a szakadékot a nyelvi felszólítások területén azáltal, hogy a felhasználói utasításokat kiváló minőségű promptokká fordítja, amelyek kontextusnak megfelelő képeket készítenek. látens diffúziós modellekben. Ezenkívül az utasítások finomhangolása és a keresztmódosítások jobb megértése érdekében a Mini-Gemini keretrendszer mintákat gyűjt nyilvánosan elérhető, kiváló minőségű adatkészletekből, és a GPT-4 turbó keretrendszert használja egy 13K-s utasítás további összeállításához az adatkészletet követően a képgenerálás támogatására.

Mini-Gemini: Kísérletek és eredmények

A teljesítmény értékeléséhez a Mini-Gemini keretrendszert a HR látáskódolóhoz előre betanított ConvNext-L keretrendszerrel, valamint egy CLIP-re előképzett Vision Transformer az LR látáskódolóhoz. A képzés hatékonyságának biztosítása érdekében a Mini-Gemini keretrendszer rögzítve tartja a két látáskódolót, és optimalizálja a patch info bányászat kivetítőit minden szakaszában, valamint optimalizálja a nagy nyelvi modellt az utasításhangolási szakaszban.

Az alábbi táblázat összehasonlítja a Mini-Gemini keretrendszer teljesítményét a legkorszerűbb modellekkel a különböző beállítások között, és figyelembe veszi a privát modelleket is. Amint az megfigyelhető, a Mini-Gemini az LLM-ek széles skálájában konzisztensen felülmúlja a meglévő keretrendszereket normál felbontás mellett, és kiváló teljesítményt mutat a Gemma-2B-vel konfigurálva a hatékony modellek kategóriájában. Ezenkívül nagyobb, nagy nyelvi modellek alkalmazásakor a Mini-Gemini keretrendszer méretezhetősége nyilvánvaló.

A nagy felbontású és kiterjesztett vizuális tokenek teljesítményének értékelése érdekében a kísérleteket 672-es bemeneti mérettel hajtják végre az LR látáskódolónál, és 1536-os bemeneti mérettel a vizuális kódolónál. Mint korábban említettük, a HR vizuális kódoló fő célja az, hogy nagy felbontású jelölt információkat kínáljon. Mint látható, a Mini-Gemini keretrendszer kiváló teljesítményt nyújt a legkorszerűbb keretekhez képest.

Ezenkívül a Mini-Gemini keretrendszer vizuális megértési képességének valós környezetben való értékelése érdekében a fejlesztők a modellt különféle érvelési és megértési feladatokra alkalmazzák, amint az a következő képen látható. Mint látható, a Mini-Gemini keretrendszer a patch info bányászat megvalósításának és a jó minőségű adatoknak köszönhetően komplex feladatok széles skáláját képes megoldani. De ami még lenyűgözőbb, az az a tény, hogy a Mini-Gemini keret nagyszerű kiegészítést mutat a részletekhez, amely túlmutat a puszta felismerési képességeken, és bonyolultan írja le a bonyolult elemeket.

A következő ábra átfogó értékelést nyújt a Mini-Gemini keretrendszer generatív képességeiről.

A közelmúltbeli modellekhez, például a ChatIllusionhoz és az AnyGPT-hez képest a Mini-Gemini keretrendszer erősebb multimodális megértési képességeket mutat, lehetővé téve a generálást. szövegből képbe olyan feliratokat, amelyek jobban illeszkednek a beviteli utasításokhoz, és erősebb fogalmi hasonlóságot eredményeznek a kép-szöveg válaszokhoz. Ami még lenyűgözőbb, az a tény, hogy a Mini-Gemini keretrendszer figyelemre méltó készségről tesz tanúbizonyságot a kiváló minőségű tartalom létrehozásában, többmodell emberi utasítások felhasználásával, csak szöveges betanítási adatokkal, ez a képesség a Mini-Gemini robusztus szemantikai értelmezését és kép-szöveg igazítási képességeit mutatja be.

Záró gondolatok

Ebben a cikkben a Mini-Geminiről beszéltünk, amely egy hatékony és egyszerűsített keretrendszer a multimodalitású látásnyelvi modellekhez. A Mini-Gemini keretrendszer elsődleges célja a látásnyelvi modellek látens képességeinek kihasználása kiváló minőségű adatok, a keretrendszer stratégiai tervezése és kibővített funkcionális hatókör felhasználásával. A Mini-Gemini kísérlet arra, hogy csökkentse a látásnyelvi modellek és a fejlettebb modellek közötti szakadékot azáltal, hogy a VLM-ekben rejlő lehetőségeket a jobb teljesítmény érdekében három szempontból bányászza ki: VLM-vezérelt generálás, kiváló minőségű adatok és nagy felbontású vizuális tokenek. A vizuális tokenek javítása érdekében a Mini-Gemini keretrendszer egy további vizuális kódoló használatát javasolja a nagy felbontású finomításhoz a vizuális tokenek számának növelése nélkül. A Mini-Gemini keretrendszer további kiváló minőségű adatkészletet hoz létre, hogy elősegítse a képek pontos megértését és az érvelésalapú generálást. Összességében a Mini-Gemini keretrendszer megpróbálja kiaknázni a látásnyelvi modellekben rejlő lehetőségeket, és célja, hogy a meglévő keretrendszereket egyszerre erősítse fel képi érvelési, megértési és generatív képességekkel.

Kapcsolódó témák:generatív ai nagy nyelvi modell Nagy látású modellek LVLM Mini-Gemini Multimodális nagynyelvi modell természetes nyelvfeldolgozás látásnyelvi modell

Up Next

Dekóder-alapú nagy nyelvű modellek: teljes útmutató

Ne hagyd ki

Snowflake Arctic: Az élvonalbeli LLM vállalati mesterséges intelligencia számára

Kunal Kejriwal

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.