csonk MiniGPT-5: Interleaved Vision-and-Language Generative Vokens – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

MiniGPT-5: Interleaved Vision-and-Language Generative Vokens

mm
korszerűsített on

Az elmúlt néhány évben a nagy nyelvi modellek (LLM-ek) világszerte felkeltették az AI-fejlesztők figyelmét a természetes nyelvi feldolgozás (NLP) áttörései miatt. Ezek a modellek új mércét állítanak fel a szöveggenerálás és -értés terén. A szöveggenerálás fejlődése ellenére azonban továbbra is kihívást jelent a szöveges narratívákhoz koherensen illeszkedő képek előállítása. Ennek megoldására a fejlesztők egy innovatív jövőkép- és nyelvgenerálási megközelítést vezettek be, amely „generatív voken”-eken alapul, áthidalva a szakadékot a harmonizált szöveg-kép kimenetek terén.

A MiniGPT-5 alapja egy kétlépcsős képzési stratégia, amely nagymértékben a leírás nélküli multimodális adatgenerálásra összpontosít, ahol a képzési adatok nem igényelnek átfogó képleírásokat. Ezenkívül a modell integritásának fokozása érdekében a modell beépített osztályozó-mentes vezérlőrendszert tartalmaz, amely növeli a képgeneráláshoz szükséges voken hatékonyságát. A kezdeti fázisban a MiniGPT-5 keretrendszer erőteljes teljesítményt és jelentős javulást mutatott az MMDialog adatkészleten betanított alapvonalú Divter modellhez képest, és folyamatosan bizonyította, hogy képes összehasonlítható és még kiváló multimodális kimeneteket biztosítani az elvégzett emberi értékelések során. a VIST adatkészleten, amely tovább emeli teljesítményét és hatékonyságát a különböző benchmarkok között. 

MiniGPT5: Bevezetés

Aktivitáskövető az LLM keretrendszer legújabb fejlesztéseiés az ezekre az LLM-keretrendszerekre épülő alkalmazásokra, a multimédiás szolgáltatások integrációja olyan terület, amely népszerűsége megnőtt, mivel egyúttal létfontosságú előrelépésnek is bizonyul, amely a legkorszerűbb tartalomkészítő eszközök alkalmazásainak széles skáláját biztosítja. élvonalbeli multimodális párbeszédes ügynöknek. A folyamatos kutatás és fejlesztés révén a nyelvi és látási modellek azon a ponton vannak, ahol folyik a munka, hogy megkönnyítsék a szöveges és vizuális adatok zökkenőmentes létrehozását. A az LLM képessége multimodális adatok generálására zökkenőmentesen segít az interakciók javításában a különböző területeken, beleértve az e-kereskedelmet, a médiát és a virtuális valóságot. 

Végső soron az a cél, hogy a modellek konzisztens és logikus módon szintetizáljanak, felismerjenek és válaszoljanak szöveges és vizuális módozatokat egyaránt felhasználva, így döntő szerepet játszva az információáramlás harmonizálásában, valamint logikus és következetes narratívák létrehozásában. A szöveges és vizuális módozatok keverékének megvalósításának szükségességét elsősorban az LLM-ek gördülékenyebb, integráltabb és interaktívabb multimodális interakcióinak igénye táplálja, és végső soron a váltakozó nyelv és látásmód elérése. Az integrált és interaktív multimodális interakciók megvalósítása az LLM-ekben azonban bonyolult feladat, amely számos kihívással tele van, beleértve

  1. Bár a jelenlegi LLM-ek rendkívül hatékonyak és alkalmasak a szöveggenerálásra és a szöveg-kép párok feldolgozására, nem nyújtanak kielégítő teljesítményt a képek létrehozása során. 
  2. Ezeknek a vízió- és nyelvi modelleknek a fejlesztése nagymértékben támaszkodik a témaközpontú adatokra, ami kihívást jelent a modellek számára, hogy a generált szöveget hozzáigazítsák a megfelelő képekhez. 
  3. Végül hatékonyabb stratégiák kidolgozására van szükség, mivel képességeik növekedésével az LLM-ek memóriaigénye is megnő, különösen a downstream feladatok végrehajtása során. 

A MiniGPT-5 keretrendszer, egy interleaved nyelv- és képgeneráló algoritmus technika, amely bevezeti a „generatív voken” fogalmát, hogy megkísérelje kezelni a fent említett kihívásokat. A MiniGPT-5 keretrendszer új megközelítést javasol a multimodális adatgeneráláshoz a nagy nyelvi modellek és a stabil diffúziós technikák egyesítésével, speciális vizuális tokenek használatával. A MiniGPT-5 keretrendszer által javasolt kétlépcsős képzési módszer rávilágít a leírásoktól mentes alapozó szakasz fontosságára, és a modell felkészítésére, hogy hatékony teljesítményt nyújtson még korlátozott adatokkal rendelkező forgatókönyvek esetén is. 

A MiniGPT-5 modellt azonban az különbözteti meg a jelenlegi keretrendszerektől, hogy a MiniGPT-5 keretrendszer általános szakaszai nem tartalmaznak tartományspecifikus megjegyzéseket. Továbbá annak biztosítására, hogy a generált szöveg és a hozzájuk tartozó képek összhangban legyenek egymással, a MiniGPT-5 keretrendszer kettős veszteség-stratégiát alkalmaz, amely tovább erősíti a MiniGPT-5 osztályozó nélküli útmutatást és generatív vokeneket használó megközelítését. A MiniGPT-5 keretrendszer optimalizálja a képzési hatékonyságot, és kezeli a memóriakorlátokat a modell finomhangolását szolgáló paraméter-hatékony stratégiájuknak köszönhetően. 

Rövid összefoglalóként a MiniGPT-5 keretrendszer

  1. Olyan módszert javasol, amely multimodális kódolókat használ, amelyek egy újszerű és általános módszert képviselnek, amely történelmileg hatékonyabbnak bizonyult, mint a hagyományos LLM-ek, és generatív tokeneket használ a stabil diffúziós technikákkal kombinálva interleaved nyelvi és vizuális kimenetek létrehozására. 
  2. Kétlépcsős képzési stratégiát javasol a leírás nélküli multimodális kimenet generálására, valamint az osztályozók nélküli útmutatás beépítésére a képzés során a generált adatok minőségének további finomítása érdekében. 

A MiniGPT-5 modellt a korábbi kutatások és munkák ihlették 

  • Szövegből kép létrehozása: A szöveges leírások megfelelő vizuális megjelenítési formákká és szövegből képpé modellekké alakításának elősegítése. 
  • MLLM-ek vagy multimodális nagynyelvi modellek: Előzetesen betanított LLM-modellek alkalmazása az alkalmazások és a hatékonyság feltárására multimodális adatok generálása
  • Multimodális generáció nagy nyelvű modellekkel: Az LLM képességeinek bővítése a nyelvi és vizuális adatok generálásának zökkenőmentes integrálása érdekében. 

MiniGPT-5: Módszer, architektúra és keretrendszer

A multimodális adatgenerálási képességekkel rendelkező nagy nyelvi modellek megkönnyítése érdekében a MiniGPT-5 modell olyan keretrendszert vezet be, amelynek célja a szöveg integrálása a képgeneráló modellekbe és az előre betanított multimodális nagynyelvi modellekbe. A MiniGPT-5 keretrendszer tovább vezeti a „generatív vokeneket”, speciális vizuális tokeneket, amelyek lehetővé teszik a fejlesztők számára, hogy kezeljék a különböző tartományokban megjelenő eltéréseket azáltal, hogy közvetlenül nyers képeken tanulhatnak. Az LLM-ek által generált multimodális adatok minőségének további javítása érdekében a MiniGPT-5 keretrendszer osztályozó-mentes stratégiát vezet be, amely egy fejlett, kétlépcsős képzési módszerrel párosul. Nézzük meg részletesen a MiniGPT-5 keretrendszert. 

MultiModal Input Stage

Az LLM-ek közelmúltbeli fejlesztései napvilágra hozták az LLM-ek multimodális megértési képességeit, lehetővé téve a képek feldolgozását szekvenciális bemenetként. A MiniGPT-5 keretrendszer speciálisan kialakított generatív vokeneket használ a vizuális jellemzők kiadására, hogy megpróbálja kiterjeszteni az LLM-ek multimodális megértési képességeit a multimodális adatgenerálásra. Ezenkívül a MiniGPT-5 keretrendszer paraméterhatékony és élvonalbeli finomhangolási technikákat használ a multimodális kimeneti tanuláshoz az LLM keretrendszerrel. 

Multimodális kódolás

A MiniGPT-5 keretrendszer előképzett vizuális kódolója minden bemeneti képet jellemzővé alakít, és minden szöveges token vektorként van beágyazva, és a beviteli prompt jellemzők akkor jönnek létre, amikor ezeket a beágyazásokat összefűzik egymással. 

Vokenek hozzáadása nagy nyelvi modellekhez

Hagyományosan a Large Language Model szókincse csak szöveges tokenekből áll, ezért a MiniGPT-5 keretrendszeren dolgozó fejlesztőknek át kellett hidalniuk a szakadékot a generatív és a hagyományos LLM-ek között. A MiniGPT-5 keretrendszer speciális tokeneket vezet be generatív tokenként az LLM szókincsébe. A keretrendszer ezután felhasználja az LLM rejtett kimeneti állapotát ezekhez a speciális vokenekhez a későbbi képgeneráláshoz, és az interleaved képek beillesztését a vokenek helyzete reprezentálja. 

PEFT vagy Parameter Efficient Fine Tuning

A PEFT vagy Parameter Efficient Fine Tuning kulcsfontosságú koncepció az LLM-ek képzésében, és ennek ellenére a PEFT multimodális környezetben való alkalmazásai még mindig meglehetősen nagy mértékben feltáratlanok. A MiniGPT-5 keretrendszer a Parameter Efficient Fine Tuning funkciót használja a MiniGPT-4 keretrendszer kódolóján keresztül annak érdekében, hogy megtanítsa a modellt, hogy jobban megértse a promptokat vagy utasításokat, és még javítsa a modell általános teljesítményét nulla vagy újszerű környezetben. . 

Multimodális kimenetek generálása

A generatív modell és a generatív token pontos összehangolása érdekében a MiniGPT-5 keretrendszer egy kompakt leképezési modult hoz létre a méretek egyeztetéséhez, és magában foglalja a felügyeleti veszteségeket, beleértve a látens diffúziós modellvesztést és a szövegtérvesztést. A látens diffúziós felügyeleti veszteség közvetlenül igazítja a megfelelő vizuális jellemzőket a tokenekhez, míg a szövegtérvesztés segít a modellnek megtanulni a tokenek helyes pozícióját. Mivel a MiniGPT-5 keretrendszerben a generatív hívókat közvetlenül a képek irányítják, a MiniGPT-5 keretrendszer nem követeli meg, hogy a képek átfogó leírással rendelkezzenek, ami leírás nélküli tanulást eredményez. 

 Szövegtér generálása

A MiniGPT-5 keretrendszer a casual nyelvi modellezési módszert követi, hogy a vokeneket és a szövegtérben lévő szövegeket együttesen generálja, és a képzési szakaszban a fejlesztők hozzáfűzik a vokeneket az alapigazság-képek helyzetéhez, és betanítják a modellt a vokenek előrejelzésére. szöveggeneráláson belül. 

Voken funkciók leképezése képgeneráláshoz

A szövegtér létrehozása után a keretrendszer hozzáigazítja a rejtett kimeneti állapotot a szöveg-képgeneráló modell szövegfeltételes jellemzőteréhez. A keretrendszer támogatja a funkcióleképező modult is, amely egy kétrétegű MLP-modellt, egy tanulható dekódoló funkciósorozatot és egy négyrétegű kódoló-dekódoló transzformátormodellt tartalmaz. 

Képgenerálás LDM vagy látens diffúziós modellel

A szükséges képek létrehozásához a zajcsökkentési folyamatban a keretrendszer a leképezési jellemzőket használja feltételes bemenetként. A keretrendszer egy LDM vagy látens diffúziós modellt is alkalmaz útmutatásként, mivel a betanítási szakaszban az alapigazság képét először látens jellemzővé alakítják át egy előre betanított VAE segítségével, amelyet követően a fejlesztők némi zaj hozzáadásával megkapják a látens zajt. . 

A MiniGPT-5 keretrendszer által alkalmazott átfogó megközelítés lehetővé teszi a fejlesztők számára a vizuális és szöveges elemek koherens megértését és generálását speciális tokenek használatával, az előképzett modellek képességeinek kihasználásával és innovatív képzési technikák alkalmazásával. 

MiniGPT-5: Képzés és eredmények

Amikor a MiniGPT-5 keretrendszeren dolgoztak, a fejlesztők megfigyelték, hogy a korlátozott interleaved szöveg- és képadatkészletre való képzés közvetlenül romlott minőségű képeket eredményezhet, és eltolódást eredményezhet, tekintettel a kép- és szövegtartományok közötti jelentős tartományeltolódásra. A probléma enyhítésére a fejlesztők két különböző képzési stratégiát fogadtak el, 

  1. Beleértve az osztályozó nélküli irányítási technikák beépítését, amelyek növelik a generatív tokenek hatékonyságát a diffúziós folyamat során. 
  2. A második stratégia további két szakaszra oszlik
    1. Egy kezdeti előképzési szakasz, amely elsősorban a durva jellemzők összehangolására összpontosít. 
    2. Finomhangolási szakasz, amely megkönnyíti a funkciók tanulását. 

CFG vagy osztályozó nélküli útmutatás

Az ötlet, hogy először használjuk ki a CFG-t a multimodális generáláshoz, a generált képek és szövegek közötti konzisztencia és logika javítására tett kísérlet eredménye, és a CFG-t a szöveg-kép diffúziós folyamat során vezetik be. Ez a módszer azt figyeli meg, hogy mind a feltétel nélküli, mind a feltételes generálásra oktatva kondicionáló kieséssel a generatív modell javított feltételes eredményeket érhet el.

Kétlépcsős képzési stratégia

Tekintettel a szöveg-képgenerálás és a tiszta szöveggenerálás között megfigyelt jelentős tartományváltásra, a MiniGPT-5 keretrendszer kétlépcsős stratégiát alkalmaz a képzéshez.

  1. Unimodal Alignment Stage vagy UAS,
  2. Multimodális tanulási szakasz vagy MLS. 

Kezdetben a keretrendszer a képgenerálási jellemzőket a voken funkcióhoz igazítja egyetlen szöveg-kép pár adatkészletekben, ahol minden adatminta csak egy szöveget és csak egy képet tartalmaz, és a szöveg általában a képfelirat. Ebben a szakaszban a keretrendszer lehetővé teszi az LLM számára, hogy a feliratokat LLM bemenetként használva vokeneket generáljon. 

Az UAS sikeres végrehajtása után a modell képes képeket generálni az egyes szöveges leírásokhoz, de küzd az interleaved nyelvvel és a képalkotással, beleértve a szöveg-kép párokat, és bonyolult érvelésre van szükség a kép és szöveg létrehozásához. Ennek az akadálynak a leküzdése érdekében a fejlesztők tovább finomították a MiniGPT-5 keretrendszert PEFT-paraméterek felhasználásával interleaved vízió- és nyelvi adatkészletekkel, mint például a VIST. Ebben a szakaszban a keretrendszer három különböző feladatot hoz létre az adatkészletből

  1. Csak szöveg létrehozása: A következő képhez kapcsolódó szöveget generálja. 
  2. Csak kép létrehozása: A következő szöveghez kapcsolódó képet generálja. 
  3. Multimodális generálás: szöveges képpárokat generál a megadott kontextus felhasználásával. 

MiniGPT-5 : Referenciák és eredmények

A multimodális generációs teljesítmény átfogó értékeléséhez a MiniGPT-5 fejlesztőcsapata összehasonlítja teljesítményét más kiemelkedő alapmodellekkel, beleértve a Divtert, a GILL-t és a finomhangolt unimodális generációs modellt, és az összehasonlítást az alábbi táblázat szemlélteti. 

A MiniGPT-5 keretrendszer megérti, hogy a multimodális kimenet a kontextusnak megfelelően értelmes lehet, mégis eltérhet a földi valóságtól, ami az elsődleges oka annak, hogy a MiniGPT-5 keretrendszer emberi inputokat is beépít a modell teljesítményének értékeléséhez és értékeléséhez. . Összességében a MiniGPT-5 keretrendszer hatékonyságát a multimodális feladatokhoz három szempontból mérik. 

  1. Nyelvi folytonosság: annak felmérése, hogy a létrehozott tartalom zökkenőmentesen illeszkedik-e a biztosított kontextushoz. 
  2. Képminőség : a létrehozott kép relevanciájának és tisztaságának felmérése vagy értékelése. 
  3. Multimodális koherencia: annak meghatározására, hogy a kombinált szövegkép kimenet szinkronban van-e a kezdeti kontextussal. 

VIST utolsó lépés értékelése

A kísérletek első szakaszában a MiniGPT-5 keretrendszer célja a megfelelő képek generálása, és az alábbi táblázat összefoglalja az ezzel a beállítással kapott eredményeket. 

Amint látható, a MiniGPT-5 keretrendszer mindhárom beállításban felülmúlhatja a finomhangolt SD2 keretrendszert, ezzel is kiemelve a MiniGPT-5 pipeline hatékonyságát. 

A fenti ábra a MiniGPT-5 keret teljesítményét hasonlítja össze a finomhangolttal MiniGPT-4 keretrendszer az S-BERT, a Rouge-L és a Meteor teljesítménymutatókon. Az eredmények azt mutatják, hogy a generatív vokenek használata nem befolyásolja negatívan a keretrendszer teljesítményét a multimodális szövegértési feladatok végrehajtása során. Az eredmények azt is mutatják, hogy a MiniGPT-5 keretrendszer képes hosszú horizontális multimodális bemeneti promptokat használni az adatok széles skáláján, hogy kiváló minőségű és koherens képeket hozzon létre anélkül, hogy az eredeti modell multimodális megértési képességét veszélyeztetné. 

A fenti táblázat három keretrendszer teljesítményét hasonlítja össze 5,000 mintán a multimodális generáláshoz a multimodális koherencia, képminőség és nyelvi folytonosság szempontjából. Mint látható, a MiniGPT-5 keretrendszer az esetek több mint 70%-ával felülmúlja a másik két alapmodellt. Másrészt az alábbi táblázat bemutatja a MiniGPT-5 keretrendszer teljesítményét a CC3M érvényesítési adatkészleten, egyedi képek generálásához. Az adatkorlátoknak köszönhetően a fejlesztők hiányosságot találtak a voken igazításban, amikor a Stable Diffusion-szal használták. E korlátozás ellenére a MiniGPT-5 keretrendszer minden metrikában felülmúlja a jelenlegi legkorszerűbb GILL-keretrendszert. 

Következtetés

Ebben a cikkben szót ejtettünk a MiniGPT-5-ről, egy interleaved nyelv- és képgeneráló algoritmusról, amely bevezeti a „generatív voken” fogalmát, hogy megpróbálja kihasználni az LLM-ek képességeit multimodális adatok generálására, és a nagy nyelvi modellt egy szövegből képbe generáló modell, amely előre betanított. Beszéltünk a MiniGPT-5 keretrendszer alapvető összetevőiről és általános architektúrájáról, valamint az eredményekről, amelyek jelentős javulást jeleznek a teljesítményben és a hatékonyságban a jelenlegi alap- és korszerű modellekhez képest. A MiniGPT-5 arra törekszik, hogy új mércét állítson fel a multimodális tartalom- és adatgenerálás területén, és célja, hogy megoldja azokat a kihívásokat, amelyekkel a korábbi modellek szembesültek ugyanazon probléma megoldása során.

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.