ciot Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Mini-Gemeni: Exploatarea potențialului modelelor de limbaj de viziune multimodal

mm

Publicat

 on

Mini-Gemeni: Exploatarea potențialului modelelor de limbaj de viziune multimodal

Progresele în modele lingvistice mari au accelerat semnificativ dezvoltarea prelucrarea limbajului natural, sau NLP. Introducerea cadrului transformator s-a dovedit a fi o piatră de hotar, facilitând dezvoltarea unui nou val de modele lingvistice, inclusiv OPT și BERT, care prezintă o înțelegere lingvistică profundă. Mai mult, înființarea modelelor GPT sau generative Pre-trained Transformer, a introdus o nouă paradigmă cu modelare autoregresivă și a stabilit o metodă robustă pentru predicția și generarea limbajului. Apariția modelelor de limbaj precum GPT-4, ChatGPT, Mixtral, LLaMA și altele a alimentat și mai mult o evoluție rapidă, fiecare model demonstrând performanțe îmbunătățite în sarcinile care implică procesarea complexă a limbajului. Printre metodele existente, reglarea instrucțiunilor a apărut ca o tehnică cheie pentru rafinarea rezultatelor modelelor de limbaj mari pre-antrenate, iar integrarea acestor modele cu instrumente specifice pentru sarcini vizuale a evidențiat adaptabilitatea acestora și a deschis uși pentru aplicații viitoare. Acestea se extind cu mult dincolo de procesarea tradițională bazată pe text a LLM-urilor pentru a include interacțiuni multimodale.

Mai mult, convergența modelelor de procesare a limbajului natural și de viziune pe computer a dat naștere VLM-urilor, sau modele de limbaj de viziune, care combină modele lingvistice și de viziune pentru a obține capacități de înțelegere și raționament intermodale. Integrarea și apariția modelelor vizuale și lingvistice au jucat un rol crucial în avansarea sarcinilor care necesită atât procesarea limbajului, cât și înțelegerea vizuală. Apariția unor modele revoluționare precum CLIP a redus și mai mult decalajul dintre sarcinile de viziune și modelele de limbaj, demonstrând fezabilitatea și caracterul practic al aplicațiilor intermodale. Cadrele mai recente, cum ar fi LLaMA și BLIP, folosesc date de instrucțiuni personalizate pentru a concepe strategii eficiente care să demonstreze capabilitățile puternice ale modelului. În plus, combinarea modelelor de limbaj mari cu ieșiri de imagini este punctul central al cercetărilor multimodale recente, metodele recente fiind capabile să ocolească generarea directă prin utilizarea abordării de regăsire a imaginilor pentru a produce rezultate de imagine și texte intercalate.

Acestea fiind spuse, și în ciuda progreselor rapide ale modelelor de limbaj vizual care facilitează raționamentul de bază și dialogul vizual, există încă un decalaj semnificativ de performanță între modelele avansate precum GPT-4 și modelele de limbaj vizual. Mini-Gemini este o încercare de a reduce decalajul care există între modelele de limbaj de viziune și modelele mai avansate prin exploatarea potențialului VLM-urilor pentru o performanță mai bună din trei aspecte: generare ghidată de VLM, date de înaltă calitate și simboluri vizuale de înaltă rezoluție. Pentru a îmbunătăți jetoanele vizuale, cadrul Mini-Gemini propune utilizarea unui codificator vizual suplimentar pentru rafinarea de înaltă rezoluție fără a crește numărul de jetoane vizuale. Cadrul Mini-Gemini construiește în continuare un set de date de înaltă calitate în încercarea de a promova înțelegerea precisă a imaginilor și generarea bazată pe raționament. În general, cadrul Mini-Gemini încearcă să exploateze potențialul modelelor de limbaj de viziune și își propune să împuternicească cadrele existente cu raționamentul imaginii, înțelegerea și capabilitățile generative simultan. Acest articol își propune să acopere în profunzime cadrul Mini-Gemini și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Asadar, haideti sa începem. 

Mini-Gemeni: Accelerarea VLM-urilor cu mai multe modalități

De-a lungul anilor, modelele mari de limbaj au evoluat, iar acum se laudă cu capabilități multimodale remarcabile și devin o parte esențială a modelelor actuale de limbaj de viziune. Cu toate acestea, există un decalaj între performanța multimodală a modelelor de limbaj mari și modelele de limbaj de viziune, cercetările recente care caută modalități de a combina vederea cu modelele de limbaj mari folosind imagini și videoclipuri. Pentru sarcinile de vedere în sine, rezoluția imaginii este un element esențial pentru explicit, în ciuda mediului înconjurător, cu halucinații vizuale minime. Pentru a reduce decalajul, cercetătorii dezvoltă modele pentru a îmbunătăți înțelegerea vizuală în prezent modele de limbaj vizual, iar două dintre cele mai comune abordări sunt: ​​creșterea rezoluției și creșterea numărului de jetoane vizuale. Deși creșterea numărului de simboluri vizuale cu imagini de rezoluție mai mare îmbunătățește înțelegerea vizuală, creșterea este adesea însoțită de cerințe de calcul crescute și costuri asociate, în special atunci când procesează mai multe imagini. În plus, capacitățile modelelor existente, calitatea datelor existente și aplicabilitatea rămân inadecvate pentru un proces de dezvoltare accelerat, lăsând cercetătorii cu întrebarea „cum să accelereze dezvoltarea modelelor de limbaj de viziune cu costuri acceptabile"?

Cadrul Mini-Gemini este o încercare de a răspunde la întrebare în timp ce încearcă să exploreze potențialul modelelor de limbaj de viziune din trei aspecte: generare ghidată de VLM sau aplicații extinse, date de înaltă calitate și jetoane vizuale de înaltă rezoluție. În primul rând, cadrul Mini-Gemini implementează o arhitectură ConvNet pentru a genera candidați cu rezoluție mai mare în mod eficient, îmbunătățind detaliile vizuale, menținând în același timp numărul de simboluri vizuale pentru modelul de limbaj mare. Cadrul Mini-Gemini combină seturi de date de înaltă calitate disponibile public în încercarea de a îmbunătăți calitatea datelor și integrează aceste îmbunătățiri cu modele de ultimă generație și de limbaj mari, în încercarea de a îmbunătăți performanța VLM-urilor și de a îmbunătăți experiența utilizatorului. Strategia cu mai multe fațete implementată de cadrul Mini-Gemini îi permite să exploreze capacitățile ascunse ale modelelor de limbaj de viziune și să realizeze progrese semnificative cu constrângeri evidente de resurse. 

În general, cadrul Mini-Gemini folosește o paradigmă oricare pentru orice, deoarece este capabil să gestioneze atât text, cât și imagini ca intrare și ieșire. În special, cadrul Mini-Gemini introduce o conductă eficientă pentru îmbunătățirea jetoanelor vizuale pentru imaginile de intrare și dispune de un sistem de codificator dublu care cuprinde codificatoare duble: primul encoder este pentru imagini de înaltă rezoluție, în timp ce al doilea codificator este pentru imagini joase. încorporare vizuală de calitate. În timpul inferenței, codificatorii lucrează într-un mecanism de atenție, în care codificatorul cu rezoluție joasă generează interogări vizuale, în timp ce codificatorul de înaltă rezoluție oferă cheie și valori pentru referință. Pentru a spori calitatea datelor, cadrul Mini-Gemini colectează și produce mai multe date pe baza resurselor publice, inclusiv instrucțiuni orientate spre sarcini, date legate de generare și răspunsuri de înaltă rezoluție, cu cantitatea crescută și calitatea îmbunătățită îmbunătățind performanța generală și capabilitățile modelului. În plus, cadrul Mini-Gemini acceptă generarea concomitentă de text și imagini ca rezultat al integrării modelului limbajului de viziune cu modele generative avansate. 

Mini-Gemeni : Metodologie și Arhitectură

În esență, cadrul Mini-Gemini este conceptual simplu și cuprinde trei componente. 

  1. Cadrul folosește codificatoare cu viziune duală pentru a oferi încorporare vizuale cu rezoluție joasă și candidați de înaltă rezoluție. 
  2. Cadrul propune implementarea extragerii informațiilor de corecție pentru a efectua extragerea la nivel de corecție între interogări vizuale cu rezoluție scăzută și regiuni de înaltă rezoluție. 
  3. Cadrul Mini-Gemini utilizează un model de limbaj mare pentru a îmbina textul cu imagini atât pentru generare, cât și pentru înțelegere simultan. 

Codificatoare cu viziune dublă

Cadrul Mini-Gemini poate procesa atât text, cât și imagini, cu opțiunea de a le gestiona fie individual, fie într-o combinație. După cum se demonstrează în imaginea următoare, cadrul Mini-Gemini începe procesul prin utilizarea interpolării biliniare pentru a genera o imagine cu rezoluție scăzută din imaginea de înaltă rezoluție corespunzătoare. 

Cadrul procesează apoi aceste imagini și le codifică într-o încorporare vizuală multi-grilă în două fluxuri de imagini paralele. Mai precis, cadrul Mini-Gemini menține conducta tradițională pentru fluxurile de rezoluție scăzută și folosește un transformator vizual preantrenat CLIP pentru a codifica înglobarile vizuale, facilitând modelul să păstreze relația pe distanță lungă dintre patch-urile vizuale pentru interacțiunile ulterioare într-un limbaj mare. modele. Pentru fluxurile de înaltă rezoluție, cadrul Mini-Gemini adoptă codificatorul bazat pe CNN sau Convolution Neural Networks pentru procesarea adaptivă și eficientă a imaginii de înaltă rezoluție. 

Patch Info Mining

Odată cu codificatoarele de viziune duale care generează încorporarea LR și caracteristicile HR, cadrul Mini-Gemini propune implementarea minării informațiilor de corecție cu scopul de a extinde potențialul modelelor de limbaj de viziune cu simboluri vizuale îmbunătățite. Pentru a menține numărul de simboluri vizuale pentru eficiență în modelele de limbaj mari, cadrul Mini-Gemini ia ca interogare încorporarea vizuală de joasă rezoluție și urmărește să recupereze indicii vizuale relevante de la candidații pentru funcția HR, cadrul luând Harta caracteristicilor HR ca cheie și valoare.

După cum se demonstrează în imaginea de mai sus, formula încapsulează procesul de rafinare și sintetizare a indicațiilor vizuale, ceea ce duce la generarea de simboluri vizuale avansate pentru procesarea ulterioară a modelului de limbaj mare. Procesul asigură că cadrul poate limita extragerea pentru fiecare interogare la subregiunea corespunzătoare din harta caracteristicilor HR cu numărul de caracteristici în funcție de pixeli, rezultând o eficiență sporită. Datorită acestui design, cadrul Mini-Gemini este capabil să extragă detaliile caracteristicii HR fără a spori numărul de simboluri vizuale și menține un echilibru între fezabilitatea computațională și bogăția detaliilor. 

Generarea de text și imagini

Cadrul Mini-Gemini concatenează jetoanele vizuale și jetoanele text de intrare ca intrare pentru modelele mari de limbaj pentru generarea auto-regresivă. Spre deosebire de modelele tradiționale de limbaj de viziune, cadrul Mini-Gemini acceptă numai text, precum și generarea de imagini text ca intrare și ieșire, adică orice pentru orice inferență, și este rezultatul acestor capacități remarcabile de înțelegere și raționament imagine-text, Mini-Gemini este capabil să genereze imagini de înaltă calitate. Spre deosebire de lucrările recente care se concentrează pe decalajul de domeniu dintre încorporarea textului modelelor de generație și modelele mari de limbă, cadrul Mini-Gemini încearcă să optimizeze decalajul în domeniul solicitărilor de limbă prin traducerea instrucțiunilor utilizatorului în solicitări de înaltă calitate care produc imagini relevante pentru context. în modelele de difuzie latentă. În plus, pentru o mai bună înțelegere a reglajului instrucțiunilor și a alinierii modalităților încrucișate, cadrul Mini-Gemini colectează mostre din seturi de date de înaltă calitate disponibile public și utilizează cadrul turbo GPT-4 pentru a construi în continuare un set de date de 13K de instrucțiuni care să susțină generarea de imagini. 

Mini-Gemeni: experimente și rezultate

Pentru a-și evalua performanța, cadrul Mini-Gemini este instanțiat cu cadrul Pre-antrenat ConvNext-L pentru codificatorul de viziune HR și cu un CLIP-pre-antrenat. Transformator de viziune pentru codificatorul vizual LR. Pentru a asigura eficiența antrenamentului, cadrul Mini-Gemini menține cele două codificatoare de viziune fixe și optimizează proiectoarele de extragere a informațiilor de corecție în toate etapele și optimizează modelul de limbaj mare în timpul etapei de reglare a instrucțiunilor. 

Următorul tabel compară performanța cadrului Mini-Gemini cu modelele de ultimă generație în diferite setări și ia în considerare și modelele private. După cum se poate observa, Mini-Gemini depășește cadrele existente într-o gamă largă de LLM în mod constant la rezoluție normală și demonstrează performanțe superioare atunci când este configurat cu Gemma-2B în categoria modelelor eficiente. În plus, atunci când sunt folosite modele de limbaj mai mari, scalabilitatea cadrului Mini-Gemini este evidentă. 

Pentru a evalua performanța sa pe jetoane vizuale extinse și de înaltă rezoluție, experimentele sunt efectuate cu o dimensiune de intrare de 672 pentru codificatorul vizual LR și 1536 pentru codificatorul vizual. După cum am menționat mai devreme, scopul principal al codificatorului vizual HR este de a oferi informații de înaltă rezoluție pentru candidați. După cum se poate observa, cadrul Mini-Gemini oferă performanțe superioare în comparație cu cadrele de ultimă generație. 

În plus, pentru a evalua priceperea de înțelegere vizuală a cadrului Mini-Gemini în setările din lumea reală, dezvoltatorii aplică modelul la o varietate de sarcini de raționament și înțelegere, așa cum este demonstrat în imaginea următoare. După cum se poate observa, cadrul Mini-Gemini este capabil să rezolve o gamă largă de sarcini complexe datorită implementării minării informațiilor de corecție și a datelor de înaltă calitate. Dar ceea ce este mai impresionant este faptul că cadrul Mini-Gemini demonstrează un plus intens la detalii care se extinde dincolo de simpla recunoaștere și descrie elemente complicate în mod complex. 

Următoarea figură oferă o evaluare cuprinzătoare a abilităților generative ale cadrului Mini-Gemini. 

În comparație cu modele recente precum ChatIllusion și AnyGPT, cadrul Mini-Gemini demonstrează abilități mai puternice de înțelegere multimodală, permițându-i să genereze text în imagine subtitrări care se aliniază mai bine cu instrucțiunile de introducere și au ca rezultat răspunsuri imagine-text cu similitudini conceptuale mai puternice. Ceea ce este mai impresionant este faptul că cadrul Mini-Gemini demonstrează o competență remarcabilă în generarea de conținut de înaltă calitate folosind instrucțiuni umane multi-model numai cu date de antrenament text, o capacitate care ilustrează abilitățile robuste de interpretare semantică și de aliniere imagine-text ale Mini-Gemini. 

Gânduri finale

În acest articol am vorbit despre Mini-Gemini, un cadru puternic și simplificat pentru modele de limbaj de viziune multi-modalitate. Scopul principal al cadrului Mini-Gemini este de a valorifica capacitățile latente ale modelelor de limbaj de viziune folosind date de înaltă calitate, design strategic al cadrului și un domeniu funcțional extins. Mini-Gemini este o încercare de a reduce decalajul care există între modelele de limbaj de viziune și modelele mai avansate prin exploatarea potențialului VLM-urilor pentru o performanță mai bună din trei aspecte: generare ghidată de VLM, date de înaltă calitate și simboluri vizuale de înaltă rezoluție. Pentru a îmbunătăți jetoanele vizuale, cadrul Mini-Gemini propune utilizarea unui codificator vizual suplimentar pentru rafinarea de înaltă rezoluție fără a crește numărul de jetoane vizuale. Cadrul Mini-Gemini construiește în continuare un set de date de înaltă calitate în încercarea de a promova înțelegerea precisă a imaginilor și generarea bazată pe raționament. În general, cadrul Mini-Gemini încearcă să exploateze potențialul modelelor de limbaj de viziune și își propune să împuternicească cadrele existente cu raționamentul imaginii, înțelegerea și capabilitățile generative simultan.

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.