Inteligență artificială

Osprey: Înțelegere la nivel de pixel cu ajustarea instrucțiunilor vizuale

mm

În urma îmbunătățirii recente a metodelor de ajustare a instrucțiunilor vizuale, Modelele Mari de Limbaj Multimodale (MLLM) au demonstrat capacități remarcabile de înțelegere a limbajului și a viziunii. Aceste capacități le fac să fie componente cheie pentru asistenții vizuali generali moderni. Modelele recente, inclusiv MiniGPT-4, LLaVA, InstructBLIP și altele, prezintă abilități impresionante de raționament vizual și de urmărire a instrucțiunilor. Deși majoritatea dintre ele se bazează pe perechi de imagine-text pentru alinierea limbajului și a viziunii la nivel de imagine, ele funcționează bine în acest domeniu. Cu toate acestea, dependența lor de înțelegerea la nivel de cutie și de imagine este motivul principal pentru care MLLM nu reușesc să-și repete performanța în sarcinile de aliniere a limbajului și a viziunii la nivel de pixel. În plus, disponibilitatea limitată a datelor de instrucțiuni bazate pe mascaj pentru antrenare prezintă provocări în îmbunătățirea ulterioară a MLLM.

Osprey este o metodă de antrenare a instrucțiunilor text-mască cu scopul principal de a extinde capacitățile MLLM. Ea incorporează regiuni mascate fine în instrucțiunile lingvistice pentru a atinge înțelegerea vizuală a limbajului la nivel de pixel. Pentru a realiza acest lucru, cadrul Osprey curatează un set de date de regiuni-text bazate pe mască cu peste 700 de mii de exemple. El injectează reprezentarea la nivel de pixel în Modelele Mari de Limbaj (LLM) pentru a proiecta un model de limbaj și viziune. În mod remarcabil, cadrul Osprey adoptă un model de viziune CLIP bazat pe convoluții și integrează un extractor vizual conștient de mască în arhitectura sa. Acest lucru îi permite să extragă cu precizie caracteristici vizuale de mască din intrări de înaltă rezoluție.

În acest articol, vom discuta cadrul Osprey și vom explora în detaliu arhitectura sa. Vom explora, de asemenea, setul de date de regiuni-text curate cu peste 700 de mii de exemple și vom compara performanța sa în diverse sarcini de înțelegere a regiunilor. Așadar, să începem.

Osprey: Înțelegere la nivel de pixel cu ajustarea instrucțiunilor vizuale

Modelele Mari de Limbaj Multimodale, cum ar fi MiniGPT-4, Otter, Qwen-LV, InstructBLIP și altele, sunt lideri în dezvoltarea asistenților vizuali generali și sunt renumite pentru capacitățile lor excepționale multimodale și generative de viziune. Cu toate acestea, Modelele Mari de Limbaj Multimodale suferă de o provocare majoră, deoarece oferă rezultate nesatisfăcătoare în sarcinile de înțelegere a imaginilor la nivel fin, cum ar fi captionarea, clasificarea regiunilor și raționamentul. Un motiv principal pentru performanța sub par în sarcinile de înțelegere a imaginilor la nivel fin este lipsa de aliniere la nivel de regiune. Modelele MLLM recente, cum ar fi GPT4RoI, Shikra și altele, încearcă să permită înțelegerea la nivel de regiune în modelele de viziune și limbaj prin procesarea regiunilor specificate de cutii delimitatoare și prin utilizarea ajustării instrucțiunilor vizuale cu caracteristici spațiale la nivel de obiect.

Deși abordarea de a permite înțelegerea la nivel de regiune poate îmbunătăți performanța, utilizarea cutiilor delimitatoare sparse ca intrare de regiune referențială directă poate introduce caracteristici de fundal irelevante, ceea ce duce la o aliniere inexactă a perechilor de regiuni-text pentru ajustarea instrucțiunilor vizuale pe modelele de limbaj mari. În timpul procesului de inferență, intrarea de referință la nivel de cutie poate să nu detecteze și să reprezinte obiectul cu precizie, ceea ce poate duce la o deviație semantică, așa cum se demonstrează în imaginea următoare.

În comparație, utilizarea mascărilor fine în loc de cutii delimitatoare grosiere ca intrare de referință poate reprezenta obiectele cu mai multă precizie. Modelul SAM sau Segment Anything Model, care a fost antrenat pe miliarde de mascări de înaltă calitate, demonstrează o calitate remarcabilă de segmentare pe obiecte zero-shot și susține utilizarea punctelor sau a cutiilor delimitatoare simple ca prompturi. Cu toate acestea, cadrul SAM nu poate genera etichete semantice principale, nici nu poate oferi descrieri detaliate și atribute semantice. Ca urmare, modelele existente lipsesc informații multimodale fine și au o înțelegere limitată a scenelor din lumea reală.

Pentru a aborda provocările cu care se confruntă MLLM existente, Osprey, o metodă de antrenare a instrucțiunilor text-mască, își propune să extindă capacitățile Modelelor Mari de Limbaj Multimodale pentru înțelegerea la nivel fin la nivel de pixel. Cadrul Osprey introduce un extractor vizual conștient de mască care capturează caracteristici vizuale de mască cu granularitate variabilă. Acesta intercalează apoi caracteristicile vizuale cu instrucțiunile lingvistice pentru a genera secvența de intrare pentru modelul de limbaj mare și utilizează arhitectura CLIP convoluțională pentru a facilita utilizarea intrărilor de înaltă rezoluție. Datorită proiectării și arhitecturii sale, cadrul Osprey este capabil să atingă o înțelegere semantică fină pentru regiunile la nivel de obiect și de parte și oferă atribute detaliate de obiect împreună cu categoria de obiect principală și descrieri îmbunătățite ale scenelor complexe.

Prin utilizarea capacităților de ajustare a instrucțiunilor vizuale, cadrul Osprey permite noi capacități dincolo de înțelegerea la nivel de imagine și de cutie a scenelor, deoarece cadrul Osprey poate genera semantici fine utilizând măști agnostice la clasă de la SAM-uri standard. În plus, Osprey demonstrează capacități remarcabile în clasificarea obiectelor de referință, recunoașterea deschisă a vocabularului, captionarea la nivel de regiune și descrierea detaliată a regiunilor.

Osprey: Metodologie și Arhitectură

Următoarea figură prezintă o vedere de ansamblu a arhitecturii cadrului Osprey, care constă dintr-un model de limbaj mare, un extractor vizual conștient de mască la nivel de pixel și un codificator de viziune la nivel de imagine.

Pentru o imagine dată, limbajul de intrare și regiunile de mască de referință, cadrul efectuează conversia și tokenizarea pentru a genera încorporări înainte de a trimite secvențele de încorporare a limbajului și caracteristicile de mască intercalate la modelul de limbaj mare pentru a obține înțelegeri semantice fine.

Codificator de Viziune CLIP Convoluțional

Codificatorul de viziune utilizat în majoritatea Modelelor Mari de Limbaj Multimodale este exemplificat prin utilizarea unui model CLIP bazat pe ViT. Ca urmare, cadrul adoptă o rezoluție de imagine de 224×224 de pixeli sau 336 x 336 de pixeli. Cu toate acestea, utilizarea modelului CLIP bazat pe ViT face dificilă atingerea unei înțelegeri fine a imaginilor la nivel de pixel, o problemă amplificată și mai mult în regiunile mici. În plus, supraîncărcarea computațională asociată cu arhitectura ViT împiedică posibilitatea de a crește rezoluția imaginii de intrare.

Pentru a aborda această provocare, cadrul Osprey implementează un model CLIP convoluțional ca codificator de viziune în arhitectura sa. În mod tradițional, modelele CLIP bazate pe rețele neuronale convoluționale au demonstrat capacități remarcabile de generalizare pe diferite rezoluții de intrare în comparație cu modelele de transformator de viziune bazate pe CLIP. Implementarea unui model CLIP bazat pe CNN face loc pentru o inferență rapidă și un antrenament eficient fără a compromite performanța modelului. În plus, un model CLIP bazat pe CNN este capabil să genereze hărți de caracteristici multiscalară, pe care cadrul le utilizează apoi direct pentru extragerea caracteristicilor în fiecare regiune de obiect ulterioară.

Extractor Vizual Conștient de Mască

În contrast cu modelele de regiune existente care utilizează cutii delimitatoare sparse ca intrare de referință, cadrul Osprey utilizează regiuni de mască detaliate pentru a implementa reprezentări bazate pe obiecte. Modelul Osprey utilizează un component de extractor vizual conștient de mască pentru a captura caracteristici vizuale la nivel de pixel în fiecare regiune de obiect. Componentul de extractor vizual conștient de mască codifică caracteristici vizuale la nivel de mască și, în plus, colectează informații despre poziția spațială a fiecărei regiuni.

Pentru a implementa acest lucru, Osprey utilizează mai întâi caracteristicile de imagine multilevel generate de codificatorul de viziune pentru a adopta operația de mască-pooling și, pentru fiecare caracteristică de nivel unic, cadrul colectează toate caracteristicile care se află în regiunea de mască. Modelul codifică apoi caracteristicile de-a lungul diferitelor straturi prin trecerea fiecărei caracteristici printr-un strat de proiecție liniară care generează încorporări la nivel de regiune și fuzionează caracteristici multilevel prin efectuarea unei sumări. Modelul utilizează apoi un strat MLP pentru a produce tokenul de mască vizuală. În plus, Osprey păstrează geometria spațială a regiunii de obiect prin codificarea relației poziționale la nivel de pixel prin implementarea unei măști binare pentru fiecare regiune de obiect. În final, Osprey include tokenul de mască vizuală și tokenurile spațiale respective pentru fiecare încorporare de mască.

Tokenizarea LLM

Așa cum s-a menționat anterior, modelul extrage încorporările de imagine la nivel de imagine prin alimentarea imaginii într-un codificator de viziune preantrenat bazat pe CNN. Pentru informații textuale, modelul utilizează mai întâi tokenizatoare LLM preantrenate pentru a tokeniza secvențele de text și apoi proiectează aceste secvențe de text tokenizate în încorporări de text. Pentru regiunile bazate pe mască, modelul definește un token special ca un placeholder și apoi îl înlocuiește cu un token spațial împreună cu un token de mască. Când modelul se referă la o regiune de obiect în textul de intrare, el anexează placeholder-ul după numele regiunii, ceea ce permite regiunilor de mască să se amestece cu textul fără a lăsa spații de tokenizare. În plus, pe lângă instrucțiunile utilizatorului, modelul include și un prompt de prefix, un token special care servește ca un placeholder, care este apoi înlocuit cu încorporările de imagine la nivel de imagine ale codificatorului de viziune.

Osprey: Proces de Antrenare în Trei Etape

Cadrul Osprey utilizează un proces de antrenare în trei etape, în care fiecare etapă de antrenare este supervizată prin minimizarea pierderii de predicție a următorului token.

Etapa 1: Antrenarea de Aliniere Imagine-Text

În prima etapă, cadrul Osprey utilizează codificatorul de viziune CLIP bazat pe CNN pentru a antrena caracteristicile de imagine la nivel de imagine și conectorul de limbaj pentru a antrena modelul pentru alinierea caracteristicilor de imagine și text. În prima etapă, cadrul utilizează trei componente: un model de limbaj mare preantrenat, un codificator de viziune preantrenat și un proiectator de imagine la nivel de imagine. Cadrul adoptă, de asemenea, un strat MLP care servește ca conector vizual-lingvistic pentru a îmbunătăți capacitățile generative multimodale ale Osprey.

Etapa 2: Preantrenarea de Aliniere Mască-Text

În a doua etapă, Osprey încarcă greutățile antrenate în prima etapă și utilizează componenta sa de extractor vizual conștient de mască pentru a captura caracteristici de regiune la nivel de pixel. În a doua etapă, cadrul antrenează doar extractorul vizual conștient de mască pentru a alinia încorporările de limbaj cu caracteristici de regiune bazate pe mască. În plus, modelul colectează perechi de mască la nivel de pixel și texte scurte de la seturi de date de nivel de parte și de obiect disponibile public și le convertește în date de urmărire a instrucțiunilor pentru a antrena modelul suplimentar.

Etapa 3: Reglare Fină de la Capăt la Capăt

În a treia și ultima etapă, modelul fixează greutățile codificatorului de viziune și reglează modelul de limbaj mare, extractorul de caracteristici de regiune bazate pe mască și componentele proiectatorului de imagine la nivel de imagine din arhitectura sa. Scopul principal al antrenamentului din a treia etapă este de a extinde capacitățile modelului de a urma instrucțiunile utilizatorului cu acuratețe și de a efectua sarcini de înțelegere a regiunilor la nivel de pixel în mod eficient.

După implementarea celor trei etape de antrenare, cadrul Osprey este capabil să înțeleagă scenarii complexe definite de instrucțiunile utilizatorului și bazate pe regiuni de mască la nivel de pixel.

Osprey: Rezultate Experimentale

Pentru a evalua performanța sa, dezvoltatorii Osprey efectuează o varietate de experimente pentru a demonstra capacitățile modelului în clasificare, recunoaștere la nivel de regiune și descrieri complexe.

Segmentare cu Vocabular Deschis

Scopul principal al segmentării cu vocabular deschis este de a genera recunoaștere la nivel de regiune și categoria sa respectivă în mod explicit. Pentru a atinge segmentarea cu vocabular deschis, Osprey utilizează mai întâi un prompt de text de intrare, urmat de adoptarea regiunilor de mască de intrare pentru interferența modelului pentru a evalua performanța modelului în sarcinile de recunoaștere cu vocabular deschis. Pe baza răspunsului generat de modelul de limbaj multimodal, Osprey calculează similaritatea semantică între lista de vocabular și ieșirea fiecărui set de date.

Așa cum se poate observa, cadrul Osprey depășește metodele existente cu o marjă considerabilă atât pe setul de date Cityscapes, cât și pe setul de date ADE20K-150. Rezultatele indică capacitatea Osprey de a depăși abordările existente și de a atinge o înțelegere robustă și recunoaștere pe regiuni de obiect fine.

Clasificarea Obiectelor de Referință

În sarcina de clasificare a obiectelor de referință, modelul trebuie să clasifice obiectul dintr-o regiune specifică a unei imagini. Pentru a evalua capacitățile sale de clasificare, cadrul Osprey utilizează două metrice de relevanță semantică, incluzând IoU Semantic (S-IoU) și Similaritate Semantică (SS). IoU Semantică reprezintă suprapunerea cuvintelor dintre etichetele de ground-truth și cele de predicție, în timp ce Similaritatea Semantică măsoară similaritatea dintre etichetele de predicție și cele de ground-truth într-un spațiu semantic.

Descrierea Detaliată a Regiunilor

În sarcina de descriere detaliată a regiunilor, modelul evaluează performanța sa în capacitățile de descriere detaliată și de urmărire a instrucțiunilor, împreună cu alte abordări la nivel de regiune. Modelul selectează aleatoriu un prompt de inferență de intrare dintr-o listă de prompturi predefinite și utilizează cadrul LLM GPT-4 pentru a măsura calitatea răspunsului generat de model față de regiunile de referință în mod cuprinzător.

Descrierea la Nivel de Regiune

Cadrul Osprey depășește, de asemenea, abordările actuale în sarcinile de descriere la nivel de regiune, cu rezultatele conținute în imaginea următoare.

Gânduri Finale

În acest articol, am discutat despre Osprey, o metodă de antrenare a instrucțiunilor text-mască, cu scopul principal de a extinde capacitățile Modelelor Mari de Limbaj Multimodale prin incorporarea de regiuni mascate fine în instrucțiunile lingvistice pentru a atinge înțelegerea vizuală a limbajului la nivel de pixel. Pentru a-și atinge scopul, cadrul Osprey curatează un set de date de regiuni-text bazate pe mască cu peste 700 de mii de exemple și injectează reprezentarea la nivel de pixel în Modelele Mari de Limbaj pentru a proiecta un model de limbaj și viziune. Cadrul Osprey își propune să îmbunătățească Modelele Mari de Limbaj Multimodale pentru înțelegerea vizuală fină în mod semnificativ, și prin implementarea unui model CLIP bazat pe CNN și a unui extractor vizual conștient de mască, Osprey atinge capacitatea de a înțelege imagini atât la nivel de parte, cât și la nivel de obiect.

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.