Tekoäly

Visuaalisen ohjeistuksen säätö pikselitasoiselle ymmärtämiselle Ospreyn avulla

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Viimeaikaisen visuaalisen ohjeistuksen säätömenetelmien parantamisen myötä monimodaaliset suuret kielen mallit (MLLM) ovat osoittaneet merkittäviä yleispäteviä visio-kieli-ominaisuuksia. Nämä ominaisuudet tekevät niistä avainkomponentteja modernille yleispäteville visuaalisille avustajille. Viimeaikaiset mallit, kuten MiniGPT-4, LLaVA, InstructBLIP ja muut, osoittavat vaikuttavia visuaalisen päättelyn ja ohjeiden seuraamisen kykyjä. Vaikka useimmat niistä riippuvat kuvatekstipareista kuvan tasolla visio-kieli-säätössä, ne suoriutuvat hyvin tässä alueessa. Niiden riippuvuus kuitenkin laatikko- ja kuvatasolla on pääsyy sille, miksi MLLM:t eivät pysty toistamaan suorituskykyään hienojakoisissa visio-kieli-säätötehtävissä pikselitasolla. Lisäksi maskipohjaisen ohjeistusaineiston rajoitettu saatavuus koulutuksessa aiheuttaa haasteita MLLM:n edelleen kehittämisessä.

Osprey on maski-teksti-ohjeistusmenetelmä, jonka tärkein tavoite on laajentaa MLLM:iä. Se sisällyttää hienojakoiset maskattuja alueita kieliohjeisiin saavuttaakseen pikselitasoisen visuaalisen kielen ymmärtämisen. Tämän saavuttamiseksi Osprey-kehyksessä kootaan maskipohjainen alue-tekstiaineisto, jossa on yli 700 000 otosta. Se injektoi pikselitasoisen edustuksen suuriin kielimalleihin suunnittelemaan visio-kielimallia. Merkittävästi Osprey-kehyksessä otetaan käyttöön konvoluutio-CLIP-malli näkökohteena ja integroidaan maskitietoinen visuaalinen extractor sen arkkitehtuuriin. Tämä mahdollistaa tarkkaa visuaalisen maskin ominaisuuksien poimintaa korkearesoluutio syötteestä.

Tässä artikkelissa tarkastelemme Osprey-kehyksen arkkitehtuuria ja perehdytään syvemmälle siihen. Tarkastelemme myös kokoamaamme alue-tekstiaineistoa, jossa on yli 700 000 otosta, ja vertailemme sen suorituskykyä erilaisissa alueen ymmärtämistehtävissä. Joten, aloitetaan.

Osprey: Pikselin ymmärtäminen visuaalisen ohjeistuksen avulla

Monimodaaliset suuret kielen mallit, kuten MiniGPT-4, Otter, Qwen-LV, InstructBLIP ja muut, ovat kehittämässä yleispäteviä visuaalisia avustajia, ja ne ovat tunnettuja poikkeuksellisista monimodaalisista ja visuaalisista luomiskyvyistään. Kuitenkin monimodaaliset suuret kielen mallit kärsivät merkittävistä haasteista, koska ne toimittavat tyydyttämättömiä tuloksia hienojakoisissa kuvan ymmärtämistehtävissä, kuten kuvauksissa, alueen luokittelussa ja päättelyssä. Merkittävä syy tyydyttämättömälle suorituskyvylle hienojakoisissa kuvan ymmärtämistehtävissä on puute alue tasolla. Viimeaikaiset MLLM:t, kuten GPT4RoI, Shikra ja muut, pyrkivät mahdollistamaan alueen tason ymmärtämisen visio-kielimalleissa prosessoiden rajoittimella määritellyt alueet ja hyödyntäen visuaalista ohjeistus säätöä spatial ominaisuuksilla objektin tasolla.

… (translation continues as per the original content, maintaining the same structure and formatting)