Umelá inteligencia

Fretka: Odporučte a uzemnite s akoukoľvek zrnitosťou

uverejnené

4 mesiacmi

Januára 16, 2024

FRETKA: ODKAZUJTE A BRUSTE PRI AKEJKOĽVEK Zrnitosti

Umožnenie priestorového porozumenia v modeloch učenia sa jazyka vízie zostáva hlavnou výskumnou výzvou. Toto pochopenie podporuje dve kľúčové schopnosti: uzemnenie a odkazovanie. Odkazovanie umožňuje modelu presne interpretovať sémantiku špecifických oblastí, zatiaľ čo uzemnenie zahŕňa použitie sémantických popisov na lokalizáciu týchto oblastí.

Vývojári predstavili Ferret, multimodálny veľký jazykový model (MLLM), ktorý je schopný porozumieť priestorovým odkazom naprieč akoukoľvek zrnitosťou alebo tvarom v obrázku a presne zakotviť popisy s otvorenou slovnou zásobou. Fretka používa novú hybridnú reprezentáciu kombinujúcu spojité prvky a diskrétne súradnice na reprezentáciu oblastí obrazu. Jeho priestorový vizuálny vzorkovač zvláda rôzne riedke tvary, čo mu umožňuje spracovať rôzne regionálne vstupy, ako sú tvary voľného tvaru, ohraničujúce rámčeky a body.

Ferretov prístup jej umožňuje vyniknúť v klasických úlohách uzemnenia a odkazovania a prekonať ostatné MLLM v lokalizácii náročnej a regionálnej multimodálnej komunikácii. Tento článok sa ponorí do architektúry a metodológie spoločnosti Ferret a zdôrazňuje jej pôsobivý výkon v rôznych multimodálnych jazykových úlohách. Preskúmajme to ďalej.

Fretka: Vynikajúci výkon pri odovzdávaní a ukotvovaní úloh

Odkazovanie v modeli je schopnosť, ktorá umožňuje modelu presne pochopiť sémantiku daných špecifických oblastí, zatiaľ čo uzemnenie znamená, že model musí použiť dané sémantické popisy na lokalizáciu regiónov. Hoci sa môžu líšiť vo svojich príslušných úlohách, odkazovanie aj uzemnenie majú rovnaký základný koncept: zosúladenie priestorovej sémantiky a informácií. Napriek tomu, že zdieľajú rovnaký koncept, existujúce modely sa učia uzemňovať a odkazovať individuálne. Hoci metóda funguje, predstavuje prekážku pri dosahovaní schopností podobných ľuďom, pretože ľudia sa môžu učiť z jednej úlohy a bez problémov aplikovať poznatky na iné úlohy a sú schopní bez námahy integrovať schopnosti uzemnenia/odkazovania s uvažovaním a každodenným dialógom. Rámec Ferret čerpá inšpiráciu z vyššie uvedenej medzery v existujúcich rámcoch MLLM a študuje tri hlavné otázky:

Ako zjednotiť schopnosti uzemnenia a odkazovania v rámci a ako bude ich súzvuk vzájomne prospešný?
Používajú ľudia na odkazovanie všestranné typy oblastí, ako je krabica, bod, čmáranica, tvary voľného tvaru? Ako reprezentovať tieto všestranné regióny?
Ako vytvoriť uzemňujúci a odkazujúci návod, robustný a otvorený slovník, ktorý je rozhodujúci pre ich praktické aplikácie a aplikácie v reálnom čase?

Rámec pre fretky je nový referenčný a základný multimodálny veľký jazykový model, ktorý sa pokúša zamerať sa na tieto otázky. Rámec Ferret si vyberá a Multimodálny veľký jazykový model ako jej základ vďaka ich pozoruhodnej globálnej vízii a schopnosti porozumieť jazyku. Okrem toho, aby sa zjednotili schopnosti uzemnenia a odkazovania, rámec Ferret predstavuje súradnice regiónov v numerickej forme prirodzeného jazyka. V praxi je však neefektívne používať súradnice rámčeka alebo dokonca jednotlivé body na reprezentáciu všestranných tvarov oblastí, ako sú čmáranice, ťahy alebo zložité polygóny, pretože tieto tvary sú rozhodujúce pre zvýšenú presnosť a univerzálnejšiu interakciu medzi človekom a modelom. Na vyriešenie tohto problému používa rámec Ferret priestorový vizuálny vzorkovač, ktorý získava vizuálne oblasti pre regióny bez ohľadu na tvar, čím sa vyjednáva s rôznou vzácnosťou v týchto tvaroch. Rámec potom kombinuje kontinuálne vizuálne prvky s diskrétnymi súradnicami, aby reprezentovali vizuálne oblasti vo vstupe, čo vedie k vytvoreniu reprezentácie hybridnej oblasti vo Ferret.

Rámec Ferret nasadzuje vyššie uvedené metódy na riešenie vstupu, ktorý kombinuje text vo voľnom formáte s uvedenými oblasťami a je schopný bez problémov generovať súradnice pre každý uzemnený objekt s generovaním textu na uzemnenie uvedených objektov vo výstupe. Vďaka tomu je Ferret prvým rámcom na spracovanie voľne tvarovaných vstupných oblastí v multimodálnych veľkých jazykových modeloch. Okrem toho rámec Ferret absorbuje pozoruhodné schopnosti priestorovej lokalizácie a porozumenia s otvorenou slovnou zásobou, čo umožňuje dosiahnuť vynikajúci výkon pri hodnotení konvenčných úloh uzemnenia a odkazovania.

Rámec Ferret hľadá inšpiráciu v troch existujúcich rámcoch AI vrátane multimodálnych veľkých jazykových modelov, MLLM pre referovanie a uzemnenie a Unifying Grounding a VL Understanding.

Zavedenie veľkých jazykových modelov vrátane GPT, DALL-E, PaLM, LLaMA a BLOOM zmenilo prostredie vo výskume NLP, čo má za následok významný pokrok v multimodálnych jazykových modeloch. Skoršie multimodálne jazykové modely sa zameriavali predovšetkým na generovanie obrázkov a textu vo veľkom meradle, pričom niektoré pozoruhodné príklady sú PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 a PaLI-X. Keďže však rámec Flamingo dosiahol efektívnu integráciu LLM s vopred vyškoleným kódovačom obrázkov CLIP prostredníctvom blokov pozornosti s krížovou bránou, čo viedlo k pozoruhodným multimodálnym schopnostiam učenia sa niekoľkých snímok. Súčasný výskum hľadá spôsoby, ako využiť predtrénované veľké jazykové modely na ladenie vizuálnych pokynov s pozoruhodnými príkladmi miniGPT-4, Vydra, InstructBLIP a ďalšie. A čo viac, nedávne modely ako Emu a GILL preukázali pozoruhodný úspech pri používaní MLLM na generovanie a získavanie obrázkov. Rámec Ferret tiež odkazuje na predchádzajúci výskum, ktorý sa zameriava na zjednotenie textu a výstupu ohraničenia pre modely Vision Language.

Fretka: Metodológia a architektúra

Zastúpenia hybridných regiónov

Bodové, krabicové a voľne tvarované tvary sú tri dominantné formáty, ktoré jazykový model používa pri odkazovaní na konkrétne regióny. Na jednej strane, bod a formát poľa môžu byť presne reprezentované súradnicami, mapovanie tvarov voľného tvaru je trochu náročné, pretože tvary voľného tvaru sú všestranné. Voľné tvary, ktoré sú všestranné, môžu zahŕňať širokú škálu oblastí vrátane masiek, mnohouholníkov a čmáraníc. Použitie súradníc na zobrazenie tvarov voľného tvaru je zložitá úloha, ktorá bráni schopnosti modelu naučiť sa vytvoriť koreláciu medzi oblasťami a zodpovedajúcimi súradnicami. Okrem toho je použitie súradníc pre tvary voľného tvaru výpočtovo nákladné a nejasné.

Na vyriešenie tohto problému a na zovšeobecnenie vo všetkých troch formátoch rámec Ferret navrhuje reprezentáciu hybridnej oblasti, ktorá synergizuje kontinuálne vizuálne prvky s diskrétnymi súradnicami, aby odkazovala na konkrétnu oblasť.

Pre kontinuálne vizuálne prvky pre danú oblasť fretková štruktúra najprv vytvorí 2D binárnu masku rovnakej veľkosti ako obrázok a označí hodnotu 1 v cieľovej oblasti, pričom priradí hodnotu 0 mimo oblasti. Model potom extrahuje binárnu masku spolu s extrahovanou mapou obrazových prvkov a potom ju odošle do priestorového vizuálneho vzorkovača.

architektúra

Architektúra modelu Ferret pozostáva z troch hlavných komponentov

Kódovač obrázkov na extrahovanie vložených obrázkov.
Vizuálne vzorky Spatial Aware na extrahovanie regionálnych súvislých prvkov.
Veľký jazykový model na spoločné modelovanie textových, obrázkových a regionálnych prvkov.

Obrázok sa najprv vloží do vopred pripraveného vizuálneho kódovača, aby sa extrahovali vložené obrázky. Pre textové vstupy framework najprv používa predtrénovaný tokenizér LLM na tokenizáciu sekvencie textu a potom tieto tokeny premietne do vloženia textu. Pre uvedené oblasti pripojí fretka špeciálny token a súradnice ako zástupný znak pre súvislé objekty za názov regiónu. Ak je názov regiónu neznámy alebo je zložitý na opis v dôsledku zahrnutia niekoľkých objektov, rámec používa iba názov oblasti alebo regiónu.

Jednou z hlavných výziev týkajúcich sa uvedených oblastí je, že ich tvar sa môže značne líšiť, čo znamená, že môžu mať rôzne tvary a nie sú obmedzené len na obdĺžnikové polia alebo body. Referenčné oblasti s nepravidelnými tvarmi nemožno spracovať tradičnými metódami, ako je spracovanie založené na mriežke vrátane techník náplasti alebo konvolúcie. Na vyriešenie tohto problému navrhuje framework Ferret Spatial-Aware Visual Sampler. Pre danú extrahovanú mapu prvkov s maskou binárnej oblasti model Ferret najprv náhodne odoberie N počet bodov v maske binárnej oblasti.

Pre každý jednotlivý bod model získa svoju vlastnosť vykonaním bilineárnej interpolácie. N bodov sa potom privádza do vodopádu blokov, pričom každý z nich prechádza tromi rôznymi fázami: vzorkovanie, zhromažďovanie a združovanie. Vo fáze vzorkovania sa z N počtu dostupných bodov odoberá pevný počet bodov pomocou algoritmu FPS alebo Farthest Point Sampling, ktorý zaručuje primerané pokrytie. V druhom kroku, pre každý vzorový bod, framework hľadá svojich k najbližších susedov zo skupiny dostupných N bodov. Pre každú skupinu potom model spája vlastnosti vzorového bodu s jeho susednými bodmi. V poslednom kroku framework Ferret vykonáva maximálne združovanie na zlúčenie k susedných prvkov do jedného prvku, ktorý slúži ako reprezentácia vzorkovaného bodu. Vykonaním týchto troch krokov zostane rámcu Ferret menej bodov, ale má priestor s vyššou hustotou, pretože zahŕňa nielen vlastnosti miestnych susedov, ale aj ich relatívne polohy.

Generovanie vizuálnych údajov pomocou GPT

Údaje o ladení dialógových inštrukcií sú pre multimodálne veľmi dôležité Veľké jazykové modely nepomáhajú len pri konverzii existujúcej množiny údajov pomocou šablón, ale tiež pomáhajú modelu pochopiť ľudský zámer a generovať vhodnú reakciu. Väčšina MLLM používa metódu niekoľkých záberov na získanie údajov o ladení vizuálnych pokynov, kde model poskytuje textový popis scén v obraze spolu s dialógmi s ľudskými poznámkami ako ukážky niekoľkých záberov. Existujúce metódy ladenia inštrukcií sa však primárne zameriavajú na popis celého obrazu bez explicitného špecifikovania priestorových informácií. Rámec Ferret kladie dôraz na regionálne znalosti na zhromažďovanie údajov odkazu a ladenia pozemných inštrukcií v troch krokoch.

Okrem použitia globálnych titulkov a objektov poskytuje rámec symbolický popis scény, ktorý popisuje fyzický vzťah medzi popiskami regiónu a objektmi a zároveň poskytuje ich súradnice.
V prípade dialógov anotovaných človekom rámec pridáva súradnice po uzemnených objektoch alebo regiónoch buď na vstupe alebo výstupe, alebo oboje, pričom dialógy sa primárne zameriavajú na konkrétne regióny, čo pomáha pri podnecovaní jazykového modelu, aby implicitne nasledoval podobné vzorce pre novú generáciu dialógov.
Je možné, že dialóg vygenerovaný rámcom sa nemusí riadiť pravidlami a vzormi, ako je uvedené v niekoľkých príkladoch a systémových výzvach. Na vyriešenie tohto problému rámec opäť používa jazykový model na spresnenie dialógov pôvodne generovaných modelom.

Priestorová negatívna ťažba

Predchádzajúci výskum ukázal, že multimodálne veľké jazykové modely majú vysokú pravdepodobnosť halucinácií, keď odpovedajú na otázky áno alebo nie. Aby sa zabezpečilo, že model Ferret nebude v podobných podmienkach halucinovať, rámec využíva prístup priestorovej negatívnej ťažby s lokalizáciou kategórie podmienenej obrazom a lokalizáciou kategórie podmienenou sémantikou. Obe tieto metódy vyžadujú od modelu lokalizáciu špecifických kategórií objektov, ktoré umožňujú modelu rozpoznať neprítomnosť určitých objektov na obrázku.

Fretka: Výsledky a experimenty

Aby sa analyzovala jeho výkonnosť, je framework Ferret hodnotený na základe konvenčných referenčných a referenčných benchmarkov, po ktorých je rámec hodnotený v zložitejšej úlohe multimodálneho chatovania a testovaním jeho schopností refer-and-ground.

Schopnosť modelu porozumieť odkazovaniu sa hodnotí podľa toho, ako presne model dokáže pochopiť sémantiku odkazovanej oblasti vzhľadom na odkazovanú oblasť na obrázku alebo otázku. Na meranie presnosti modelu, objektov, sa najskôr zvažuje najzákladnejšia sémantika, pretože je nielen základná, ale aj ľahko definovateľná. Aby sa napodobnila všestrannosť na úrovni ľudí, rámec nahrádza umiestnenie objektu na obrázku voľným tvarom, rámčekom a bodom. Pre tvar voľnej formy model náhodne generuje ťahy v rámci objektu Ground Truth na simuláciu. Pre box používa rámec Ferret základný pravdivý ohraničujúci box poskytovaný komponentom LVIS. Nakoniec, pre bod, model náhodne vyberie bod v rámci objektu základnej pravdy, ktorý je tiež blízko hranice objektu základnej pravdy. Výsledky troch typov odkazovania sú znázornené na nasledujúcom obrázku.

Rámec Ferret demonštruje pozoruhodný výkon v referenčných dialógových úlohách, čím vytvára priestor pre integráciu s rôznymi úlohami vizuálneho učenia, najmä s tými, ktoré majú uzemňujúce výstupy. Na posúdenie svojej uzemňovacej schopnosti sa rámec Ferret najprv podrobuje porovnávaniu úloh vizuálneho uzemnenia pomocou generatívnej paradigmy. Rámec potom vyhodnotí svoju schopnosť na základe úloh titulkov zmerať zarovnanie medzi regiónmi a slovami.

V úlohách vizuálneho uzemnenia sa rámec zameriava na uzemnenie jazykových dopytov do zarovnaných oblastí obrázka a ako je možné vidieť na nasledujúcom obrázku, rámec Ferret demonštruje pozoruhodný výkon vo všetkých benchmarkoch a výkon je porovnateľný s výkonom dosiahnutým špecializované metódy jemného dolaďovania.

Pre úlohy zakotveného titulku musí model vygenerovať titulok a potom uzemniť vygenerované podstatné menné frázy do oblastí obrázka. Konečná predpoveď vytvorená modelom pozostáva z troch komponentov: vizuálne oblasti ako rámčeky, textové titulky a uzemňovacie zarovnania medzi rámčekmi a slovami. Výsledky sú znázornené na nasledujúcom obrázku a ako je možné vidieť, rámec poskytuje výkon porovnateľný so súčasnými metódami.

Napokon, multimodálne chatovanie je jednou z najžiadanejších schopností v rámci MLLM a existujúce MLLM primárne hodnotia podrobné popisy, konverzáciu a komplexné uvažovanie s jazykovým modelom ako sudca. Keďže však žiadny súbor údajov nevyhodnocuje multimodálne chatovanie s povinným odkazovaním alebo uzemňovacími akciami, ponecháva medzeru. Aby sa preklenula táto medzera, rámec pre fretky pokrýva tri regionálne otázky, aby sa vyhodnotili jeho referenčné a uzemňovacie schopnosti v úlohách multimodálneho chatovania. Výsledky sú znázornené na nasledujúcom obrázku.

Nakoniec sa rámec Ferret porovnáva priamo so súčasným rámcom GPT a výsledky sú uvedené nižšie.

Záverečné myšlienky

V tomto článku sme hovorili o Ferret, multimodálnom veľkom jazykovom modeli, ktorý demonštruje pozoruhodné schopnosti uzemnenia a odkazovania. Rámec pre fretky môže odkazovať na oblasti obrazu bez ohľadu na jeho tvar a môže automaticky vytvoriť základ pre text predpovedaný modelom. Ferret využíva priestorový vizuálny vzorkovač schopný zvládnuť rôznu riedkosť zobrazenú rôznymi tvarmi na extrahovanie súvislých prvkov všestranných oblastí. Výsledkom je, že rámec Ferret môže vkladať rôzne vstupy do oblastí vrátane tvarovačov voľného tvaru, ohraničujúcich rámčekov a bodov.

Súvisiace témy:fretka MLLM Multimodálny veľký jazykový model

Nasledujúci

Vývoj poháňaný AI: Odpoveď Locofy.ai na globálnu technologickú výzvu

Nenechajte si ujsť

Rozbaľovanie Yolov8: Masterpiece vírusovej počítačovej vízie Ultralytics

Kunal Kejriwal

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.