Connect with us

Sztuczna inteligencja

Instrukcje wizualne do zrozumienia na poziomie pikseli z Osprey

mm

Wraz z ostatnimi udoskonaleniami metod dostosowywania instrukcji wizualnych, wielomodalne duże modele językowe (MLLM) wykazały się znaczącymi, ogólnymi możliwościami postrzegania i języka. Możliwości te sprawiają, że są one kluczowymi elementami budulcowymi nowoczesnych, ogólnych asystentów wizualnych. Niedawne modele, w tym MiniGPT-4, LLaVA, InstructBLIP i inne, wykazują imponujące zdolności rozumowania wizualnego i przestrzegania instrukcji. Chociaż większość z nich opiera się na parach obrazu i tekstu do wyrównania poziomu obrazu i języka, radzą sobie dobrze w tym zakresie. Jednak ich uzależnienie od poziomu pudełka i poziomu obrazu jest główną przyczyną, dla której MLLM nie są w stanie powielić swoich wyników na zadaniach wyrównania języka i wizji na poziomie pikseli. Dodatkowo, ograniczona dostępność danych instrukcji opartych na maskach do szkolenia stanowi wyzwanie w dalszym udoskonaleniu MLLM.

Osprey to metoda szkolenia instrukcji maski i tekstu, której głównym celem jest rozszerzenie możliwości MLLM. Wprowadza drobne, maskowane regiony w instrukcji językowej, aby osiągnąć zrozumienie języka i wizji na poziomie pikseli. Aby to osiągnąć, ramy Osprey tworzą zestaw danych regionu i tekstu opartych na maskach, liczący ponad 700 tysięcy próbek. Wstrzykuje reprezentację na poziomie pikseli do dużych modeli językowych, aby zaprojektować model języka i wizji. Godne uwagi jest to, że ramy Osprey przyjmują model CLIP oparty na sieciach convolutionalnych jako swój kodujący wizję i integrują świadomy wizualny ekstraktor maski w swojej architekturze. Pozwala to na precyzyjne wyodrębnienie cech wizualnych maski z wejściem o wysokiej rozdzielczości.

W tym artykule omówimy ramy Osprey i zagłębimy się w ich architekturę. Będziemy również badać zestaw danych regionu i tekstu z ponad 700 tysiącami próbek i porównywać ich wyniki w różnych zadaniach zrozumienia regionu. Zatem, zacznijmy.

Osprey: Zrozumienie na poziomie pikseli z instrukcjami wizualnymi

Wielomodalne duże modele językowe, takie jak MiniGPT-4, Otter, Qwen-LV, InstructBLIP i inne, są pionierami w rozwoju ogólnych asystentów wizualnych i słyną z wyjątkowych, wielomodalnych i generatywnych możliwości wizji. Jednak wielomodalne duże modele językowe mają do czynienia z poważnym wyzwaniem, ponieważ dostarczają niezadowalających wyników w zadaniach zrozumienia obrazu na poziomie drobnym, takich jak podpis, klasyfikacja regionu i rozumowanie. Główną przyczyną słabych wyników w zadaniach zrozumienia obrazu na poziomie drobnym jest brak wyrównania na poziomie regionu. Niedawne MLLM, takie jak GPT4RoI, Shikra i inne, mają na celu umożliwienie zrozumienia na poziomie regionu w modelach języka i wizji, przetwarzając regiony określone przez pudełka i wykorzystując instrukcje wizualne z cechami przestrzennymi na poziomie obiektu.

… (reszta treści)

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.