Sztuczna inteligencja

Ferret: Refer i Grounduj na dowolnej granulacji

Opublikowano 16 stycznia 2024

Zaktualizowano 22 maja 2026

Przez

Kunal Kejriwal

FERRET: REFER AND GROUND AT ANY GRANULARITY

Włączenie zrozumienia przestrzennego w modelach uczenia języka i wizji pozostaje podstawowym wyzwaniem badawczym. To zrozumienie jest podstawą dwóch kluczowych zdolności: odniesienia i umiejscowienia. Odwoływanie się umożliwia modelowi dokładną interpretację semantyki określonych regionów, podczas gdy umiejscowienie polega na wykorzystaniu opisów semantycznych do lokalizacji tych regionów.

Twórcy wprowadzili Ferret, wielomodalny duży model językowy (MLLM), który potrafi zrozumieć przestrzenne odniesienia na dowolnej granulacji lub kształcie w obrazie i dokładnie umiejscowić opisy słowne o otwartej słownictwie. Ferret wykorzystuje nową hybrydową reprezentację, łączącą cechy ciągłe i współrzędne dyskretne, aby reprezentować regiony obrazu. Jego przestrzennie świadomy próbnik wizualny radzi sobie z różną rzadkością kształtów, umożliwiając mu przetwarzanie różnorodnych wejść regionów, takich jak kształty swobodne, prostokąty i punkty.

Ferret’s podejście pozwala mu wyróżniać się w klasycznych zadaniach odniesienia i umiejscowienia oraz przewyższać inne MLLM w zadaniach komunikacji wielomodalnej wymagających lokalizacji i opisu regionów. Artykuł ten zagłębia się w architekturę i metodologię Ferret, podkreślając jego imponujące wyniki w różnych zadaniach językowych wielomodalnych. Przejdźmy do tego dalej.

Ferret: Wyższa wydajność w zadaniach odniesienia i umiejscowienia

Odwoływanie się w modelu jest zdolnością, która pozwala modelowi zrozumieć semantykę określonych regionów, natomiast umiejscowienie jest niezbędne dla modelu, aby użyć opisów semantycznych do lokalizacji tych regionów. Chociaż mogą się one różnić w swoich zadaniach, odniesienie i umiejscowienie mają ten sam podstawowy koncept: wyrównanie semantyki przestrzennej i informacji. Jednak pomimo dzielenia tego samego konceptu, istniejące modele uczą się odniesienia i umiejscowienia indywidualnie. Chociaż metoda ta działa, stwarza przeszkodę w osiągnięciu zdolności podobnych do ludzkich, ponieważ ludzie mogą uczyć się z jednego zadania i stosować wiedzę do innych zadań bezproblemowo, a także są w stanie bez wysiłku integrować zdolności odniesienia/umiejscowienia z rozumowaniem i codzienną rozmową. Ramy Ferret czerpią inspirację z powyższej luki w istniejących ramach MLLM i badają trzy główne pytania:

Jak zjednoczyć zdolności odniesienia i umiejscowienia w ramach, i jak ich zjednoczenie będzie korzystne dla siebie nawzajem?
Ludzie używają różnorodnych typów regionów, takich jak pudełka, punkty, szkice, kształty swobodne, do odniesienia? Jak reprezentować te różnorodne regiony?
Jak uczynić odniesienie i umiejscowienie zgodne z instrukcjami, odporne i otwarte, co jest krytyczne dla ich praktycznych i rzeczywistych zastosowań?

Ramy Ferret są nowym modelem referencyjnym i umiejscowienia, który próbuje rozwiązać te pytania. Ramy Ferret wybierają wielomodalny duży model językowy jako podstawę ze względu na ich wyjątkową wizję globalną i zrozumienie języka. Ponadto, aby zjednoczyć zdolności odniesienia i umiejscowienia, ramy Ferret reprezentują współrzędne regionów w postaci liczbowej języka naturalnego. Jednak w praktyce nie jest wydajne używanie współrzędnych pudełka lub nawet pojedynczych punktów do reprezentowania różnorodnych kształtów regionów, takich jak szkice, pociągnięcia lub złożone wielokąty, ponieważ te kształty są krytyczne dla poprawionej precyzji i bardziej powszechnego ludzkiego-wzajemnego oddziaływania. Aby rozwiązać ten problem, ramy Ferret wykorzystują przestrzennie świadomy próbnik wizualny, który pozyskuje regiony wizualne dla regionów niezależnie od kształtu, negocjując w ten sposób z różną rzadkością w tych kształtach. Następnie ramy łączą ciągłe cechy wizualne z dyskretnymi współrzędnymi, aby reprezentować regiony wizualne w wejściu, co skutkuje utworzeniem hybrydowej reprezentacji regionu w Ferret.

Ramy Ferret wdrożenia powyższych metod w celu rozwiązania wejścia, które łączy swobodny tekst z odniesionymi regionami, i jest w stanie bezproblemowo generować współrzędne dla każdego obiektu, który może być umiejscowiony, generując jednocześnie tekst do umiejscowienia wymienionych obiektów w wyjściu. Dzięki temu Ferret jest pierwszymi ramami, które przetwarzają swobodne regiony wejściowe w wielomodalnych dużych modelach językowych. Ponadto ramy Ferret absorbują wyjątkowe zdolności otwartej słownictwa lokalizacji przestrzennej i zrozumienia, co pozwala ramom osiągnąć wyższą wydajność podczas oceny konwencjonalnych zadań odniesienia i umiejscowienia.

Przechodząc dalej, ramy Ferret czerpią inspirację z trzech istniejących ram AI, w tym wielomodalnych dużych modeli językowych, MLLM dla odniesienia i umiejscowienia, oraz ujednolicenia umiejscowienia i zrozumienia języka wizualnego.

Wprowadzenie dużych modeli językowych, w tym GPT, DALL-E, PaLM, LLaMA i BLOOM, zmieniło krajobraz badań NLP, powodując znaczące postępy w modelach językowych wielomodalnych. Wcześniejsze modele wielomodalne koncentrowały się głównie na generowaniu obrazu i tekstu w dużym zakresie, z niektórymi godnymi uwagi przykładami, takimi jak PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 i PaLI-X. Jednak od czasu, gdy ramy Flamingo osiągnęły wydajną integrację LLM z pre-trenowanym kodowanym obrazem CLIP za pomocą bloków uwagi krzyżowej, co skutkowało wyjątkowymi zdolnościami wielomodalnego uczenia się w kilku przypadkach. Aktualne badania szukają sposobów wykorzystania pre-trenowanych dużych modeli językowych do strojenia wizualnego zgodnie z instrukcjami, z niektórymi godnymi uwagi przykładami, takimi jak MiniGPT-4, Otter, InstructBLIP i więcej. Co więcej, niedawne modele, takie jak Emu i GILL, pokazały wyjątkowy sukces w wykorzystaniu MLLM do generowania obrazów i odzyskiwania obrazów. Ramy Ferret również odnoszą się do wcześniejszych badań, które koncentrują się na ujednoliceniu tekstu i wyjścia pudełka dla modeli języka wizji.

Ferret: Metodologia i Architektura

Hybrydowa reprezentacja regionu

Punkt, pudełko i kształty swobodne są trzema dominującymi formatami, które model językowy wykorzystuje podczas odniesienia do określonych regionów. Z jednej strony, punkt i format pudełka mogą być dokładnie reprezentowane przez współrzędne, mapowanie kształtów swobodnych jest nieco wyzwaniem, ponieważ kształty swobodne mogą obejmować szeroki zakres regionów, w tym maski, wielokąty i szkice. Używanie współrzędnych do opisu kształtów swobodnych jest złożonym zadaniem, które utrudnia modelowi możliwość nauczenia się ustanowienia korelacji między regionami a odpowiadającymi im współrzędnymi. Ponadto, używanie współrzędnych dla kształtów swobodnych jest obliczeniowo kosztowne i niejasne.

Aby rozwiązać ten problem i uogólnić wszystkie trzy formaty, ramy Ferret proponują hybrydową reprezentację regionu, która łączy ciągłe cechy wizualne z dyskretnymi współrzędnymi, aby odnosić się do określonego regionu.

Dla ciągłych cech wizualnych, dla danego regionu, ramy Ferret najpierw konstruują 2D binarną maskę o tym samym rozmiarze, co obraz, i oznaczają wartość 1 wewnątrz celowanego regionu, a wartość 0 na zewnątrz regionu. Następnie model wyodrębnia binarną maskę wraz z wyodrębnioną mapą cech obrazu i wysyła ją do przestrzennie świadomego próbnika wizualnego.

Architektura

Architektura modelu Ferret składa się z trzech głównych komponentów

Kodera obrazu do wyodrębnienia osadzeń obrazu.
Przestrzennie świadomy próbnik wizualny do wyodrębnienia ciągłych cech regionalnych.
Duży model językowy do modelowania tekstu, obrazu i cech regionu wspólnie.

Obraz jest najpierw wprowadzany do pre-trenowanego kodera wizualnego w celu wyodrębnienia osadzeń obrazu. Dla wejść tekstowych ramy najpierw wykorzystują pre-trenowanego tokenera LLM do tokenizacji sekwencji tekstu, a następnie projektują te tokeny do osadzeń tekstu. Dla odniesionych regionów Ferret dołącza specjalny token i współrzędne jako placeholder dla ciągłych cech po nazwie regionu. Jeśli nazwa regionu jest nieznana lub jest skomplikowana do opisu z powodu uwzględnienia kilku obiektów, ramy używają tylko nazwy obszaru lub nazwy regionu.

Jednym z głównych wyzwań związanych z odniesionymi regionami jest to, że ich kształt może być bardzo zmienny, co oznacza, że mogą mieć różne kształty i nie są ograniczone do prostokątnych pudełek lub punktów. Odwoływanie się do regionów o nieregularnych kształtach nie może być przetwarzane za pomocą tradycyjnych metod, takich jak przetwarzanie oparte na siatce, w tym uwaga oparta na patchach lub techniki konwolucyjne. Aby rozwiązać ten problem, ramy Ferret proponują przestrzennie świadomy próbnik wizualny. Dla danego wyodrębnionego obrazu z binarną maską regionu, model Ferret najpierw losowo próbuje N punktów wewnątrz binarnej maski regionu.

Dla każdego punktu model otrzymuje jego cechy, wykonując interpolację dwuliniową. Następnie punkty są wprowadzane do kaskady bloków, z których każdy przechodzi przez trzy różne etapy: próbkowanie, gromadzenie i pulowanie. W fazie próbkowania ustalona liczba punktów jest próbkowana z N dostępnych punktów za pomocą algorytmu FPS (Farthest Point Sampling), który gwarantuje odpowiednią pokrywę. W drugim kroku, dla każdego punktu próbnego, ramy wyszukują jego k najbliższych sąsiadów z puli dostępnych N punktów. Dla każdej grupy model łączy cechy punktu próbnego z cechami sąsiadów. W końcowym kroku ramy Ferret przeprowadzają pulowanie maksymalne, aby połączyć k cech sąsiadów w jedną cechę, która działa jako reprezentacja dla punktu próbnego. Wykonując te trzy kroki, ramy Ferret pozostają z mniejszą liczbą punktów, ale cechami przestrzeni o wyższej gęstości, ponieważ łączą nie tylko cechy lokalnych sąsiadów, ale także ich względne pozycje.

Pomocnicza generacja danych wizualnych GPT

Dane do strojenia instrukcji dialogowych są niezwykle ważne dla wielomodalnych dużych modeli językowych, ponieważ nie tylko pomagają w konwersji istniejących zbiorów danych za pomocą szablonów, ale także pomagają modelowi zrozumieć intencje ludzkie i generować odpowiednie odpowiedzi. Większość MLLM wykorzystuje metodę few-shot prompting, aby uzyskać dane do strojenia wizualnego, w której model dostarcza opis tekstowy sceny w obrazie wraz z ludzkimi dialogami jako few-shot demonstracje. Jednak istniejące metody strojenia koncentrują się głównie na opisie całego obrazu bez określania informacji przestrzennych w sposób wyraźny. Ramy Ferret kładą nacisk na wiedzę opartą na regionie, aby zebrać dane do strojenia instrukcji odniesienia i umiejscowienia w trzech krokach.

Ponadto, ramy używają opisu sceny symbolicznej, który opisuje relację fizyczną między opisami regionów a obiektami, a także ich współrzędne.
Dla ludzkich dialogów ramy dodają współrzędne po obiektach lub regionach, które mogą być umiejscowione, w wejściu lub wyjściu, lub w obu, z dialogami koncentrującymi się głównie na określonych regionach, co pomaga w pobudzaniu modelu językowego do naśladowania podobnych wzorców dla nowej generacji dialogu.
Może się zdarzyć, że wygenerowany dialog przez ramy nie będzie mógł naśladować reguł i wzorców, jak nakazują few-shot przykłady i systemowe polecenia. Aby rozwiązać ten problem, ramy ponownie wykorzystują model językowy do ulepszenia dialogów wygenerowanych przez model początkowo.

Przestrzenne wydobywanie negatywne

Wcześniejsze badania wykazały, że wielomodalne duże modele językowe mają wysokie prawdopodobieństwo halucynacji, gdy odpowiadają na pytania tak/nie. Aby upewnić się, że model Ferret nie halucynuje w podobnych warunkach, ramy wykorzystują podejście przestrzennie negatywnego wydobywania z lokalizacją kategorii warunkowaną obrazem i semantyką. Obie metody proszą model o umiejscowienie określonych kategorii obiektów, co pozwala modelowi rozpoznać brak pewnych obiektów w obrazie.

Ferret: Wyniki i eksperymenty

Aby przeanalizować swoją wydajność, ramy Ferret są oceniane na konwencjonalnych benchmarkach odniesienia i umiejscowienia, a następnie ramy są oceniane w bardziej złożonym zadaniu rozmowy wielomodalnej i testowaniu ich zdolności odniesienia i umiejscowienia.

Zdolność modelu do zrozumienia odniesienia jest oceniana przez to, jak dokładnie model może zrozumieć semantykę odniesionego regionu, danego regionu w obrazie lub pytania. Aby zmierzyć dokładność modelu, obiekty, najbardziej podstawowa semantyka, są brane pod uwagę najpierw, ponieważ są one nie tylko podstawowe, ale także łatwe do zdefiniowania. Aby naśladować ludzką wszechstronność, ramy zastępują położenie obiektu w obrazie kształtem swobodnym, pudełkiem i punktem. Dla kształtu swobodnego model losowo generuje pociągnięcia wewnątrz obiektu Ground Truth w celu symulacji. Dla pudełka ramy Ferret wykorzystują pudełko bounding box dostarczone przez składnik LVIS. W końcu, dla punktu, model losowo próbuje punkt wewnątrz obiektu Ground Truth, który jest również blisko granicy obiektu Ground Truth. Wyniki na trzech typach odniesienia są pokazane na poniższym obrazie.

Ramy Ferret wykazują się imponującą wydajnością w zadaniach dialogowych odniesienia, tworząc przestrzeń do integracji z różnymi zadaniami uczenia wizualnego, szczególnie tymi z wyjściami umiejscowienia. Aby ocenić ich zdolność umiejscowienia, ramy Ferret najpierw poddają się benchmarkowym zadaniom umiejscowienia wizualnego z paradygmatem generatywnym. Następnie ramy oceniają ich zdolność w zadaniach podpisów umiejscowionych, aby zmierzyć wyrównanie między regionami a słowami.

W zadaniach umiejscowienia wizualnego ramy Ferret mają na celu umiejscowienie zapytań językowych w wyrównanych regionach obrazu, a jak można zobaczyć na poniższym obrazie, ramy Ferret wykazują się imponującą wydajnością we wszystkich benchmarkach, a ich wydajność jest porównywalna z tą osiągniętą przez specjalistyczne metody dostrajania.

Dla zadań podpisów umiejscowionych model musi wygenerować podpis, a następnie umiejscowić wygenerowane frazy rzeczownikowe w regionach obrazu. Ostateczna predykcja modelu składa się z trzech składników: regionów wizualnych jako pudełek, podpisów tekstowych i wyrównań umiejscowienia między pudełkami a słowami. Wyniki są pokazane na poniższym obrazie, a jak można zobaczyć, ramy dostarczają wydajność porównywalną do najlepszych metod.

W końcu, rozmowa wielomodalna jest jedną z najbardziej pożądanych zdolności w MLLM, a istniejące MLLM głównie oceniają szczegółowe opisy, rozmowę i złożone rozumowanie z modelem językowym jako sędzią. Jednak ponieważ nie ma zestawu danych, który ocenia rozmowę wielomodalną z obligatoryjnymi działaniami odniesienia lub umiejscowienia, pozostawia to lukę. Aby ją zapełnić, ramy Ferret obejmują trzy pytania oparte na regionie, aby ocenić ich zdolności odniesienia i umiejscowienia w zadaniach rozmowy wielomodalnej.

W końcu, ramy Ferret są porównywane bezpośrednio z ramami GPT, a wyniki są pokazane poniżej.

Końcowe myśli

W tym artykule omawialiśmy Ferret, wielomodalny duży model językowy, który wykazuje się imponującymi zdolnościami umiejscowienia i odniesienia. Ramy Ferret mogą odnosić się do regionów obrazu niezależnie od ich kształtu i mogą ustanowić umiejscowienie dla tekstu przewidywanego przez model automatycznie. Ferret wykorzystuje przestrzennie świadomy próbnik wizualny, który radzi sobie z różną rzadkością wyświetlaną przez różne kształty, aby wyodrębnić ciągłe cechy różnorodnych regionów. W wyniku tego ramy Ferret mogą wprowadzać różnorodne wejścia regionów, w tym kształty swobodne, pudełka i punkty.

Kunal Kejriwal

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.