stub YOLO-World: Wykrywanie obiektów w czasie rzeczywistym w oparciu o otwarte słownictwo – Unite.AI
Kontakt z nami

Artificial Intelligence

YOLO-World: Wykrywanie obiektów w otwartym słownictwie w czasie rzeczywistym

mm

Opublikowany

 on

Wykrywanie obiektów było podstawowym wyzwaniem w branży wizja komputerowa przemyśle, z zastosowaniami w robotyce, rozumieniu obrazu, pojazdach autonomicznych i rozpoznawanie obrazu. W ostatnich latach przełomowe prace nad sztuczną inteligencją, szczególnie nad głębokimi sieciami neuronowymi, znacznie posunęły się naprzód w wykrywaniu obiektów. Jednak modele te mają stałe słownictwo, ograniczone do wykrywania obiektów w ramach 80 kategorii zbioru danych COCO. Ograniczenie to wynika z procesu uczenia, podczas którego detektory obiektów są szkolone w zakresie rozpoznawania tylko określonych kategorii, co ogranicza ich zastosowanie.

Aby przezwyciężyć ten problem, wprowadzamy YOLO-World, innowacyjne podejście mające na celu ulepszenie frameworku YOLO (You Only Look Once) o możliwości wykrywania otwartego słownictwa. Osiąga się to poprzez wstępne przeszkolenie platformy na dużych zbiorach danych i wdrożenie podejścia polegającego na modelowaniu wizji i języka. W szczególności YOLO-World wykorzystuje możliwość ponownej parametryzacji sieć agregacji ścieżek wizyjnych i językowych (RepVL-PAN) oraz utratę kontrastu regionu-tekstu, aby wspierać interakcję między informacjami językowymi i wizualnymi. Dzięki RepVL-PAN i utracie kontrastu tekstu regionalnego YOLO-World może dokładnie wykryć szeroką gamę obiektów w ustawieniu zerowym, wykazując niezwykłą wydajność w zadaniach segmentacji otwartego słownictwa i wykrywania obiektów.

Celem tego artykułu jest dokładne zrozumienie podstaw technicznych YOLO-World, architektury modelu, procesu szkoleniowego i scenariuszy aplikacji. Zanurzmy się.

YOLO-World: Wykrywanie obiektów w otwartym słownictwie w czasie rzeczywistym

YOLO, czyli You Only Look Once, to jedna z najpopularniejszych metod współczesnego wykrywania obiektów w branży wizji komputerowej. Znany z niesamowitej szybkości i wydajności, pojawienie się YOLO mechanizm zrewolucjonizował sposób, w jaki maszyny interpretują i wykrywają określone obiekty na obrazach i filmach w czasie rzeczywistym. Tradycyjne struktury wykrywania obiektów wdrażają dwuetapowe podejście do wykrywania obiektów: w pierwszym kroku struktura proponuje regiony, które mogą zawierać obiekt, a struktura klasyfikuje obiekt w następnym kroku. Z drugiej strony platforma YOLO integruje te dwa kroki w jeden model sieci neuronowej, co pozwala platformie spojrzeć na obraz tylko raz, aby przewidzieć obiekt i jego lokalizację na obrazie, a zatem nazwę YOLO lub Ty Spójrz tylko raz. 

Co więcej, framework YOLO traktuje wykrywanie obiektów jako problem regresji i jednym spojrzeniem przewiduje prawdopodobieństwa klas i ramki ograniczające bezpośrednio na podstawie pełnego obrazu. Wdrożenie tej metody nie tylko zwiększa szybkość procesu wykrywania, ale także zwiększa zdolność modelu do generalizowania na podstawie złożonych i różnorodnych danych, co czyni go odpowiednim wyborem dla aplikacji działających w czasie rzeczywistym, takich jak jazda autonomiczna, wykrywanie prędkości czy liczba rozpoznawanie tablic. Co więcej, znaczny postęp w zakresie głębokich sieci neuronowych, jaki nastąpił w ciągu ostatnich kilku lat, również znacząco przyczynił się do rozwoju struktur wykrywania obiektów, ale skuteczność struktur wykrywania obiektów jest nadal ograniczona, ponieważ są one w stanie wykrywać obiekty jedynie przy ograniczonym słownictwie. Dzieje się tak przede wszystkim dlatego, że po zdefiniowaniu i oznaczeniu kategorii obiektów w zbiorze danych wyszkolone detektory w ramach są w stanie rozpoznać tylko te konkretne kategorie, ograniczając w ten sposób stosowalność i możliwość wdrażania modeli wykrywania obiektów w scenariuszach otwartych i w czasie rzeczywistym. 

Idąc dalej, niedawno opracowane modele języka wizyjnego wykorzystują wydestylowaną wiedzę o słownictwie od koderów językowych, aby zająć się wykrywaniem otwartego słownictwa. Chociaż te struktury działają lepiej niż tradycyjne modele wykrywania obiektów w przypadku wykrywania otwartego słownictwa, nadal mają ograniczone zastosowanie ze względu na rzadką dostępność danych szkoleniowych i ograniczoną różnorodność słownictwa. Co więcej, wybrane struktury uczą detektorów obiektów wykorzystujących otwarte słownictwo na dużą skalę i kategoryzują detektory obiektów szkoleniowych jako wstępne szkolenie wzrokowo-językowe na poziomie regionu. Jednak podejście to nadal sprawia problemy w wykrywaniu obiektów w czasie rzeczywistym z dwóch głównych powodów: złożonego procesu wdrażania urządzeń brzegowych i dużych wymagań obliczeniowych. Pozytywem jest to, że struktury te wykazały pozytywne wyniki wstępnego szkolenia dużych detektorów w celu wykorzystania ich z możliwościami otwartego rozpoznawania. 

Celem platformy YOLO-World jest osiągnięcie wysoce wydajnego wykrywania obiektów z otwartym słownictwem oraz zbadanie możliwości zastosowania na dużą skalę podejść do szkolenia wstępnego w celu zwiększenia wydajności tradycyjnych detektorów YOLO w zakresie wykrywania obiektów z otwartym słownictwem. W przeciwieństwie do poprzednich prac nad wykrywaniem obiektów, platforma YOLO-World charakteryzuje się niezwykłą wydajnością przy dużych prędkościach wnioskowania i można ją z łatwością wdrożyć w dalszych aplikacjach. Model YOLO-World opiera się na tradycyjnej architekturze YOLO i koduje teksty wejściowe, wykorzystując możliwości wstępnie wytrenowanego kodera tekstu CLIP. Co więcej, platforma YOLO-World zawiera w swojej architekturze komponent sieci agregacji ścieżek wizyjnych i językowych (RepVL-PAN), który można ponownie parametryzować, aby łączyć funkcje obrazu i tekstu w celu uzyskania ulepszonych reprezentacji wizualno-semantycznych. Na etapie wnioskowania platforma usuwa koder tekstu i ponownie parametryzuje osadzony tekst w wagach RepVL-PAN, co zapewnia wydajne wdrożenie. Ramy obejmują także naukę kontrastującą z tekstem regionalnym w celu studiowania metod wstępnego szkolenia z wykorzystaniem otwartego słownictwa w zakresie tradycyjnych modeli YOLO. Metoda uczenia się metodą kontrastu region-tekst ujednolica dane obraz-tekst, dane uziemiające i dane dotyczące wykrywania w pary region-tekst. Bazując na tym, platforma YOLO-World, wstępnie przeszkolona na parach region-tekst, wykazuje niezwykłe możliwości wykrywania otwartego i dużego słownictwa. Ponadto platforma YOLO-World bada również paradygmat „szybko potem wykryj” w celu zwiększenia efektywności wykrywania obiektów przy użyciu otwartego słownika w scenariuszach czasu rzeczywistego i świata rzeczywistego. 

Jak pokazano na poniższym obrazie, tradycyjne detektory obiektów skupiają się na wykrywaniu bliskiego zestawu stałego słownictwa z predefiniowanymi kategoriami, podczas gdy detektory otwartego słownictwa wykrywają obiekty poprzez kodowanie podpowiedzi użytkownika za pomocą koderów tekstowych w celu uzyskania otwartego słownictwa. Dla porównania, metoda YOLO-World typu „zapytaj, a następnie wykryj” najpierw buduje słownictwo offline (różne słownictwo w zależności od potrzeb) poprzez kodowanie podpowiedzi użytkownika, co pozwala detektorom interpretować słownictwo offline w czasie rzeczywistym bez konieczności ponownego kodowania podpowiedzi. 

YOLO-World: Metoda i architektura

Pary region-tekst

Tradycyjnie struktury wykrywania obiektów, w tym YOLO rodzina detektorów obiektów jest szkolona przy użyciu adnotacji instancji zawierających etykiety kategorii i ramki ograniczające. W przeciwieństwie do tego, framework YOLO-World ponownie formułuje adnotacje instancji jako pary region-tekst, gdzie tekst może stanowić opis obiektu, frazy rzeczownikowe lub nazwę kategorii. Warto zauważyć, że framework YOLO-World przyjmuje zarówno teksty, jak i obrazy jako przewidywane pola wejściowe i wyjściowe z odpowiadającymi im osadzeniami obiektów. 

Architektura modelu

W swej istocie model YOLO-World składa się z kodera tekstu, detektora YOLO i komponentu sieci agregacji ścieżki wizyjnej z możliwością ponownej parametryzacji (RepVL-PAN), jak pokazano na poniższym obrazku. 

W przypadku tekstu wejściowego komponent kodera tekstu koduje tekst do osadzania tekstu, a następnie wyodrębnia cechy wieloskalowe z obrazu wejściowego za pomocą detektorów obrazu w komponencie detektora YOLO. Komponent sieci agregacji ścieżek wizyjnych i językowych z możliwością ponownej parametryzacji (RepVL-PAN) wykorzystuje następnie fuzję międzymodalną między osadzeniem tekstu i funkcji w celu ulepszenia reprezentacji tekstu i obrazu. 

Detektor YOLO

Model YOLO-World opiera się na istniejącym frameworku YOLOv8, który zawiera komponent szkieletu Darknet jako koder obrazu, moduł do osadzania obiektów i regresji obwiedni oraz sieć PAN lub Path Aggression Network dla wieloskalowych piramid obiektowych. 

Koder tekstu

Dla danego tekstu model YOLO-World wyodrębnia odpowiednie osadzania tekstu, przyjmując wstępnie wytrenowany koder tekstu CLIP Transformer z określoną liczbą rzeczowników i wymiarem osadzania. Głównym powodem, dla którego platforma YOLO-World wykorzystuje koder tekstu CLIP, jest to, że oferuje on lepszą wydajność wizualno-semantyczną w łączeniu tekstów z obiektami wizualnymi, znacznie przewyższając tradycyjne kodery języka tekstowego. Jeśli jednak tekstem wejściowym jest podpis lub wyrażenie odsyłające, model YOLO-World wybiera prostszy algorytm n-gramowy w celu wyodrębnienia fraz. Zwroty te są następnie wprowadzane do kodera tekstu. 

Tekstowa kontrastowa głowa

Oddzielona głowa to komponent wykorzystywany we wcześniejszych modelach wykrywania obiektów, a platforma YOLO-World wykorzystuje oddzieloną głowę z podwójnymi splotami 3×3 w celu regresji osadzania obiektów i obwiedni dla ustalonej liczby obiektów. Framework YOLO-World wykorzystuje głowicę kontrastującą tekst, aby uzyskać podobieństwo tekstu obiektowego przy użyciu podejścia normalizacyjnego L2 i osadzania tekstu. Dodatkowo model YOLO-World wykorzystuje również podejście transformacji afinicznej ze współczynnikiem przesunięcia i możliwym do nauczenia się współczynnikiem skalowania, przy czym normalizacja L2 i transformacja afiniczna zwiększają stabilność modelu podczas uczenia regionu-tekstu. 

Szkolenie słownictwa online

Podczas fazy szkoleniowej model YOLO-World tworzy słownik online dla każdej próbki mozaiki, składający się z 4 obrazów każdy. Model próbkuje wszystkie rzeczowniki pozytywne zawarte w obrazach mozaiki i losowo wybiera niektóre rzeczowniki negatywne z odpowiedniego zbioru danych. Słownictwo dla każdej próbki składa się z maksymalnie n rzeczowników, przy wartości domyślnej wynoszącej 80. 

Wnioskowanie ze słownictwa offline

Podczas wnioskowania model YOLO-World prezentuje strategię „zapytaj, a następnie wykryj” ze słownictwem offline, aby jeszcze bardziej zwiększyć efektywność modelu. Użytkownik najpierw definiuje serię niestandardowych podpowiedzi, które mogą zawierać kategorie, a nawet podpisy. Model YOLO-World następnie uzyskuje osadzenie słownictwa offline, wykorzystując koder tekstu do zakodowania tych podpowiedzi. W rezultacie słownik offline do wnioskowania pomaga modelowi uniknąć obliczeń dla każdego wejścia, a także umożliwia modelowi elastyczne dostosowywanie słownictwa zgodnie z wymaganiami. 

Sieć agresji ścieżki wizyjnej i językowej z możliwością ponownej parametryzacji (RevVL-PAN)

Poniższy rysunek ilustruje strukturę proponowanej sieci agresji ścieżki wzrokowo-językowej z możliwością ponownej parametryzacji, która podąża ścieżkami od góry do dołu i od dołu do góry w celu ustalenia piramidy cech z wieloskalowymi obrazami obiektów. 

Aby wzmocnić interakcję między funkcjami tekstu i obrazu, model YOLO-World proponuje funkcję łączenia obrazów i CSPLayer sterowany tekstem (Cross-Stage Partial Layers), których ostatecznym celem jest ulepszenie reprezentacji wizualno-semantycznych dla możliwości otwartego słownictwa. Podczas wnioskowania model YOLO-World ponownie parametryzuje osadzone słownictwo offline w wagach warstw liniowych lub splotowych w celu efektywnego wdrożenia. 

Jak widać na powyższym rysunku, model YOLO-World wykorzystuje CSPLayer po fuzji od góry do dołu lub od dołu do góry i włącza wskazówki tekstowe do wieloskalowych cech obrazu, tworząc CSPLayer z przewodnikiem tekstowym, rozszerzając w ten sposób CSPlayera. Dla dowolnej danej cechy obrazu i odpowiadającego jej osadzania tekstu, model przyjmuje maksymalną uwagę sigmoidalną po ostatnim bloku wąskiego gardła, aby agregować cechy tekstowe w cechy obrazu. Zaktualizowana funkcja obrazu jest następnie łączona z funkcjami międzyetapowymi i prezentowana jako wynik. 

 Idąc dalej, model YOLO-World agreguje funkcje obrazu, aby zaktualizować osadzanie tekstu, wprowadzając warstwę uwagi skupiającej obrazy, aby ulepszyć osadzanie tekstu informacjami uwzględniającymi obraz. Zamiast skupiać uwagę bezpośrednio na cechach obrazu, model wykorzystuje maksymalne łączenie cech wieloskalowych, aby uzyskać regiony 3 × 3, co daje 27 tokenów poprawek, a model aktualizuje osadzanie tekstu w następnym kroku. 

Schematy przedszkoleniowe

Model YOLO-World opiera się na dwóch głównych schematach przedtreningowych: uczeniu się na podstawie utraty kontrastu tekstu regionalnego i pseudoetykietowaniu danymi obrazu i tekstu. W przypadku podstawowego schematu wstępnego uczenia model generuje przewidywania obiektów wraz z adnotacjami dla danego tekstu i próbkami mozaiki. Struktura YOLO-World dopasowuje przewidywania do adnotacji dotyczących prawdy, śledząc i wykorzystując przypisania etykiet przypisanych do zadań, a także przypisuje indywidualne pozytywne przewidywania za pomocą indeksu tekstowego, który służy jako etykieta klasyfikacyjna. Z drugiej strony, schemat wstępnego uczenia pseudoetykietowania za pomocą danych obrazu i tekstu proponuje zastosowanie zautomatyzowanego podejścia do etykietowania zamiast używania par obraz-tekst do generowania par region-tekst. Proponowane podejście do etykietowania składa się z trzech etapów: wyodrębnianie fraz rzeczownikowych, pseudo etykietowanie i filtrowanie. Pierwszy krok wykorzystuje algorytm n-gram do wyodrębnienia fraz rzeczownikowych z tekstu wejściowego, drugi krok wykorzystuje wstępnie wytrenowany detektor otwartego słownictwa w celu wygenerowania pseudoboksów dla danej frazy rzeczownikowej dla poszczególnych obrazów, natomiast trzeci i ostatni krok wykorzystuje wstępnie wytrenowana platforma CLIP do oceny trafności par region-tekst i tekst-obraz, po czym model filtruje pseudoobrazy i adnotacje o niskiej istotności. 

YOLO-World: Wyniki

Po wstępnym przeszkoleniu modelu YOLO-World jest on oceniany bezpośrednio na zbiorze danych LVIS w ustawieniu zerowym, przy czym zbiór danych LVIS składa się z ponad 1200 kategorii, czyli znacznie więcej niż zbiory danych przedtreningowych wykorzystywane w istniejących ramach do testowania ich skuteczność w wykrywaniu dużego słownictwa. Poniższy rysunek przedstawia wydajność platformy YOLO-World w połączeniu z niektórymi z istniejących, najnowocześniejszych platform wykrywania obiektów w zbiorze danych LVIS w ustawieniu zerowym. 

Jak można zaobserwować, framework YOLO-World przewyższa większość istniejących frameworków pod względem szybkości wnioskowania i wydajności zero-shot, nawet w przypadku frameworków takich jak Grounding DINO, GLIP i GLIPv2, które zawierają więcej danych. Ogólnie rzecz biorąc, wyniki pokazują, że modele wykrywania małych obiektów, takie jak YOLO-World-S, zawierające zaledwie 13 milionów parametrów, można wykorzystać do wstępnego szkolenia w zakresie zadań wzrokowo-językowych z niezwykłymi możliwościami otwartego słownictwa. 

Final Thoughts

W tym artykule mówiliśmy o YOLO-World, innowacyjnym podejściu, którego celem jest zwiększenie możliwości frameworka YOLO (You Only Look Once) z możliwościami wykrywania otwartego słownictwa poprzez wstępne szkolenie frameworka na dużych zbiorach danych i wdrożenie podejście do modelowania wizyjnego i językowego. Mówiąc dokładniej, platforma YOLO-World proponuje wdrożenie sieci agregacji ścieżek języka z możliwością ponownej parametryzacji lub RepVL-PAN wraz z utratą kontrastu regionu-tekstu, aby ułatwić interakcję między informacją językową i wizualną. Dzięki implementacji RepVL-PAN i utraty kontrastu tekstu regionu, platforma YOLO-World jest w stanie dokładnie i skutecznie wykrywać szeroki zakres obiektów w ustawieniu zerowym.

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.