Connect with us

Sztuczna inteligencja

YOLO-World: Wykrywanie Obiektów w Czasie Rzeczywistym z Otwartą Leksyką

mm

Wykrywanie obiektów było podstawowym wyzwaniem w branży wizji komputerowej, z aplikacjami w robotyce, rozumieniu obrazów, pojazdach autonomicznych i rozpoznawaniu obrazów. W ostatnich latach przełomowa praca w dziedzinie sztucznej inteligencji, w szczególności za pomocą głębokich sieci neuronowych, znacznie przyczyniła się do rozwoju wykrywania obiektów. Niemniej jednak, te modele mają ograniczoną leksykę, ograniczoną do wykrywania obiektów w ramach 80 kategorii zestawu danych COCO. Ograniczenie to wynika z procesu treningu, podczas którego wykrywacze obiektów są szkolone do rozpoznawania tylko określonych kategorii, co ogranicza ich przydatność.

Aby przezwyciężyć to ograniczenie, wprowadzamy YOLO-World, innowacyjne podejście mające na celu udoskonalenie ramy YOLO (You Only Look Once) o możliwości wykrywania obiektów z otwartą leksyką. Osiąga się to poprzez wstępne szkolenie ramy na dużych zbiorach danych i wdrożenie podejścia modelowania języka i wizji. Konkretnie, YOLO-World wykorzystuje Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) i region-text contrastive loss, aby wspomagać interakcję między informacjami lingwistycznymi i wizualnymi. Dzięki RepVL-PAN i region-text contrastive loss, YOLO-World może dokładnie wykrywać szeroki zakres obiektów w ustawieniu zero-shot, pokazując znaczące wyniki w zadaniach segmentacji i wykrywania obiektów z otwartą leksyką.

Artykuł ten ma na celu dostarczenie dogłębnego zrozumienia podstaw technicznych YOLO-World, architektury modelu, procesu treningu i scenariuszy aplikacji. Zanurzmy się w niego.

YOLO-World: Wykrywanie Obiektów w Czasie Rzeczywistym z Otwartą Leksyką

YOLO lub You Only Look Once jest jedną z najpopularniejszych metod wykrywania obiektów we współczesnej branży wizji komputerowej. Słynie z niesamowitej szybkości i wydajności, a pojawienie się mechanizmu YOLO rewolucjonizowało sposób, w jaki maszyny interpretują i wykrywają określone obiekty w obrazach i filmach w czasie rzeczywistym. Tradycyjne ramy wykrywania obiektów implementują dwuetapowe podejście do wykrywania obiektów: w pierwszym etapie, ramy proponują regiony, które mogą zawierać obiekt, a następnie klasyfikują obiekt w następnym etapie. Ramy YOLO z kolei łączą te dwa etapy w jeden model sieci neuronowej, co pozwala ramom na spojrzenie na obraz tylko raz, aby przewidzieć obiekt i jego położenie w obrazie, stąd nazwa YOLO lub You Only Look Once.

Ponadto, ramy YOLO traktują wykrywanie obiektów jako problem regresji i przewidują bezpośrednio prawdopodobieństwa klas i bounding boxów z pełnego obrazu w jednym spojrzeniu. Wdrożenie tej metody nie tylko zwiększa szybkość procesu wykrywania, ale także poprawia zdolność modelu do uogólniania złożonych i różnorodnych danych, co czyni go odpowiednim wyborem dla aplikacji działających w czasie rzeczywistym, takich jak jazda autonomiczna, wykrywanie prędkości lub rozpoznawanie tablic rejestracyjnych. Ponadto, znaczny postęp sieci neuronowych w ostatnich latach również przyczynił się do rozwoju ram wykrywania obiektów, ale sukces tych ram jest nadal ograniczony, ponieważ są one w stanie wykrywać obiekty tylko z ograniczoną leksyką. Jest to głównie spowodowane tym, że gdy kategorie obiektów są zdefiniowane i oznaczone w zestawie danych, wykrywacze obiektów w ramach są w stanie rozpoznać tylko te określone kategorie, co ogranicza ich przydatność i możliwość wdrożenia modeli wykrywania obiektów w czasie rzeczywistym i otwartych scenariuszach.

Przechodząc dalej, ostatnio opracowane modele języka i wizji wykorzystują destylowaną wiedzę słownictwa z kodera języka, aby rozwiązać problem wykrywania obiektów z otwartą leksyką. Chociaż te ramy działają lepiej niż tradycyjne modele wykrywania obiektów w przypadku wykrywania obiektów z otwartą leksyką, nadal mają ograniczoną przydatność ze względu na rzadkie dostępne dane treningowe z ograniczoną różnorodnością słownictwa. Ponadto, wybrane ramy szkolą wykrywacze obiektów z otwartą leksyką w dużym zakresie i klasyfikują trening wykrywaczy obiektów na poziomie regionu-języka. Niemniej jednak, podejście to nadal ma trudności w wykrywaniu obiektów w czasie rzeczywistym z dwóch głównych powodów: złożonego procesu wdrożenia na urządzeniach krawędziowych i ciężkich wymagań obliczeniowych. Pozytywnie, te ramy wykazały pozytywne wyniki z pre-treningu dużych wykrywaczy, aby zastosować je z otwartymi możliwościami rozpoznawania.

Ramy YOLO-World mają na celu osiągnięcie wydajnego wykrywania obiektów z otwartą leksyką i zbadać możliwość dużych podejść pre-treningowych, aby zwiększyć wydajność tradycyjnych wykrywaczy YOLO dla wykrywania obiektów z otwartą leksyką. W przeciwieństwie do poprzednich prac nad wykrywaniem obiektów, ramy YOLO-World wykazują znaczącą wydajność z wysokimi prędkościami inferencji i mogą być wdrożone w aplikacjach downstream z łatwością. Model YOLO-World podąża za tradycyjną architekturą YOLO i koduje dane wejściowe za pomocą pre-trenowanego kodera tekstu CLIP. Ponadto, ramy YOLO-World obejmują składnik Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), aby połączyć cechy obrazu i tekstu dla lepszych reprezentacji wizualno-semantycznych. Podczas fazy inferencji, ramy usuwają koder tekstu i re-parametryzują embeddings tekstu do wag RepVL-PAN, co skutkuje wydajnym wdrożeniem. Ramy obejmują również region-text contrastive learning, aby zbadać metody pre-treningu z otwartą leksyką dla tradycyjnych modeli YOLO. Metoda region-text contrastive learning łączy dane obrazu i tekstu, dane uziemienia i dane wykrywania w pary regionu i tekstu.

… (reszta treści)

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.