Connect with us

Umělá inteligence

YOLO-World: Reálná Časová Otevřená Slovníková Detekce Objektů

mm

Detekce objektů byla vždy základní výzvou v počítačovém vidění průmyslu, s aplikacemi v robotice, porozumění obrazům, autonomních vozidlech a rozpoznávání obrazů. V posledních letech průlomová práce v oblasti AI, zejména prostřednictvím hlubokých neuronových sítí, významně pokročila v detekci objektů. Nicméně, tyto modely mají pevnou slovní zásobu, omezenou na detekci objektů v rámci 80 kategorií datové sady COCO. Tento limit vyplývá z procesu školení, kde detektory objektů jsou školeny k rozpoznání pouze specifických kategorií, a tím omezují jejich použitelnost.

Abychom tento limit překonali, představujeme YOLO-World, inovativní přístup zaměřený na zlepšení rámce YOLO (You Only Look Once) s otevřenou slovníkovou detekcí. To je dosaženo pomocí předškolení rámce na velkých datových sadách a implementace modelu vidění-jazyka. Konkrétně YOLO-World využívá Re-parametrizovatelnou Síť Agregace Vidění-Jazyka (RepVL-PAN) a region-text kontrastivní ztrátu pro podporu interakce mezi lingvistickými a vizuálními informacemi. Díky RepVL-PAN a region-text kontrastivní ztrátě může YOLO-World přesně detekovat širokou škálu objektů v nulovém nastavení, přičemž ukazuje pozoruhodné výsledky v otevřené slovníkové segmentaci a detekci objektů.

Tento článek si klade za cíl poskytnout hluboké pochopení technických základů YOLO-World, architektury modelu, procesu školení a aplikací. Pojďme se ponořit do něj.

YOLO-World: Reálná Časová Otevřená Slovníková Detekce Objektů

YOLO nebo You Only Look Once je jednou z nejoblíbenějších metod pro moderní detekci objektů v počítačovém vidění. Proslulý svou úžasnou rychlostí a efektivitou, příchod YOLO mechanismu revolucionalizoval způsob, jakým stroje interpretují a detekují specifické objekty v obrazech a videích v reálném čase. Tradiční rámce detekce objektů implementují dvoustupňový přístup detekce objektů: v prvním stupni rámec navrhuje oblasti, které mohou obsahovat objekt, a rámec klasifikuje objekt v dalším stupni. Rámec YOLO na druhé straně integruje tyto dva stupně do jednoho neuronového sítě modelu, což umožňuje rámcu prohlédnout obraz pouze jednou pro predikci objektu a jeho umístění v obraze, a proto název YOLO nebo You Only Look Once.

Navíc rámec YOLO zachází s detekcí objektů jako s regresním problémem a predikuje klasifikační pravděpodobnosti a hranice přímo z celého obrazu v jednom pohledu. Implementace této metody nejen zvyšuje rychlost detekčního procesu, ale také zlepšuje schopnost modelu generalizovat z komplexních a rozmanitých dat, což z něj činí vhodnou volbu pro aplikace fungující v reálném čase, jako je autonomní řízení, detekce rychlosti nebo rozpoznání číselných značek. Navíc, významný pokrok hlubokých neuronových sítí v posledních letech také významně přispěl k vývoji rámců detekce objektů, ale úspěch rámců detekce objektů je stále omezen, protože jsou schopny detekovat objekty pouze s omezenou slovní zásobou. Je to především proto, že jednou, když jsou kategorie objektů definovány a označeny v datové sadě, školení detektory v rámcu jsou schopny rozpoznat pouze tyto specifické kategorie, a tím omezují jejich použitelnost a schopnost nasazení modelů detekce objektů v reálném čase a otevřených scénářích.

Pokračujme, nedávno vyvinuté modely vidění-jazyka využívají destilované znalosti slovní zásoby z jazykových kódérů pro otevřenou slovníkovou detekci. Ačkoli tyto rámce fungují lépe než tradiční modely detekce objektů na otevřené slovníkové detekci, stále mají omezenou použitelnost kvůli nedostatku školicích dat s omezenou rozmanitostí slovní zásoby. Navíc, vybrané rámce školuji otevřené slovníkové detektory objektů ve velkém měřítku a kategorizují školicí detektory objektů jako regionální vidění-jazykové předškolení. Nicméně, přístup stále zápasí s detekcí objektů v reálném čase z důvodu dvou hlavních důvodů: komplexního procesu nasazení pro hraniční zařízení a těžkých výpočetních požadavků. Na pozitivní straně, tyto rámce prokázaly pozitivní výsledky z předškolení velkých detektorů pro jejich použití s otevřenou rozpoznávacími schopnostmi.

Rámec YOLO-World si klade za cíl dosáhnout vysoce efektivní otevřené slovníkové detekce objektů a prozkoumat možnost velkých školicích přístupů pro zvýšení efektivity tradičních detektorů YOLO pro otevřenou slovníkovou detekci objektů. Na rozdíl od předchozích prací v detekci objektů, rámec YOLO-World ukazuje pozoruhodnou efektivitu s vysokými rychlostmi inference a může být nasazen v downstream aplikacích s lehkostí. Model YOLO-World následuje tradiční architekturu YOLO a kóduje vstupní texty pomocí schopností předškoleného kódéru textů CLIP. Navíc, rámec YOLO-World zahrnuje komponent Re-parametrizovatelné Sítě Agregace Vidění-Jazyka (RepVL-PAN) ve své architektuře pro propojení obrazových a textových funkcí pro vylepšené vizuální-semantické reprezentace. Během fáze inference, rámec odstraňuje textový kódér a re-parametrizuje textové vložené hodnoty do RepVL-PAN váh, což vede k efektivnímu nasazení. Rámec také zahrnuje region-text kontrastivní učení ve svém rámci pro studium otevřené slovníkové předškolení metod pro tradiční modely YOLO. Metoda region-text kontrastivní učení sjednocuje obraz-textová data, data zajištění a data detekce do region-textových párů. Na základě toho, rámec YOLO-World předškolený na region-textových párech prokazuje pozoruhodné schopnosti pro otevřenou a velkou slovníkovou detekci. Navíc, rámec YOLO-World také prozkoumává prompt-then-detect paradigm s cílem vylepšit efektivitu otevřené slovníkové detekce objektů v reálném čase a reálných scénářích.

Jak je vidět na následujícím obrázku, tradiční detektory objektů se zaměřují na uzavřenou množinu pevné slovní zásoby s předdefinovanými kategoriemi, zatímco otevřené slovníkové detektory detekují objekty kódováním uživatelských promptů s textovými kódéry pro otevřenou slovní zásobu. V porovnání, přístup YOLO-World nejprve vytváří offline slovní zásobu (různé slovní zásoby pro různé potřeby) kódováním uživatelských promptů, což umožňuje detektorům interpretovat offline slovní zásobu v reálném čase bez nutnosti re-kódování promptů.

YOLO-World : Metoda a Architektura

Region-Text Páry

Tradičně, rámce detekce objektů, včetně rodiny detektorů YOLO, jsou školeny pomocí instancí anotací, které obsahují kategorie a hranice. Naopak, rámec YOLO-World reformuluje instancí anotací jako region-text páry, kde text může být popis objektu, jmenné fráze nebo název kategorie. Je třeba poznamenat, že rámec YOLO-World přijímá både texty a obrazy jako vstup a predikuje výstupní rámečky s odpovídajícími objektovými vloženými hodnotami.

Architektura Modelu

V jádru, model YOLO-World se skládá z Textového Kódéru, detektoru YOLO a komponenty Re-parametrizovatelné Sítě Agregace Vidění-Jazyka (RepVL-PAN), jak je znázorněno na následujícím obrázku.

Pro vstupní text, textový kódér kóduje text do textových vložených hodnot, následovaný extrakcí multi-škálových funkcí z vstupního obrazu detektorem YOLO. Komponenta Re-parametrizovatelné Sítě Agregace Vidění-Jazyka (RepVL-PAN) pak využívá fúzi mezi textovými a funkcemi vložených hodnot pro vylepšení textových a obrazových reprezentací.

Detektor YOLO

Model YOLO-World je postaven na základě existujícího rámce YOLOv8, který obsahuje Darknet backbone komponentu jako obrazový kódér, hlavu pro objektové vložené hodnoty a regresi hranic, a síť Path Aggression (PAN) pro multi-škálové funkce pyramid.

Textový Kódér

Pro daný text, model YOLO-World extrahuje odpovídající textové vložené hodnoty přijetím předškoleného kódéru textů CLIP Transformer s určitým počtem substantiv a dimenzí vložených hodnot. Hlavním důvodem, proč rámec YOLO-World přijímá kódér textů CLIP, je to, že nabízí lepší vizuální-semantické výkony pro propojení textů s vizuálními objekty, výrazně převyšující tradiční textové kódéry.

Text Kontrastivní Hlava

Decoupled hlava je komponenta, která je využívána dříve objekty detekčními modely, a rámec YOLO-World přijímá decoupled hlavu s duálními 3×3 konvolucemi pro regresi objektových vložených hodnot a hranic pro pevný počet objektů. Rámec YOLO-World využívá text kontrastivní hlavu pro získání objekt-text podobnosti pomocí L2 normalizace a textových vložených hodnot. Navíc, rámec YOLO-World také využívá afinní transformační přístup se směrovacím faktorem a učitelným měřítkem, s L2 normalizací a afinní transformací, které zvyšují stabilitu modelu během region-text školení.

Online Slovní Zásoba Školení

Během fáze školení, model YOLO-World konstruuje online slovní zásobu pro každý mozaikový vzorek, skládající se z 4 obrazů. Model vzorkuje všechny pozitivní substantiva zahrnutá v mozaikových obrazech a vzorkuje některé negativní substantiva náhodně z odpovídající datové sady. Slovní zásoba pro každý vzorek se skládá z maximálně n substantiv, s výchozí hodnotou 80.

Offline Slovní Zásoba Inference

Během fáze inference, model YOLO-World představuje prompt-then-detect strategii s offline slovní zásobou pro další vylepšení efektivity modelu. Uživatel nejprve definuje řadu vlastních promptů, které mohou zahrnovat kategorie nebo dokonce popisy. Model YOLO-World pak získá offline slovní zásobu vložených hodnot pomocí textového kódéru pro kódování těchto promptů. Jako výsledek, offline slovní zásoba pro inference pomáhá modelu vyhnout se výpočtům pro každý vstup a také umožňuje modelu flexibilně upravit slovní zásobu podle požadavků.

Re-parametrizovatelná Síť Agregace Vidění-Jazyka (RepVL-PAN)

Následující obrázek znázorňuje strukturu navrhované Re-parametrizovatelné Sítě Agregace Vidění-Jazyka, která následuje top-down a bottom-up cesty pro establishment funkce pyramidy s multi-škálovými funkcemi obrazů.

Pro vylepšení interakce mezi textovými a obrazovými funkcemi, model YOLO-World navrhuje Image-Pooling Attention a Text-Guided CSPLayer (Cross-Stage Partial Layers) s konečným cílem vylepšení vizuální-semantických reprezentací pro otevřenou slovníkovou schopnost. Během fáze inference, model YOLO-World re-parametrizuje offline slovní zásobu vložených hodnot do váh lineárních nebo konvolučních vrstev pro efektivní nasazení.

Jak je vidět na předchozím obrázku, model YOLO-World využívá CSPLayer po top-down nebo bottom-up fúzi a zahrnuje textovou navigaci do multi-škálových obrazových funkcí, formující Text-Guided CSPLayer, a tak rozšiřuje CSPLayer. Pro jakýkoli dán obrazový údaj a jeho odpovídající textové vložené hodnoty, model přijímá max-sigmoid pozornost po posledním bottleneck bloku pro agregaci textových funkcí do obrazových funkcí. Aktualizovaná obrazová funkce je pak spojena s cross-stage funkcemi a je prezentována jako výstup.

Pokračujme, model YOLO-World agreguje obrazové funkce pro aktualizaci textových vložených hodnot zavedením Image Pooling Attention vrstvy pro vylepšení textových vložených hodnot s obrazově vědomými informacemi. Místo přímého použití cross-pozornosti na obrazových funkcích, model využívá max pooling na multi-škálových funkcích pro získání 3×3 regionů, vedoucích k 27 patch tokenům, s modelem aktualizujícím textové vložené hodnoty v dalším kroku.

Předškolení Schémata

Model YOLO-World následuje dvě primární předškolení schémata: Učení z Region-Text Kontrastivní Ztráty a Pseudo Labeling s Image-Text Daty. Pro primární předškolení schéma, model výstupní predikce objektů spolu s anotacemi pro daný text a mozaikový vzorek. Rámec YOLO-World odpovídá predikcím s ground truth anotacemi následujícím a využívajícím úkol-přiřazenou label asignaci a přiřazuje individuální pozitivní predikce s textovým indexem, který slouží jako klasifikační label. Na druhé straně, Pseudo Labeling s Image-Text Daty předškolení schéma navrhuje použít automatizovaný labeling přístup místo použití image-text párů pro generování region-text párů. Navrhovaný labeling přístup se skládá ze tří kroků: extrakce substantivních frází, pseudo labeling a filtrování. První krok využívá n-gram algoritmu pro extrakci substantivních frází z vstupního textu, druhý krok přijímá předškolený otevřený slovníkový detektor pro generování pseudo boxů pro danou substantivní frázi pro jednotlivé obrazy, zatímco třetí a poslední krok využívá předškolený CLIP rámec pro vyhodnocení relevance region-text a text-image párů, po kterém model filtruje nízko-relevantní pseudo obrazy a anotace.

YOLO-World : Výsledky

Jakmile je model YOLO-World předškolen, je vyhodnocen přímo na LVIS datové sadě v nulovém nastavení, s LVIS datovou sadou obsahující více než 1200 kategorií, což je výrazně více než předškolení datové sady používané existujícími rámci pro testování jejich výkonu na velké slovníkové detekci. Následující obrázek demonstruje výkon rámce YOLO-World s některými existujícími špičkovými rámci detekce objektů na LVIS datové sadě v nulovém nastavení.

Jak je vidět, rámec YOLO-World překonává většinu existujících rámců z hlediska rychlosti inference a nulového výkonu, dokonce i s rámci jako Grounding DINO, GLIP a GLIPv2, které zahrnují více dat. Celkově, výsledky prokazují, že malé modely detekce objektů, jako je YOLO-World-S s pouze 13 miliony parametrů, mohou být využity pro předškolení na vidění-jazykových úkolech s pozoruhodnými otevřenými slovníkovými schopnostmi.

Závěrečné Myšlenky

V tomto článku, jsme mluvili o YOLO-World, inovativním přístupu, který si klade za cíl vylepšit schopnosti rámce YOLO nebo You Only Look Once s otevřenou slovníkovou detekcí schopnostmi předškolením rámce na velkých datových sadách a implementací modelu vidění-jazyka. Konkrétněji, rámec YOLO-World navrhuje implementovat Re-parametrizovatelnou Síť Agregace Vidění-Jazyka (RepVL-PAN) spolu s region-text kontrastivní ztrátou pro podporu interakce mezi lingvistickými a vizuálními informacemi. Díky RepVL-PAN a region-text kontrastivní ztrátě, rámec YOLO-World může přesně a efektivně detekovat širokou škálu objektů v nulovém nastavení.

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.