výhonek YOLO-World: Real-Time Open-Vocabulary Object Detection - Unite.AI
Spojte se s námi

Umělá inteligence

YOLO-World: Detekce objektů otevřeného slovníku v reálném čase

mm

Zveřejněno

 on

Detekce objektů byla základní výzvou v počítačového vidění průmysl s aplikacemi v robotice, porozumění obrazu, autonomních vozidlech a rozpoznávání obrazu. V posledních letech převratná práce v oblasti AI, zejména prostřednictvím hlubokých neuronových sítí, výrazně pokročila v detekci objektů. Tyto modely však mají pevný slovník, omezený na detekci objektů v rámci 80 kategorií datového souboru COCO. Toto omezení pramení z tréninkového procesu, kdy jsou detektory objektů trénovány tak, aby rozpoznávaly pouze specifické kategorie, čímž je omezena jejich použitelnost.

Abychom to překonali, představujeme YOLO-World, inovativní přístup zaměřený na vylepšení rámce YOLO (You Only Look Once) o možnosti detekce otevřeného slovníku. Toho je dosaženo předběžným školením rámce na rozsáhlých souborech dat a implementací přístupu modelování vize jazyka. Konkrétně YOLO-World využívá Re-parametrizovatelnou síť Vision-Language Path Aggregation Network (RepVL-PAN) a kontrastní ztrátu regionálního textu k podpoře interakce mezi lingvistickými a vizuálními informacemi. Prostřednictvím RepVL-PAN a kontrastivní ztráty regionálního textu dokáže YOLO-World přesně detekovat širokou škálu objektů v nastavení nulového záběru, což ukazuje pozoruhodný výkon v úlohách segmentace otevřeného slovníku a detekce objektů.

Tento článek si klade za cíl poskytnout důkladné pochopení technických základů YOLO-World, architektury modelu, tréninkového procesu a aplikačních scénářů. Pojďme se ponořit.

YOLO-World: Detekce objektů otevřeného slovníku v reálném čase

YOLO nebo You Only Look Once je jednou z nejpopulárnějších metod moderní detekce objektů v odvětví počítačového vidění. Proslulý pro svou neuvěřitelnou rychlost a efektivitu, příchod Yolo mechanismus způsobil revoluci ve způsobu, jakým stroje interpretují a detekují specifické objekty v obrazech a videích v reálném čase. Tradiční rámce detekce objektů implementují dvoustupňový přístup k detekci objektů: v prvním kroku framework navrhne oblasti, které by mohly obsahovat objekt, a v dalším kroku rámec klasifikuje objekt. Rámec YOLO na druhé straně integruje tyto dva kroky do jediného modelu neuronové sítě, což je přístup, který umožňuje frameworku podívat se na obrázek pouze jednou, aby předpověděl objekt a jeho umístění v rámci obrázku, a proto název YOLO nebo You Podívejte se pouze jednou. 

Kromě toho framework YOLO považuje detekci objektů za regresní problém a předpovídá pravděpodobnosti tříd a ohraničující rámečky přímo z celého obrázku jediným pohledem. Implementace této metody nejen zvyšuje rychlost detekčního procesu, ale také zlepšuje schopnost modelu zobecňovat z komplexních a různorodých dat, což z něj činí vhodnou volbu pro aplikace pracující v reálném čase, jako je autonomní řízení, detekce rychlosti nebo číslování. rozpoznávání talířů. Kromě toho významný pokrok hlubokých neuronových sítí v posledních několika letech také významně přispěl k vývoji rámců pro detekci objektů, ale úspěch rámců pro detekci objektů je stále omezený, protože jsou schopny detekovat objekty pouze s omezenou slovní zásobou. Je to především proto, že jakmile jsou kategorie objektů definovány a označeny v datové sadě, trénované detektory v rámci jsou schopny rozpoznat pouze tyto specifické kategorie, což omezuje použitelnost a schopnost nasazení modelů detekce objektů v reálném čase a otevřených scénářích. 

Nedávno vyvinuté modely jazyka vidění využívají destilované znalosti slovní zásoby z jazykových kodérů k řešení detekce otevřeného slovníku. Ačkoli tyto rámce fungují lépe než tradiční modely detekce objektů při detekci otevřeného slovníku, stále mají omezenou použitelnost kvůli omezené dostupnosti trénovacích dat s omezenou rozmanitostí slovníku. Kromě toho vybrané rámce školí detektory objektů s otevřenou slovní zásobou ve velkém měřítku a kategorizují trénovací detektory objektů jako předškolení zraku a jazyka na úrovni regionu. Tento přístup však stále má problémy s detekcí objektů v reálném čase ze dvou hlavních důvodů: složitý proces nasazení pro okrajová zařízení a velké výpočetní požadavky. Pozitivní je, že tyto rámce prokázaly pozitivní výsledky z přípravy velkých detektorů na jejich použití s ​​otevřenými rozpoznávacími schopnostmi. 

Rámec YOLO-World si klade za cíl dosáhnout vysoce účinné detekce objektů s otevřeným slovníkem a prozkoumat možnosti rozsáhlých předtréninkových přístupů ke zvýšení účinnosti tradičních detektorů YOLO pro detekci objektů s otevřeným slovníkem. Na rozdíl od předchozích prací v oblasti detekce objektů, rámec YOLO-World vykazuje pozoruhodnou efektivitu s vysokou rychlostí odvození a lze jej snadno nasadit na následné aplikace. Model YOLO-World sleduje tradiční architekturu YOLO a kóduje vstupní texty využitím schopností předem trénovaného textového kodéru CLIP. Rámec YOLO-World navíc ve své architektuře zahrnuje komponentu Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), která spojuje obrazové a textové funkce pro vylepšené vizuálně-sémantické reprezentace. Během inferenční fáze framework odstraní textový kodér a přeparametrizuje vložení textu do vah RepVL-PAN, což vede k efektivnímu nasazení. Rámec také zahrnuje kontrastivní učení regionů a textů ve svém rámci pro studium metod předběžného školení s otevřenou slovní zásobou pro tradiční modely YOLO. Metoda kontrastního učení region-text sjednocuje data obrázek-text, data uzemnění a data detekce do párů region-text. V návaznosti na to rámec YOLO-World předem natrénovaný na párech region-text demonstruje pozoruhodné schopnosti pro detekci otevřené a velké slovní zásoby. Kromě toho rámec YOLO-World také zkoumá paradigma prompt-then-detect s cílem zvýšit efektivitu detekce objektů s otevřeným slovníkem v reálném čase a ve scénářích reálného světa. 

Jak ukazuje následující obrázek, tradiční detektory objektů se zaměřují na úzkou sadu detekce fixního slovníku s předem definovanými kategoriemi, zatímco detektory otevřeného slovníku detekují objekty kódováním uživatelských výzev pomocí textových kodérů pro otevřenou slovní zásobu. Pro srovnání, přístup YOLO-World prompt-then-detect nejprve vytváří offline slovník (různý slovník pro různé potřeby) zakódováním uživatelských výzev, což umožňuje detektorům interpretovat offline slovník v reálném čase, aniž by museli výzvy znovu kódovat. 

YOLO-World: Metoda a architektura

Páry region-text

Tradičně rámce pro detekci objektů včetně Yolo rodina detektorů objektů je trénována pomocí anotací instancí, které obsahují popisky kategorií a ohraničující rámečky. Oproti tomu framework YOLO-World přeformuloval anotace instancí jako páry region-text, kde text může být popis objektu, fráze podstatného jména nebo název kategorie. Stojí za zmínku, že rámec YOLO-World přebírá jak texty, tak obrázky jako vstupní a výstupní prediktivní boxy s odpovídajícím vložením objektů. 

Architektura modelu

Ve svém jádru se model YOLO-World skládá z kodéru textu, detektoru YOLO a komponenty Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), jak je znázorněno na následujícím obrázku. 

U vstupního textu komponenta kodéru textu zakóduje text do textových vložení, po kterém následuje extrakce víceúrovňových prvků ze vstupního obrazu pomocí obrazových detektorů v komponentě detektoru YOLO. Komponenta Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) pak využívá křížovou modalitu mezi vložením textu a funkcí ke zlepšení reprezentace textu a obrázků. 

detektor YOLO

Model YOLO-World je postaven na stávajícím frameworku YOLOv8, který obsahuje páteřní komponentu Darknet jako kodér obrazu, hlavu pro vkládání objektů a regresi hraničního rámečku a síť PAN neboli Path Aggression Network pro pyramidy funkcí ve více měřítcích. 

Textový kodér

Pro daný text model YOLO-World extrahuje odpovídající textová vložení pomocí předem trénovaného textového kodéru CLIP Transformer s určitým počtem podstatných jmen a rozměrem vložení. Primárním důvodem, proč framework YOLO-World přijímá textový kodér CLIP, je ten, že nabízí lepší vizuálně-sémantický výkon pro spojování textů s vizuálními objekty, čímž výrazně překonává tradiční kodéry pouze textového jazyka. Pokud je však vstupním textem buď titulek, nebo odkazující výraz, model YOLO-World zvolí jednodušší n-gramový algoritmus pro extrakci frází. Tyto fráze jsou pak přiváděny do textového kodéru. 

Text Kontrastivní Hlava

Decoupled head je komponenta používaná dřívějšími modely detekce objektů a rámec YOLO-World využívá oddělenou hlavu s duálními 3×3 závity pro regresi vkládání objektů a ohraničujících rámečků pro pevný počet objektů. Rámec YOLO-World využívá kontrastní hlavu k získání podobnosti mezi objektem a textem pomocí přístupu normalizace L2 a vkládání textu. Model YOLO-World navíc také využívá afinní transformační přístup s faktorem posunu a naučitelným škálovacím faktorem, přičemž normalizace L2 a afinní transformace zvyšují stabilitu modelu během trénování regionálního textu. 

Online školení slovní zásoby

Během tréninkové fáze model YOLO-World vytváří online slovní zásobu pro každý vzorek mozaiky sestávající ze 4 obrázků. Model vzorkuje všechna pozitivní podstatná jména obsažená v mozaikových obrázcích a náhodně vzorkuje některá negativní podstatná jména z odpovídajícího souboru dat. Slovní zásobu každého vzorku tvoří maximálně n podstatných jmen, přičemž výchozí hodnota je 80. 

Offline vyvozování slovní zásoby

Během inference model YOLO-World představuje strategii prompt-then-detect s offline slovní zásobou pro další zvýšení efektivity modelu. Uživatel nejprve definuje řadu vlastních výzev, které mohou zahrnovat kategorie nebo dokonce titulky. Model YOLO-World pak získává offline vložení slovní zásoby pomocí kodéru textu pro zakódování těchto výzev. V důsledku toho offline slovník pro vyvozování pomáhá modelu vyhnout se výpočtům pro každý vstup a také umožňuje modelu flexibilně upravit slovník podle požadavků. 

Přeparametrizovatelná síť Vision-Language Path Aggression Network (RevVL-PAN)

Následující obrázek ilustruje strukturu navrhované Reparameterizovatelné sítě pro agresi vize a jazyka, která sleduje cestu shora dolů a zdola nahoru, aby vytvořila pyramidu prvků s obrázky prvků ve více měřítcích. 

Aby se zlepšila interakce mezi textovými a obrazovými funkcemi, model YOLO-World navrhuje Image-Pooling Attention a textem řízený CSPLayer (Cross-Stage Partial Layers) s konečným cílem zlepšit vizuálně-sémantické reprezentace pro schopnosti otevřené slovní zásoby. Během inference model YOLO-World přeparametrizuje vložení offline slovníku do vah lineárních nebo konvolučních vrstev pro efektivní nasazení. 

Jak je vidět na obrázku výše, model YOLO-World využívá CSPLayer po fúzi shora dolů nebo zdola nahoru a začleňuje textové navádění do vícerozměrných obrazových funkcí, čímž tvoří CSPLayer s textovým průvodcem, čímž se rozšiřuje CSPLayer. Pro jakýkoli daný obrazový prvek a jeho odpovídající vkládání textu model přijme maximální sigmoidní pozornost po posledním bloku úzkého hrdla, aby agregoval textové prvky do obrazových prvků. Aktualizovaný obrazový prvek je poté zřetězen s prvky napříč scénami a je prezentován jako výstup. 

 Model YOLO-World dále agreguje funkce obrázků pro aktualizaci vkládání textu zavedením vrstvy Image Pooling Attention, která vylepšuje vkládání textu o informace o obrazech. Namísto použití křížové pozornosti přímo na obrazové prvky využívá model maximální sdružování vícerozměrných funkcí k získání oblastí 3×3, což má za následek 27 tokenů záplat, přičemž model aktualizuje vložení textu v dalším kroku. 

Předtréninková schémata

Model YOLO-World se řídí dvěma primárními předtréninkovými schématy: Learning from Region-Text Contrasative Loss a Pseudo Labeling with Image-Text Data. U primárního schématu předtréninku model vydává predikce objektů spolu s anotacemi pro daný text a vzorky mozaiky. Rámec YOLO-World porovnává předpovědi s anotacemi základní pravdy tím, že se řídí a využívá přiřazení štítků přiřazených úkolům a přiřazuje jednotlivé pozitivní předpovědi textovým indexem, který slouží jako štítek klasifikace. Na druhé straně schéma předběžného školení Pseudo Labeling with Image-Text Data navrhuje použít pro generování párů region-text použití automatizovaného přístupu k označování namísto použití párů obrázek-text. Navrhovaný přístup k označování se skládá ze tří kroků: extrahovat podstatné jmenné fráze, pseudooznačování a filtrování. První krok využívá n-gramový algoritmus k extrakci podstatných frází ze vstupního textu, druhý krok využívá předem trénovaný detektor otevřené slovní zásoby pro generování pseudo rámečků pro danou jmennou frázi pro jednotlivé obrázky, zatímco třetí a poslední krok využívá předem trénovaný rámec CLIP pro vyhodnocení relevance párů region-text a text-obrázek, načež model filtruje nerelevantní pseudoobrázky a anotace. 

YOLO-World: Výsledky

Jakmile je model YOLO-World předem natrénován, je vyhodnocen přímo na datové sadě LVIS v nastavení nulového záběru, přičemž datová sada LVIS obsahuje více než 1200 kategorií, což je výrazně více než datové sady před trénováním používané stávajícími frameworky pro testování. jejich výkon při detekci velké slovní zásoby. Následující obrázek ukazuje výkon rámce YOLO-World s některými ze stávajících nejmodernějších rámců detekce objektů na datové sadě LVIS v nastavení nulového záběru. 

Jak lze pozorovat, framework YOLO-World překonává většinu existujících frameworků, pokud jde o rychlosti vyvozování a výkon nula, dokonce i s frameworky jako Grounding DINO, GLIP a GLIPv2, které obsahují více dat. Celkově výsledky ukazují, že modely detekce malých objektů, jako je YOLO-World-S s pouze 13 miliony parametrů, lze použít pro předškolení na úkoly v oblasti zrakového jazyka s pozoruhodnými schopnostmi otevřeného slovníku. 

Závěrečné myšlenky

V tomto článku jsme hovořili o YOLO-World, inovativním přístupu, jehož cílem je zlepšit schopnosti rámce YOLO nebo You Only Look Once s možností detekce otevřeného slovníku předtrénováním rámce na rozsáhlých datových sadách a implementací přístup modelování vize jazyka. Přesněji řečeno, rámec YOLO-World navrhuje implementovat Reparametrizovatelnou síť Vision Language Path Aggregation Network nebo RepVL-PAN spolu s kontrastivní ztrátou regionálního textu, aby se usnadnila interakce mezi lingvistickou a vizuální informací. Implementací RepVL-PAN a kontrastivní ztráty regionálního textu je rámec YOLO-World schopen přesně a efektivně detekovat širokou škálu objektů v nastavení nulového záběru.

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.