csonk YOLO-World: Valós idejű nyílt szókincs objektumészlelés – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

YOLO-World: Valós idejű nyílt szókincs objektumészlelés

mm

Közzététel:

 on

Az objektumészlelés alapvető kihívást jelentett a számítógépes látás ipar, robotika, képmegértés, autonóm járművek és képfelismerés. Az elmúlt években a mesterséges intelligencia területén végzett úttörő munka, különösen a mély neurális hálózatokon keresztül, jelentősen előrehaladt az objektumok észlelésében. Ezek a modellek azonban rögzített szókészlettel rendelkeznek, amely a COCO adatkészlet 80 kategóriáján belüli objektumok észlelésére korlátozódik. Ez a korlátozás a betanítási folyamatból ered, ahol az objektumdetektorokat arra tanítják, hogy csak meghatározott kategóriákat ismerjenek fel, így korlátozva azok alkalmazhatóságát.

Ennek leküzdésére bemutatjuk a YOLO-World innovatív megközelítést, amelynek célja a YOLO (You Only Look Once) keretrendszer bővítése nyílt szókincs-felismerési képességekkel. Ezt úgy érik el, hogy a keretrendszert előzetesen betanítják a nagyméretű adatkészletekre, és egy látásnyelvi modellezési megközelítést alkalmaznak. Pontosabban, a YOLO-World egy újraparaméterezhető látás-nyelvi útvonal-aggregációs hálózatot (RepVL-PAN) és régió-szöveg kontrasztvesztést alkalmaz a nyelvi és vizuális információk közötti interakció elősegítése érdekében. A RepVL-PAN és a régió-szöveg kontrasztvesztés révén a YOLO-World pontosan érzékeli az objektumok széles skáláját nulla lövés mellett, és figyelemre méltó teljesítményt mutat a nyílt szókincs szegmentálásában és az objektumészlelési feladatokban.

Ennek a cikknek a célja, hogy alapos ismereteket nyújtson a YOLO-World műszaki alapjairól, a modell architektúráról, a képzési folyamatról és az alkalmazási forgatókönyvekről. Merüljünk el.

YOLO-World: Valós idejű nyílt szókincs objektumészlelés

A YOLO vagy a You Only Look Once az egyik legnépszerűbb módszer a modern objektumfelderítésre a számítógépes látásiparban. Hihetetlen gyorsaságáról és hatékonyságáról híres, az Advent a Yolo A mechanizmus forradalmasította azt a módot, ahogyan a gépek valós időben értelmezik és észlelik a képeken és videókon belüli konkrét objektumokat. A hagyományos objektumészlelési keretrendszerek kétlépcsős objektumészlelési megközelítést valósítanak meg: az első lépésben a keretrendszer olyan régiókat javasol, amelyek tartalmazhatják az objektumot, és a keretrendszer a következő lépésben osztályozza az objektumot. Másrészt a YOLO keretrendszer ezt a két lépést egyetlen neurális hálózati modellbe integrálja, amely megközelítés lehetővé teszi, hogy a keretrendszer csak egyszer nézzen rá a képre, hogy megjósolhassa az objektumot és a képen belüli elhelyezkedését, és innen a YOLO vagy You nevet. Csak egyszer nézz. 

Ezenkívül a YOLO keretrendszer az objektumészlelést regressziós problémaként kezeli, és egyetlen pillantással megjósolja az osztályvalószínűségeket és a határolókereteket közvetlenül a teljes képből. Ennek a módszernek a megvalósítása nemcsak az észlelési folyamat sebességét növeli, hanem javítja a modell azon képességét is, hogy összetett és változatos adatokból általánosítson, így megfelelő választássá válik olyan valós időben működő alkalmazásokhoz, mint az autonóm vezetés, a sebességérzékelés vagy a számok. lemezfelismerés. Továbbá a mély neurális hálózatok jelentős fejlődése az elmúlt években szintén jelentősen hozzájárult az objektumészlelő keretrendszerek fejlődéséhez, de az objektumdetektáló keretrendszerek sikere továbbra is korlátozott, mivel csak korlátozott szókinccsel képesek észlelni az objektumokat. Ennek elsősorban az az oka, hogy miután az objektumkategóriákat meghatározták és felcímkézték az adatkészletben, a keretrendszerben lévő betanított detektorok csak ezeket a specifikus kategóriákat képesek felismerni, így korlátozva az objektum-észlelési modellek valós idejű és nyílt forgatókönyvekben történő alkalmazását. 

Tovább haladva, a közelmúltban kifejlesztett látásnyelvi modellek a nyelvi kódolóktól származó desztillált szókincs-ismereteket alkalmazzák a nyílt szókincs észlelésének kezelésére. Bár ezek a keretrendszerek jobban teljesítenek, mint a hagyományos objektumészlelési modellek a nyílt szókincs észlelésében, még mindig korlátozottak az alkalmazhatóságuk a korlátozott szókincs-diverzitású képzési adatok szűkössége miatt. Ezenkívül a kiválasztott keretrendszerek nyílt szókincsű objektumdetektorokat képeznek ki nagy léptékben, és a betanított objektumdetektorokat régiószintű látás-nyelv előképzésként kategorizálják. A megközelítés azonban továbbra is nehézségekbe ütközik az objektumok valós idejű észlelésében két fő ok miatt: a szélső eszközök bonyolult telepítési folyamata és a súlyos számítási követelmények. Pozitívum, hogy ezek a keretrendszerek pozitív eredményeket mutattak a nagy detektorok előzetes betanításával, hogy nyílt felismerési képességekkel alkalmazzák őket. 

A YOLO-World keretrendszer célja a rendkívül hatékony, nyílt szókincsből álló objektumészlelés, valamint a nagyszabású előképzési megközelítések lehetőségének feltárása a hagyományos YOLO detektorok hatékonyságának növelése érdekében a nyílt szókincs tárgyfelismerésére. Az objektumészlelés korábbi munkáival ellentétben a YOLO-World keretrendszer figyelemreméltó hatékonyságot mutat nagy következtetési sebesség mellett, és könnyen telepíthető a későbbi alkalmazásokban. A YOLO-World modell a hagyományos YOLO architektúrát követi, és egy előre betanított CLIP szövegkódoló képességeit kihasználva kódolja a bemeneti szövegeket. Ezenkívül a YOLO-World keretrendszer architektúrájában tartalmaz egy újraparaméterezhető látás-nyelvi útvonal-összesítő hálózat (RepVL-PAN) összetevőt, amely képes összekapcsolni a képi és szöveges jellemzőket a továbbfejlesztett vizuális-szemantikai megjelenítés érdekében. A következtetési fázis során a keretrendszer eltávolítja a szövegkódolót, és újra paraméterezte a szövegbeágyazásokat RepVL-PAN súlyokká, ami hatékony telepítést eredményez. A keretrendszer a régió-szöveg kontrasztív tanulást is tartalmazza a hagyományos YOLO modellek nyitott szókincs előképzési módszereinek tanulmányozására. A régió-szöveg kontrasztív tanulási módszer a kép-szöveg adatokat, a földelési adatokat és a detektálási adatokat régió-szöveg párokká egyesíti. Erre építve a régió-szöveg párokra előre kiképzett YOLO-World keretrendszer figyelemre méltó képességeket mutat a nyílt és nagy szókincs észlelésére. Ezenkívül a YOLO-World keretrendszer egy azonnali, majd észlelési paradigmát is feltár, azzal a céllal, hogy növelje a nyílt szókincs tárgyfelismerésének hatékonyságát valós idejű és valós forgatókönyvekben. 

Amint az a következő képen látható, a hagyományos tárgydetektorok a rögzített szókincs közeli észlelésére összpontosítanak előre meghatározott kategóriákkal, míg a nyílt szókincs detektorai úgy érzékelik az objektumokat, hogy a felhasználói utasításokat szöveges kódolókkal kódolják a nyílt szókincshez. Összehasonlításképpen, a YOLO-World azonnali, majd észleli megközelítése először egy offline szókincset (változó szókincset a változó igényekhez) épít fel a felhasználói promptok kódolásával, lehetővé téve az érzékelők számára az offline szókincs valós időben történő értelmezését anélkül, hogy újra kellene kódolnia a promptokat. 

YOLO-World: Módszer és építészet

Régió-szöveg párok

Hagyományosan az objektumészlelési keretrendszerek, beleértve a Yolo Az objektumdetektorok családját a kategóriacímkéket és határolókereteket tartalmazó példányjegyzetek segítségével képezik. Ezzel szemben a YOLO-World keretrendszer újrafogalmazza a példányjegyzeteket régió-szöveg párokká, ahol a szöveg lehet az objektum leírása, főnévi kifejezések vagy kategórianév. Érdemes kiemelni, hogy a YOLO-World keretrendszer a szövegeket és a képeket egyaránt elfogadja bemeneti és kimeneti előrejelzett dobozokként a megfelelő objektum-beágyazásokkal. 

Modellarchitektúra

Lényegében a YOLO-World modell egy szövegkódolóból, egy YOLO detektorból és a Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) komponensből áll, amint az a következő képen látható. 

Bemeneti szöveg esetén a szövegkódoló komponens a szöveget szövegbeágyazásokká kódolja, majd a YOLO detektor komponens képérzékelői többléptékű jellemzőket vonnak ki a bemeneti képből. Az újraparaméterezhető látás-nyelv útvonal-aggregációs hálózat (RepVL-PAN) komponens ezután kihasználja a szöveg és a jellemző beágyazások közötti keresztmodalitás fúziót a szöveg- és képábrázolás javítása érdekében. 

YOLO detektor

A YOLO-World modell a meglévő YOLOv8 keretrendszerre épül, amely egy Darknet gerinckomponenst tartalmaz képkódolóként, egy fejet az objektumok beágyazásához és a határoló doboz regressziójához, valamint egy PAN vagy Path Aggression Network többléptékű jellemzőpiramisokhoz. 

Szövegkódoló

Egy adott szöveghez a YOLO-World modell egy előre betanított CLIP Transformer szövegkódoló segítségével bontja ki a megfelelő szövegbeágyazásokat bizonyos számú főnévvel és beágyazási dimenzióval. Az elsődleges ok, amiért a YOLO-World keretrendszer CLIP szövegkódolót alkalmaz, az az, hogy jobb vizuális-szemantikai teljesítményt nyújt a szövegek vizuális objektumokkal való összekapcsolásához, jelentősen felülmúlva a hagyományos, csak szöveges nyelvi kódolókat. Ha azonban a bemeneti szöveg felirat vagy hivatkozó kifejezés, akkor a YOLO-World modell egy egyszerűbb n-grammos algoritmust választ a kifejezések kinyerésére. Ezek a kifejezések ezután a szövegkódolóba kerülnek. 

Szöveg kontrasztos fej

A szétválasztott fej a korábbi objektumészlelési modellek által használt komponens, és a YOLO-World keretrendszer egy leválasztott fejet alkalmaz kettős 3 × 3-as konvolúcióval, hogy visszafejtse az objektumbeágyazásokat és a határolókereteket meghatározott számú objektumhoz. A YOLO-World keretrendszer szövegkontrasztív fejet használ az objektum-szöveg hasonlóság eléréséhez az L2 normalizációs megközelítés és a szövegbeágyazás segítségével. Ezenkívül a YOLO-World modell az affin transzformációs megközelítést is alkalmazza eltolási tényezővel és tanulható skálázási tényezővel, az L2 normalizálás és az affin transzformáció pedig javítja a modell stabilitását a régió-szöveg képzés során. 

Online szókincs képzés

A képzési szakaszban a YOLO-World modell minden mozaikmintához online szótárat hoz létre, amely egyenként 4 képből áll. A modell mintát vesz a mozaikképeken szereplő összes pozitív főnévből, és néhány negatív főnévből véletlenszerűen mintát vesz a megfelelő adatkészletből. Az egyes minták szókincse legfeljebb n főnévből áll, az alapértelmezett érték 80. 

Offline Vocabulary Inference

A következtetés során a YOLO-World modell egy azonnali, majd észlelési stratégiát mutat be offline szókinccsel, hogy tovább növelje a modell hatékonyságát. A felhasználó először meghatároz egy sor egyéni promptot, amelyek kategóriákat vagy akár feliratokat is tartalmazhatnak. A YOLO-World modell ezután offline szókincsbeágyazásokat szerez a szövegkódoló használatával ezeknek a promptoknak a kódolására. Ennek eredményeként az offline következtetési szókincs segít a modellnek elkerülni az egyes bemenetekre vonatkozó számításokat, és lehetővé teszi a modell számára, hogy rugalmasan állítsa be a szókincset a követelményeknek megfelelően. 

Újraparaméterezhető Vision-Language Path Aggression Network (RevVL-PAN)

A következő ábra szemlélteti a javasolt újraparaméterezhető látás-nyelvi útvonal agressziós hálózat felépítését, amely a felülről lefelé és alulról felfelé haladó útvonalakat követi, hogy többléptékű jellemzőképekkel létrehozza a jellemzőpiramist. 

A szöveg- és képjellemzők közötti interakció javítása érdekében a YOLO-World modell egy Image-Pooling Attention-t és egy szövegvezérelt CSPLayer-t (Cross-Stage Partial Layers) javasol azzal a végső céllal, hogy javítsa a nyílt szókincs képességeinek vizuális-szemantikai megjelenítését. A következtetés során a YOLO-World modell újraparaméterezi az offline szókincs beágyazásait a lineáris vagy konvolúciós rétegek súlyába a hatékony telepítés érdekében. 

Amint az a fenti ábrán is látható, a YOLO-World modell a felülről lefelé vagy alulról felfelé történő fúziót követően a CSPLayer-t használja, és a szöveges útmutatást beépíti a többléptékű képi jellemzőkbe, létrehozva a Text-Guided CSPLayer-t, így kibővítve. a CSPLayer. Bármely adott képelemnél és a hozzá tartozó szövegbeágyazásnál a modell az utolsó szűk keresztmetszet-blokk után a max-szigmoid figyelmet alkalmazza, hogy a szöveges jellemzőket képelemekké gyűjtse össze. A frissített képfunkció ezután összefűződik a többlépcsős jellemzőkkel, és kimenetként jelenik meg. 

 Továbblépve, a YOLO-World modell képjellemzőket aggregál, hogy frissítse a szövegbeágyazást az Image Pooling Attention réteg bevezetésével, amely a szövegbeágyazásokat képérzékelő információkkal bővíti. Ahelyett, hogy a keresztfigyelést közvetlenül a képjellemzőkre használná, a modell a többléptékű jellemzők maximális összevonását használja ki, hogy 3 × 3-as régiót kapjon, ami 27 javítási tokent eredményez, és a modell frissíti a szövegbeágyazást a következő lépésben. 

Előképzési sémák

A YOLO-World modell két elsődleges előképzési sémát követ: Tanulás a régió-szöveg kontrasztvesztéséből és az álcímkézés kép-szöveg adatokkal. Az elsődleges előképzési séma esetében a modell objektum-előrejelzéseket ad ki a megjegyzésekkel együtt egy adott szöveghez és mozaikmintához. A YOLO-World keretrendszer a feladathoz rendelt címke-hozzárendelés követésével és kihasználásával egyezteti az előrejelzéseket az alapigazság-annotációkkal, és az egyes pozitív előrejelzéseket egy szöveges indexszel rendeli hozzá, amely osztályozási címkeként szolgál. Másrészt az álcímkézés kép-szöveg adatokkal előképzési séma automatizált címkézési megközelítést javasol a kép-szöveg párok használata helyett a régió-szöveg párok létrehozására. A javasolt címkézési megközelítés három lépésből áll: főnévi kifejezések kinyerése, pszeudocímkézés és szűrés. Az első lépés az n-gram algoritmust használja a főnévi kifejezések kinyerésére a bemeneti szövegből, a második lépés egy előre betanított nyílt szókincs detektort alkalmaz, amely pszeudo dobozokat generál az adott főnévi kifejezéshez az egyes képekhez, míg a harmadik és az utolsó lépés egy előre betanított CLIP keretrendszer a régió-szöveg és a szöveg-kép párok relevanciájának értékelésére, amely alapján a modell kiszűri az alacsony relevanciájú pszeudo képeket és megjegyzéseket. 

YOLO-World: Eredmények

A YOLO-World modell előzetes betanítása után közvetlenül az LVIS-adatkészleten kerül kiértékelésre nulla-shot beállításban, az LVIS-adatkészlet több mint 1200 kategóriából áll, ami lényegesen több, mint a meglévő keretrendszerek által tesztelésre használt képzés előtti adatkészletek. teljesítményük a nagy szókincs felderítésében. A következő ábra a YOLO-World keretrendszer teljesítményét mutatja be néhány létező legkorszerűbb objektumészlelési keretrendszerrel az LVIS adatkészleten nulla-lövés beállításban. 

Mint látható, a YOLO-World keretrendszer felülmúlja a meglévő keretrendszerek többségét a következtetési sebesség és a nullapontos teljesítmény tekintetében, még olyan keretrendszerekkel is, mint a Grounding DINO, GLIP és GLIPv2, amelyek több adatot tartalmaznak. Összességében az eredmények azt mutatják, hogy a kisméretű objektumészlelési modellek, mint például a YOLO-World-S, mindössze 13 millió paraméterrel, felhasználhatók a látásnyelvi feladatok előképzésére, figyelemre méltó nyílt szókincs-képességekkel. 

Záró gondolatok

Ebben a cikkben szót ejtettünk a YOLO-Worldről, egy innovatív megközelítésről, amely a YOLO vagy You Only Look Once keretrendszer képességeinek bővítését célozza nyílt szókincs-felismerési képességekkel azáltal, hogy előképzi a keretrendszert nagyméretű adatkészletekre, és implementálja a látás-nyelv modellezési megközelítés. Pontosabban, a YOLO-World keretrendszer egy újraparaméterezhető látásnyelvi útvonal-aggregációs hálózat vagy RepVL-PAN megvalósítását javasolja a régió-szöveg kontrasztvesztésével együtt, hogy megkönnyítse a nyelvi és a vizuális információ közötti interakciót. A RepVL-PAN és a régió-szöveg kontrasztvesztés megvalósításával a YOLO-World keretrendszer képes pontosan és hatékonyan érzékelni az objektumok széles körét nulla lövés mellett.

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.