škrbina YOLO-World: Odkrivanje objektov odprtega besedišča v realnem času - Unite.AI
Povežite se z nami

Umetna inteligenca

YOLO-World: Odkrivanje objektov odprtega besedišča v realnem času

mm

objavljeno

 on

Odkrivanje predmetov je bil temeljni izziv v računalniški vid industriji z aplikacijami v robotiki, razumevanju slike, avtonomnih vozilih in prepoznavanje slike. V zadnjih letih je prelomno delo na področju umetne inteligence, zlasti prek globokih nevronskih mrež, znatno napredovalo pri odkrivanju predmetov. Vendar imajo ti modeli fiksen besednjak, omejen na zaznavanje predmetov znotraj 80 kategorij nabora podatkov COCO. Ta omejitev izhaja iz procesa usposabljanja, kjer se detektorji objektov učijo prepoznavati samo določene kategorije, kar omejuje njihovo uporabnost.

Da bi to premagali, uvajamo YOLO-World, inovativen pristop, katerega cilj je izboljšati okvir YOLO (You Only Look Once) z odprtimi zmožnostmi zaznavanja besedišča. To se doseže s predhodnim usposabljanjem ogrodja na obsežnih naborih podatkov in implementacijo pristopa modeliranja v jeziku vizije. Natančneje, YOLO-World uporablja Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) in kontrastno izgubo regijskega besedila za spodbujanje interakcije med jezikovnimi in vizualnimi informacijami. Z RepVL-PAN in kontrastno izgubo regijskega besedila lahko YOLO-World natančno zazna širok razpon predmetov v nastavitvi ničelnega strela, kar kaže izjemno zmogljivost pri segmentaciji odprtega besedišča in nalogah zaznavanja objektov.

Namen tega članka je zagotoviti temeljito razumevanje tehničnih temeljev YOLO-World, arhitekture modela, procesa usposabljanja in scenarijev uporabe. Potopimo se noter.

YOLO-World: Odkrivanje objektov odprtega besedišča v realnem času

YOLO ali pogledaš samo enkrat je ena najbolj priljubljenih metod sodobnega odkrivanja predmetov v industriji računalniškega vida. Slovi po svoji neverjetni hitrosti in učinkovitosti, pojav YOLO Mehanizem je revolucioniral način, kako stroji interpretirajo in zaznavajo določene predmete v slikah in videoposnetkih v realnem času. Tradicionalna ogrodja za zaznavanje objektov izvajajo dvostopenjski pristop za zaznavanje objektov: v prvem koraku ogrodje predlaga regije, ki bi lahko vsebovale predmet, in ogrodje klasificira predmet v naslednjem koraku. Ogrodje YOLO po drugi strani združuje ta dva koraka v en sam model nevronske mreže, pristop, ki omogoča ogrodju, da sliko pogleda le enkrat, da predvidi predmet in njegovo lokacijo na sliki, in od tod tudi ime YOLO ali You Poglej samo enkrat. 

Poleg tega ogrodje YOLO obravnava zaznavanje objektov kot regresijski problem in napove verjetnosti razreda in mejna polja neposredno iz celotne slike v enem samem pogledu. Implementacija te metode ne samo poveča hitrost procesa zaznavanja, ampak tudi poveča sposobnost modela za posploševanje iz kompleksnih in raznolikih podatkov, zaradi česar je primerna izbira za aplikacije, ki delujejo v realnem času, kot so avtonomna vožnja, zaznavanje hitrosti ali številke. prepoznavanje tablic. Poleg tega je znaten napredek globokih nevronskih mrež v zadnjih nekaj letih prav tako pomembno prispeval k razvoju ogrodij za odkrivanje objektov, vendar je uspeh ogrodij za odkrivanje objektov še vedno omejen, saj lahko odkrijejo predmete le z omejenim besediščem. Predvsem zato, ker ko so kategorije objektov definirane in označene v naboru podatkov, so usposobljeni detektorji v ogrodju sposobni prepoznati samo te posebne kategorije, s čimer omejujejo uporabnost in zmožnost uvajanja modelov zaznavanja objektov v realnem času in odprtih scenarijih. 

Če nadaljujemo, nedavno razviti modeli jezikov vizije uporabljajo destilirano znanje besedišča iz jezikovnih kodirnikov za obravnavanje zaznavanja odprtega besedišča. Čeprav so ti okviri boljši od tradicionalnih modelov zaznavanja objektov pri zaznavanju odprtega besedišča, imajo še vedno omejeno uporabnost zaradi redke razpoložljivosti podatkov za usposabljanje z omejeno raznolikostjo besedišča. Poleg tega izbrana ogrodja usposabljajo detektorje predmetov z odprtim besediščem v velikem obsegu in kategorizirajo detektorje predmetov za usposabljanje kot predusposabljanje vida in jezika na regionalni ravni. Vendar ima pristop še vedno težave pri zaznavanju predmetov v realnem času zaradi dveh glavnih razlogov: zapletenega postopka uvajanja za robne naprave in velikih računalniških zahtev. Pozitivno je, da so ti okviri pokazali pozitivne rezultate pri predhodnem usposabljanju velikih detektorjev za njihovo uporabo z odprtimi zmožnostmi prepoznavanja. 

Ogrodje YOLO-World želi doseči zelo učinkovito zaznavanje predmetov z odprtim besednjakom in raziskati možnost obsežnih pristopov pred usposabljanjem za povečanje učinkovitosti tradicionalnih detektorjev YOLO za zaznavanje predmetov z odprtim besednjakom. V nasprotju s prejšnjimi deli na področju odkrivanja objektov, ogrodje YOLO-World izkazuje izjemno učinkovitost z visokimi hitrostmi sklepanja in ga je mogoče z lahkoto namestiti v nadaljnjih aplikacijah. Model YOLO-World sledi tradicionalni arhitekturi YOLO in kodira vhodna besedila z izkoriščanjem zmogljivosti vnaprej usposobljenega kodirnika besedila CLIP. Poleg tega ogrodje YOLO-World v svoji arhitekturi vključuje komponento Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) za povezovanje funkcij slike in besedila za izboljšane vizualno-semantične predstavitve. Med fazo sklepanja ogrodje odstrani kodirnik besedila in ponovno parametrizira vdelave besedila v uteži RepVL-PAN, kar povzroči učinkovito uvajanje. Ogrodje vključuje tudi kontrastno učenje regije in besedila v svojem okviru za preučevanje metod predhodnega usposabljanja z odprtim besediščem za tradicionalne modele YOLO. Metoda kontrastnega učenja regija-besedilo združuje slikovno-besedilne podatke, ozemljitvene podatke in podatke zaznavanja v regije-besedilne pare. Na podlagi tega ogrodje YOLO-World, predhodno usposobljeno za pare regija-besedilo, prikazuje izjemne zmožnosti za odprto in veliko zaznavanje besedišča. Poleg tega ogrodje YOLO-World raziskuje tudi paradigmo takoj in nato zaznaj z namenom izboljšanja učinkovitosti zaznavanja objektov z odprtim besediščem v scenarijih v realnem času in realnem svetu. 

Kot je prikazano na naslednji sliki, se tradicionalni detektorji predmetov osredotočajo na zaznavanje tesnega nabora fiksnega besedišča z vnaprej določenimi kategorijami, medtem ko detektorji odprtega besedišča zaznavajo predmete s kodiranjem uporabniških pozivov s kodirniki besedila za odprt besednjak. Za primerjavo, pristop prompt-then-detect podjetja YOLO-World najprej zgradi besedišče brez povezave (različen besednjak za različne potrebe) s kodiranjem uporabniških pozivov, kar omogoča detektorjem, da interpretirajo besedišče brez povezave v realnem času, ne da bi morali znova kodirati pozive. 

YOLO-World : Metoda in arhitektura

Pari regija-besedilo

Tradicionalno ogrodja za odkrivanje objektov, vključno z YOLO družina detektorjev predmetov se usposablja z uporabo opomb primerkov, ki vsebujejo oznake kategorij in omejevalne okvirje. V nasprotju s tem ogrodje YOLO-World na novo oblikuje opombe primerkov kot pare regija-besedilo, kjer je besedilo lahko opis predmeta, samostalniške fraze ali ime kategorije. Treba je poudariti, da ogrodje YOLO-World sprejme tako besedila kot slike kot vhodna in izhodna predvidena polja z ustreznimi vdelavami predmetov. 

Modelna arhitektura

V svojem jedru je model YOLO-World sestavljen iz kodirnika besedila, detektorja YOLO in komponente Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), kot je prikazano na naslednji sliki. 

Za vhodno besedilo komponenta kodirnika besedila kodira besedilo v vdelave besedila, čemur sledi ekstrakcija funkcij v več merilih iz vhodne slike s slikovnimi detektorji v komponenti detektorja YOLO. Komponenta Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) nato izkorišča zlitje navzkrižne modalnosti med besedilom in vdelavami funkcij za izboljšanje predstavitev besedila in slik. 

Detektor YOLO

Model YOLO-World je zgrajen na vrhu obstoječega ogrodja YOLOv8, ki vsebuje komponento hrbtenice Darknet kot svoj slikovni kodirnik, glavo za vdelave objektov in regresijo omejevalnih okvirjev ter PAN ali Path Aggression Network za večstopenjske piramide funkcij. 

Kodirnik besedila

Za dano besedilo model YOLO-World ekstrahira ustrezne vdelave besedila s sprejetjem vnaprej usposobljenega kodirnika besedila CLIP Transformer z določenim številom samostalnikov in dimenzijo vdelave. Primarni razlog, zakaj ogrodje YOLO-World sprejme kodirnik besedila CLIP, je ta, da ponuja boljšo vizualno-semantično zmogljivost za povezovanje besedil z vizualnimi objekti, kar znatno prekaša tradicionalne kodirnike samo besedilnih jezikov. Če pa je vhodno besedilo bodisi napis ali referenčni izraz, se model YOLO-World odloči za enostavnejši algoritem n-gramov za ekstrahiranje fraz. Ti stavki se nato podajo v kodirnik besedila. 

Kontrastna glava besedila

Ločena glava je komponenta, ki so jo uporabljali prejšnji modeli zaznavanja objektov, ogrodje YOLO-World pa sprejme ločeno glavo z dvojnimi zavoji 3×3 za regresijo vdelav objektov in omejevalnih okvirjev za fiksno število objektov. Ogrodje YOLO-World uporablja besedilno kontrastno glavo za pridobitev podobnosti med objektom in besedilom z uporabo normalizacijskega pristopa L2 in vdelave besedila. Poleg tega model YOLO-World uporablja tudi pristop afine transformacije s faktorjem premikanja in učljivim faktorjem skaliranja, pri čemer normalizacija L2 in afina transformacija povečujeta stabilnost modela med usposabljanjem regije in besedila. 

Spletno usposabljanje besedišča

Med fazo usposabljanja model YOLO-World sestavi spletni besednjak za vsak vzorec mozaika, sestavljen iz 4 slik. Model vzorči vse pozitivne samostalnike, vključene v mozaične slike, in naključno vzorči nekatere negativne samostalnike iz ustreznega niza podatkov. Besedišče za vsak vzorec je sestavljeno iz največ n samostalnikov, s privzeto vrednostjo 80. 

Sklepanje o besedišču brez povezave

Med sklepanjem model YOLO-World predstavlja strategijo takoj in nato zaznaj z besediščem brez povezave za nadaljnje izboljšanje učinkovitosti modela. Uporabnik najprej definira vrsto pozivov po meri, ki lahko vključujejo kategorije ali celo napise. Model YOLO-World nato pridobi vdelave besedišča brez povezave z uporabo kodirnika besedila za kodiranje teh pozivov. Posledično besedišče brez povezave za sklepanje pomaga modelu, da se izogne ​​izračunom za vsak vnos, poleg tega pa omogoča, da model prilagodljivo prilagodi besedišče glede na zahteve. 

Omrežje agresije poti vidnega jezika, ki ga je mogoče ponovno parametrirati (RevVL-PAN)

Naslednja slika ponazarja strukturo predlaganega omrežja agresije poti Vision-Language, ki ga je mogoče ponovno parametrirati in ki sledi poti od zgoraj navzdol in od spodaj navzgor za vzpostavitev piramide funkcij s slikami funkcij v več merilih. 

Za izboljšanje interakcije med besedilnimi in slikovnimi funkcijami model YOLO-World predlaga Image-Pooling Attention in Text-guided CSPLayer (Cross-Stage Partial Layers) s končnim ciljem izboljšanja vizualno-semantičnih predstavitev za zmožnosti odprtega besedišča. Med sklepanjem model YOLO-World ponovno parametrizira vdelave besedišča brez povezave v uteži linearnih ali konvolucijskih plasti za učinkovito uvajanje. 

Kot je razvidno iz zgornje slike, model YOLO-World uporablja CSPLayer po fuziji od zgoraj navzdol ali od spodaj navzgor in vključuje vodenje besedila v funkcije slike v več merilih, s čimer tvori besedilno vodeni CSPLayer in tako razširi CSplayer. Za katero koli dano slikovno funkcijo in njeno ustrezno vdelavo besedila model sprejme največjo sigmoidno pozornost po zadnjem bloku ozkega grla, da združi besedilne funkcije v slikovne funkcije. Funkcija posodobljene slike se nato poveže s funkcijami navzkrižnih stopenj in je predstavljena kot rezultat. 

 Če gremo naprej, model YOLO-World združuje slikovne funkcije za posodobitev vdelave besedila z uvedbo sloja Image Pooling Attention za izboljšanje vdelav besedila s slikovnimi informacijami. Namesto uporabe navzkrižne pozornosti neposredno na slikovnih funkcijah, model izkorišča največje združevanje na funkcijah v več merilih, da dobi regije 3 × 3, kar ima za posledico 27 ​​žetonov popravkov, pri čemer model v naslednjem koraku posodobi vdelave besedila. 

Sheme pred usposabljanjem

Model YOLO-World sledi dvema primarnima shemama predhodnega usposabljanja: Učenje iz kontrastne izgube regije in besedila ter psevdo označevanje s slikovno-besedilnimi podatki. Za primarno shemo pred usposabljanjem model izda napovedi objekta skupaj z opombami za dano besedilo in mozaične vzorce. Ogrodje YOLO-World ujema napovedi z opombami temeljne resnice tako, da sledi in izkorišča dodelitev oznak, dodeljenih opravilom, in dodeljuje posamezne pozitivne napovedi z besedilnim indeksom, ki služi kot klasifikacijska oznaka. Po drugi strani shema predhodnega usposabljanja za psevdo označevanje s slikovno-besedilnimi podatki predlaga uporabo avtomatiziranega pristopa označevanja namesto uporabe parov slika-besedilo za ustvarjanje parov regija-besedilo. Predlagani pristop označevanja je sestavljen iz treh korakov: ekstrahiranje samostalniških fraz, psevdo označevanje in filtriranje. Prvi korak uporablja algoritem n-grama za ekstrahiranje samostalniških besednih zvez iz vhodnega besedila, drugi korak sprejme vnaprej usposobljen detektor odprtega besedišča za generiranje psevdo okvirjev za dano samostalniško besedno zvezo za posamezne slike, medtem ko tretji in zadnji korak uporablja vnaprej usposobljeno ogrodje CLIP za ovrednotenje ustreznosti parov regija-besedilo in besedilo-slika, po katerem model filtrira psevdo slike in opombe z nizko relevantnostjo. 

YOLO-World : Rezultati

Ko je model YOLO-World predhodno usposobljen, se ovrednoti neposredno na naboru podatkov LVIS v nastavitvi ničelnega strela, pri čemer nabor podatkov LVIS obsega več kot 1200 kategorij, kar je bistveno več kot nabori podatkov pred usposabljanjem, ki jih uporabljajo obstoječi okviri za testiranje. njihova uspešnost pri zaznavanju velikega besedišča. Naslednja slika prikazuje delovanje ogrodja YOLO-World z nekaterimi obstoječimi najsodobnejšimi ogrodji za zaznavanje predmetov na naboru podatkov LVIS v nastavitvi ničelnega strela. 

Kot lahko opazimo, ogrodje YOLO-World prekaša večino obstoječih ogrodij v smislu hitrosti sklepanja in zmogljivosti zero shot, tudi z ogrodji, kot so Grounding DINO, GLIP in GLIPv2, ki vključujejo več podatkov. Na splošno rezultati kažejo, da je mogoče modele za zaznavanje majhnih predmetov, kot je YOLO-World-S s samo 13 milijoni parametrov, uporabiti za predhodno usposabljanje za naloge vizualnega jezika z izjemnimi zmožnostmi odprtega besedišča. 

Končna thoughts

V tem članku smo govorili o YOLO-World, inovativnem pristopu, katerega cilj je izboljšati zmožnosti ogrodja YOLO ali You Only Look Once z odprtimi zmogljivostmi zaznavanja besedišča s predhodnim usposabljanjem ogrodja na obsežnih naborih podatkov in implementacijo pristop vizualno-jezikovnega modeliranja. Natančneje, ogrodje YOLO-World predlaga implementacijo re-parametrizable Vision Language Path Aggregation Network ali RepVL-PAN skupaj s kontrastno izgubo regijskega besedila za olajšanje interakcije med jezikovnimi in vizualnimi informacijami. Z implementacijo RepVL-PAN in kontrastne izgube regijskega besedila lahko ogrodje YOLO-World natančno in učinkovito zazna široko paleto objektov v nastavitvi ničelnega posnetka.

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.