Tehisintellekt

YOLO-maailm: reaalajas avatud sõnavara objektide tuvastamine

avaldatud

2 kuud tagasi

Märtsil 15, 2024

Objektide tuvastamine on olnud põhiline väljakutse arvuti nägemine tööstus, kus on rakendused robootikas, pildi mõistmises, autonoomsetes sõidukites ja pildituvastus. Viimastel aastatel on AI-s tehtud murranguline töö, eriti sügavate närvivõrkude kaudu, märkimisväärselt edendanud objektide tuvastamist. Nendel mudelitel on aga fikseeritud sõnavara, mis piirdub objektide tuvastamisega COCO andmestiku 80 kategoorias. See piirang tuleneb koolitusprotsessist, kus objektidetektoreid õpetatakse ära tundma ainult teatud kategooriaid, piirates seega nende rakendatavust.

Selle ületamiseks tutvustame YOLO-Worldi, uuenduslikku lähenemisviisi, mille eesmärk on täiustada YOLO (You Only Look Once) raamistikku avatud sõnavara tuvastamise võimalustega. See saavutatakse suuremahuliste andmekogumite raamistiku eelkoolitamise ja visiooni-keele modelleerimise lähenemisviisi rakendamisega. Täpsemalt kasutab YOLO-World keelelise ja visuaalse teabe vahelise interaktsiooni edendamiseks ümberparameetritavat nägemis-keele tee koondamisvõrku (RepVL-PAN) ja piirkonna teksti kontrastset kadu. RepVL-PAN-i ja piirkonna-teksti kontrastse kadumise kaudu suudab YOLO-World nullkaadri seadistuses täpselt tuvastada laia valikut objekte, näidates silmapaistvat jõudlust avatud sõnavara segmenteerimisel ja objektide tuvastamise ülesannetes.

Selle artikli eesmärk on anda põhjalik arusaam YOLO-Worldi tehnilistest alustest, mudeli arhitektuurist, koolitusprotsessist ja rakendusstsenaariumidest. Sukeldume sisse.

YOLO-maailm: reaalajas avatud sõnavara objektide tuvastamine

YOLO ehk You Only Look Once on üks populaarsemaid meetodeid tänapäeva objektide tuvastamiseks arvutinägemise valdkonnas. Tuntud oma uskumatu kiiruse ja tõhususe poolest, ilmus Yolo mehhanism on muutnud pöörde viisi, kuidas masinad tõlgendavad ja tuvastavad reaalajas konkreetseid objekte piltides ja videotes. Traditsioonilised objektituvastuse raamistikud rakendavad kaheastmelist objektituvastuse lähenemisviisi: esimeses etapis pakub raamistik välja piirkonnad, mis võivad objekti sisaldada, ja raamistik klassifitseerib objekti järgmises etapis. Teisest küljest integreerib YOLO raamistik need kaks sammu ühte närvivõrgu mudelisse, mis võimaldab raamistikul vaadata pilti ainult üks kord, et ennustada objekti ja selle asukohta pildil ning seega ka nime YOLO või You. Vaata ainult üks kord.

Lisaks käsitleb YOLO raamistik objektide tuvastamist regressiooniprobleemina ning ennustab ühe pilguga klasside tõenäosusi ja piirdekaste otse täispildist. Selle meetodi rakendamine mitte ainult ei suurenda tuvastamisprotsessi kiirust, vaid suurendab ka mudeli võimet üldistada keerukatest ja mitmekesistest andmetest, muutes selle sobivaks valikuks reaalajas töötavatele rakendustele nagu autonoomne sõit, kiiruse tuvastamine või numbrid. plaadituvastus. Lisaks on sügavate närvivõrkude märkimisväärne areng viimastel aastatel oluliselt kaasa aidanud ka objektide tuvastamise raamistike arendamisele, kuid objektide tuvastamise raamistike edu on endiselt piiratud, kuna need suudavad tuvastada objekte ainult piiratud sõnavaraga. See on peamiselt tingitud sellest, et kui objektikategooriad on andmekogus määratletud ja märgistatud, suudavad raamistikus olevad koolitatud detektorid tuvastada ainult neid konkreetseid kategooriaid, piirates seega objektide tuvastamise mudelite reaalajas ja avatud stsenaariumides rakendatavust ja võimalust.

Edasi liikudes kasutavad hiljuti välja töötatud nägemuskeele mudelid avatud sõnavara tuvastamiseks keelekodeerijate destilleeritud sõnavarateadmisi. Kuigi need raamistikud toimivad avatud sõnavara tuvastamisel paremini kui traditsioonilised objektituvastusmudelid, on neil siiski piiratud rakendatavus piiratud sõnavara mitmekesisusega koolitusandmete vähese kättesaadavuse tõttu. Lisaks koolitavad valitud raamistikud avatud sõnavaraga objektidetektoreid mastaapselt ja liigitavad koolitavad objektidetektorid piirkonna tasandi nägemis-keele eelõppeks. Siiski on sellel lähenemisviisil endiselt raskusi objektide reaalajas tuvastamisel kahe peamise põhjuse tõttu: servaseadmete keerukas juurutamisprotsess ja rasked arvutusnõuded. Positiivne on see, et need raamistikud on näidanud positiivseid tulemusi suurte detektorite eelkoolitamisel, et kasutada neid avatud tuvastusvõimalustega.

YOLO-Worldi raamistiku eesmärk on saavutada väga tõhus avatud sõnavaraga objektide tuvastamine ja uurida võimalust kasutada suuremahulisi eelkoolitusmeetodeid, et suurendada traditsiooniliste YOLO detektorite tõhusust avatud sõnavara objektide tuvastamiseks. Vastupidiselt varasematele objektide tuvastamise töödele näitab YOLO-Worldi raamistik tähelepanuväärset tõhusust suure järelduskiirusega ja seda saab hõlpsasti juurutada ka järgnevates rakendustes. YOLO-Worldi mudel järgib traditsioonilist YOLO arhitektuuri ja kodeerib sisendtekste, kasutades selleks eelnevalt koolitatud CLIP-teksti kodeerija võimalusi. Lisaks sisaldab YOLO-Worldi raamistik oma arhitektuuris Re-parameterizeable Vision-Language Path Aggregation Network (RepVL-PAN) komponenti, et ühendada pildi- ja tekstifunktsioonid täiustatud visuaal-semantiliste esituste jaoks. Järeldusfaasi ajal eemaldab raamistik tekstikodeerija ja parameetriseerib teksti manustused ümber RepVL-PAN-i kaaludesse, mille tulemuseks on tõhus juurutamine. Raamistik sisaldab oma raamistikus ka regiooniteksti kontrastset õpet, et uurida avatud sõnavaraga eelkoolitusmeetodeid traditsiooniliste YOLO mudelite jaoks. Piirkond-tekst kontrastiivne õppemeetod ühendab pildi-teksti andmed, maandusandmed ja tuvastamisandmed piirkonna-teksti paarideks. Sellele toetudes näitab piirkonna-teksti paaridele eelkoolitatud YOLO-Worldi raamistik silmapaistvaid võimalusi avatud ja suure sõnavara tuvastamiseks. Lisaks uurib YOLO-Worldi raamistik ka kiire ja siis tuvasta paradigmat eesmärgiga suurendada avatud sõnavara objektide tuvastamise tõhusust reaalajas ja reaalmaailma stsenaariumides.

Nagu on näidatud järgmisel pildil, keskenduvad traditsioonilised objektidetektorid fikseeritud sõnavara tuvastamisele eelmääratletud kategooriatega, avatud sõnavara detektorid aga tuvastavad objekte, kodeerides kasutajaviipasid avatud sõnavara tekstikodeerijatega. Võrdluseks, YOLO-Worldi viip-siis tuvasta lähenemisviis loob esmalt võrguühenduseta sõnavara (erinevatele vajadustele erinev sõnavara), kodeerides kasutajaviibad, võimaldades detektoritel tõlgendada võrguühenduseta sõnavara reaalajas, ilma et peaksid viipasid uuesti kodeerima.

YOLO-maailm: meetod ja arhitektuur

Piirkonna-teksti paarid

Traditsiooniliselt on objektide tuvastamise raamistikud, sealhulgas Yolo objektidetektorite perekonda koolitatakse eksemplari märkuste abil, mis sisaldavad kategooriasilte ja piirdekaste. Seevastu YOLO-Worldi raamistik sõnastab eksemplari annotatsioonid ümber piirkonna-teksti paaridena, kus tekst võib olla objekti kirjeldus, nimisõnafraasid või kategooria nimi. Väärib märkimist, et YOLO-Worldi raamistik võtab nii tekste kui ka pilte sisend- ja väljundennustuskastidena koos vastavate objektide manustega.

Mudeli arhitektuur

Oma tuumas koosneb YOLO-Worldi mudel tekstikodeerijast, YOLO detektorist ja komponendist Re-parameterisable Vision-Language Path Aggregation Network (RepVL-PAN), nagu on näidatud järgmisel pildil.

Sisendteksti puhul kodeerib tekstikoodri komponent teksti teksti manustamisteks, millele järgneb YOLO detektori komponendi kujutisedetektorite poolt sisendkujutise mitmemõõtmeliste funktsioonide eraldamine. Re-parameterizeable Vision-Language Path Aggregation Network (RepVL-PAN) komponent kasutab seejärel teksti ja funktsioonide manustamise ristmodaalsust, et täiustada teksti ja pildi esitusi.

YOLO detektor

YOLO-Worldi mudel on üles ehitatud olemasolevale YOLOv8 raamistikule, mis sisaldab pildi kodeerijana Darkneti magistraalkomponenti, objektide manustamise ja piirava kasti regressioonipead ning mitmemõõtmeliste funktsioonipüramiidide jaoks mõeldud PAN- või Path Agression Networki.

Teksti kodeerija

Antud teksti jaoks ekstraheerib YOLO-Worldi mudel vastavad tekstimanused, võttes kasutusele eelnevalt koolitatud CLIP Transformeri tekstikodeerija teatud arvu nimisõnade ja manustamismõõtmega. Peamine põhjus, miks YOLO-Worldi raamistik võtab kasutusele CLIP-tekstikooderi, on see, et see pakub paremat visuaal-semantilist jõudlust tekstide ühendamisel visuaalsete objektidega, edestades oluliselt traditsioonilisi tekstipõhiseid keelekodeerijaid. Kui aga sisendtekst on kas pealdis või viitav väljend, valib YOLO-Worldi mudel fraaside eraldamiseks lihtsama n-grammi algoritmi. Need fraasid suunatakse seejärel tekstikodeerijasse.

Tekst Kontrastne pea

Lahtisidestatud pea on komponent, mida kasutasid varasemad objektituvastusmudelid, ja YOLO-Worldi raamistik kasutab kahekordse 3 × 3 konvolutsiooniga lahtisiduvat pead, et regreseerida objektide manustamist ja piiravaid kaste kindla arvu objektide jaoks. YOLO-Worldi raamistik kasutab teksti kontrastset pead, et saavutada objekti ja teksti sarnasus, kasutades L2 normaliseerimismeetodit ja teksti manustamist. Lisaks kasutab YOLO-World mudel ka afiinset teisendusmeetodit nihketeguri ja õpitava skaleerimisteguriga, kusjuures L2 normaliseerimine ja afiinne teisendus suurendavad mudeli stabiilsust piirkonnateksti koolituse ajal.

Veebisõnavarakoolitus

Koolitusfaasis koostab YOLO-Worldi mudel iga mosaiigiproovi jaoks veebisõnastiku, mis koosneb 4 pildist. Mudel valib kõik mosaiikkujutistes sisalduvad positiivsed nimisõnad ja valib mõned negatiivsed nimisõnad juhuslikult vastavast andmekogumist. Iga näidise sõnavara koosneb maksimaalselt n nimisõnast, vaikeväärtus on 80.

Võrguühenduseta sõnavara järeldus

Järelduste tegemise ajal esitab YOLO-Worldi mudel strateegia „Kirita, siis tuvasta” koos võrguühenduseta sõnavaraga, et mudeli tõhusust veelgi suurendada. Kasutaja määrab esmalt rea kohandatud viipasid, mis võivad sisaldada kategooriaid või isegi pealkirju. Seejärel saab YOLO-Worldi mudel võrguühenduseta sõnavara manuseid, kasutades nende viipade kodeerimiseks tekstikodeerijat. Selle tulemusena aitab võrguühenduseta sõnavara järelduste tegemiseks mudelil vältida iga sisendi arvutusi ja võimaldab mudelil sõnavara paindlikult vastavalt nõuetele kohandada.

Re-parameterizeable Vision-Language Path Agression Network (RevVL-PAN)

Järgnev joonis illustreerib kavandatava ümberparameetrilise nägemis-keele tee agressioonivõrgustiku struktuuri, mis järgib ülalt-alla ja alt-üles teed, et luua mitmemõõtmeliste objektikujutistega objektipüramiid.

Teksti- ja pildifunktsioonide vahelise koostoime tõhustamiseks pakub YOLO-Worldi mudel välja pildi koondamise tähelepanu ja tekstipõhise CSPLayeri (Cross-Stage Partial Layers), mille lõppeesmärk on parandada avatud sõnavara võimaluste visuaal-semantilisi esitusi. Järelduste tegemise ajal parameetristab YOLO-Worldi mudel võrguühenduseta sõnavara manustused tõhusaks juurutamiseks ümber lineaarsete või konvolutsiooniliste kihtide kaaludesse.

Nagu ülaltoodud jooniselt näha, kasutab YOLO-Worldi mudel CSPLayerit pärast ülalt-alla või alt-üles liitmist ja lisab tekstijuhised mitmes mastaabis pildifunktsioonidesse, moodustades tekstipõhise CSPLayeri, laiendades seega CSPlayer. Mis tahes pildifunktsiooni ja sellele vastava teksti manustamise korral kasutab mudel pärast viimast kitsaskohaplokki maksimaalset sigmoidset tähelepanu, et koondada tekstifunktsioonid pildifunktsioonidesse. Värskendatud pildifunktsioon ühendatakse seejärel astmeüleste funktsioonidega ja esitatakse väljundina.

Edasi liikudes koondab YOLO-Worldi mudel pildifunktsioonid, et värskendada teksti manustamist, juurutades Image Pooling Attention kihi, et täiustada teksti manustamist pilditeadliku teabega. Selle asemel, et kasutada risttähelepanu otse pildifunktsioonidel, kasutab mudel maksimaalselt mitmemõõtmeliste funktsioonide ühendamist, et saada 3 × 3 piirkondi, mille tulemuseks on 27 paigamärki, mille tulemuseks on järgmises etapis teksti manustamist värskendav mudel.

Eelkoolitusskeemid

YOLO-Worldi mudel järgib kahte peamist eelkoolitusskeemi: piirkonna-teksti kontrastsest kadumisest õppimine ja pildi-tekstiandmetega pseudomärgistamine. Esmase eelkoolituse skeemi puhul väljastab mudel objekti ennustused koos annotatsioonidega antud teksti ja mosaiiginäidiste kohta. YOLO-Worldi raamistik sobitab ennustused põhitõe märkustega, järgides ja võimendades ülesandele määratud sildi määramist, ning määrab individuaalsed positiivsed ennustused tekstiindeksiga, mis toimib klassifikatsioonisildina. Teisest küljest soovitab pildi-teksti andmetega pseudomärgistamise eelkoolitusskeem kasutada piirkonna-teksti paaride genereerimiseks pildi-teksti paaride kasutamise asemel automatiseeritud märgistamise lähenemisviisi. Kavandatav märgistamisviis koosneb kolmest etapist: nimisõnafraaside eraldamine, pseudomärgistamine ja filtreerimine. Esimeses etapis kasutatakse nimisõnafraaside eraldamiseks sisendtekstist n-grammi algoritmi, teises etapis kasutatakse eelnevalt väljaõpetatud avatud sõnavaradetektorit, et luua pseudokastid antud nimisõnafraasi jaoks üksikute piltide jaoks, samas kui kolmas ja viimane samm kasutab eelkoolitatud CLIP-raamistik piirkonna-teksti ja teksti-pildi paaride asjakohasuse hindamiseks, mille järgi mudel filtreerib vähese tähtsusega pseudokujutisi ja annotatsioone.

YOLO-World: tulemused

Kui YOLO-Worldi mudel on eelkoolitatud, hinnatakse seda otse LVIS-i andmekogus nullkaadri seadistuses, kusjuures LVIS-i andmestik koosneb enam kui 1200 kategooriast, mis on oluliselt rohkem kui koolituseelsed andmekogumid, mida olemasolevad raamistikud testimiseks kasutavad. nende jõudlust suure sõnavara tuvastamisel. Järgmine joonis näitab YOLO-Worldi raamistiku toimivust mõne olemasoleva nüüdisaegse objektituvastusraamistikuga LVIS-i andmestikul nullkaadri seadistuses.

Nagu võib täheldada, ületab YOLO-Worldi raamistik enamiku olemasolevatest raamistikest järelduste kiiruse ja nullkaadri jõudluse osas, isegi selliste raamistike puhul nagu Grounding DINO, GLIP ja GLIPv2, mis sisaldavad rohkem andmeid. Üldiselt näitavad tulemused, et väikeste objektide tuvastamise mudeleid, nagu YOLO-World-S, millel on ainult 13 miljonit parameetrit, saab kasutada nägemiskeele ülesannete eelkoolitamiseks, millel on märkimisväärsed avatud sõnavara võimalused.

Final Thoughts

Selles artiklis oleme rääkinud YOLO-Worldist, uuenduslikust lähenemisviisist, mille eesmärk on täiustada raamistiku YOLO või You Only Look Once võimeid avatud sõnavara tuvastamise võimalustega, koolitades raamistikku ette suuremahuliste andmekogumite jaoks ja rakendades visiooni-keele modelleerimise lähenemine. Täpsemalt teeb YOLO-Worldi raamistik ettepaneku rakendada ümberparameetritatava visiooni keeletee agregatsioonivõrku või RepVL-PAN-i koos piirkonnateksti kontrastse kadumisega, et hõlbustada keelelise ja visuaalse teabe vahelist suhtlust. Rakendades RepVL-PAN-i ja piirkonna-teksti kontrastse kadu, suudab YOLO-World raamistik null-võtte seadistuses täpselt ja tõhusalt tuvastada mitmesuguseid objekte.

Järgmisena

Kui tehisintellekt mürgitab AI: riskid, mis tekivad tehisintellekti loodud sisule

Ära jäta

Sketchist platvormini: Google Genie kunstiline lähenemine mängude genereerimisele

Kunal Kejriwal

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.

Ühendage.AI

YOLO-maailm: reaalajas avatud sõnavara objektide tuvastamine

Tehisintellekt

YOLO-maailm: reaalajas avatud sõnavara objektide tuvastamine

Sisukord

YOLO-maailm: reaalajas avatud sõnavara objektide tuvastamine