Tekoäly

YOLO-World: Reaaliaikainen Avoin Sanastoinen Objektin Havaitseminen

Julkaistu 15. maaliskuuta 2024

Päivitetty 22. toukokuuta 2026

Tekijä

Kunal Kejriwal

Objektin havaitseminen on ollut perustava haaste tietokoneen näön teollisuudessa, sovelluksineen robotiikassa, kuvan ymmärtämisessä, itseohjautuvissa ajoneuvoissa ja kuvantunnistuksessa. Viime vuosina tekolyön edistysaskel, erityisesti syvien neuroverkkojen kautta, on edennyt merkittävästi objektin havaitsemista. Kuitenkin nämä mallit ovat rajoitettuja kiinteään sanastoon, joka on rajoitettu 80 luokkaan COCO-tietokannassa. Tämä rajoitus johtuu koulutusprosessista, jossa objektin havainnoitsijat koulutetaan tunnistamaan vain tiettyjä luokkia, jolloin rajoittaa soveltamismahdollisuuksia.

Ylittääksemme tämän, esittelemme YOLO-Worldin, innovatiivisen lähestymistavan, jolla pyritään parantamaan YOLO-kehyksen (You Only Look Once) avoimen sanaston havaitsemiskykyjä. Tämä saavutetaan kouluttamalla kehyksen suurissa aineistoissa ja toteuttamalla näkö- ja kielimallin. Erityisesti YOLO-World käyttää uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallia (RepVL-PAN) ja alue-teksti kontrastilukua edistämään vuorovaikutusta lingvistisen ja visuaalisen tiedon välillä. RepVL-PANin ja alue-teksti kontrastilukun kautta YOLO-World pystyy tarkasti ja tehokkaasti havaitsemaan laajan valikoiman objekteja nollasilmäyksellisessä asetelmassa, osoittaen merkittävää suorituskykyä avoimen sanaston segmentoinnissa ja objektin havaitsemistehtävissä.

Tämä artikkeli pyrkii antamaan perusteellisen ymmärryksen YOLO-Worldin teknisistä perustoista, mallin arkkitehtuurista, koulutusprosessista ja soveltamistilanteista. Puhkaistaan siis…

YOLO-World: Reaaliaikainen Avoin Sanastoinen Objektin Havaitseminen

YOLO eli You Only Look Once on yksi suosituimmista menetelmistä modernin objektin havaitsemisen toteuttamiseksi tietokoneen näön teollisuudessa. Tunnettu uskomattoman nopeudestaan ja tehokkuudestaan, YOLO-mekanismin kehittäminen on vallankumouksellisesti muuttanut tapaa, jolla koneet tulkitsevat ja havaitsevat tiettyjä objekteja kuvissa ja videoissa reaaliajassa. Perinteiset objektin havaitsemisen kehykset toteuttavat kaksivaiheisen objektin havaitsemisen: ensimmäisessä vaiheessa kehykset ehdottavat alueita, joissa objektin saattaa olla, ja kehykset luokittelevat objektin seuraavassa vaiheessa. YOLO-kehykset yhdistävät nämä kaksi vaihetta yhteen neuroverkkomalliin, joka mahdollistaa kehykselle katsella kuvaa vain kerran objektin ja sen sijainnin ennustamiseksi kuvassa, ja siitä nimitys YOLO eli You Only Look Once.

Lisäksi YOLO-kehykset käsittelevät objektin havaitsemista regressio-ongelmana ja ennustavat luokan todennäköisyydet ja rajauslaatikot suoraan koko kuvasta yhdellä silmäyksellä. Tämän menetelmän toteuttaminen ei ainoastaan lisää havaitsemisprosessin nopeutta, vaan myös parantaa mallin kykyä yleistää monimutkaisista ja moninaisista aineistoista, mikä tekee siitä soveltuvan valinnan sovelluksiin, jotka toimivat reaaliajassa, kuten itseohjautuvat ajoneuvot, nopeuden havaitseminen tai rekisterikilven tunnistaminen. Lisäksi syvien neuroverkkojen merkittävä edistys viime vuosina on myös vaikuttanut objektin havaitsemisen kehikkien kehitykseen, mutta objektin havaitsemisen onnistumista rajoittaa se, että ne pystyvät havaitsemaan objekteja ainoastaan rajoitettuun sanastoon. Tämä johtuu siitä, että kun objektin luokat on määritelty ja merkitty aineistossa, koulutetut havainnoitsijat kehyksessä pystyvät tunnistamaan vain nämä tiettyjä luokkia, jolloin rajoittaa soveltamismahdollisuuksia ja kykyä käyttää objektin havaitsemismalleja reaaliajassa ja avoimissa ympäristöissä.

Edetäänksemme, viimeaikaiset näkö- ja kielimallit käyttävät tiivistettyä sanastotietoa kielen koodauksesta avoimen sanaston havaitsemiseen. Vaikka nämä kehykset suorittavat paremmin perinteisiin objektin havaitsemismalleihin avoimen sanaston havaitsemisessa, niillä on edelleen rajoitettu soveltamismahdollisuus johtuen rajoitetun sanaston moninaisuuden vähäisestä saatavuudesta koulutusaineistoissa. Lisäksi valitut kehykset kouluttavat avoimen sanaston objektin havainnoitsijat suurissa mittakaavoissa ja luokittelevat koulutusobjektin havainnoitsijat alueen tason näkö- ja kieli-esikoulutukseksi. Kuitenkin lähestymistapa kamppailee edelleen objektin havaitsemisessa reaaliajassa kahden pääasiallisen syyn vuoksi: monimutkainen käyttöönotto prosessi reunalla oleville laitteille ja raskas laskennallinen vaatimus. Positiivisena puolena nämä kehykset ovat osoittaneet myönteisiä tuloksia suurten havainnoitsijoiden esikoulutuksesta avoimen tunnistamiskyvyn käyttöön.

YOLO-World-kehyksen tavoitteena on saavuttaa erittäin tehokas avoimen sanaston objektin havaitseminen ja tutkia suurten esikoulutuslähestymistapojen mahdollisuuksia perinteisten YOLO-havainnoitsijoiden tehokkuuden parantamiseksi avoimen sanaston objektin havaitsemisessä. Toisin kuin aiemmat työt objektin havaitsemisessa, YOLO-World-kehykset osoittavat merkittävää tehokkuutta korkeilla inference-nopeuksilla, ja ne voidaan käyttää helposti alasvirtaan sovelluksiin. YOLO-World-malli seuraa perinteistä YOLO-arkkitehtuuria ja koodaa syötetekstejä hyödyntämällä esikoulutetun CLIP-tekstin koodarin ominaisuuksia. Lisäksi YOLO-World-kehykset sisältävät uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallin (RepVL-PAN) arkkitehtuurissaan yhdistämään kuva- ja tekstiominaisuuksia parantamaan visuaalista ja semanttista edustusta. Inferenssivaiheessa kehykset poistavat tekstin koodarin ja parametrisoivat tekstin upotukset RepVL-PAN-painoihin, johtaen tehokkaaseen käyttöönottoon. Kehykset sisältävät myös alue-teksti kontrastilukua tutkimaan avoimen sanaston esikoulutusmenetelmiä perinteisille YOLO-malleille. Alue-teksti kontrastiluku yhdistää kuva- ja tekstidatan, perustiedon ja havaintodatan alue-teksti pareiksi. Tästä lähtien YOLO-World-kehykset, jotka on esikoulutettu alue-teksti pareilla, osoittavat merkittäviä kykyjä avoimen ja laajan sanaston havaitsemisessa. Lisäksi YOLO-World-kehykset tutkivat kehysparadigman “prompt-then-detect” parantamaan avoimen sanaston objektin havaitsemisen tehokkuutta reaaliajassa ja reaalimaailman tilanteissa.

Kuten seuraavasta kuvasta voidaan nähdä, perinteiset objektin havainnoitsijat keskittyvät kiinteään sanastoon ja ennalta määriteltyihin luokkiin, kun taas avoimen sanaston havainnoitsijat havaitsevat objekteja koodaamalla käyttäjän ohjeita tekstin koodareilla avoimen sanaston havaitsemiseksi. Vertailukohtana YOLO-Worldin “prompt-then-detect”-lähestymistapa rakentaa ensin offline-sanaston (vaihteleva sanasto vaihteleviin tarpeisiin) koodaamalla käyttäjän ohjeita, jolloin havainnoitsijat voivat tulkita offline-sanastoa reaaliajassa ilman tarvetta uudelleenkoodata ohjeita.

YOLO-World : Menetelmä ja Arkkitehtuuri

Alue-Teksti Parit

Perinteisesti objektin havaitsemisen kehykset, mukaan lukien YOLO-havainnoitsijoiden perhe, koulutetaan käyttäen instanssimerkintöjä, jotka sisältävät luokan merkinnät ja rajauslaatikot. Sen sijaan YOLO-World-kehykset muotoilevat instanssimerkinnät alue-teksti pareiksi, joissa teksti voi olla objektin kuvaus, substantiivifraasi tai luokan nimi. On huomattava, että YOLO-World-kehykset ottaa sekä tekstin että kuvan syötteinä ja tuottaa ennustetut laatikot objektin upotusten kanssa.

Mallin Arkkitehtuuri

Ydinosa YOLO-World-mallissa koostuu tekstin koodarista, YOLO-havainnoitsijasta ja uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallista (RepVL-PAN), kuten seuraavassa kuvassa näkyy.

Syötetekstin koodarin komponentti koodaa tekstin tekstin upotukseksi, ja YOLO-havainnoitsijan komponentti poimii moniskaalaiset ominaisuudet syötekuvasta. Uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallin (RepVL-PAN) komponentti hyödyntää ristimodaalisen fuusion tekstin ja ominaisuusupotusten välillä parantamaan tekstin ja kuvan edustuksia.

YOLO-Havainnoitsija

YOLO-World-malli perustuu olemassaolevaan YOLOv8-kehykseen, joka sisältää Darknet-runko-osan kuvan koodarina, pään objektin upotusten ja rajauslaatikon regressioon, ja PAN- tai Polku-Aggressio-Verkon moniskaalaisiin ominaisuuspyramideihin.

Tekstin Koodari

Annetaan teksti, YOLO-World-malli poimii vastaavan tekstin upotukset omaksumalla esikoulutetun CLIP-Transformer-tekstin koodarin tietyn määrän substantiiveja ja upotusulottuvuutta. YOLO-World-kehykset omaksuvat CLIP-tekstin koodarin, koska se tarjoaa paremman visuaalisen ja semanttisen suorituskyvyn yhdistämällä tekstejä visuaalisiin objekteihin, jolloin se suoriutuu paremmin kuin perinteiset tekstin ainoat kielen koodarit. Kuitenkin, jos syöte-teksti on joko otsikko tai viittaava ilmaisu, YOLO-World-malli valitsee yksinkertaisemman n-gram-menetelmän poimimaan fraasit. Nämä fraasit syötetään sitten tekstin koodariin.

Teksti Kontrastipää

Eroonnut pää on komponentti, jota aiemmat objektin havaitsemismallit käyttivät, ja YOLO-World-kehykset omaksuvat eroonnutun pään kaksinkertaisilla 3×3 konvoluutioilla regressioon objektin upotusten ja rajauslaatikoiden luokitukselle kiinteän määrän objekteja varten. YOLO-World-kehykset käyttävät tekstin kontrastipäätä saadakseen objektin ja tekstin samankaltaisuuden L2-normalisoinnin lähestymistavalla ja tekstin upotusten avulla. Lisäksi YOLO-World-malli käyttää affiini-muunnoslähestymistapaa siirtymätekijän ja oppimisen skaalautuvan tekijän kanssa, L2-normalisoinnin ja affiini-muunnoksen parantamiseksi mallin vakautta alue-teksti koulutuksen aikana.

Online Sanaston Koulutus

Koulutusvaiheessa YOLO-World-malli rakentaa online-sanaston kullekin mosaiikkinauhalle, joka koostuu neljästä kuvasta. Malli ottaa kaikki positiiviset substantiivit, jotka sisältyvät mosaiikkikuvissa, ja ottaa joitakin negatiivisia substantiiveja satunnaisesti vastaavasta aineistosta. Sanasto kullekin näytteelle koostuu enintään n substantiiveista, oletusarvon ollessa 80.

Offline Sanaston Inferenssi

Inferenssivaiheessa YOLO-World-malli esittää “prompt-then-detect”-strategian offline-sanastolla parantamaan mallin tehokkuutta. Käyttäjä määrittelee sarjan mukautettuja ohjeita, jotka voivat sisältää luokkia tai jopa otsikkoja. YOLO-World-malli sitten hankkii offline-sanaston upotukset käyttämällä tekstin koodaria ohjeiden koodaamiseksi. Tämän seurauksena offline-sanasto inferenssivaiheessa auttaa mallia välttämään laskelmia kullekin syötteelle ja sallii mallin sopeuttaa sanaston joustavasti vaatimusten mukaan.

Uudelleenparametrikkua Näkö- ja Kieliaineiston Yhdistämismalli (RevVL-PAN)

Seuraava kuva osoittaa ehdotetun uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallin rakenteen, joka seuraa ylöspäin ja alaspäin polkuja moniskaalaisen ominaisuuspyramidiin.

Parantamaan tekstin ja kuvan välistä vuorovaikutusta, YOLO-World-malli ehdottaa kuvan-pooling-huomion ja tekstin ohjatun CSPLayerin (Cross-Stage Partial Layers) parantamaan visuaalista ja semanttista edustusta avoimen sanaston kyvyille. Inferenssivaiheessa YOLO-World-malli uudelleenparametrikkua offline-sanaston upotukset lineaaristen tai konvoluutionaalisten kerrosten painoihin tehokkaaseen käyttöönottoon.

Kuten yllä olevasta kuvasta voidaan nähdä, YOLO-World-malli käyttää CSPLayeria ylöspäin tai alaspäin fuusion jälkeen ja sisällyttää tekstin ohjaamisen moniskaalaisiin kuvan ominaisuuksiin, muodostaen tekstin ohjatun CSPLayerin, jolloin laajentaa CSPLayeria. Kuvan ja vastaavan tekstin upotusosuuden kohdalla malli omaksuu maksimisigmoid-huomion viimeisen pullonkaulan jälkeen yhdistämään tekstin ominaisuudet kuvan ominaisuuksiin. Päivitetty kuva-ominaisuus yhdistetään sitten cross-stage-ominaisuuksiin ja esitetään tuloksena.

Jatkaen, YOLO-World-malli yhdistää kuvan ominaisuudet päivittämään tekstin upotusta esittelemällä kuvan-pooling-huomion kerroksen parantamaan tekstin upotusta kuvatietoisella tiedolla. Sen sijaan, että suoraan käytettäisiin cross-attentionia kuvan ominaisuuksilla, malli hyödyntää maksimipoolia moniskaalaisilla ominaisuuksilla saadakseen 3×3-alueita, joista seuraa 27 patch-tokenia, ja malli päivittää tekstin upotukset seuraavassa vaiheessa.

Esikoulutusmenetelmät

YOLO-World-malli seuraa kahta pääasiallista esikoulutusmenetelmää: Oppiminen alue-teksti kontrastilukusta ja Pseudo-merkintä kuvan ja tekstin aineistolla. Ensimmäisessä esikoulutusmenetelmässä malli tuottaa objektin ennustukset yhdessä merkintöjen kanssa annetulle tekstille ja mosaiikkinauhalle. YOLO-World-kehykset vastaavat ennustuksia maailmanlaajuisilla merkinnöillä seuraamalla ja hyödyntämällä tehtävän määräämää merkintäjärjestelmää, ja määrittävät yksittäiset positiiviset ennustukset tekstin indeksillä, joka toimii luokituksena. Toisaalta, Pseudo-merkintämenetelmä ehdottaa automaattista merkintätapaa kuvan ja tekstin pareiden luomiseksi. Ehdotettu merkintätapa koostuu kolmesta vaiheesta: substantiivien poimiminen, pseudo-merkintä ja suodatus. Ensimmäinen vaihe käyttää n-gram-algoritmiä substantiivien poimimiseksi syöte-tekstistä, toinen vaihe käyttää esikoulutettua avoimen sanaston havainnoitsijaa pseudo-laatikoiden luomiseksi annetulle substantiiville yksittäisille kuville, ja kolmas ja viimeinen vaihe käyttää esikoulutettua CLIP-kehyksen arviointia alue-teksti ja tekstin-kuvan pareiden merkityksen arvioimiseksi, minkä jälkeen malli suodattaa matalan merkityksen pseudo-kuvat ja merkinnät.

YOLO-World : Tulokset

Kun YOLO-World-malli on esikoulutettu, se arvioidaan suoraan LVIS-aineistossa nollasilmäyksellisessä asetelmassa, LVIS-aineiston koostuessa yli 1200 luokasta, mikä on merkittävästi enemmän kuin aiempien kehysten käyttämät esikoulutusaineistot suurten sanastojen havaitsemisen suorituskyvyn testaamiseksi. Seuraava kuva osoittaa YOLO-World-kehyksen suorituskyvyn joitakin aiempien kehysten kanssa LVIS-aineistossa nollasilmäyksellisessä asetelmassa.

Kuten voidaan havaita, YOLO-World-kehykset suoriutuvat paremmin useimpien aiempien kehysten kuin inference-nopeuksissa ja nollasilmäyksellisessä suorituskyvyssä, jopa kehyksillä kuten Grounding DINO, GLIP ja GLIPv2, jotka sisältävät enemmän dataa. Kokonaisuutena tulokset osoittavat, että pienet objektin havaitsemismallit kuten YOLO-World-S, joissa on vain 13 miljoonaa parametriä, voidaan käyttää esikoulutukseen näkö- ja kieliaineistoissa, ja ne osoittavat merkittäviä avoimen sanaston kykyjä.

Lopputajat

Tässä artikkelissa olemme puhuneet YOLO-Worldista, innovatiivisesta lähestymistavasta, jolla pyritään parantamaan YOLO-kehyksen avoimen sanaston havaitsemiskykyjä esikouluttamalla kehyksen suurissa aineistoissa ja toteuttamalla näkö- ja kieliaineiston yhdistämismallia. Tarkemmin sanottuna, YOLO-World-kehykset ehdottavat uudelleenparametrikkua näkö- ja kieliaineiston yhdistämismallin (RepVL-PAN) ja alue-teksti kontrastilukua edistämään vuorovaikutusta lingvistisen ja visuaalisen tiedon välillä. Toteuttamalla RepVL-PANin ja alue-teksti kontrastilukun, YOLO-World-kehykset pystyvät tarkasti ja tehokkaasti havaitsemaan laajan valikoiman objekteja nollasilmäyksellisessä asetelmassa, osoittaen merkittävää suorituskykyä avoimen sanaston segmentoinnissa ja objektin havaitsemistehtävissä.

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.