cung YOLO-World: Zbulimi i objekteve me fjalor të hapur në kohë reale - Unite.AI
Lidhu me ne

Inteligjenca artificiale

YOLO-World: Zbulimi i objekteve me fjalor të hapur në kohë reale

mm

Publikuar

 on

Zbulimi i objekteve ka qenë një sfidë themelore në vizion kompjuteri industrisë, me aplikime në robotikë, të kuptuarit e imazheve, automjete autonome dhe njohja e imazhit. Vitet e fundit, puna novatore në AI, veçanërisht përmes rrjeteve të thella nervore, ka avancuar ndjeshëm zbulimin e objekteve. Megjithatë, këto modele kanë një fjalor fiks, të kufizuar në zbulimin e objekteve brenda 80 kategorive të grupit të të dhënave COCO. Ky kufizim buron nga procesi i trajnimit, ku detektorët e objekteve janë trajnuar për të njohur vetëm kategori specifike, duke kufizuar kështu zbatueshmërinë e tyre.

Për ta kapërcyer këtë, ne prezantojmë YOLO-World, një qasje inovative që synon të përmirësojë kornizën YOLO (Ju vetëm shikoni një herë) me aftësi të hapura për zbulimin e fjalorit. Kjo arrihet duke trajnuar paraprakisht kornizën për grupe të dhënash në shkallë të gjerë dhe duke zbatuar një qasje të modelimit të gjuhës vizion. Në mënyrë të veçantë, YOLO-World përdor një rrjet të ri-parametrueshëm të grumbullimit të rrugës së vizionit-gjuhës (RepVL-PAN) dhe humbje kontrastuese të tekstit rajonal për të nxitur ndërveprimin midis informacionit gjuhësor dhe atij vizual. Nëpërmjet humbjes së kontrastit të RepVL-PAN dhe tekstit të rajonit, YOLO-World mund të zbulojë me saktësi një gamë të gjerë objektesh në një mjedis zero-shot, duke treguar performancë të jashtëzakonshme në segmentimin e fjalorit të hapur dhe detyrat e zbulimit të objekteve.

Ky artikull synon të sigurojë një kuptim të plotë të themeleve teknike të YOLO-World, arkitekturës së modelit, procesit të trajnimit dhe skenarëve të aplikimit. Le të zhytemi.

YOLO-World: Zbulimi i objekteve me fjalor të hapur në kohë reale

YOLO ose You Only Look Once është një nga metodat më të njohura për zbulimin e objekteve moderne në industrinë e vizionit kompjuterik. I njohur për shpejtësinë dhe efikasitetin e tij të jashtëzakonshëm, ardhja e YOLO mekanizmi ka revolucionarizuar mënyrën se si makineritë interpretojnë dhe zbulojnë objekte specifike brenda imazheve dhe videove në kohë reale. Kornizat tradicionale të zbulimit të objekteve zbatojnë një qasje të zbulimit të objekteve me dy hapa: në hapin e parë, korniza propozon rajone që mund të përmbajnë objektin dhe korniza e klasifikon objektin në hapin tjetër. Korniza YOLO nga ana tjetër integron këto dy hapa në një model të vetëm të rrjetit nervor, një qasje që lejon kornizën të shikojë imazhin vetëm një herë për të parashikuar objektin dhe vendndodhjen e tij brenda imazhit, dhe si rrjedhim, emrin YOLO ose Ju Shikoni vetëm një herë. 

Për më tepër, korniza YOLO e trajton zbulimin e objektit si një problem regresioni dhe parashikon probabilitetet e klasës dhe kutitë kufizuese direkt nga imazhi i plotë me një shikim të vetëm. Zbatimi i kësaj metode jo vetëm që rrit shpejtësinë e procesit të zbulimit, por gjithashtu rrit aftësinë e modelit për të përgjithësuar nga të dhënat komplekse dhe të larmishme, duke e bërë atë një zgjedhje të përshtatshme për aplikacione që funksionojnë në kohë reale si drejtimi autonom, zbulimi i shpejtësisë ose numri. njohja e pllakave. Për më tepër, përparimi i rëndësishëm i rrjeteve nervore të thella në vitet e fundit ka kontribuar gjithashtu në mënyrë të konsiderueshme në zhvillimin e kornizave të zbulimit të objekteve, por suksesi i kornizave të zbulimit të objekteve është ende i kufizuar pasi ato janë në gjendje të zbulojnë objekte vetëm me fjalor të kufizuar. Kjo është kryesisht sepse pasi kategoritë e objekteve përcaktohen dhe etiketohen në grupin e të dhënave, detektorët e trajnuar në kornizë janë në gjendje të njohin vetëm këto kategori specifike, duke kufizuar kështu zbatueshmërinë dhe aftësinë e vendosjes së modeleve të zbulimit të objekteve në skenarë në kohë reale dhe të hapura. 

Duke ecur përpara, modelet e gjuhës së vizionit të zhvilluar së fundmi përdorin njohuri të distiluara të fjalorit nga koduesit e gjuhës për të adresuar zbulimin e fjalorit të hapur. Megjithëse këto korniza performojnë më mirë se modelet tradicionale të zbulimit të objekteve në zbulimin e fjalorit të hapur, ato ende kanë zbatueshmëri të kufizuar për shkak të disponueshmërisë së pakët të të dhënave të trajnimit me diversitet të kufizuar të fjalorit. Për më tepër, kornizat e zgjedhura trajnojnë detektorë objektesh me fjalor të hapur në shkallë dhe i kategorizojnë detektorët e objekteve të trajnimit si para-trajnim të gjuhës së vizionit në nivel rajoni. Megjithatë, qasja ende ka vështirësi në zbulimin e objekteve në kohë reale për shkak të dy arsyeve kryesore: procesit kompleks të vendosjes për pajisjet e skajshme dhe kërkesave të rënda llogaritëse. Në aspektin pozitiv, këto korniza kanë demonstruar rezultate pozitive nga para-trajnimi i detektorëve të mëdhenj për t'i përdorur ata me aftësi të hapura njohjeje. 

Kuadri YOLO-World synon të arrijë zbulimin shumë efikas të objekteve me fjalor të hapur dhe të eksplorojë mundësinë e qasjeve para-stërvitore në shkallë të gjerë për të rritur efikasitetin e detektorëve tradicionalë YOLO për zbulimin e objekteve me fjalor të hapur. Ndryshe nga punët e mëparshme në zbulimin e objekteve, korniza YOLO-World shfaq efikasitet të jashtëzakonshëm me shpejtësi të lartë konkluzionesh dhe mund të vendoset në aplikacionet e poshtme me lehtësi. Modeli YOLO-World ndjek arkitekturën tradicionale YOLO dhe kodon tekstet hyrëse duke shfrytëzuar aftësitë e një koduesi teksti CLIP të trajnuar paraprakisht. Për më tepër, korniza YOLO-World përfshin një komponent të Rrjetit të grumbullimit të rrugëve të vizionit të ri-parametralizueshëm (RepVL-PAN) në arkitekturën e tij për të lidhur veçoritë e imazhit dhe tekstit për paraqitje të zgjeruara vizuale-semantike. Gjatë fazës së konkluzionit, korniza heq koduesin e tekstit dhe ri-parametrizoi futjet e tekstit në peshat RepVL-PAN, duke rezultuar në vendosje efikase. Kuadri përfshin gjithashtu mësimin kontrasiv të tekstit rajonal në kuadrin e tij për të studiuar metodat e para-trajnimit me fjalor të hapur për modelet tradicionale YOLO. Metoda e të mësuarit kontrastiv rajon-tekst unifikon të dhënat imazh-tekst, të dhënat e tokëzimit dhe të dhënat e zbulimit në çifte rajoni-tekst. Duke u mbështetur në këtë, korniza YOLO-World e para-trajnuar në çiftet e tekstit rajonal demonstron aftësi të jashtëzakonshme për zbulimin e fjalorit të hapur dhe të madh. Për më tepër, korniza YOLO-World eksploron gjithashtu një paradigmë të shpejtë-pastaj-zbulimi me synimin për të rritur efikasitetin e zbulimit të objektit me fjalor të hapur në skenarë në kohë reale dhe në botën reale. 

Siç tregohet në imazhin e mëposhtëm, detektorët tradicionalë të objekteve fokusohen në grupin e ngushtë të zbulimit të fjalorit fiks me kategori të paracaktuara, ndërsa detektorët e fjalorit të hapur zbulojnë objekte duke koduar kërkesat e përdoruesit me kodues teksti për fjalor të hapur. Në krahasim, qasja e shpejtë-pastaj-zbulimi e YOLO-World fillimisht ndërton një fjalor jashtë linje (fjalor i ndryshëm për nevoja të ndryshme) duke koduar kërkesat e përdoruesit duke lejuar detektorët të interpretojnë fjalorin offline në kohë reale pa pasur nevojë të rikodojnë kërkesat. 

YOLO-World: Metoda dhe Arkitektura

Çiftet Rajon-Tekst

Tradicionalisht, kornizat e zbulimit të objekteve duke përfshirë YOLO familja e detektorëve të objekteve janë trajnuar duke përdorur shënime të shembujve që përmbajnë etiketa kategorish dhe kuti kufizuese. Në të kundërt, korniza YOLO-World riformulon shënimet e shembullit si çifte rajoni-teksti ku teksti mund të jetë përshkrimi i objektit, frazave emërore ose emri i kategorisë. Vlen të theksohet se korniza YOLO-World miraton si tekstet ashtu edhe imazhet si kuti të parashikuara hyrëse dhe dalëse me ngulitje të objekteve përkatëse. 

Arkitektura Model

Në thelbin e tij, modeli YOLO-World përbëhet nga një kodues teksti, një detektor YOLO dhe komponenti i Rrjetit të grumbullimit të rrugëve të vizionit të gjuhës (RepVL-PAN) i riparametrueshëm, siç ilustrohet në imazhin e mëposhtëm. 

Për një tekst hyrës, komponenti i koduesit të tekstit kodon tekstin në ngulitje teksti të ndjekura nga nxjerrja e veçorive me shumë shkallë nga imazhi i hyrjes nga detektorët e imazhit në komponentin e detektorit YOLO. Komponenti i ri-parametralizueshëm i Rrjetit të Rrjetit të Rrjetit të Gjuhës së Vizionit (RepVL-PAN) shfrytëzon bashkimin e ndër-modalitetit midis tekstit dhe futjeve të veçorive për të përmirësuar paraqitjet e tekstit dhe imazhit. 

Detektor YOLO

Modeli YOLO-World është ndërtuar në krye të kornizës ekzistuese YOLOv8 që përmban një komponent të shtyllës kurrizore të Darknet si kodues të imazhit të tij, një kokë për futjen e objekteve dhe regresionin e kutisë kufitare dhe një Rrjet PAN ose Rrjeti Agresioni Rrugor për piramidat me shumë shkallë. 

Koduesi i tekstit

Për një tekst të caktuar, modeli YOLO-World nxjerr futjet përkatëse të tekstit duke adoptuar një kodues teksti CLIP Transformer të trajnuar paraprakisht me një numër të caktuar emrash dhe dimension ngulitjeje. Arsyeja kryesore pse korniza YOLO-World miraton një kodues teksti CLIP është sepse ofron performancë më të mirë vizuale-semantike për lidhjen e teksteve me objekte vizuale, duke tejkaluar dukshëm koduesit tradicional të gjuhës vetëm me tekst. Megjithatë, nëse teksti hyrës është ose një titull ose një shprehje referuese, modeli YOLO-World zgjedh një algoritëm më të thjeshtë n-gram për të nxjerrë frazat. Këto fraza më pas futen në koduesin e tekstit. 

Teksti Kontrasti Kreu

Koka e shkëputur është një komponent i përdorur nga modelet më të hershme të zbulimit të objekteve dhe korniza YOLO-World miraton një kokë të shkëputur me konvolucione të dyfishta 3×3 për të regresuar futjet e objekteve dhe kutitë kufizuese për një numër fiks objektesh. Korniza YOLO-World përdor një kokë kontrasti teksti për të marrë ngjashmërinë objekt-tekst duke përdorur qasjen e normalizimit L2 dhe ngulitje të tekstit. Për më tepër, modeli YOLO-World përdor gjithashtu qasjen e transformimit afinal me një faktor zhvendosës dhe një faktor shkallëzimi të mësueshëm, me normalizimin e L2 dhe transformimin e afinës që rrit stabilitetin e modelit gjatë trajnimit të tekstit rajonal. 

Trajnimi i fjalorit në internet

Gjatë fazës së trajnimit, modeli YOLO-World ndërton një fjalor në internet për çdo mostër mozaiku të përbërë nga 4 imazhe secila. Modeli merr kampione të të gjithë emrave pozitivë të përfshirë në imazhet e mozaikut dhe kampionon disa emra negativë rastësisht nga grupi i të dhënave përkatëse. Fjalori për çdo mostër përbëhet nga një maksimum prej n emrash, me vlerën e paracaktuar të jetë 80. 

Konkluzioni i fjalorit jashtë linje

Gjatë përfundimit, modeli YOLO-World paraqet një strategji të shpejtë-pastaj-zbulimi me fjalor offline për të rritur më tej efikasitetin e modelit. Përdoruesi fillimisht përcakton një seri kërkesash të personalizuara që mund të përfshijnë kategori apo edhe tituj. Modeli YOLO-World më pas merr ngulitje të fjalorit jashtë linje duke përdorur koduesin e tekstit për të koduar këto kërkesa. Si rezultat, fjalori offline për konkluzione e ndihmon modelin të shmangë llogaritjet për çdo hyrje, dhe gjithashtu i lejon modelit të rregullojë fjalorin në mënyrë fleksibël sipas kërkesave. 

Rrjeti i agresionit të rrugës së vizionit të riparametralizueshëm (RevVL-PAN)

Figura e mëposhtme ilustron strukturën e Rrjetit të propozuar të Agresionit të Rrugës së Vizionit të Ri-parametralizueshëm që ndjek shtigjet nga lart-poshtë dhe nga poshtë-lart për të vendosur piramidën e veçorive me imazhe të veçorive në shumë shkallë. 

Për të përmirësuar ndërveprimin midis veçorive të tekstit dhe imazhit, modeli YOLO-World propozon një Vëmendje për grumbullimin e imazheve dhe një CSPlayer të drejtuar nga teksti (shtresat e pjesshme ndërfazore) me qëllimin përfundimtar të përmirësimit të paraqitjeve vizuale-semantike për aftësitë e fjalorit të hapur. Gjatë konkluzionit, modeli YOLO-World ri-parametrizon futjet e fjalorit offline në peshat e shtresave lineare ose konvolucionale për vendosje efektive. 

Siç mund të shihet në figurën e mësipërme, modeli YOLO-World përdor CSPLayer pas shkrirjes nga lart-poshtë ose nga poshtë-lart, dhe inkorporon udhëzimin e tekstit në veçoritë e imazhit në shumë shkallë, duke formuar CSPLayer-in e drejtuar nga teksti, duke zgjeruar kështu CSplayer. Për çdo veçori të dhënë të imazhit dhe futjen e tij përkatëse të tekstit, modeli miraton vëmendjen maksimale sigmoide pas bllokut të fundit të bllokimit për të grumbulluar veçoritë e tekstit në veçoritë e imazhit. Veçoria e përditësuar e imazhit më pas lidhet me veçoritë ndër-fazore dhe paraqitet si rezultat. 

 Duke ecur përpara, modeli YOLO-World grumbullon veçoritë e imazhit për të përditësuar futjen e tekstit duke prezantuar shtresën e vëmendjes së bashkimit të imazhit për të përmirësuar futjet e tekstit me informacion të vetëdijshëm për imazhin. Në vend që të përdorë vëmendjen e ndërthurur drejtpërdrejt në veçoritë e imazhit, modeli përdor bashkimin maksimal në veçoritë me shumë shkallë për të marrë rajone 3×3, duke rezultuar në 27 patch token me modelin që përditëson futjet e tekstit në hapin tjetër. 

Skemat e para-trajnimit

Modeli YOLO-World ndjek dy skema primare të para-trajnimit: Mësimi nga Humbja Kontrastive e Tekstit të Rajonit dhe Etiketimi Pseudo me të Dhëna Imazh-Tekst. Për skemën parësore të para-trajnimit, modeli nxjerr parashikimet e objekteve së bashku me shënimet për një tekst të caktuar dhe mostra mozaiku. Korniza YOLO-World përputh parashikimet me shënimet bazë të së vërtetës duke ndjekur dhe shfrytëzuar caktimin e emërtimit të caktuar nga detyra dhe cakton parashikime pozitive individuale me një indeks teksti që shërben si etiketë klasifikimi. Nga ana tjetër, skema e para-trajnimit të Pseudo Etiketimit me të Dhëna Imazh-Tekst propozon përdorimin e një qasjeje të automatizuar etiketimi në vend të përdorimit të çifteve imazh-tekst për të gjeneruar çifte rajoni-tekst. Qasja e propozuar e etiketimit përbëhet nga tre hapa: nxjerrja e frazave emërore, pseudo etiketimi dhe filtrimi. Hapi i parë përdor algoritmin n-gram për nxjerrjen e frazave emërore nga teksti hyrës, hapi i dytë miraton një detektor të hapur të fjalorit të trajnuar paraprakisht për të gjeneruar pseudo kuti për frazën emërore të dhënë për imazhe individuale, ndërsa hapi i tretë dhe i fundit përdor një kornizë CLIP e trajnuar paraprakisht për të vlerësuar rëndësinë e çifteve rajon-tekst dhe tekst-imazh, pas së cilës modeli filtron pseudo imazhe dhe shënime me rëndësi të ulët. 

YOLO-World : Rezultatet

Pasi modeli YOLO-World të jetë trajnuar paraprakisht, ai vlerësohet drejtpërdrejt në grupin e të dhënave LVIS në një vendosje zero-shot, me grupin e të dhënave LVIS që përbëhet nga mbi 1200 kategori, dukshëm më shumë se grupet e të dhënave të para-trajnimit të përdorura nga kornizat ekzistuese për testim. performanca e tyre në zbulimin e fjalorit të madh. Figura e mëposhtme demonstron performancën e kornizës YOLO-World me disa prej kornizave ekzistuese të zbulimit të objekteve të teknologjisë në grupin e të dhënave LVIS në një vendosje me shkrepje zero. 

Siç mund të vërehet, korniza YOLO-World tejkalon shumicën e kornizave ekzistuese për sa i përket shpejtësive të përfundimit dhe performancës zero-shot, edhe me korniza si Grounding DINO, GLIP dhe GLIPv2 që përfshijnë më shumë të dhëna. Në përgjithësi, rezultatet tregojnë se modelet e zbulimit të objekteve të vogla si YOLO-World-S me vetëm 13 milionë parametra mund të përdoren për para-trajnim mbi detyrat e gjuhës së vizionit me aftësi të jashtëzakonshme të fjalorit të hapur. 

Mendime përfundimtare

Në këtë artikull, ne kemi folur për YOLO-World, një qasje inovative që synon të përmirësojë aftësitë e kornizës YOLO ose You Only Look Once me aftësi të hapura për zbulimin e fjalorit duke e trajnuar paraprakisht kornizën në grupe të dhënash në shkallë të gjerë dhe duke zbatuar qasja e modelimit vizion-gjuhë. Për të qenë më specifik, korniza YOLO-World propozon zbatimin e një Rrjeti të Rrjetit të Përmbledhjes së Rrugës së Gjuhës së Vizionit të Riparametrueshëm ose RepVL-PAN së bashku me humbjen e kontrastit të tekstit të rajonit për të lehtësuar një ndërveprim midis informacionit gjuhësor dhe atij vizual. Duke zbatuar humbjen e kontrastit RepVL-PAN dhe tekstin e rajonit, korniza YOLO-World është në gjendje të zbulojë me saktësi dhe efektivitet një gamë të gjerë objektesh në një mjedis me shkrepje zero.

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.