Intel·ligència Artificial

YOLO-World: Detecció d'objectes de vocabulari obert en temps real

publicat

Fa mesos 2

Març 15, 2024

La detecció d'objectes ha estat un repte fonamental en el visió per computadora indústria, amb aplicacions en robòtica, comprensió d'imatges, vehicles autònoms i reconeixement d’imatges. En els darrers anys, el treball innovador en IA, especialment a través de xarxes neuronals profundes, ha avançat significativament la detecció d'objectes. Tanmateix, aquests models tenen un vocabulari fix, limitat a detectar objectes dins de les 80 categories del conjunt de dades COCO. Aquesta limitació prové del procés d'entrenament, on els detectors d'objectes estan entrenats per reconèixer només categories específiques, limitant així la seva aplicabilitat.

Per superar-ho, presentem YOLO-World, un enfocament innovador destinat a millorar el marc YOLO (You Only Look Once) amb capacitats de detecció de vocabulari obert. Això s'aconsegueix mitjançant la formació prèvia del marc sobre conjunts de dades a gran escala i la implementació d'un enfocament de modelització de llenguatge de visió. Concretament, YOLO-World utilitza una xarxa d'agregació de camins de visió i llenguatge re-parametrizable (RepVL-PAN) i la pèrdua de contrast de regió-text per afavorir la interacció entre la informació lingüística i visual. Mitjançant RepVL-PAN i la pèrdua de contrast de text de regió, YOLO-World pot detectar amb precisió una àmplia gamma d'objectes en un entorn zero, mostrant un rendiment notable en tasques de segmentació de vocabulari obert i detecció d'objectes.

Aquest article pretén proporcionar una comprensió exhaustiva dels fonaments tècnics, l'arquitectura del model, el procés de formació i els escenaris d'aplicació de YOLO-World. Submergem-nos.

YOLO-World: Detecció d'objectes de vocabulari obert en temps real

YOLO o You Only Look Once és un dels mètodes més populars per a la detecció d'objectes actuals a la indústria de la visió per ordinador. Conegut per la seva increïble velocitat i eficiència, l'arribada de YOLO El mecanisme ha revolucionat la manera com les màquines interpreten i detecten objectes específics dins d'imatges i vídeos en temps real. Els marcs de detecció d'objectes tradicionals implementen un enfocament de detecció d'objectes en dos passos: en el primer pas, el marc proposa regions que poden contenir l'objecte i el marc classifica l'objecte en el pas següent. El marc YOLO, d'altra banda, integra aquests dos passos en un únic model de xarxa neuronal, un enfocament que permet al marc mirar la imatge només una vegada per predir l'objecte i la seva ubicació dins de la imatge, i per tant, el nom YOLO o You. Mira només una vegada.

A més, el marc YOLO tracta la detecció d'objectes com un problema de regressió i prediu les probabilitats de classe i els quadres delimitadors directament des de la imatge completa d'un sol cop d'ull. La implementació d'aquest mètode no només augmenta la velocitat del procés de detecció, sinó que també millora la capacitat del model per generalitzar-se a partir de dades complexes i diverses, el que el converteix en una opció adequada per a aplicacions que operen en temps real com la conducció autònoma, la detecció de velocitat o el nombre. reconeixement de plaques. A més, l'avenç significatiu de les xarxes neuronals profundes en els últims anys també ha contribuït significativament al desenvolupament de marcs de detecció d'objectes, però l'èxit dels marcs de detecció d'objectes encara és limitat, ja que només són capaços de detectar objectes amb un vocabulari limitat. És principalment perquè una vegada que les categories d'objectes es defineixen i s'etiqueten al conjunt de dades, els detectors entrenats del marc són capaços de reconèixer només aquestes categories específiques, limitant així l'aplicabilitat i la capacitat de desplegar models de detecció d'objectes en escenaris oberts i en temps real.

Avançant, els models de llenguatge visual desenvolupats recentment utilitzen el coneixement de vocabulari destil·lat dels codificadors de llenguatge per abordar la detecció de vocabulari obert. Tot i que aquests marcs funcionen millor que els models tradicionals de detecció d'objectes en detecció de vocabulari obert, encara tenen una aplicabilitat limitada a causa de l'escassa disponibilitat de dades d'entrenament amb una diversitat de vocabulari limitada. A més, els marcs seleccionats entrenen detectors d'objectes de vocabulari obert a escala i classifiquen els detectors d'objectes d'entrenament com a entrenament previ en llenguatge de visió a nivell regional. No obstant això, l'enfocament encara té dificultats per detectar objectes en temps real per dues raons principals: un procés de desplegament complex per a dispositius de punta i uns grans requisits de càlcul. Com a nota positiva, aquests marcs han demostrat resultats positius de la formació prèvia de grans detectors per utilitzar-los amb capacitats de reconeixement obertes.

El marc YOLO-World pretén aconseguir una detecció d'objectes de vocabulari obert altament eficient i explorar la possibilitat d'enfocaments de formació prèvia a gran escala per augmentar l'eficiència dels detectors tradicionals de YOLO per a la detecció d'objectes de vocabulari obert. Contràriament als treballs anteriors en detecció d'objectes, el marc YOLO-World mostra una eficiència notable amb altes velocitats d'inferència i es pot desplegar en aplicacions aigües avall amb facilitat. El model YOLO-World segueix l'arquitectura tradicional YOLO i codifica els textos d'entrada aprofitant les capacitats d'un codificador de text CLIP pre-entrenat. A més, el marc YOLO-World inclou un component Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) a la seva arquitectura per connectar característiques d'imatge i text per a representacions visual-semàntiques millorades. Durant la fase d'inferència, el marc elimina el codificador de text i torna a parametritzar les incrustacions de text als pesos RepVL-PAN, donant lloc a un desplegament eficient. El marc també inclou l'aprenentatge contrastiu regió-text en el seu marc per estudiar mètodes de preentrenament de vocabulari obert per als models tradicionals YOLO. El mètode d'aprenentatge contrastiu regió-text unifica les dades d'imatge-text, les dades de base i les dades de detecció en parells de regió-text. A partir d'això, el marc YOLO-World pre-entrenat en parelles regió-text demostra capacitats notables per a la detecció de vocabulari obert i gran. A més, el marc YOLO-World també explora un paradigma de ràpida i després detecció amb l'objectiu de millorar l'eficiència de la detecció d'objectes de vocabulari obert en escenaris en temps real i del món real.

Com es demostra a la imatge següent, els detectors d'objectes tradicionals se centren en un conjunt proper de detecció de vocabulari fix amb categories predefinides, mentre que els detectors de vocabulari obert detecten objectes codificant les indicacions de l'usuari amb codificadors de text per a vocabulari obert. En comparació, l'enfocament d'indicació i detecció de YOLO-World construeix primer un vocabulari fora de línia (vocabulari variable per a necessitats diferents) codificant les indicacions de l'usuari que permeten als detectors interpretar el vocabulari fora de línia en temps real sense haver de tornar a codificar les indicacions.

YOLO-World: Mètode i Arquitectura

Parells regió-text

Tradicionalment, els marcs de detecció d'objectes, inclosos els YOLO La família de detectors d'objectes s'entrena mitjançant anotacions d'instàncies que contenen etiquetes de categoria i quadres delimitadors. En canvi, el marc YOLO-World reformula les anotacions d'instància com a parells regió-text on el text pot ser la descripció de l'objecte, les frases nominals o el nom de la categoria. Val la pena assenyalar que el marc YOLO-World adopta tant els textos com les imatges com a caixes predites d'entrada i sortida amb les seves corresponents incrustacions d'objectes.

Model d'Arquitectura

En el seu nucli, el model YOLO-World consta d'un codificador de text, un detector YOLO i el component Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), tal com es mostra a la imatge següent.

Per a un text d'entrada, el component codificador de text codifica el text en incrustacions de text seguit de l'extracció de característiques multiescala de la imatge d'entrada per part dels detectors d'imatge del component detector YOLO. A continuació, el component Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) aprofita la fusió entre modalitats entre el text i les incrustacions de funcions per millorar les representacions de text i imatge.

Detector YOLO

El model YOLO-World es construeix a sobre del marc YOLOv8 existent que conté un component de backbone Darknet com a codificador d'imatge, un cap per a incrustacions d'objectes i regressió de quadres delimitadors i una xarxa PAN o Path Aggression per a piràmides de funcions multiescala.

Codificador de text

Per a un text determinat, el model YOLO-World extreu les incrustacions de text corresponents adoptant un codificador de text CLIP Transformer prèviament entrenat amb un nombre determinat de substantius i una dimensió d'incrustació. La raó principal per la qual el marc YOLO-World adopta un codificador de text CLIP és perquè ofereix un millor rendiment visual-semàntic per connectar textos amb objectes visuals, superant significativament els codificadors tradicionals de llenguatge només de text. Tanmateix, si el text d'entrada és un subtítol o una expressió de referència, el model YOLO-World opta per un algorisme de n-grams més senzill per extreure les frases. Aquestes frases s'alimenten després al codificador de text.

Capçal de contrast de text

El capçal desacoblat és un component utilitzat pels models de detecció d'objectes anteriors, i el marc YOLO-World adopta un capçal desacoblat amb dobles convolucions 3×3 per retrocedir les incrustacions d'objectes i els quadres delimitadors per a un nombre fix d'objectes. El marc YOLO-World utilitza un capçal de contrast de text per obtenir la similitud objecte-text mitjançant l'enfocament de normalització L2 i incrustacions de text. A més, el model YOLO-World també empra l'enfocament de transformació afí amb un factor de canvi i un factor d'escala aprendre, amb la normalització L2 i la transformació afí que milloren l'estabilitat del model durant l'entrenament de la regió-text.

Formació de vocabulari en línia

Durant la fase d'entrenament, el model YOLO-World construeix un vocabulari en línia per a cada mostra de mosaic que consta de 4 imatges cadascuna. El model mostra tots els substantius positius inclosos a les imatges del mosaic i alguns substantius negatius de manera aleatòria del conjunt de dades corresponent. El vocabulari de cada mostra consta d'un màxim de n substantius, amb el valor per defecte 80.

Inferència de vocabulari fora de línia

Durant la inferència, el model YOLO-World presenta una estratègia de ràpida i després detecció amb vocabulari fora de línia per millorar encara més l'eficiència del model. L'usuari defineix primer una sèrie de sol·licituds personalitzades que poden incloure categories o fins i tot subtítols. Aleshores, el model YOLO-World obté incrustacions de vocabulari fora de línia utilitzant el codificador de text per codificar aquestes indicacions. Com a resultat, el vocabulari fora de línia per a la inferència ajuda el model a evitar càlculs per a cada entrada i també permet al model ajustar el vocabulari de manera flexible segons els requisits.

Xarxa d'agressió del camí de la visió i del llenguatge re-parametrizable (RevVL-PAN)

La figura següent il·lustra l'estructura de la xarxa d'agressió de camins de visió i llenguatge reparametrizable que segueix els camins de dalt a baix i de baix a dalt per establir la piràmide de característiques amb imatges de característiques multiescala.

Per millorar la interacció entre les característiques del text i la imatge, el model YOLO-World proposa una atenció a la agrupació d'imatges i una CSPLayer guiada per text (Capes parcials transversals) amb l'objectiu final de millorar les representacions visual-semàntiques per a les capacitats de vocabulari obert. Durant la inferència, el model YOLO-World torna a parametritzar les incrustacions de vocabulari fora de línia en els pesos de les capes lineals o convolucionals per a un desplegament efectiu.

Com es pot veure a la figura anterior, el model YOLO-World utilitza CSPLayer després de la fusió de dalt a baix o de baix a dalt, i incorpora la guia de text a les característiques d'imatge multiescala, formant la CSPLayer guiada per text, ampliant així el CSPLayer. Per a qualsevol característica d'imatge determinada i la seva incrustació de text corresponent, el model adopta l'atenció màxima sigmoide després de l'últim bloc de coll d'ampolla per agregar característiques de text en característiques d'imatge. Aleshores, la funció d'imatge actualitzada es concatena amb les característiques transversals i es presenta com a sortida.

Seguint endavant, el model YOLO-World agrega funcions d'imatge per actualitzar la incrustació de text mitjançant la introducció de la capa d'atenció a l'agrupació d'imatges per millorar les incrustacions de text amb informació sensible a la imatge. En lloc d'utilitzar l'atenció creuada directament a les característiques de la imatge, el model aprofita l'agrupació màxima de funcions multiescala per obtenir regions 3 × 3, donant lloc a 27 fitxes de pedaç amb el model actualitzant les incrustacions de text al pas següent.

Esquemes de formació prèvia

El model YOLO-World segueix dos esquemes primaris de formació prèvia: Aprenentatge de la pèrdua de contrast entre regió i text i Pseudoetiquetatge amb dades d'imatge i text. Per a l'esquema de preentrenament primari, el model genera prediccions d'objectes juntament amb anotacions per a un text determinat i mostres de mosaic. El marc YOLO-World fa coincidir les prediccions amb anotacions de veritat bàsica seguint i aprofitant l'assignació d'etiquetes assignades a la tasca, i assigna prediccions positives individuals amb un índex de text que serveix com a etiqueta de classificació. D'altra banda, l'esquema de formació prèvia Pseudoetiquetatge amb dades d'imatge-text proposa utilitzar un enfocament d'etiquetatge automatitzat en lloc d'utilitzar parells imatge-text per generar parells regió-text. L'enfocament d'etiquetatge proposat consta de tres passos: extreure frases nominals, pseudoetiquetatge i filtratge. El primer pas utilitza l'algorisme n-gram per extreure frases nominals del text d'entrada, el segon pas adopta un detector de vocabulari obert prèviament entrenat per generar pseudocaixes per a la frase nominal donada per a imatges individuals, mentre que el tercer i l'últim pas empra un marc CLIP pre-entrenat per avaluar la rellevància dels parells regió-text i text-imatge, després dels quals el model filtra pseudoimatges i anotacions de poca rellevància.

YOLO-World : Resultats

Una vegada que el model YOLO-World s'ha entrenat prèviament, s'avalua directament al conjunt de dades LVIS en una configuració de zero-shot, amb el conjunt de dades LVIS que consta de més de 1200 categories, molt més que els conjunts de dades de preentrenament utilitzats pels marcs existents per fer proves. el seu rendiment en la detecció de vocabulari gran. La figura següent mostra el rendiment del marc YOLO-World amb alguns dels marcs de detecció d'objectes d'última generació existents al conjunt de dades LVIS en una configuració zero-shot.

Com es pot observar, el marc YOLO-World supera la majoria dels marcs existents pel que fa a velocitats d'inferència i rendiment zero, fins i tot amb marcs com Grounding DINO, GLIP i GLIPv2 que incorporen més dades. En general, els resultats demostren que els models de detecció d'objectes petits com YOLO-World-S amb només 13 milions de paràmetres es poden utilitzar per a la formació prèvia en tasques de llenguatge visual amb capacitats de vocabulari obert notables.

Consideracions finals

En aquest article, hem parlat de YOLO-World, un enfocament innovador que pretén millorar les habilitats del marc YOLO o You Only Look Once amb capacitats de detecció de vocabulari obert mitjançant la formació prèvia del marc en conjunts de dades a gran escala i la implementació del marc. enfocament de modelització del llenguatge visió. Per ser més específics, el marc YOLO-World proposa implementar una xarxa d'agregació de camins de visió re-parametrizable o RepVL-PAN juntament amb la pèrdua de contrast entre regió i text per facilitar una interacció entre la informació lingüística i la visual. Mitjançant la implementació de RepVL-PAN i la pèrdua de contrast de text de regió, el marc YOLO-World és capaç de detectar amb precisió i eficàcia una àmplia gamma d'objectes en una configuració zero-shot.

Fins a la propera

Quan la IA enverina la IA: els riscos de construir IA en continguts generats per IA

No et perdis

De l'esbós a la plataforma: l'enfocament artístic de Google Genie per a la generació de jocs

Kunal Kejriwal

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.

Unite.AI

YOLO-World: Detecció d'objectes de vocabulari obert en temps real

Intel·ligència Artificial

YOLO-World: Detecció d'objectes de vocabulari obert en temps real

Taula de continguts

YOLO-World: Detecció d'objectes de vocabulari obert en temps real