Artificiell intelligens
YOLO-World: Real-Time Open-Vocabulary Object Detection

Objektdetektion har varit en grundlÀggande utmaning i dator vision industri, med tillÀmpningar inom robotik, bildförstÄelse, autonoma fordon och bildigenkÀnning. Under de senaste Ären har banbrytande arbete inom AI, sÀrskilt genom djupa neurala nÀtverk, avsevÀrt avancerat objektdetektering. Dessa modeller har dock ett fast ordförrÄd, begrÀnsat till att detektera objekt inom de 80 kategorierna i COCO-datauppsÀttningen. Denna begrÀnsning hÀrrör frÄn trÀningsprocessen, dÀr objektdetektorer trÀnas att bara kÀnna igen specifika kategorier, vilket begrÀnsar deras tillÀmplighet.
För att övervinna detta introducerar vi YOLO-World, ett innovativt tillvÀgagÄngssÀtt som syftar till att förbÀttra ramverket YOLO (You Only Look Once) med detekteringsmöjligheter för öppna ordförrÄd. Detta uppnÄs genom att förutbilda ramverket pÄ storskaliga datamÀngder och implementera en vision-sprÄkmodellering. NÀrmare bestÀmt anvÀnder YOLO-World ett Re-parameteriserbart Vision-Language Path Aggregation Network (RepVL-PAN) och region-text kontrastiv förlust för att frÀmja interaktion mellan sprÄklig och visuell information. Genom RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World noggrant detektera ett brett spektrum av objekt i en nollbildsmiljö, vilket visar enastÄende prestanda i segmentering av öppet ordförrÄd och objektdetekteringsuppgifter.
Den hÀr artikeln syftar till att ge en grundlig förstÄelse för YOLO-Worlds tekniska grunder, modellarkitektur, utbildningsprocess och tillÀmpningsscenarier. LÄt oss dyka in.
YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO eller You Only Look Once Àr en av de mest populÀra metoderna för modern objektdetektering inom datorseendeindustrin. KÀnd för sin otroliga hastighet och effektivitet, tillkomsten av YOLO mekanismen har revolutionerat hur maskiner tolkar och upptÀcker specifika objekt i bilder och videor i realtid. Traditionella ramverk för objektdetektering implementerar ett tillvÀgagÄngssÀtt för objektdetektering i tvÄ steg: i det första steget föreslÄr ramverket regioner som kan innehÄlla objektet, och ramverket klassificerar objektet i nÀsta steg. YOLO-ramverket Ä andra sidan integrerar dessa tvÄ steg i en enda neural nÀtverksmodell, ett tillvÀgagÄngssÀtt som tillÄter ramverket att titta pÄ bilden endast en gÄng för att förutsÀga objektet och dess plats i bilden, och dÀrmed namnet YOLO eller You Titta bara en gÄng.
Dessutom behandlar YOLO-ramverket objektdetektering som ett regressionsproblem och förutsÀger klassens sannolikheter och begrÀnsningsrutor direkt frÄn hela bilden i en enda blick. Implementering av denna metod ökar inte bara hastigheten pÄ detekteringsprocessen, utan förbÀttrar ocksÄ modellens förmÄga att generalisera frÄn komplexa och olika data, vilket gör den till ett lÀmpligt val för applikationer som arbetar i realtid som autonom körning, hastighetsdetektering eller nummer plÄtigenkÀnning. Dessutom har de betydande framsteg som gjorts av djupa neurala nÀtverk under de senaste Ären ocksÄ bidragit avsevÀrt till utvecklingen av ramverk för objektdetektering, men framgÄngen med ramverk för objektdetektering Àr fortfarande begrÀnsad eftersom de bara kan upptÀcka objekt med begrÀnsad vokabulÀr. Det beror frÀmst pÄ att nÀr objektkategorierna vÀl har definierats och mÀrkts i datamÀngden kan trÀnade detektorer i ramverket bara kÀnna igen dessa specifika kategorier, vilket begrÀnsar tillÀmpbarheten och möjligheten att distribuera objektdetekteringsmodeller i realtid och öppna scenarier.
Nyligen utvecklade visionsprĂ„ksmodeller anvĂ€nder destillerad vokabulĂ€rkunskap frĂ„n sprĂ„kkodare för att hantera detektering av öppna ordförrĂ„d. Ăven om dessa ramverk fungerar bĂ€ttre Ă€n traditionella objektdetekteringsmodeller för detektering av öppna ordförrĂ„d, har de fortfarande begrĂ€nsad tillĂ€mpbarhet pĂ„ grund av den knappa tillgĂ€ngligheten av trĂ€ningsdata med begrĂ€nsad ordförrĂ„dsdiversitet. Dessutom trĂ€nar utvalda ramverk detektorer för öppna ordförrĂ„dsobjekt i stor skala och kategoriserar trĂ€ningsobjektdetektorer som förtrĂ€ning för synsprĂ„k pĂ„ regionnivĂ„. Men tillvĂ€gagĂ„ngssĂ€ttet kĂ€mpar fortfarande med att upptĂ€cka objekt i realtid pĂ„ grund av tvĂ„ primĂ€ra orsaker: komplex distributionsprocess för edge-enheter och tunga berĂ€kningskrav. Positivt Ă€r att dessa ramverk har visat positiva resultat frĂ„n förtrĂ€ning av stora detektorer för att anvĂ€nda dem med öppna igenkĂ€nningsmöjligheter.
YOLO-World-ramverket syftar till att uppnÄ mycket effektiv detektering av objekt med öppet ordförrÄd, och utforska möjligheten till storskaliga förtrÀningsmetoder för att öka effektiviteten hos traditionella YOLO-detektorer för objektdetektering med öppet ordförrÄd. I motsats till tidigare arbeten inom objektdetektering uppvisar YOLO-World-ramverket anmÀrkningsvÀrd effektivitet med höga slutledningshastigheter och kan enkelt implementeras i nedströmsapplikationer. YOLO-World-modellen följer den traditionella YOLO-arkitekturen och kodar ingÄngstexter genom att utnyttja funktionerna hos en förutbildad CLIP-textkodare. Dessutom inkluderar YOLO-World-ramverket en Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN)-komponent i sin arkitektur för att koppla samman bild- och textfunktioner för förbÀttrade visuell-semantiska representationer. Under slutledningsfasen tar ramverket bort textkodaren och parametriserade om textinbÀddningarna till RepVL-PAN-vikter, vilket resulterar i effektiv distribution. Ramverket inkluderar ocksÄ region-text kontrastivt lÀrande i sitt ramverk för att studera öppna ordförrÄd förtrÀningsmetoder för de traditionella YOLO-modellerna. Den kontrastiva inlÀrningsmetoden för region-text förenar bild-textdata, jordningsdata och detekteringsdata till region-text-par. Med utgÄngspunkt i detta visar YOLO-World-ramverket förutbildat pÄ region-textpar anmÀrkningsvÀrda möjligheter för upptÀckt av öppna och stora ordförrÄd. Dessutom utforskar ramverket YOLO-World ocksÄ ett paradigm för snabb-sedan-upptÀcka med syftet att förbÀttra effektiviteten av objektdetektering med öppet ordförrÄd i realtids- och verkliga scenarier.
Som visas i följande bild fokuserar traditionella objektdetektorer pÄ nÀrliggande fasta ordförrÄdsdetektering med fördefinierade kategorier medan öppna ordförrÄdsdetektorer upptÀcker objekt genom att koda anvÀndarmeddelanden med textkodare för öppet ordförrÄd. Som jÀmförelse bygger YOLO-Worlds prompt-sedan-detect-metod först en offline-vokabulÀr (varierande vokabulÀr för olika behov) genom att koda anvÀndarprompterna sÄ att detektorerna kan tolka offline-vokabulÀren i realtid utan att behöva koda om uppmaningarna.
YOLO-World : Metod och arkitektur
Region-textpar
Traditionellt har ramverk för objektdetektering inklusive YOLO familj av objektdetektorer trÀnas med hjÀlp av instanskommentarer som innehÄller kategorietiketter och begrÀnsningsrutor. DÀremot omformulerar ramverket YOLO-World instansannoteringarna som region-textpar dÀr texten kan vara beskrivningen av objektet, substantivfraser eller kategorinamn. Det Àr vÀrt att pÄpeka att YOLO-World-ramverket anvÀnder bÄde texter och bilder som in- och utmatningsrutor med motsvarande objektinbÀddningar.
Modellarkitektur
I sin kÀrna bestÄr YOLO-World-modellen av en textkodare, en YOLO-detektor och komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), som illustreras i följande bild.
För en inmatad text kodar textkodarkomponenten texten till textinbÀddningar följt av extrahering av flerskaliga funktioner frÄn inmatningsbilden av bilddetektorerna i YOLO-detektorkomponenten. Komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) utnyttjar sedan korsmodalitetsfusionen mellan text och funktionsinbÀddningar för att förbÀttra text- och bildrepresentationerna.
YOLO Detektor
YOLO-World-modellen Àr byggd ovanpÄ det befintliga YOLOv8-ramverket som innehÄller en Darknet-ryggradskomponent som bildkodare, ett huvud för objektinbÀddningar och bounding box-regression och ett PAN- eller Path Aggression Network för flerskaliga funktionspyramider.
Textkodare
För en given text extraherar YOLO-World-modellen motsvarande textinbÀddningar genom att anvÀnda en förtrÀnad CLIP Transformer-textkodare med ett visst antal substantiv och inbÀddningsdimension. Den frÀmsta anledningen till att ramverket YOLO-World anvÀnder en CLIP-textkodare Àr att det erbjuder bÀttre visuell-semantisk prestanda för att koppla samman texter med visuella objekt, vilket avsevÀrt övertrÀffar traditionella sprÄkkodare för endast text. Men om den inmatade texten antingen Àr en bildtext eller ett refererande uttryck, vÀljer YOLO-World-modellen en enklare n-gram-algoritm för att extrahera fraserna. Dessa fraser matas sedan till textkodaren.
Text Kontrasterande huvud
Frikopplat huvud Ă€r en komponent som anvĂ€nds av tidigare objektdetekteringsmodeller, och YOLO-World-ramverket anvĂ€nder ett frikopplat huvud med dubbla 3Ă3-falsningar för att regressera objektinbĂ€ddningar och begrĂ€nsningsrutor för ett fast antal objekt. Ramverket YOLO-World anvĂ€nder ett textkontrasthuvud för att erhĂ„lla likheten mellan objekt och text med L2-normaliseringsmetoden och textinbĂ€ddningar. Dessutom anvĂ€nder YOLO-World-modellen ocksĂ„ den affina transformationsmetoden med en skiftningsfaktor och en inlĂ€rningsbar skalningsfaktor, med L2-normalisering och affintransformation som förbĂ€ttrar modellens stabilitet under regiontexttrĂ€ning.
Online ordförrÄdstrÀning
Under trÀningsfasen konstruerar YOLO-World-modellen ett online-vokabulÀr för varje mosaikprov bestÄende av 4 bilder vardera. Modellen samplar alla positiva substantiv som ingÄr i mosaikbilderna och samplar nÄgra negativa substantiv slumpmÀssigt frÄn motsvarande datauppsÀttning. OrdförrÄdet för varje prov bestÄr av maximalt n substantiv, med standardvÀrdet 80.
Offline vokabulÀr slutledning
Under slutledning presenterar YOLO-World-modellen en snabb-sedan-upptÀck-strategi med offline-vokabulÀr för att ytterligare förbÀttra modellens effektivitet. AnvÀndaren definierar först en serie anpassade uppmaningar som kan innehÄlla kategorier eller till och med bildtexter. YOLO-World-modellen erhÄller sedan inbÀddningar av ordförrÄd offline genom att anvÀnda textkodaren för att koda dessa uppmaningar. Som ett resultat hjÀlper offlinevokabulÀren för slutledning modellen att undvika berÀkningar för varje inmatning, och tillÄter ocksÄ modellen att justera ordförrÄdet flexibelt enligt kraven.
Re-parameteriserbart Vision-Language Path Aggression Network (RevVL-PAN)
Följande figur illustrerar strukturen för det föreslagna Re-parameteriserbara Vision-Language Path Aggression Network som följer top-down och bottom-up banorna för att etablera sÀrdragspyramiden med flerskaliga funktionsbilder.
För att förbÀttra interaktionen mellan text- och bildfunktioner, föreslÄr YOLO-World-modellen en bildpoolande uppmÀrksamhet och en textstyrd CSPLayer (Cross-Stage Partial Layers) med det yttersta mÄlet att förbÀttra de visuellt-semantiska representationerna för öppna ordförrÄd. Under slutledning, parametriserar YOLO-World-modellen om offline-ordförrÄdets inbÀddningar i vikterna av de linjÀra eller faltande lagren för effektiv implementering.
Som det kan ses i figuren ovan anvÀnder YOLO-World-modellen CSPLayer efter top-down eller bottom-up fusion, och införlivar textvÀgledning i flerskaliga bildfunktioner och bildar det Text-Guided CSPLayer, vilket utökar CSPLayer. För en given bildfunktion och dess motsvarande textinbÀddning antar modellen max-sigmoid uppmÀrksamhet efter det sista flaskhalsblocket för att aggregera textfunktioner till bildfunktioner. Den uppdaterade bildfunktionen sammanlÀnkas sedan med sÀrdragen och presenteras som utdata.
Vi gĂ„r vidare och YOLO-World-modellen samlar bildfunktioner för att uppdatera textinbĂ€ddningen genom att introducera lagret Image Pooling Attention för att förbĂ€ttra textinbĂ€ddningarna med bildmedveten information. IstĂ€llet för att anvĂ€nda korsuppmĂ€rksamheten direkt pĂ„ bildfunktioner, utnyttjar modellen maximal pooling pĂ„ flerskaliga funktioner för att erhĂ„lla 3Ă3-regioner, vilket resulterar i 27 patch-tokens med modellen som uppdaterar textinbĂ€ddningarna i nĂ€sta steg.
FörtrÀningsscheman
YOLO-World-modellen följer tvÄ primÀra förtrÀningsscheman: LÀrande av Region-Text Contrastive Loss och Pseudo-mÀrkning med bild-textdata. För det primÀra förtrÀningsschemat matar modellen ut objektförutsÀgelser tillsammans med kommentarer för en given text och mosaikprover. Ramverket YOLO-World matchar förutsÀgelserna med sanningsanteckningar genom att följa och utnyttja uppgiftstilldelade etiketttilldelningar, och tilldelar individuella positiva förutsÀgelser med ett textindex som fungerar som klassificeringsetikett. à andra sidan föreslÄr förtrÀningsschemat för PseudomÀrkning med bild-textdata att anvÀnda en automatiserad mÀrkningsmetod istÀllet för att anvÀnda bild-text-par för att generera region-text-par. Den föreslagna mÀrkningsmetoden bestÄr av tre steg: extrahera substantivfraser, pseudomÀrkning och filtrering. Det första steget anvÀnder n-gram-algoritmen för att extrahera substantivfraser frÄn inmatningstexten, det andra steget anvÀnder en förtrÀnad öppen vokabulÀrdetektor för att generera pseudo-rutor för den givna substantivfrasen för enskilda bilder, medan det tredje och sista steget anvÀnder ett förutbildat CLIP-ramverk för att utvÀrdera relevansen av region-text- och text-bild-paren, varefter modellen filtrerar lÄgrelevans pseudobilder och kommentarer.
YOLO-World : Resultat
NÀr vÀl YOLO-World-modellen har förtrÀnats utvÀrderas den direkt pÄ LVIS-datauppsÀttningen i en nollbildsmiljö, med LVIS-datauppsÀttningen som bestÄr av över 1200 kategorier, betydligt fler Àn förtrÀningsdatauppsÀttningarna som anvÀnds av befintliga ramverk för testning deras prestanda vid upptÀckt av stort ordförrÄd. Följande figur visar prestandan för YOLO-World-ramverket med nÄgra av de befintliga ramverken för detektering av objekt pÄ LVIS-dataset i en nollbildsmiljö.
Som det kan observeras övertrÀffar YOLO-World-ramverket en majoritet av befintliga ramverk nÀr det gÀller inferenshastigheter och nollskottsprestanda, Àven med ramverk som Grounding DINO, GLIP och GLIPv2 som innehÄller mer data. Sammantaget visar resultaten att smÄ objektdetekteringsmodeller som YOLO-World-S med endast 13 miljoner parametrar kan anvÀndas för förtrÀning i synsprÄksuppgifter med anmÀrkningsvÀrda kapaciteter med öppen ordförrÄd.
Avslutande tankar
I den hÀr artikeln har vi pratat om YOLO-World, ett innovativt tillvÀgagÄngssÀtt som syftar till att förbÀttra förmÄgorna hos ramverket YOLO eller You Only Look Once med detekteringsmöjligheter för öppna ordförrÄd genom att förtrÀna ramverket pÄ storskaliga datamÀngder och implementera vision-sprÄk modellering. För att vara mer specifik föreslÄr YOLO-World-ramverket att implementera ett Re-parameterizable Vision Language Path Aggregation Network eller RepVL-PAN tillsammans med region-text kontrastiv förlust för att underlÀtta en interaktion mellan den sprÄkliga och den visuella informationen. Genom att implementera RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World-ramverket noggrant och effektivt detektera ett brett spektrum av objekt i en nollbildsmiljö.