Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

YOLO-World: Real-Time Open-Vocabulary Object Detection

mm

Objektdetektion har varit en grundlÀggande utmaning i dator vision industri, med tillÀmpningar inom robotik, bildförstÄelse, autonoma fordon och bildigenkÀnning. Under de senaste Ären har banbrytande arbete inom AI, sÀrskilt genom djupa neurala nÀtverk, avsevÀrt avancerat objektdetektering. Dessa modeller har dock ett fast ordförrÄd, begrÀnsat till att detektera objekt inom de 80 kategorierna i COCO-datauppsÀttningen. Denna begrÀnsning hÀrrör frÄn trÀningsprocessen, dÀr objektdetektorer trÀnas att bara kÀnna igen specifika kategorier, vilket begrÀnsar deras tillÀmplighet.

För att övervinna detta introducerar vi YOLO-World, ett innovativt tillvÀgagÄngssÀtt som syftar till att förbÀttra ramverket YOLO (You Only Look Once) med detekteringsmöjligheter för öppna ordförrÄd. Detta uppnÄs genom att förutbilda ramverket pÄ storskaliga datamÀngder och implementera en vision-sprÄkmodellering. NÀrmare bestÀmt anvÀnder YOLO-World ett Re-parameteriserbart Vision-Language Path Aggregation Network (RepVL-PAN) och region-text kontrastiv förlust för att frÀmja interaktion mellan sprÄklig och visuell information. Genom RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World noggrant detektera ett brett spektrum av objekt i en nollbildsmiljö, vilket visar enastÄende prestanda i segmentering av öppet ordförrÄd och objektdetekteringsuppgifter.

Den hÀr artikeln syftar till att ge en grundlig förstÄelse för YOLO-Worlds tekniska grunder, modellarkitektur, utbildningsprocess och tillÀmpningsscenarier. LÄt oss dyka in.

YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO eller You Only Look Once Ă€r en av de mest populĂ€ra metoderna för modern objektdetektering inom datorseendeindustrin. KĂ€nd för sin otroliga hastighet och effektivitet, tillkomsten av YOLO mekanismen har revolutionerat hur maskiner tolkar och upptĂ€cker specifika objekt i bilder och videor i realtid. Traditionella ramverk för objektdetektering implementerar ett tillvĂ€gagĂ„ngssĂ€tt för objektdetektering i tvĂ„ steg: i det första steget föreslĂ„r ramverket regioner som kan innehĂ„lla objektet, och ramverket klassificerar objektet i nĂ€sta steg. YOLO-ramverket Ă„ andra sidan integrerar dessa tvĂ„ steg i en enda neural nĂ€tverksmodell, ett tillvĂ€gagĂ„ngssĂ€tt som tillĂ„ter ramverket att titta pĂ„ bilden endast en gĂ„ng för att förutsĂ€ga objektet och dess plats i bilden, och dĂ€rmed namnet YOLO eller You Titta bara en gĂ„ng. 

Dessutom behandlar YOLO-ramverket objektdetektering som ett regressionsproblem och förutsĂ€ger klassens sannolikheter och begrĂ€nsningsrutor direkt frĂ„n hela bilden i en enda blick. Implementering av denna metod ökar inte bara hastigheten pĂ„ detekteringsprocessen, utan förbĂ€ttrar ocksĂ„ modellens förmĂ„ga att generalisera frĂ„n komplexa och olika data, vilket gör den till ett lĂ€mpligt val för applikationer som arbetar i realtid som autonom körning, hastighetsdetektering eller nummer plĂ„tigenkĂ€nning. Dessutom har de betydande framsteg som gjorts av djupa neurala nĂ€tverk under de senaste Ă„ren ocksĂ„ bidragit avsevĂ€rt till utvecklingen av ramverk för objektdetektering, men framgĂ„ngen med ramverk för objektdetektering Ă€r fortfarande begrĂ€nsad eftersom de bara kan upptĂ€cka objekt med begrĂ€nsad vokabulĂ€r. Det beror frĂ€mst pĂ„ att nĂ€r objektkategorierna vĂ€l har definierats och mĂ€rkts i datamĂ€ngden kan trĂ€nade detektorer i ramverket bara kĂ€nna igen dessa specifika kategorier, vilket begrĂ€nsar tillĂ€mpbarheten och möjligheten att distribuera objektdetekteringsmodeller i realtid och öppna scenarier. 

Nyligen utvecklade visionsprĂ„ksmodeller anvĂ€nder destillerad vokabulĂ€rkunskap frĂ„n sprĂ„kkodare för att hantera detektering av öppna ordförrĂ„d. Även om dessa ramverk fungerar bĂ€ttre Ă€n traditionella objektdetekteringsmodeller för detektering av öppna ordförrĂ„d, har de fortfarande begrĂ€nsad tillĂ€mpbarhet pĂ„ grund av den knappa tillgĂ€ngligheten av trĂ€ningsdata med begrĂ€nsad ordförrĂ„dsdiversitet. Dessutom trĂ€nar utvalda ramverk detektorer för öppna ordförrĂ„dsobjekt i stor skala och kategoriserar trĂ€ningsobjektdetektorer som förtrĂ€ning för synsprĂ„k pĂ„ regionnivĂ„. Men tillvĂ€gagĂ„ngssĂ€ttet kĂ€mpar fortfarande med att upptĂ€cka objekt i realtid pĂ„ grund av tvĂ„ primĂ€ra orsaker: komplex distributionsprocess för edge-enheter och tunga berĂ€kningskrav. Positivt Ă€r att dessa ramverk har visat positiva resultat frĂ„n förtrĂ€ning av stora detektorer för att anvĂ€nda dem med öppna igenkĂ€nningsmöjligheter. 

YOLO-World-ramverket syftar till att uppnĂ„ mycket effektiv detektering av objekt med öppet ordförrĂ„d, och utforska möjligheten till storskaliga förtrĂ€ningsmetoder för att öka effektiviteten hos traditionella YOLO-detektorer för objektdetektering med öppet ordförrĂ„d. I motsats till tidigare arbeten inom objektdetektering uppvisar YOLO-World-ramverket anmĂ€rkningsvĂ€rd effektivitet med höga slutledningshastigheter och kan enkelt implementeras i nedströmsapplikationer. YOLO-World-modellen följer den traditionella YOLO-arkitekturen och kodar ingĂ„ngstexter genom att utnyttja funktionerna hos en förutbildad CLIP-textkodare. Dessutom inkluderar YOLO-World-ramverket en Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN)-komponent i sin arkitektur för att koppla samman bild- och textfunktioner för förbĂ€ttrade visuell-semantiska representationer. Under slutledningsfasen tar ramverket bort textkodaren och parametriserade om textinbĂ€ddningarna till RepVL-PAN-vikter, vilket resulterar i effektiv distribution. Ramverket inkluderar ocksĂ„ region-text kontrastivt lĂ€rande i sitt ramverk för att studera öppna ordförrĂ„d förtrĂ€ningsmetoder för de traditionella YOLO-modellerna. Den kontrastiva inlĂ€rningsmetoden för region-text förenar bild-textdata, jordningsdata och detekteringsdata till region-text-par. Med utgĂ„ngspunkt i detta visar YOLO-World-ramverket förutbildat pĂ„ region-textpar anmĂ€rkningsvĂ€rda möjligheter för upptĂ€ckt av öppna och stora ordförrĂ„d. Dessutom utforskar ramverket YOLO-World ocksĂ„ ett paradigm för snabb-sedan-upptĂ€cka med syftet att förbĂ€ttra effektiviteten av objektdetektering med öppet ordförrĂ„d i realtids- och verkliga scenarier. 

Som visas i följande bild fokuserar traditionella objektdetektorer pĂ„ nĂ€rliggande fasta ordförrĂ„dsdetektering med fördefinierade kategorier medan öppna ordförrĂ„dsdetektorer upptĂ€cker objekt genom att koda anvĂ€ndarmeddelanden med textkodare för öppet ordförrĂ„d. Som jĂ€mförelse bygger YOLO-Worlds prompt-sedan-detect-metod först en offline-vokabulĂ€r (varierande vokabulĂ€r för olika behov) genom att koda anvĂ€ndarprompterna sĂ„ att detektorerna kan tolka offline-vokabulĂ€ren i realtid utan att behöva koda om uppmaningarna. 

YOLO-World : Metod och arkitektur

Region-textpar

Traditionellt har ramverk för objektdetektering inklusive YOLO familj av objektdetektorer trĂ€nas med hjĂ€lp av instanskommentarer som innehĂ„ller kategorietiketter och begrĂ€nsningsrutor. DĂ€remot omformulerar ramverket YOLO-World instansannoteringarna som region-textpar dĂ€r texten kan vara beskrivningen av objektet, substantivfraser eller kategorinamn. Det Ă€r vĂ€rt att pĂ„peka att YOLO-World-ramverket anvĂ€nder bĂ„de texter och bilder som in- och utmatningsrutor med motsvarande objektinbĂ€ddningar. 

Modellarkitektur

I sin kĂ€rna bestĂ„r YOLO-World-modellen av en textkodare, en YOLO-detektor och komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), som illustreras i följande bild. 

För en inmatad text kodar textkodarkomponenten texten till textinbĂ€ddningar följt av extrahering av flerskaliga funktioner frĂ„n inmatningsbilden av bilddetektorerna i YOLO-detektorkomponenten. Komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) utnyttjar sedan korsmodalitetsfusionen mellan text och funktionsinbĂ€ddningar för att förbĂ€ttra text- och bildrepresentationerna. 

YOLO Detektor

YOLO-World-modellen Ă€r byggd ovanpĂ„ det befintliga YOLOv8-ramverket som innehĂ„ller en Darknet-ryggradskomponent som bildkodare, ett huvud för objektinbĂ€ddningar och bounding box-regression och ett PAN- eller Path Aggression Network för flerskaliga funktionspyramider. 

Textkodare

För en given text extraherar YOLO-World-modellen motsvarande textinbĂ€ddningar genom att anvĂ€nda en förtrĂ€nad CLIP Transformer-textkodare med ett visst antal substantiv och inbĂ€ddningsdimension. Den frĂ€msta anledningen till att ramverket YOLO-World anvĂ€nder en CLIP-textkodare Ă€r att det erbjuder bĂ€ttre visuell-semantisk prestanda för att koppla samman texter med visuella objekt, vilket avsevĂ€rt övertrĂ€ffar traditionella sprĂ„kkodare för endast text. Men om den inmatade texten antingen Ă€r en bildtext eller ett refererande uttryck, vĂ€ljer YOLO-World-modellen en enklare n-gram-algoritm för att extrahera fraserna. Dessa fraser matas sedan till textkodaren. 

Text Kontrasterande huvud

Frikopplat huvud Ă€r en komponent som anvĂ€nds av tidigare objektdetekteringsmodeller, och YOLO-World-ramverket anvĂ€nder ett frikopplat huvud med dubbla 3×3-falsningar för att regressera objektinbĂ€ddningar och begrĂ€nsningsrutor för ett fast antal objekt. Ramverket YOLO-World anvĂ€nder ett textkontrasthuvud för att erhĂ„lla likheten mellan objekt och text med L2-normaliseringsmetoden och textinbĂ€ddningar. Dessutom anvĂ€nder YOLO-World-modellen ocksĂ„ den affina transformationsmetoden med en skiftningsfaktor och en inlĂ€rningsbar skalningsfaktor, med L2-normalisering och affintransformation som förbĂ€ttrar modellens stabilitet under regiontexttrĂ€ning. 

Online ordförrÄdstrÀning

Under trĂ€ningsfasen konstruerar YOLO-World-modellen ett online-vokabulĂ€r för varje mosaikprov bestĂ„ende av 4 bilder vardera. Modellen samplar alla positiva substantiv som ingĂ„r i mosaikbilderna och samplar nĂ„gra negativa substantiv slumpmĂ€ssigt frĂ„n motsvarande datauppsĂ€ttning. OrdförrĂ„det för varje prov bestĂ„r av maximalt n substantiv, med standardvĂ€rdet 80. 

Offline vokabulÀr slutledning

Under slutledning presenterar YOLO-World-modellen en snabb-sedan-upptĂ€ck-strategi med offline-vokabulĂ€r för att ytterligare förbĂ€ttra modellens effektivitet. AnvĂ€ndaren definierar först en serie anpassade uppmaningar som kan innehĂ„lla kategorier eller till och med bildtexter. YOLO-World-modellen erhĂ„ller sedan inbĂ€ddningar av ordförrĂ„d offline genom att anvĂ€nda textkodaren för att koda dessa uppmaningar. Som ett resultat hjĂ€lper offlinevokabulĂ€ren för slutledning modellen att undvika berĂ€kningar för varje inmatning, och tillĂ„ter ocksĂ„ modellen att justera ordförrĂ„det flexibelt enligt kraven. 

Re-parameteriserbart Vision-Language Path Aggression Network (RevVL-PAN)

Följande figur illustrerar strukturen för det föreslagna Re-parameteriserbara Vision-Language Path Aggression Network som följer top-down och bottom-up banorna för att etablera sĂ€rdragspyramiden med flerskaliga funktionsbilder. 

För att förbĂ€ttra interaktionen mellan text- och bildfunktioner, föreslĂ„r YOLO-World-modellen en bildpoolande uppmĂ€rksamhet och en textstyrd CSPLayer (Cross-Stage Partial Layers) med det yttersta mĂ„let att förbĂ€ttra de visuellt-semantiska representationerna för öppna ordförrĂ„d. Under slutledning, parametriserar YOLO-World-modellen om offline-ordförrĂ„dets inbĂ€ddningar i vikterna av de linjĂ€ra eller faltande lagren för effektiv implementering. 

Som det kan ses i figuren ovan anvĂ€nder YOLO-World-modellen CSPLayer efter top-down eller bottom-up fusion, och införlivar textvĂ€gledning i flerskaliga bildfunktioner och bildar det Text-Guided CSPLayer, vilket utökar CSPLayer. För en given bildfunktion och dess motsvarande textinbĂ€ddning antar modellen max-sigmoid uppmĂ€rksamhet efter det sista flaskhalsblocket för att aggregera textfunktioner till bildfunktioner. Den uppdaterade bildfunktionen sammanlĂ€nkas sedan med sĂ€rdragen och presenteras som utdata. 

 Vi gĂ„r vidare och YOLO-World-modellen samlar bildfunktioner för att uppdatera textinbĂ€ddningen genom att introducera lagret Image Pooling Attention för att förbĂ€ttra textinbĂ€ddningarna med bildmedveten information. IstĂ€llet för att anvĂ€nda korsuppmĂ€rksamheten direkt pĂ„ bildfunktioner, utnyttjar modellen maximal pooling pĂ„ flerskaliga funktioner för att erhĂ„lla 3×3-regioner, vilket resulterar i 27 patch-tokens med modellen som uppdaterar textinbĂ€ddningarna i nĂ€sta steg. 

FörtrÀningsscheman

YOLO-World-modellen följer tvĂ„ primĂ€ra förtrĂ€ningsscheman: LĂ€rande av Region-Text Contrastive Loss och Pseudo-mĂ€rkning med bild-textdata. För det primĂ€ra förtrĂ€ningsschemat matar modellen ut objektförutsĂ€gelser tillsammans med kommentarer för en given text och mosaikprover. Ramverket YOLO-World matchar förutsĂ€gelserna med sanningsanteckningar genom att följa och utnyttja uppgiftstilldelade etiketttilldelningar, och tilldelar individuella positiva förutsĂ€gelser med ett textindex som fungerar som klassificeringsetikett. Å andra sidan föreslĂ„r förtrĂ€ningsschemat för PseudomĂ€rkning med bild-textdata att anvĂ€nda en automatiserad mĂ€rkningsmetod istĂ€llet för att anvĂ€nda bild-text-par för att generera region-text-par. Den föreslagna mĂ€rkningsmetoden bestĂ„r av tre steg: extrahera substantivfraser, pseudomĂ€rkning och filtrering. Det första steget anvĂ€nder n-gram-algoritmen för att extrahera substantivfraser frĂ„n inmatningstexten, det andra steget anvĂ€nder en förtrĂ€nad öppen vokabulĂ€rdetektor för att generera pseudo-rutor för den givna substantivfrasen för enskilda bilder, medan det tredje och sista steget anvĂ€nder ett förutbildat CLIP-ramverk för att utvĂ€rdera relevansen av region-text- och text-bild-paren, varefter modellen filtrerar lĂ„grelevans pseudobilder och kommentarer. 

YOLO-World : Resultat

NĂ€r vĂ€l YOLO-World-modellen har förtrĂ€nats utvĂ€rderas den direkt pĂ„ LVIS-datauppsĂ€ttningen i en nollbildsmiljö, med LVIS-datauppsĂ€ttningen som bestĂ„r av över 1200 kategorier, betydligt fler Ă€n förtrĂ€ningsdatauppsĂ€ttningarna som anvĂ€nds av befintliga ramverk för testning deras prestanda vid upptĂ€ckt av stort ordförrĂ„d. Följande figur visar prestandan för YOLO-World-ramverket med nĂ„gra av de befintliga ramverken för detektering av objekt pĂ„ LVIS-dataset i en nollbildsmiljö. 

Som det kan observeras övertrĂ€ffar YOLO-World-ramverket en majoritet av befintliga ramverk nĂ€r det gĂ€ller inferenshastigheter och nollskottsprestanda, Ă€ven med ramverk som Grounding DINO, GLIP och GLIPv2 som innehĂ„ller mer data. Sammantaget visar resultaten att smĂ„ objektdetekteringsmodeller som YOLO-World-S med endast 13 miljoner parametrar kan anvĂ€ndas för förtrĂ€ning i synsprĂ„ksuppgifter med anmĂ€rkningsvĂ€rda kapaciteter med öppen ordförrĂ„d. 

Avslutande tankar

I den hÀr artikeln har vi pratat om YOLO-World, ett innovativt tillvÀgagÄngssÀtt som syftar till att förbÀttra förmÄgorna hos ramverket YOLO eller You Only Look Once med detekteringsmöjligheter för öppna ordförrÄd genom att förtrÀna ramverket pÄ storskaliga datamÀngder och implementera vision-sprÄk modellering. För att vara mer specifik föreslÄr YOLO-World-ramverket att implementera ett Re-parameterizable Vision Language Path Aggregation Network eller RepVL-PAN tillsammans med region-text kontrastiv förlust för att underlÀtta en interaktion mellan den sprÄkliga och den visuella informationen. Genom att implementera RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World-ramverket noggrant och effektivt detektera ett brett spektrum av objekt i en nollbildsmiljö.

"En ingenjör till yrket, en författare utantill". Kunal Àr en teknisk skribent med en djup kÀrlek och förstÄelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa omrÄden genom sin engagerande och informativa dokumentation.