stub YOLO-World: Real-Time Open-Vocabulary Object Detection - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

YOLO-World: Real-Time Open-Vocabulary Object Detection

mm

publicerade

 on

Objektdetektion har varit en grundläggande utmaning i dator vision industri, med tillämpningar inom robotik, bildförståelse, autonoma fordon och bildigenkänning. Under de senaste åren har banbrytande arbete inom AI, särskilt genom djupa neurala nätverk, avsevärt avancerat objektdetektering. Dessa modeller har dock ett fast ordförråd, begränsat till att detektera objekt inom de 80 kategorierna i COCO-datauppsättningen. Denna begränsning härrör från träningsprocessen, där objektdetektorer tränas att bara känna igen specifika kategorier, vilket begränsar deras tillämplighet.

För att övervinna detta introducerar vi YOLO-World, ett innovativt tillvägagångssätt som syftar till att förbättra ramverket YOLO (You Only Look Once) med detekteringsmöjligheter för öppna ordförråd. Detta uppnås genom att förutbilda ramverket på storskaliga datamängder och implementera en vision-språkmodellering. Närmare bestämt använder YOLO-World ett Re-parameteriserbart Vision-Language Path Aggregation Network (RepVL-PAN) och region-text kontrastiv förlust för att främja interaktion mellan språklig och visuell information. Genom RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World noggrant detektera ett brett spektrum av objekt i en nollbildsmiljö, vilket visar enastående prestanda i segmentering av öppet ordförråd och objektdetekteringsuppgifter.

Den här artikeln syftar till att ge en grundlig förståelse för YOLO-Worlds tekniska grunder, modellarkitektur, utbildningsprocess och tillämpningsscenarier. Låt oss dyka in.

YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO eller You Only Look Once är en av de mest populära metoderna för modern objektdetektering inom datorseendeindustrin. Känd för sin otroliga hastighet och effektivitet, tillkomsten av YOLO mekanismen har revolutionerat hur maskiner tolkar och upptäcker specifika objekt i bilder och videor i realtid. Traditionella ramverk för objektdetektering implementerar ett tillvägagångssätt för objektdetektering i två steg: i det första steget föreslår ramverket regioner som kan innehålla objektet, och ramverket klassificerar objektet i nästa steg. YOLO-ramverket å andra sidan integrerar dessa två steg i en enda neural nätverksmodell, ett tillvägagångssätt som tillåter ramverket att titta på bilden endast en gång för att förutsäga objektet och dess plats i bilden, och därmed namnet YOLO eller You Titta bara en gång. 

Dessutom behandlar YOLO-ramverket objektdetektering som ett regressionsproblem och förutsäger klassens sannolikheter och begränsningsrutor direkt från hela bilden i en enda blick. Implementering av denna metod ökar inte bara hastigheten på detekteringsprocessen, utan förbättrar också modellens förmåga att generalisera från komplexa och olika data, vilket gör den till ett lämpligt val för applikationer som arbetar i realtid som autonom körning, hastighetsdetektering eller nummer plåtigenkänning. Dessutom har de betydande framsteg som gjorts av djupa neurala nätverk under de senaste åren också bidragit avsevärt till utvecklingen av ramverk för objektdetektering, men framgången med ramverk för objektdetektering är fortfarande begränsad eftersom de bara kan upptäcka objekt med begränsad vokabulär. Det beror främst på att när objektkategorierna väl har definierats och märkts i datamängden kan tränade detektorer i ramverket bara känna igen dessa specifika kategorier, vilket begränsar tillämpbarheten och möjligheten att distribuera objektdetekteringsmodeller i realtid och öppna scenarier. 

Nyligen utvecklade visionspråksmodeller använder destillerad vokabulärkunskap från språkkodare för att hantera detektering av öppna ordförråd. Även om dessa ramverk fungerar bättre än traditionella objektdetekteringsmodeller för detektering av öppna ordförråd, har de fortfarande begränsad tillämpbarhet på grund av den knappa tillgängligheten av träningsdata med begränsad ordförrådsdiversitet. Dessutom tränar utvalda ramverk detektorer för öppna ordförrådsobjekt i stor skala och kategoriserar träningsobjektdetektorer som förträning för synspråk på regionnivå. Men tillvägagångssättet kämpar fortfarande med att upptäcka objekt i realtid på grund av två primära orsaker: komplex distributionsprocess för edge-enheter och tunga beräkningskrav. Positivt är att dessa ramverk har visat positiva resultat från förträning av stora detektorer för att använda dem med öppna igenkänningsmöjligheter. 

YOLO-World-ramverket syftar till att uppnå mycket effektiv detektering av objekt med öppet ordförråd, och utforska möjligheten till storskaliga förträningsmetoder för att öka effektiviteten hos traditionella YOLO-detektorer för objektdetektering med öppet ordförråd. I motsats till tidigare arbeten inom objektdetektering uppvisar YOLO-World-ramverket anmärkningsvärd effektivitet med höga slutledningshastigheter och kan enkelt implementeras i nedströmsapplikationer. YOLO-World-modellen följer den traditionella YOLO-arkitekturen och kodar ingångstexter genom att utnyttja funktionerna hos en förutbildad CLIP-textkodare. Dessutom inkluderar YOLO-World-ramverket en Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN)-komponent i sin arkitektur för att koppla samman bild- och textfunktioner för förbättrade visuell-semantiska representationer. Under slutledningsfasen tar ramverket bort textkodaren och parametriserade om textinbäddningarna till RepVL-PAN-vikter, vilket resulterar i effektiv distribution. Ramverket inkluderar också region-text kontrastivt lärande i sitt ramverk för att studera öppna ordförråd förträningsmetoder för de traditionella YOLO-modellerna. Den kontrastiva inlärningsmetoden för region-text förenar bild-textdata, jordningsdata och detekteringsdata till region-text-par. Med utgångspunkt i detta visar YOLO-World-ramverket förutbildat på region-textpar anmärkningsvärda möjligheter för upptäckt av öppna och stora ordförråd. Dessutom utforskar ramverket YOLO-World också ett paradigm för snabb-sedan-upptäcka med syftet att förbättra effektiviteten av objektdetektering med öppet ordförråd i realtids- och verkliga scenarier. 

Som visas i följande bild fokuserar traditionella objektdetektorer på närliggande fasta ordförrådsdetektering med fördefinierade kategorier medan öppna ordförrådsdetektorer upptäcker objekt genom att koda användarmeddelanden med textkodare för öppet ordförråd. Som jämförelse bygger YOLO-Worlds prompt-sedan-detect-metod först en offline-vokabulär (varierande vokabulär för olika behov) genom att koda användarprompterna så att detektorerna kan tolka offline-vokabulären i realtid utan att behöva koda om uppmaningarna. 

YOLO-World : Metod och arkitektur

Region-textpar

Traditionellt har ramverk för objektdetektering inklusive YOLO familj av objektdetektorer tränas med hjälp av instanskommentarer som innehåller kategorietiketter och begränsningsrutor. Däremot omformulerar ramverket YOLO-World instansannoteringarna som region-textpar där texten kan vara beskrivningen av objektet, substantivfraser eller kategorinamn. Det är värt att påpeka att YOLO-World-ramverket använder både texter och bilder som in- och utmatningsrutor med motsvarande objektinbäddningar. 

Modellarkitektur

I sin kärna består YOLO-World-modellen av en textkodare, en YOLO-detektor och komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN), som illustreras i följande bild. 

För en inmatad text kodar textkodarkomponenten texten till textinbäddningar följt av extrahering av flerskaliga funktioner från inmatningsbilden av bilddetektorerna i YOLO-detektorkomponenten. Komponenten Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) utnyttjar sedan korsmodalitetsfusionen mellan text och funktionsinbäddningar för att förbättra text- och bildrepresentationerna. 

YOLO Detektor

YOLO-World-modellen är byggd ovanpå det befintliga YOLOv8-ramverket som innehåller en Darknet-ryggradskomponent som bildkodare, ett huvud för objektinbäddningar och bounding box-regression och ett PAN- eller Path Aggression Network för flerskaliga funktionspyramider. 

Textkodare

För en given text extraherar YOLO-World-modellen motsvarande textinbäddningar genom att använda en förtränad CLIP Transformer-textkodare med ett visst antal substantiv och inbäddningsdimension. Den främsta anledningen till att ramverket YOLO-World använder en CLIP-textkodare är att det erbjuder bättre visuell-semantisk prestanda för att koppla samman texter med visuella objekt, vilket avsevärt överträffar traditionella språkkodare för endast text. Men om den inmatade texten antingen är en bildtext eller ett refererande uttryck, väljer YOLO-World-modellen en enklare n-gram-algoritm för att extrahera fraserna. Dessa fraser matas sedan till textkodaren. 

Text Kontrasterande huvud

Frikopplat huvud är en komponent som används av tidigare objektdetekteringsmodeller, och YOLO-World-ramverket använder ett frikopplat huvud med dubbla 3×3-falsningar för att regressera objektinbäddningar och begränsningsrutor för ett fast antal objekt. Ramverket YOLO-World använder ett textkontrasthuvud för att erhålla likheten mellan objekt och text med L2-normaliseringsmetoden och textinbäddningar. Dessutom använder YOLO-World-modellen också den affina transformationsmetoden med en skiftningsfaktor och en inlärningsbar skalningsfaktor, med L2-normalisering och affintransformation som förbättrar modellens stabilitet under regiontextträning. 

Online ordförrådsträning

Under träningsfasen konstruerar YOLO-World-modellen ett online-vokabulär för varje mosaikprov bestående av 4 bilder vardera. Modellen samplar alla positiva substantiv som ingår i mosaikbilderna och samplar några negativa substantiv slumpmässigt från motsvarande datauppsättning. Ordförrådet för varje prov består av maximalt n substantiv, med standardvärdet 80. 

Offline vokabulär slutledning

Under slutledning presenterar YOLO-World-modellen en snabb-sedan-upptäck-strategi med offline-vokabulär för att ytterligare förbättra modellens effektivitet. Användaren definierar först en serie anpassade uppmaningar som kan innehålla kategorier eller till och med bildtexter. YOLO-World-modellen erhåller sedan inbäddningar av ordförråd offline genom att använda textkodaren för att koda dessa uppmaningar. Som ett resultat hjälper offlinevokabulären för slutledning modellen att undvika beräkningar för varje inmatning, och tillåter också modellen att justera ordförrådet flexibelt enligt kraven. 

Re-parameteriserbart Vision-Language Path Aggression Network (RevVL-PAN)

Följande figur illustrerar strukturen för det föreslagna Re-parameteriserbara Vision-Language Path Aggression Network som följer top-down och bottom-up banorna för att etablera särdragspyramiden med flerskaliga funktionsbilder. 

För att förbättra interaktionen mellan text- och bildfunktioner, föreslår YOLO-World-modellen en bildpoolande uppmärksamhet och en textstyrd CSPLayer (Cross-Stage Partial Layers) med det yttersta målet att förbättra de visuellt-semantiska representationerna för öppna ordförråd. Under slutledning, parametriserar YOLO-World-modellen om offline-ordförrådets inbäddningar i vikterna av de linjära eller faltande lagren för effektiv implementering. 

Som det kan ses i figuren ovan använder YOLO-World-modellen CSPLayer efter top-down eller bottom-up fusion, och införlivar textvägledning i flerskaliga bildfunktioner och bildar det Text-Guided CSPLayer, vilket utökar CSPLayer. För en given bildfunktion och dess motsvarande textinbäddning antar modellen max-sigmoid uppmärksamhet efter det sista flaskhalsblocket för att aggregera textfunktioner till bildfunktioner. Den uppdaterade bildfunktionen sammanlänkas sedan med särdragen och presenteras som utdata. 

 Vi går vidare och YOLO-World-modellen samlar bildfunktioner för att uppdatera textinbäddningen genom att introducera lagret Image Pooling Attention för att förbättra textinbäddningarna med bildmedveten information. Istället för att använda korsuppmärksamheten direkt på bildfunktioner, utnyttjar modellen maximal pooling på flerskaliga funktioner för att erhålla 3×3-regioner, vilket resulterar i 27 patch-tokens med modellen som uppdaterar textinbäddningarna i nästa steg. 

Förträningsscheman

YOLO-World-modellen följer två primära förträningsscheman: Lärande av Region-Text Contrastive Loss och Pseudo-märkning med bild-textdata. För det primära förträningsschemat matar modellen ut objektförutsägelser tillsammans med kommentarer för en given text och mosaikprover. Ramverket YOLO-World matchar förutsägelserna med sanningsanteckningar genom att följa och utnyttja uppgiftstilldelade etiketttilldelningar, och tilldelar individuella positiva förutsägelser med ett textindex som fungerar som klassificeringsetikett. Å andra sidan föreslår förträningsschemat för Pseudomärkning med bild-textdata att använda en automatiserad märkningsmetod istället för att använda bild-text-par för att generera region-text-par. Den föreslagna märkningsmetoden består av tre steg: extrahera substantivfraser, pseudomärkning och filtrering. Det första steget använder n-gram-algoritmen för att extrahera substantivfraser från inmatningstexten, det andra steget använder en förtränad öppen vokabulärdetektor för att generera pseudo-rutor för den givna substantivfrasen för enskilda bilder, medan det tredje och sista steget använder ett förutbildat CLIP-ramverk för att utvärdera relevansen av region-text- och text-bild-paren, varefter modellen filtrerar lågrelevans pseudobilder och kommentarer. 

YOLO-World : Resultat

När väl YOLO-World-modellen har förtränats utvärderas den direkt på LVIS-datauppsättningen i en nollbildsmiljö, med LVIS-datauppsättningen som består av över 1200 kategorier, betydligt fler än förträningsdatauppsättningarna som används av befintliga ramverk för testning deras prestanda vid upptäckt av stort ordförråd. Följande figur visar prestandan för YOLO-World-ramverket med några av de befintliga ramverken för detektering av objekt på LVIS-dataset i en nollbildsmiljö. 

Som det kan observeras överträffar YOLO-World-ramverket en majoritet av befintliga ramverk när det gäller inferenshastigheter och nollskottsprestanda, även med ramverk som Grounding DINO, GLIP och GLIPv2 som innehåller mer data. Sammantaget visar resultaten att små objektdetekteringsmodeller som YOLO-World-S med endast 13 miljoner parametrar kan användas för förträning i synspråksuppgifter med anmärkningsvärda kapaciteter med öppen ordförråd. 

Avslutande tankar

I den här artikeln har vi pratat om YOLO-World, ett innovativt tillvägagångssätt som syftar till att förbättra förmågorna hos ramverket YOLO eller You Only Look Once med detekteringsmöjligheter för öppna ordförråd genom att förträna ramverket på storskaliga datamängder och implementera vision-språk modellering. För att vara mer specifik föreslår YOLO-World-ramverket att implementera ett Re-parameterizable Vision Language Path Aggregation Network eller RepVL-PAN tillsammans med region-text kontrastiv förlust för att underlätta en interaktion mellan den språkliga och den visuella informationen. Genom att implementera RepVL-PAN och region-text kontrastiv förlust, kan YOLO-World-ramverket noggrant och effektivt detektera ett brett spektrum av objekt i en nollbildsmiljö.

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.