stomp YOLO-World: realtime objectdetectie met open woordenschat - Unite.AI
Verbind je met ons

Artificial Intelligence

YOLO-World: realtime objectdetectie met open woordenschat

mm

gepubliceerd

 on

Objectdetectie is een fundamentele uitdaging geweest in de computer visie industrie, met toepassingen in robotica, beeldbegrip, autonome voertuigen, en beeldherkenning. De afgelopen jaren heeft baanbrekend werk op het gebied van AI, met name via diepe neurale netwerken, de objectdetectie aanzienlijk verbeterd. Deze modellen hebben echter een vast vocabulaire, beperkt tot het detecteren van objecten binnen de 80 categorieën van de COCO-dataset. Deze beperking komt voort uit het trainingsproces, waarbij objectdetectoren worden getraind om alleen specifieke categorieën te herkennen, waardoor de toepasbaarheid ervan wordt beperkt.

Om dit te ondervangen introduceren we YOLO-World, een innovatieve aanpak gericht op het verbeteren van het YOLO-framework (You Only Look Once) met mogelijkheden voor open woordenschatdetectie. Dit wordt bereikt door het raamwerk vooraf te trainen op grootschalige datasets en door een benadering van visietaalmodellering te implementeren. Meer specifiek maakt YOLO-World gebruik van een Re-parametreerbaar Vision-Language Path Aggregation Network (RepVL-PAN) en regio-tekstcontrastief verlies om de interactie tussen taalkundige en visuele informatie te bevorderen. Door middel van RepVL-PAN en regio-tekstcontrastief verlies kan YOLO-World nauwkeurig een breed scala aan objecten detecteren in een zero-shot-setting, wat opmerkelijke prestaties laat zien bij open-vocabulaire-segmentatie en objectdetectietaken.

Dit artikel is bedoeld om een ​​grondig inzicht te geven in de technische grondslagen, modelarchitectuur, het trainingsproces en de toepassingsscenario's van YOLO-World. Laten we erin duiken.

YOLO-World: realtime objectdetectie met open woordenschat

YOLO of You Only Look Once is een van de meest populaire methoden voor moderne objectdetectie binnen de computer vision-industrie. Bekend om zijn ongelooflijke snelheid en efficiëntie, de komst van YOLO Dit mechanisme heeft een revolutie teweeggebracht in de manier waarop machines specifieke objecten in afbeeldingen en video's in realtime interpreteren en detecteren. Traditionele raamwerken voor objectdetectie implementeren een objectdetectiebenadering in twee stappen: in de eerste stap stelt het raamwerk regio's voor die het object zouden kunnen bevatten, en in de volgende stap classificeert het raamwerk het object. Het YOLO-framework daarentegen integreert deze twee stappen in een enkel neuraal netwerkmodel, een benadering waarmee het raamwerk slechts één keer naar het beeld kan kijken om het object en de locatie ervan binnen het beeld te voorspellen, en vandaar de naam YOLO of You Kijk maar één keer. 

Bovendien behandelt het YOLO-framework objectdetectie als een regressieprobleem en voorspelt het in één oogopslag de klassenkansen en selectiekaders rechtstreeks vanuit het volledige beeld. Implementatie van deze methode verhoogt niet alleen de snelheid van het detectieproces, maar vergroot ook het vermogen van het model om te generaliseren op basis van complexe en diverse gegevens, waardoor het een geschikte keuze is voor toepassingen die in realtime werken, zoals autonoom rijden, snelheidsdetectie of nummerherkenning. plaatherkenning. Bovendien heeft de aanzienlijke vooruitgang van diepe neurale netwerken in de afgelopen jaren ook aanzienlijk bijgedragen aan de ontwikkeling van raamwerken voor objectdetectie, maar het succes van raamwerken voor objectdetectie is nog steeds beperkt omdat ze alleen objecten met een beperkte woordenschat kunnen detecteren. Dit komt vooral omdat zodra de objectcategorieën in de dataset zijn gedefinieerd en gelabeld, getrainde detectoren in het raamwerk alleen deze specifieke categorieën kunnen herkennen, waardoor de toepasbaarheid en het vermogen van het inzetten van objectdetectiemodellen in realtime en open scenario's wordt beperkt. 

Verderop maken recent ontwikkelde visietaalmodellen gebruik van gedistilleerde woordenschatkennis van taalencoders om de detectie van open woordenschat aan te pakken. Hoewel deze raamwerken beter presteren dan traditionele objectdetectiemodellen op het gebied van detectie van open woordenschat, zijn ze nog steeds beperkt toepasbaar vanwege de schaarse beschikbaarheid van trainingsgegevens met een beperkte diversiteit aan woordenschat. Bovendien trainen geselecteerde raamwerken objectdetectoren met een open woordenschat op schaal, en categoriseren ze trainingsobjectdetectoren als voortraining op regioniveau in visietaal. De aanpak heeft echter nog steeds moeite met het in realtime detecteren van objecten vanwege twee belangrijke redenen: een complex implementatieproces voor edge-apparaten en zware rekenvereisten. Positief is dat deze raamwerken positieve resultaten hebben opgeleverd bij het vooraf trainen van grote detectoren om ze te gebruiken met open herkenningsmogelijkheden. 

Het YOLO-World-framework heeft tot doel zeer efficiënte objectdetectie met open woordenschat te bereiken en de mogelijkheid te onderzoeken van grootschalige pre-trainingsbenaderingen om de efficiëntie van traditionele YOLO-detectoren voor objectdetectie met open woordenschat te vergroten. In tegenstelling tot eerdere werkzaamheden op het gebied van objectdetectie, vertoont het YOLO-World-framework opmerkelijke efficiëntie met hoge inferentiesnelheden, en kan het gemakkelijk worden ingezet op downstream-applicaties. Het YOLO-World-model volgt de traditionele YOLO-architectuur en codeert invoerteksten door gebruik te maken van de mogelijkheden van een vooraf getrainde CLIP-tekstencoder. Bovendien bevat het YOLO-World-framework een Re-parametreerbare Vision-Language Path Aggregation Network (RepVL-PAN)-component in zijn architectuur om beeld- en tekstfuncties met elkaar te verbinden voor verbeterde visueel-semantische representaties. Tijdens de inferentiefase verwijdert het raamwerk de tekstencoder en herparameteriseert het de tekstinsluitingen in RepVL-PAN-gewichten, wat resulteert in een efficiënte implementatie. Het raamwerk omvat ook contrastief leren in regioteksten om pre-trainingsmethoden met open woordenschat voor de traditionele YOLO-modellen te bestuderen. De contrastieve leermethode regio-tekst verenigt beeld-tekstgegevens, aardingsgegevens en detectiegegevens in regio-tekstparen. Hierop voortbouwend demonstreert het YOLO-World-framework, dat vooraf is getraind op regio-tekstparen, opmerkelijke mogelijkheden voor detectie van open en grote woordenschat. Daarnaast onderzoekt het YOLO-World-framework ook een prompt-then-detect-paradigma met als doel de efficiëntie van de objectdetectie met open woordenschat in realtime en real-world scenario's te verbeteren. 

Zoals blijkt uit de volgende afbeelding, richten traditionele objectdetectoren zich op close-set van vaste woordenschatdetectie met vooraf gedefinieerde categorieën, terwijl open woordenschatdetectoren objecten detecteren door gebruikersprompts te coderen met tekstencoders voor open woordenschat. Ter vergelijking: de prompt-dan-detect-aanpak van YOLO-World bouwt eerst een offline vocabulaire op (variërend vocabulaire voor verschillende behoeften) door de gebruikersprompts te coderen, waardoor de detectoren het offline vocabulaire in realtime kunnen interpreteren zonder de prompts opnieuw te hoeven coderen. 

YOLO-World: Methode en Architectuur

Regio-tekstparen

Traditioneel zijn objectdetectieframeworks, waaronder de YOLO De familie van objectdetectoren wordt getraind met behulp van instance-annotaties die categorielabels en selectiekaders bevatten. Het YOLO-World-framework herformuleert daarentegen de instance-annotaties als regio-tekstparen waarbij de tekst de beschrijving van het object, zelfstandige naamwoorden of categorienaam kan zijn. Het is de moeite waard erop te wijzen dat het YOLO-World-framework zowel de teksten als de afbeeldingen overneemt als voorspelde invoer- en uitvoervakken met de bijbehorende objectinbedding. 

Model Architectuur

In de kern bestaat het YOLO-World-model uit een tekstencoder, een YOLO-detector en de component Re-parametreerbare Vision-Language Path Aggregation Network (RepVL-PAN), zoals geïllustreerd in de volgende afbeelding. 

Voor een invoertekst codeert de tekstcoderingscomponent de tekst in tekstinbedding, gevolgd door de extractie van meerschalige kenmerken uit het invoerbeeld door de beelddetectoren in de YOLO-detectorcomponent. De Re-parametreerbare Vision-Language Path Aggregation Network (RepVL-PAN) component maakt vervolgens gebruik van de crossmodale fusie tussen de tekst en de inbedding van functies om de tekst- en beeldrepresentaties te verbeteren. 

YOLO-detector

Het YOLO-World-model is gebouwd bovenop het bestaande YOLOv8-framework dat een Darknet-backbone-component bevat als afbeeldingsencoder, een hoofd voor objectinbedding en bounding box-regressie, en een PAN- of Path Aggression Network voor piramides met meerdere schalen. 

Tekst Encoder

Voor een bepaalde tekst extraheert het YOLO-World-model de overeenkomstige tekstinsluitingen door een vooraf getrainde CLIP Transformer-tekstencoder te gebruiken met een bepaald aantal zelfstandige naamwoorden en een inbeddingsdimensie. De belangrijkste reden waarom het YOLO-World-framework een CLIP-tekstencoder gebruikt, is omdat het betere visueel-semantische prestaties biedt voor het verbinden van teksten met visuele objecten, en aanzienlijk beter presteert dan traditionele taal-encoders die alleen tekst bevatten. Als de invoertekst echter een bijschrift of een verwijzende uitdrukking is, kiest het YOLO-World-model voor een eenvoudiger n-gram-algoritme om de zinnen te extraheren. Deze zinnen worden vervolgens naar de tekstencoder gevoerd. 

Tekstcontrastieve kop

Ontkoppelde kop is een component die wordt gebruikt door eerdere objectdetectiemodellen, en het YOLO-World-framework gebruikt een ontkoppelde kop met dubbele 3x3-convoluties om objectinbedding en begrenzingsvakken voor een vast aantal objecten te regressieven. Het YOLO-World-framework maakt gebruik van een tekstcontrasieve kop om de gelijkenis tussen object en tekst te verkrijgen met behulp van de L2-normalisatiebenadering en tekstinsluitingen. Bovendien maakt het YOLO-World-model ook gebruik van de affiene transformatiebenadering met een verschuivende factor en een leerbare schaalfactor, waarbij de L2-normalisatie en affiene transformatie de stabiliteit van het model verbeteren tijdens regioteksttraining. 

Online woordenschattraining

Tijdens de trainingsfase bouwt het YOLO-World-model voor elk mozaïekmonster een online vocabulaire op, bestaande uit elk 4 afbeeldingen. Het model bemonstert alle positieve zelfstandige naamwoorden die in de mozaïekafbeeldingen zijn opgenomen, en bemonstert willekeurig enkele negatieve zelfstandige naamwoorden uit de overeenkomstige dataset. De woordenschat voor elk voorbeeld bestaat uit maximaal n zelfstandige naamwoorden, waarbij de standaardwaarde 80 is. 

Offline woordenschatinferentie

Tijdens de inferentie presenteert het YOLO-World-model een prompt-then-detect-strategie met offline vocabulaire om de efficiëntie van het model verder te verbeteren. De gebruiker definieert eerst een reeks aangepaste aanwijzingen die categorieën of zelfs bijschriften kunnen bevatten. Het YOLO-World-model verkrijgt vervolgens offline woordenschatinsluitingen door de tekstencoder te gebruiken om deze aanwijzingen te coderen. Als gevolg hiervan helpt de offline woordenschat voor gevolgtrekking het model om berekeningen voor elke invoer te vermijden, en kan het model ook de woordenschat flexibel aanpassen aan de vereisten. 

Opnieuw parametreerbaar visie-taalpad-agressienetwerk (RevVL-PAN)

De volgende afbeelding illustreert de structuur van het voorgestelde Re-parametreerbare Vision-Language Path Aggression Network dat de top-down en bottom-up paden volgt om de feature-piramide met multi-schaal feature-afbeeldingen tot stand te brengen. 

Om de interactie tussen tekst- en beeldkenmerken te verbeteren, stelt het YOLO-World-model een Image-Pooling Attention en een Text-guided CSPLayer (Cross-Stage Partial Layers) voor met als uiteindelijk doel het verbeteren van de visueel-semantische representaties voor open vocabulaire. Tijdens de inferentie herparametriseert het YOLO-World-model de offline woordenschatinbedding in de gewichten van de lineaire of convolutionele lagen voor effectieve implementatie. 

Zoals te zien is in de bovenstaande afbeelding, maakt het YOLO-World-model gebruik van de CSPLayer na de top-down of bottom-up fusie, en integreert tekstbegeleiding in beeldkenmerken op meerdere schalen, waardoor de Text-Guided CSPLayer wordt gevormd, waardoor de de CSPLayer. Voor elk gegeven afbeeldingskenmerk en de bijbehorende tekstinbedding gebruikt het model de max-sigmoid-aandacht na het laatste knelpuntblok om tekstkenmerken samen te voegen tot afbeeldingskenmerken. Het bijgewerkte afbeeldingskenmerk wordt vervolgens samengevoegd met de cross-stage-kenmerken en wordt gepresenteerd als de uitvoer. 

 Verderop aggregeert het YOLO-World-model afbeeldingskenmerken om de tekstinsluiting bij te werken door de Image Pooling-aandachtslaag te introduceren om de tekstinsluitingen te verbeteren met afbeeldingsbewuste informatie. In plaats van de kruisaandacht rechtstreeks op afbeeldingskenmerken te gebruiken, maakt het model gebruik van maximale pooling op functies op meerdere schaal om 3×3 regio's te verkrijgen, wat resulteert in 27 patch-tokens waarbij het model de tekstinsluitingen bijwerkt in de volgende stap. 

Pre-trainingsprogramma's

Het YOLO-World-model volgt twee primaire pre-trainingsschema's: Leren van regio-tekstcontrastverlies en pseudo-labeling met beeld-tekstgegevens. Voor het primaire pre-trainingsschema voert het model objectvoorspellingen uit, samen met annotaties voor een bepaalde tekst en mozaïekvoorbeelden. Het YOLO-World-framework koppelt de voorspellingen aan annotaties van de grondwaarheid door de taaktoegewezen labeltoewijzing te volgen en te benutten, en wijst individuele positieve voorspellingen toe met een tekstindex die als classificatielabel dient. Aan de andere kant stelt het pre-trainingsschema Pseudo Labeling met Image-Text Data voor om een ​​geautomatiseerde labelingaanpak te gebruiken in plaats van beeld-tekstparen te gebruiken om regio-tekstparen te genereren. De voorgestelde etiketteringsaanpak bestaat uit drie stappen: extractie van zelfstandige naamwoorden, pseudo-labeling en filtering. De eerste stap maakt gebruik van het n-gram-algoritme om zelfstandige naamwoorden uit de invoertekst te extraheren, de tweede stap gebruikt een vooraf getrainde open woordenschatdetector om pseudo-boxen te genereren voor de gegeven zelfstandige naamwoorden voor individuele afbeeldingen, terwijl de derde en laatste stap gebruik maakt van een vooraf getraind CLIP-framework om de relevantie van de regio-tekst- en tekst-afbeelding-paren te evalueren, waarna het model pseudo-afbeeldingen en annotaties met een lage relevantie filtert. 

YOLO-Wereld: Resultaten

Zodra het YOLO-World-model vooraf is getraind, wordt het rechtstreeks op de LVIS-dataset geëvalueerd in een zero-shot-setting, waarbij de LVIS-dataset uit meer dan 1200 categorieën bestaat, aanzienlijk meer dan de pre-training datasets die door bestaande testframeworks worden gebruikt. hun prestaties bij het detecteren van grote woordenschat. De volgende afbeelding demonstreert de prestaties van het YOLO-World-framework met enkele van de bestaande geavanceerde objectdetectieframeworks op de LVIS-dataset in een zero-shot-omgeving. 

Zoals kan worden opgemerkt presteert het YOLO-World raamwerk beter dan de meeste bestaande raamwerken in termen van inferentiesnelheden en zero-shot prestaties, zelfs met raamwerken als Grounding DINO, GLIP en GLIPv2 die meer data bevatten. Over het geheel genomen tonen de resultaten aan dat modellen voor de detectie van kleine objecten, zoals YOLO-World-S met slechts 13 miljoen parameters, kunnen worden gebruikt voor pre-training op visuele taaltaken met opmerkelijke mogelijkheden voor open woordenschat. 

Conclusie

In dit artikel hebben we gesproken over YOLO-World, een innovatieve aanpak die tot doel heeft de mogelijkheden van het YOLO of You Only Look Once-framework te verbeteren met mogelijkheden voor open woordenschatdetectie door het framework vooraf te trainen op grootschalige datasets en de implementatie van de benadering van visie-taalmodellering. Om specifieker te zijn, stelt het YOLO-World-framework voor om een ​​Re-parametreerbaar Vision Language Path Aggregation Network of RepVL-PAN te implementeren, samen met contrastief verlies van regio-tekst om een ​​interactie tussen de taalkundige en de visuele informatie te vergemakkelijken. Door RepVL-PAN en regio-tekstcontrastief verlies te implementeren, kan het YOLO-World-framework een breed scala aan objecten nauwkeurig en effectief detecteren in een zero-shot-omgeving.

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.