Stummel YOLO-World: Echtzeit-Objekterkennung mit offenem Vokabular – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

YOLO-World: Echtzeit-Objekterkennung mit offenem Vokabular

mm

Veröffentlicht

 on

Die Objekterkennung war eine grundlegende Herausforderung in der Computer Vision Industrie, mit Anwendungen in der Robotik, Bildverständnis, autonomen Fahrzeugen usw Bilderkennung. In den letzten Jahren haben bahnbrechende Arbeiten im Bereich der KI, insbesondere durch tiefe neuronale Netze, die Objekterkennung erheblich vorangebracht. Allerdings verfügen diese Modelle über ein festes Vokabular, das auf die Erkennung von Objekten innerhalb der 80 Kategorien des COCO-Datensatzes beschränkt ist. Diese Einschränkung ergibt sich aus dem Trainingsprozess, bei dem Objektdetektoren darauf trainiert werden, nur bestimmte Kategorien zu erkennen, wodurch ihre Anwendbarkeit eingeschränkt wird.

Um dies zu überwinden, stellen wir YOLO-World vor, einen innovativen Ansatz, der darauf abzielt, das YOLO-Framework (You Only Look Once) um Funktionen zur Erkennung offener Vokabeln zu erweitern. Dies wird erreicht, indem das Framework vorab anhand großer Datensätze trainiert und ein Vision-Language-Modellierungsansatz implementiert wird. Konkret nutzt YOLO-World ein neu parametrisierbares Vision-Language Path Aggregation Network (RepVL-PAN) und Region-Text-Kontrastverlust, um die Interaktion zwischen sprachlichen und visuellen Informationen zu fördern. Durch RepVL-PAN und Region-Text-Kontrastverlust kann YOLO-World ein breites Spektrum an Objekten in einer Zero-Shot-Einstellung präzise erkennen und zeigt eine bemerkenswerte Leistung bei Segmentierungs- und Objekterkennungsaufgaben mit offenem Vokabular.

Ziel dieses Artikels ist es, ein umfassendes Verständnis der technischen Grundlagen, der Modellarchitektur, des Trainingsprozesses und der Anwendungsszenarien von YOLO-World zu vermitteln. Lass uns eintauchen.

YOLO-World: Echtzeit-Objekterkennung mit offenem Vokabular

YOLO oder You Only Look Once ist eine der beliebtesten Methoden zur modernen Objekterkennung in der Computer-Vision-Branche. Bekannt für seine unglaubliche Geschwindigkeit und Effizienz, das Aufkommen von YOLO Der Mechanismus hat die Art und Weise revolutioniert, wie Maschinen bestimmte Objekte in Bildern und Videos in Echtzeit interpretieren und erkennen. Herkömmliche Objekterkennungs-Frameworks implementieren einen zweistufigen Objekterkennungsansatz: Im ersten Schritt schlägt das Framework Regionen vor, die das Objekt enthalten könnten, und im nächsten Schritt klassifiziert das Framework das Objekt. Das YOLO-Framework hingegen integriert diese beiden Schritte in ein einziges neuronales Netzwerkmodell, ein Ansatz, der es dem Framework ermöglicht, das Bild nur einmal zu betrachten, um das Objekt und seine Position innerhalb des Bildes vorherzusagen, und daher der Name YOLO oder You Schauen Sie nur einmal hin. 

Darüber hinaus behandelt das YOLO-Framework die Objekterkennung als Regressionsproblem und sagt die Klassenwahrscheinlichkeiten und Begrenzungsrahmen direkt aus dem Gesamtbild auf einen Blick vorher. Die Implementierung dieser Methode erhöht nicht nur die Geschwindigkeit des Erkennungsprozesses, sondern verbessert auch die Fähigkeit des Modells, komplexe und vielfältige Daten zu verallgemeinern, was es zu einer geeigneten Wahl für Anwendungen macht, die in Echtzeit arbeiten, wie autonomes Fahren, Geschwindigkeitserkennung oder Zahlen Kennzeichenerkennung. Darüber hinaus hat die erhebliche Weiterentwicklung tiefer neuronaler Netze in den letzten Jahren auch erheblich zur Entwicklung von Objekterkennungs-Frameworks beigetragen, der Erfolg von Objekterkennungs-Frameworks ist jedoch immer noch begrenzt, da sie Objekte nur mit begrenztem Vokabular erkennen können. Dies liegt in erster Linie daran, dass geschulte Detektoren im Framework, sobald die Objektkategorien im Datensatz definiert und gekennzeichnet sind, nur diese spezifischen Kategorien erkennen können, wodurch die Anwendbarkeit und Fähigkeit der Bereitstellung von Objekterkennungsmodellen in Echtzeit- und offenen Szenarien eingeschränkt wird. 

Kürzlich entwickelte Vision-Sprachmodelle nutzen destilliertes Vokabularwissen von Sprachkodierern, um die Erkennung offener Vokabeln zu ermöglichen. Obwohl diese Frameworks bei der Erkennung offener Vokabeln eine bessere Leistung als herkömmliche Objekterkennungsmodelle erbringen, sind ihre Anwendbarkeit aufgrund der geringen Verfügbarkeit von Trainingsdaten mit begrenzter Vokabelvielfalt immer noch begrenzt. Darüber hinaus trainieren ausgewählte Frameworks Objektdetektoren mit offenem Vokabular in großem Maßstab und kategorisieren Trainingsobjektdetektoren als Vortraining für visuelle Sprache auf Regionsebene. Der Ansatz hat jedoch immer noch Schwierigkeiten, Objekte in Echtzeit zu erkennen, und zwar aus zwei Hauptgründen: komplexer Bereitstellungsprozess für Edge-Geräte und hoher Rechenaufwand. Positiv zu vermerken ist, dass diese Frameworks positive Ergebnisse beim Vortraining großer Detektoren gezeigt haben, um sie mit offenen Erkennungsfunktionen einzusetzen. 

Das YOLO-World-Framework zielt darauf ab, eine hocheffiziente Objekterkennung mit offenem Vokabular zu erreichen und die Möglichkeit groß angelegter Pre-Training-Ansätze zu untersuchen, um die Effizienz herkömmlicher YOLO-Detektoren für die Objekterkennung mit offenem Vokabular zu steigern. Im Gegensatz zu früheren Arbeiten zur Objekterkennung weist das YOLO-World-Framework eine bemerkenswerte Effizienz mit hohen Inferenzgeschwindigkeiten auf und kann problemlos in nachgelagerten Anwendungen bereitgestellt werden. Das YOLO-World-Modell folgt der traditionellen YOLO-Architektur und kodiert Eingabetexte, indem es die Fähigkeiten eines vorab trainierten CLIP-Textkodierers nutzt. Darüber hinaus enthält das YOLO-World-Framework eine reparametrisierbare Komponente des Vision-Language Path Aggregation Network (RepVL-PAN) in seiner Architektur, um Bild- und Textfunktionen für verbesserte visuell-semantische Darstellungen zu verbinden. Während der Inferenzphase entfernt das Framework den Textencoder und parametrisiert die Texteinbettungen in RepVL-PAN-Gewichte neu, was zu einer effizienten Bereitstellung führt. Das Framework umfasst auch das kontrastive Lernen von Regionen und Texten, um Vortrainingsmethoden mit offenem Vokabular für die traditionellen YOLO-Modelle zu untersuchen. Die kontrastive Region-Text-Lernmethode vereint Bild-Text-Daten, Erdungsdaten und Erkennungsdaten in Region-Text-Paaren. Darauf aufbauend zeigt das auf Region-Text-Paaren vorab trainierte YOLO-World-Framework bemerkenswerte Fähigkeiten zur Erkennung offener und großer Vokabeln. Darüber hinaus untersucht das YOLO-World-Framework auch ein Prompt-dann-Detect-Paradigma mit dem Ziel, die Effizienz der Objekterkennung mit offenem Vokabular in Echtzeit- und realen Szenarien zu verbessern. 

Wie in der folgenden Abbildung gezeigt, konzentrieren sich herkömmliche Objektdetektoren auf die Erkennung enger fester Vokabeln mit vordefinierten Kategorien, während Detektoren für offenes Vokabular Objekte erkennen, indem sie Benutzeraufforderungen mit Textkodierern für offenes Vokabular kodieren. Im Vergleich dazu erstellt der „Prompt-then-detect“-Ansatz von YOLO-World zunächst ein Offline-Vokabular (verschiedenes Vokabular für unterschiedliche Bedürfnisse), indem die Benutzeraufforderungen codiert werden, sodass die Detektoren das Offline-Vokabular in Echtzeit interpretieren können, ohne die Eingabeaufforderungen neu codieren zu müssen. 

YOLO-World: Methode und Architektur

Region-Text-Paare

Traditionell werden Objekterkennungs-Frameworks verwendet, einschließlich der YOLO Eine Familie von Objektdetektoren wird mithilfe von Instanzanmerkungen trainiert, die Kategoriebezeichnungen und Begrenzungsrahmen enthalten. Im Gegensatz dazu formuliert das YOLO-World-Framework die Instanzanmerkungen als Region-Text-Paare neu, wobei der Text die Beschreibung des Objekts, Nominalphrasen oder der Kategoriename sein kann. Es ist erwähnenswert, dass das YOLO-World-Framework sowohl die Texte als auch die Bilder als vorhergesagte Eingabe- und Ausgabefelder mit den entsprechenden Objekteinbettungen übernimmt. 

Modellarchitektur

Im Kern besteht das YOLO-World-Modell aus einem Text-Encoder, einem YOLO-Detektor und der reparametrisierbaren Vision-Language Path Aggregation Network (RepVL-PAN)-Komponente, wie in der folgenden Abbildung dargestellt. 

Für einen Eingabetext kodiert die Text-Encoder-Komponente den Text in Texteinbettungen, gefolgt von der Extraktion von Multiskalenmerkmalen aus dem Eingabebild durch die Bilddetektoren in der YOLO-Detektorkomponente. Die Komponente Re-parametrisierbares Vision-Language Path Aggregation Network (RepVL-PAN) nutzt dann die modalitätsübergreifende Fusion zwischen Text und Feature-Einbettungen, um die Text- und Bilddarstellungen zu verbessern. 

YOLO-Detektor

Das YOLO-World-Modell basiert auf dem bestehenden YOLOv8-Framework, das eine Darknet-Backbone-Komponente als Bildencoder, einen Kopf für Objekteinbettungen und Bounding-Box-Regression sowie ein PAN oder Path Aggression Network für Feature-Pyramiden mit mehreren Maßstäben enthält. 

Text-Encoder

Für einen bestimmten Text extrahiert das YOLO-World-Modell die entsprechenden Texteinbettungen, indem es einen vorab trainierten CLIP Transformer-Textencoder mit einer bestimmten Anzahl von Substantiven und Einbettungsdimensionen übernimmt. Der Hauptgrund, warum das YOLO-World-Framework einen CLIP-Text-Encoder verwendet, liegt darin, dass dieser eine bessere visuell-semantische Leistung für die Verbindung von Texten mit visuellen Objekten bietet und damit herkömmliche Nur-Text-Sprachencoder deutlich übertrifft. Wenn der Eingabetext jedoch entweder eine Überschrift oder ein verweisender Ausdruck ist, entscheidet sich das YOLO-World-Modell für einen einfacheren N-Gramm-Algorithmus zum Extrahieren der Phrasen. Diese Phrasen werden dann dem Text-Encoder zugeführt. 

Text-Kontrastkopf

Der entkoppelte Kopf ist eine Komponente, die von früheren Objekterkennungsmodellen verwendet wurde, und das YOLO-World-Framework verwendet einen entkoppelten Kopf mit zwei 3×3-Faltungen, um Objekteinbettungen und Begrenzungsrahmen für eine feste Anzahl von Objekten zu regressieren. Das YOLO-World-Framework verwendet einen Textkontrastkopf, um die Objekt-Text-Ähnlichkeit mithilfe des L2-Normalisierungsansatzes und Texteinbettungen zu erhalten. Darüber hinaus verwendet das YOLO-World-Modell auch den Ansatz der affinen Transformation mit einem Verschiebungsfaktor und einem erlernbaren Skalierungsfaktor, wobei die L2-Normalisierung und die affine Transformation die Stabilität des Modells während des Region-Text-Trainings verbessern. 

Online-Vokabeltraining

Während der Trainingsphase erstellt das YOLO-World-Modell für jedes Mosaikmuster ein Online-Vokabular, das aus jeweils 4 Bildern besteht. Das Modell tastet alle positiven Substantive ab, die in den Mosaikbildern enthalten sind, und wählt zufällig einige negative Substantive aus dem entsprechenden Datensatz. Das Vokabular für jede Stichprobe besteht aus maximal n Substantiven, wobei der Standardwert 80 beträgt. 

Offline-Vokabularinferenz

Während der Inferenz präsentiert das YOLO-World-Modell eine „Prompt-dann-Detect“-Strategie mit Offline-Vokabular, um die Effizienz des Modells weiter zu verbessern. Der Benutzer definiert zunächst eine Reihe benutzerdefinierter Eingabeaufforderungen, die Kategorien oder sogar Beschriftungen enthalten können. Das YOLO-World-Modell erhält dann Offline-Vokabulareinbettungen, indem es den Text-Encoder zum Codieren dieser Eingabeaufforderungen verwendet. Dadurch hilft das Offline-Vokabular für die Inferenz dem Modell, Berechnungen für jede Eingabe zu vermeiden, und ermöglicht es dem Modell außerdem, das Vokabular flexibel an die Anforderungen anzupassen. 

Reparametrisierbares Vision-Language Path Aggression Network (RevVL-PAN)

Die folgende Abbildung veranschaulicht die Struktur des vorgeschlagenen reparametrisierbaren Vision-Language Path Aggression Network, das den Pfaden von oben nach unten und von unten nach oben folgt, um die Merkmalspyramide mit Merkmalsbildern mit mehreren Maßstäben zu erstellen. 

Um die Interaktion zwischen Text- und Bildfunktionen zu verbessern, schlägt das YOLO-World-Modell eine Image-Pooling Attention und einen textgesteuerten CSPLayer (Cross-Stage Partial Layers) vor, mit dem ultimativen Ziel, die visuell-semantischen Darstellungen für offene Vokabularfunktionen zu verbessern. Während der Inferenz parametrisiert das YOLO-World-Modell die Offline-Vokabulareinbettungen in die Gewichte der linearen oder Faltungsschichten neu, um eine effektive Bereitstellung zu gewährleisten. 

Wie in der obigen Abbildung zu sehen ist, verwendet das YOLO-World-Modell den CSPLayer nach der Top-Down- oder Bottom-Up-Fusion und integriert die Textführung in Bildfunktionen mit mehreren Maßstäben, wodurch der Text-Guided CSPLayer gebildet und somit erweitert wird der CSPLayer. Für jedes gegebene Bildmerkmal und die entsprechende Texteinbettung übernimmt das Modell nach dem letzten Engpassblock die Max-Sigmoid-Aufmerksamkeit, um Textmerkmale zu Bildmerkmalen zusammenzufassen. Das aktualisierte Bildmerkmal wird dann mit den stufenübergreifenden Merkmalen verkettet und als Ausgabe präsentiert. 

 Im weiteren Verlauf aggregiert das YOLO-World-Modell Bildfunktionen, um die Texteinbettung zu aktualisieren, indem es die Image Pooling Attention-Ebene einführt, um die Texteinbettungen mit bildbewussten Informationen zu verbessern. Anstatt die Queraufmerksamkeit direkt auf Bildmerkmale zu verwenden, nutzt das Modell maximales Pooling für Merkmale mit mehreren Maßstäben, um 3×3-Regionen zu erhalten, was zu 27 Patch-Tokens führt, wobei das Modell im nächsten Schritt die Texteinbettungen aktualisiert. 

Vorschulungsprogramme

Das YOLO-World-Modell folgt zwei primären Vortrainingsschemata: Lernen aus Region-Text-Kontrastverlust und Pseudo-Labeling mit Bild-Text-Daten. Für das primäre Vortrainingsschema gibt das Modell Objektvorhersagen zusammen mit Anmerkungen für einen bestimmten Text und Mosaikbeispiele aus. Das YOLO-World-Framework gleicht die Vorhersagen mit Ground-Truth-Anmerkungen ab, indem es die aufgabenbezogenen Labelzuweisungen verfolgt und nutzt, und weist einzelnen positiven Vorhersagen einen Textindex zu, der als Klassifizierungslabel dient. Andererseits schlägt das Vortrainingsschema „Pseudo-Beschriftung mit Bild-Text-Daten“ vor, einen automatisierten Beschriftungsansatz zu verwenden, anstatt Bild-Text-Paare zur Generierung von Region-Text-Paaren zu verwenden. Der vorgeschlagene Kennzeichnungsansatz besteht aus drei Schritten: Extrahieren Sie Nominalphrasen, Pseudo-Kennzeichnung und Filterung. Im ersten Schritt wird der N-Gramm-Algorithmus verwendet, um Nominalphrasen aus dem Eingabetext zu extrahieren. Im zweiten Schritt wird ein vorab trainierter offener Vokabulardetektor verwendet, um Pseudoboxen für die gegebene Nominalphrase für einzelne Bilder zu generieren ein vorab trainiertes CLIP-Framework zur Bewertung der Relevanz der Region-Text- und Text-Bild-Paare, woraufhin das Modell Pseudobilder und Anmerkungen mit geringer Relevanz filtert. 

YOLO-Welt: Ergebnisse

Sobald das YOLO-World-Modell vorab trainiert wurde, wird es direkt auf dem LVIS-Datensatz in einer Zero-Shot-Umgebung ausgewertet, wobei der LVIS-Datensatz über 1200 Kategorien umfasst, deutlich mehr als die vorab trainierten Datensätze, die von vorhandenen Frameworks zum Testen verwendet werden ihre Leistung bei der Erkennung großer Vokabeln. Die folgende Abbildung zeigt die Leistung des YOLO-World-Frameworks mit einigen der vorhandenen hochmodernen Objekterkennungs-Frameworks für den LVIS-Datensatz in einer Zero-Shot-Umgebung. 

Wie zu beobachten ist, übertrifft das YOLO-World-Framework die meisten vorhandenen Frameworks in Bezug auf Inferenzgeschwindigkeit und Zero-Shot-Leistung, selbst bei Frameworks wie Grounding DINO, GLIP und GLIPv2, die mehr Daten integrieren. Insgesamt zeigen die Ergebnisse, dass Modelle zur Erkennung kleiner Objekte wie YOLO-World-S mit nur 13 Millionen Parametern für das Vortraining für Vision-Language-Aufgaben mit bemerkenswerten offenen Vokabularfähigkeiten verwendet werden können. 

Abschließende Überlegungen

In diesem Artikel haben wir über YOLO-World gesprochen, einen innovativen Ansatz, der darauf abzielt, die Fähigkeiten des YOLO- oder You Only Look Once-Frameworks mit Funktionen zur Erkennung offener Vokabeln zu verbessern, indem das Framework vorab auf großen Datensätzen trainiert und implementiert wird Vision-Language-Modellierungsansatz. Genauer gesagt schlägt das YOLO-World-Framework die Implementierung eines neu parametrisierbaren Vision Language Path Aggregation Network oder RepVL-PAN zusammen mit einem Region-Text-Kontrastverlust vor, um eine Interaktion zwischen den sprachlichen und visuellen Informationen zu erleichtern. Durch die Implementierung von RepVL-PAN und Region-Text-Kontrastverlust ist das YOLO-World-Framework in der Lage, eine Vielzahl von Objekten in einer Zero-Shot-Umgebung genau und effektiv zu erkennen.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.