Connect with us

Künstliche Intelligenz

YOLO-World: Echtzeit-Open-Vocabulary-Objekterkennung

mm

Die Objekterkennung ist eine grundlegende Herausforderung in der Computer-Vision-Industrie, mit Anwendungen in der Robotik, Bildverständnis, autonomen Fahrzeugen und Bilderkennung. In den letzten Jahren hat die bahnbrechende Arbeit im Bereich KI, insbesondere durch tiefe neuronale Netze, die Objekterkennung erheblich vorangetrieben. Diese Modelle haben jedoch ein festes Vokabular, das auf die Erkennung von Objekten innerhalb der 80 Kategorien des COCO-Datensatzes beschränkt ist. Diese Einschränkung resultiert aus dem Trainingsprozess, bei dem Objekterkennungsalgorithmen nur auf die Erkennung bestimmter Kategorien trainiert werden, was ihre Anwendbarkeit einschränkt.

Um dies zu überwinden, stellen wir YOLO-World vor, einen innovativen Ansatz, der darauf abzielt, das YOLO- (You Only Look Once)-Framework mit Open-Vocabulary-Erkennungsfähigkeiten zu erweitern. Dies wird durch das Pre-Training des Frameworks auf großen Datensätzen und die Implementierung eines Vision-Language-Modellierungsansatzes erreicht. Insbesondere verwendet YOLO-World ein Re-Parameterisierbares Vision-Language-Path-Aggregation-Netzwerk (RepVL-PAN) und region-text-kontrastiven Verlust, um die Interaktion zwischen linguistischer und visueller Information zu fördern. Durch RepVL-PAN und region-text-kontrastiven Verlust kann YOLO-World eine breite Palette von Objekten in einer Zero-Shot-Einstellung genau erkennen und zeigt bemerkenswerte Leistung bei Open-Vocabulary-Segmentierung und Objekterkennungsaufgaben.

Dieser Artikel zielt darauf ab, ein umfassendes Verständnis der technischen Grundlagen, der Modellarchitektur, des Trainingsprozesses und der Anwendungsszenarien von YOLO-World zu vermitteln. Lassen Sie uns eintauchen.

YOLO-World: Echtzeit-Open-Vocabulary-Objekterkennung

YOLO oder You Only Look Once ist eine der beliebtesten Methoden für die moderne Objekterkennung in der Computer-Vision-Industrie. Renommiert für seine unglaubliche Geschwindigkeit und Effizienz, hat die Einführung des YOLO-Mechanisms die Art und Weise, wie Maschinen bestimmte Objekte in Bildern und Videos in Echtzeit interpretieren und erkennen, revolutioniert. Traditionelle Objekterkennungsframeworks implementieren einen zweistufigen Ansatz für die Objekterkennung: Im ersten Schritt schlägt das Framework Regionen vor, die das Objekt enthalten könnten, und das Framework klassifiziert das Objekt im nächsten Schritt. Das YOLO-Framework integriert diese beiden Schritte in ein einziges neuronales Netzwerkmodell, ein Ansatz, der es dem Framework ermöglicht, das Bild nur einmal anzusehen, um das Objekt und seine Position innerhalb des Bildes vorherzusagen, und daher der Name YOLO oder You Only Look Once.

Darüber hinaus behandelt das YOLO-Framework die Objekterkennung als Regressionsproblem und prognostiziert die Klassenwahrscheinlichkeiten und Begrenzungsboxen direkt aus dem vollständigen Bild in einem einzigen Blick. Die Implementierung dieser Methode erhöht nicht nur die Geschwindigkeit des Erkennungsprozesses, sondern verbessert auch die Fähigkeit des Modells, von komplexen und vielfältigen Daten zu generalisieren, was es zu einer geeigneten Wahl für Anwendungen macht, die in Echtzeit wie autonomes Fahren, Geschwindigkeitsmessung oder Nummernschilderkennung betrieben werden. Darüber hinaus hat die erhebliche Weiterentwicklung tiefer neuronaler Netze in den letzten Jahren auch wesentlich zur Entwicklung von Objekterkennungsframeworks beigetragen, aber der Erfolg von Objekterkennungsframeworks ist immer noch begrenzt, da sie nur Objekte mit begrenztem Vokabular erkennen können. Dies liegt hauptsächlich daran, dass die Objektkategorien einmal definiert und im Datensatz beschriftet sind, trainierte Erkennungsalgorithmen im Framework nur diese bestimmten Kategorien erkennen können, was ihre Anwendbarkeit und Fähigkeit, Objekterkennungsmodelle in Echtzeit und offenen Szenarien zu deployen, einschränkt.

Weiterhin beschäftigen sich neu entwickelte Vision-Language-Modelle mit destilliertem Vokabularwissen aus Sprachencodierern, um offene Vokabularerkennung zu bewältigen. Obwohl diese Frameworks besser als traditionelle Objekterkennungsmodelle bei der offenen Vokabularerkennung abschneiden, haben sie immer noch begrenzte Anwendbarkeit aufgrund der knappen Verfügbarkeit von Trainingsdaten mit begrenzter Vokabularvielfalt. Darüber hinaus trainieren ausgewählte Frameworks offene Vokabular-Objekterkennungsalgorithmen im großen Maßstab und kategorisieren Trainingsobjekterkennungsalgorithmen als regionale Vision-Language-Pre-Training. Allerdings kämpft dieser Ansatz immer noch bei der Erkennung von Objekten in Echtzeit aufgrund zweier primärer Gründe: komplexer Deploy-Prozess für Edge-Geräte und hoher Rechenanforderungen. Auf der positiven Seite haben diese Frameworks positive Ergebnisse von Pre-Training großen Erkennungsalgorithmen gezeigt, um sie mit offenen Erkennungsfähigkeiten zu verwenden.

Das YOLO-World-Framework zielt darauf ab, hoch effiziente offene Vokabular-Objekterkennung zu erreichen und die Möglichkeit von groß angelegten Pre-Training-Ansätzen zu erkunden, um die Effizienz traditioneller YOLO-Erkennungsalgorithmen für offene Vokabular-Objekterkennung zu steigern. Im Gegensatz zu früheren Arbeiten in der Objekterkennung zeigt das YOLO-World-Framework bemerkenswerte Effizienz mit hoher Inferenzgeschwindigkeit und kann problemlos auf Downstream-Anwendungen deployt werden. Das YOLO-World-Modell folgt der traditionellen YOLO-Architektur und codiert Eingabetexte, indem es die Fähigkeiten eines vorge trainierten CLIP-Textencoders nutzt. Darüber hinaus umfasst das YOLO-World-Framework ein Re-Parameterisierbares Vision-Language-Path-Aggregation-Netzwerk (RepVL-PAN)-Komponente in seiner Architektur, um die Interaktion zwischen Bild- und Textmerkmalen für verbesserte visuell-semantische Repräsentationen zu fördern. Während der Inferenzphase entfernt das Framework den Textencoder und parametrisiert die Text-Embeddings in RepVL-PAN-Gewichte um, was zu effizientem Deploy führt. Das Framework umfasst auch region-text-kontrastives Lernen in seinem Framework, um offene Vokabular-Pre-Training-Methoden für traditionelle YOLO-Modelle zu untersuchen. Die region-text-kontrastive Lernmethode vereint Bild-Text-Daten, Grounding-Daten und Erkennungsdaten in region-text-Paare.

Wie in der folgenden Abbildung gezeigt, konzentrieren sich traditionelle Objekterkennungsalgorithmen auf eine geschlossene Menge von festem Vokabular mit vordefinierten Kategorien, während offene Vokabular-Erkennungsalgorithmen Objekte erkennen, indem sie Benutzereingaben mit Textencodern für offenes Vokabular codieren. Im Vergleich dazu verwendet YOLO-Worlds Prompt-then-Detect-Ansatz zunächst einen Offline-Vokabularbau (variierendes Vokabular für variierende Bedürfnisse) durch Codieren der Benutzereingaben, wodurch die Erkennungsalgorithmen das Offline-Vokabular in Echtzeit ohne erneutes Codieren der Eingaben interpretieren können.

YOLO-World: Methode und Architektur

Region-Text-Paare

Traditionelle Objekterkennungsframeworks, einschließlich der YOLO-Familie von Objekterkennungsalgorithmen, werden mit Instanzannotationen trainiert, die Kategorielabels und Begrenzungsboxen enthalten. Im Gegensatz dazu formuliert das YOLO-World-Framework die Instanzannotationen als region-text-Paare um, wobei der Text die Beschreibung des Objekts, Nomen-Phrasen oder Kategoriennamen sein kann. Es ist erwähnenswert, dass das YOLO-World-Framework sowohl Texte als auch Bilder als Eingabe und Ausgabe vorhergesagte Boxen mit entsprechenden Objekt-Embeddings verwendet.

Modellarchitektur

Im Kern besteht das YOLO-World-Modell aus einem Textencoder, einem YOLO-Erkennungsalgorithmus und der Re-Parameterisierbaren Vision-Language-Path-Aggregation-Netzwerk (RepVL-PAN)-Komponente, wie in der folgenden Abbildung gezeigt.

Für einen Eingabetext codiert die Textencoder-Komponente den Text in Text-Embeddings, gefolgt von der Extraktion von multi-skalierten Merkmalen aus dem Eingabebild durch die Bilderkennungsalgorithmen in der YOLO-Erkennungskomponente. Die Re-Parameterisierbare Vision-Language-Path-Aggregation-Netzwerk (RepVL-PAN)-Komponente nutzt dann die cross-modale Fusion zwischen Text- und Merkmal-Embeddings, um die Text- und Bildrepräsentationen zu verbessern.

YOLO-Erkennungsalgorithmus

Das YOLO-World-Modell basiert auf dem bestehenden YOLOv8-Framework, das eine Darknet-Backbone-Komponente als Bildencoder, einen Kopf für Objekt-Embeddings und Begrenzungsbox-Regression und ein PAN oder Path-Aggression-Netzwerk für multi-skalierte Feature-Pyramiden enthält.

Textencoder

Für einen gegebenen Text extrahiert das YOLO-World-Modell die entsprechenden Text-Embeddings, indem es einen vorge trainierten CLIP-Transformer-Textencoder mit einer bestimmten Anzahl von Nomen und Embeddings-Dimension verwendet. Der primäre Grund, warum das YOLO-World-Framework einen CLIP-Textencoder verwendet, liegt darin, dass es bessere visuell-semantische Leistung für die Verbindung von Texten mit visuellen Objekten bietet, was traditionelle Text-Only-Sprachencodierer deutlich übertrifft. Wenn der Eingabetext jedoch eine Bildunterschrift oder eine referenzielle Ausdruck ist, verwendet das YOLO-World-Modell einen einfacheren n-Gramm-Algorithmus, um die Phrasen zu extrahieren. Diese Phrasen werden dann dem Textencoder zugeführt.

Text-Kontrastiver Kopf

Der decoupled Kopf ist eine Komponente, die von früheren Objekterkennungsmodellen verwendet wird, und das YOLO-World-Framework verwendet einen decoupled Kopf mit dualen 3×3-Konvolutionen, um Objekt-Embeddings und Begrenzungsboxen für eine feste Anzahl von Objekten zu regressieren. Das YOLO-World-Framework verwendet einen Text-Kontrast-Kopf, um die Objekt-Text-Ähnlichkeit unter Verwendung des L2-Normierungsansatzes und Text-Embeddings zu erhalten. Darüber hinaus verwendet das YOLO-World-Modell auch den affinen Transformationsansatz mit einem Verschiebungsparameter und einem lernbaren Skalierungsparameter, wobei die L2-Normierung und affine Transformation die Stabilität des Modells während des region-text-Trainings verbessern.

Online-Vokabular-Training

Während der Trainingsphase konstruiert das YOLO-World-Modell ein Online-Vokabular für jeden Mosaik-Sample, der aus 4 Bildern besteht. Das Modell sampelt alle positiven Nomen, die in den Mosaik-Bildern enthalten sind, und sampelt einige negative Nomen zufällig aus dem entsprechenden Datensatz. Das Vokabular für jeden Sample besteht aus maximal n Nomen, wobei der Standardwert 80 ist.

Offline-Vokabular-Inferenz

Während der Inferenzphase präsentiert das YOLO-World-Modell eine Prompt-then-Detect-Strategie mit Offline-Vokabular, um die Effizienz des Modells weiter zu verbessern. Der Benutzer definiert zunächst eine Reihe von benutzerdefinierten Prompts, die Kategorien oder sogar Bildunterschriften enthalten können. Das YOLO-World-Modell erhält dann Offline-Vokabular-Embeddings, indem es den Textencoder verwendet, um diese Prompts zu codieren. Als Ergebnis hilft das Offline-Vokabular für die Inferenz dem Modell, Berechnungen für jeden Eingabe zu vermeiden, und ermöglicht es dem Modell, das Vokabular flexibel an die Anforderungen anzupassen.

Re-Parameterisierbares Vision-Language-Path-Aggression-Netzwerk (RevVL-PAN)

Die folgende Abbildung zeigt die Struktur des vorgeschlagenen Re-Parameterisierbaren Vision-Language-Path-Aggression-Netzwerks, das den top-down- und bottom-up-Pfad verfolgt, um die Feature-Pyramide mit multi-skalierten Feature-Bildern zu etablieren.

Um die Interaktion zwischen Text- und Bildmerkmalen zu verbessern, schlägt das YOLO-World-Modell ein Image-Pooling-Attention und ein Text-gesteuertes CSPLayer (Cross-Stage-Partial-Layer) vor, mit dem ultimativen Ziel, die visuell-semantischen Repräsentationen für offene Vokabular-Fähigkeiten zu verbessern. Während der Inferenzphase parametrisiert das YOLO-World-Modell die Offline-Vokabular-Embeddings in die Gewichte der linearen oder konvolutiven Schichten um, was zu effizientem Deploy führt.

Wie in der obigen Abbildung zu sehen ist, verwendet das YOLO-World-Modell das CSPLayer nach der top-down- oder bottom-up-Fusion und integriert Text-Guidance in die multi-skalierten Bildmerkmale, wodurch das Text-Guided CSPLayer entsteht, was die CSPLayer erweitert. Für jedes gegebene Bildmerkmal und dessen entsprechendes Text-Embedding verwendet das Modell die max-Sigmoid-Attention nach dem letzten Bottleneck-Block, um Textmerkmale in Bildmerkmale zu aggregieren. Das aktualisierte Bildmerkmal wird dann mit den cross-stage-Merkmalen verkettet und als Ausgabe präsentiert.

Weiterhin aggregiert das YOLO-World-Modell Bildmerkmale, um das Text-Embedding zu aktualisieren, indem es die Image-Pooling-Attention-Schicht einführt, um die Text-Embeddings mit bildbewussten Informationen zu verbessern. Anstatt die cross-Attention direkt auf Bildmerkmalen zu verwenden, verwendet das Modell die max-Pooling auf multi-skalierten Merkmalen, um 3×3-Regionen zu erhalten, was zu 27 Patch-Tokens führt, wobei das Modell die Text-Embeddings in dem nächsten Schritt aktualisiert.

Pre-Training-Schemata

Das YOLO-World-Modell folgt zwei primären Pre-Training-Schemata: Lernen aus Region-Text-Kontrastverlust und Pseudo-Labeling mit Bild-Text-Daten. Für das primäre Pre-Training-Schema gibt das Modell Objektvorhersagen zusammen mit Annotationen für einen gegebenen Text und Mosaik-Samples aus. Das YOLO-World-Framework entspricht den Vorhersagen mit Ground-Truth-Annotationen, indem es die Aufgaben-zuweisende Label-Zuweisung verfolgt und einzelne positive Vorhersagen mit einem Text-Index zuweist, der als Klassifikations-Label dient. Andererseits schlägt das Pseudo-Labeling mit Bild-Text-Daten-Pre-Training-Schema vor, einen automatisierten Labeling-Ansatz anstelle von Bild-Text-Paaren zu verwenden, um region-text-Paare zu generieren. Der vorgeschlagene Labeling-Ansatz besteht aus drei Schritten: Nomen-Phrasen extrahieren, Pseudo-Labeling und Filtern. Der erste Schritt verwendet den n-Gramm-Algorithmus, um Nomen-Phrasen aus dem Eingabetext zu extrahieren, der zweite Schritt verwendet einen vorge trainierten offenen Vokabular-Erkennungsalgorithmus, um Pseudo-Boxen für den gegebenen Nomen-Phrasen für einzelne Bilder zu generieren, während der dritte und letzte Schritt einen vorge trainierten CLIP-Framework verwendet, um die Relevanz der region-text- und text-image-Paare zu bewerten, woraufhin das Modell low-Relevanz-Pseudo-Bilder und -Annotationen filtert.

YOLO-World: Ergebnisse

Sobald das YOLO-World-Modell pre-trainiert wurde, wird es direkt auf dem LVIS-Datensatz in einer Zero-Shot-Einstellung ausgewertet, wobei der LVIS-Datensatz über 1200 Kategorien enthält, was erheblich mehr ist als die Pre-Training-Datensätze, die von bestehenden Frameworks für die Bewertung ihrer Leistung bei der großen Vokabular-Erkennung verwendet werden. Die folgende Abbildung zeigt die Leistung des YOLO-World-Frameworks mit einigen der bestehenden State-of-the-Art-Objekterkennungsframeworks auf dem LVIS-Datensatz in einer Zero-Shot-Einstellung.

Wie zu sehen ist, übertrifft das YOLO-World-Framework die meisten bestehenden Frameworks in Bezug auf Inferenz-Geschwindigkeit und Zero-Shot-Leistung, sogar mit Frameworks wie Grounding DINO, GLIP und GLIPv2, die mehr Daten verwenden. Insgesamt zeigen die Ergebnisse, dass kleine Objekterkennungsmodelle wie YOLO-World-S mit nur 13 Millionen Parametern für Pre-Training auf Vision-Language-Aufgaben mit bemerkenswerten offenen Vokabular-Fähigkeiten verwendet werden können.

Final Thoughts

In diesem Artikel haben wir über YOLO-World gesprochen, einen innovativen Ansatz, der darauf abzielt, die Fähigkeiten des YOLO- oder You-Only-Look-Once-Frameworks mit offener Vokabular-Erkennung zu erweitern, indem das Framework auf großen Datensätzen pre-trainiert und der Vision-Language-Modellierungsansatz implementiert wird. Um spezifischer zu sein, schlägt das YOLO-World-Framework vor, ein Re-Parameterisierbares Vision-Language-Path-Aggregation-Netzwerk (RepVL-PAN) zusammen mit region-text-kontrastivem Verlust zu implementieren, um die Interaktion zwischen linguistischer und visueller Information zu fördern. Durch die Implementierung von RepVL-PAN und region-text-kontrastivem Verlust kann das YOLO-World-Framework eine breite Palette von Objekten in einer Zero-Shot-Einstellung genau erkennen.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.