Künstliche Intelligenz

Visuelle Befehlsoptimierung für das Verständnis auf Pixelebene mit Osprey

Aktualisiert on 25. Januar 2024

Mit der jüngsten Verbesserung der Methoden zur visuellen Instruktionsoptimierung haben Multimodal Large Language Models (MLLMs) bemerkenswerte Allzweck-Vision-Sprachfähigkeiten demonstriert. Diese Fähigkeiten machen sie zu wichtigen Bausteinen für moderne, universell einsetzbare visuelle Assistenten. Neuere Modelle, darunter MiniGPT-4, LLaVA, InstructBLIP und andere, weisen beeindruckende Fähigkeiten zum visuellen Denken und zum Befolgen von Anweisungen auf. Obwohl sich die meisten von ihnen für die Bild-Sprach-Ausrichtung auf Bild-Text-Paaren stützen, erbringen sie in diesem Bereich eine gute Leistung. Ihre Abhängigkeit vom Verständnis auf Box- und Bildebene ist jedoch der Hauptgrund dafür, dass MLLMs ihre Leistung bei feinkörnigen Vision-Sprach-Ausrichtungsaufgaben auf Pixelebene nicht reproduzieren können. Darüber hinaus stellt die begrenzte Verfügbarkeit maskenbasierter Unterrichtsdaten für das Training eine Herausforderung bei der weiteren Verbesserung von MLLMs dar.

Osprey ist eine Trainingsmethode für Maskentextanweisungen mit dem Hauptziel, MLLMs zu erweitern. Es integriert feinkörnige maskierte Bereiche in den Sprachunterricht, um ein visuelles Sprachverständnis auf Pixelebene zu erreichen. Um dies zu erreichen, kuratiert das Osprey-Framework einen maskenbasierten Regionstext-Datensatz mit über 700 Beispielen. Es fügt eine Darstellung auf Pixelebene in Large Language Models (LLMs) ein, um ein Vision-Sprachmodell zu entwerfen. Bemerkenswert ist, dass das Osprey-Framework ein Faltungs-CLIP-Modell als Vision-Encoder verwendet und einen maskenbewussten visuellen Extraktor in seine Architektur integriert. Dies ermöglicht eine präzise Extraktion visueller Maskenmerkmale aus hochauflösenden Eingaben.

In diesem Artikel werden wir das Osprey-Framework diskutieren und tiefer in seine Architektur eintauchen. Wir werden auch den kuratierten Regionstext-Datensatz mit über 700 Beispielen untersuchen und seine Leistung bei verschiedenen Aufgaben zum Regionsverständnis vergleichen. Also lasst uns anfangen.

Osprey: Pixelverständnis mit visueller Anweisungsoptimierung

Multimodale große Sprachmodelle wie MiniGPT-4, Otter, Qwen-LV, InstructBLIP und andere sind Vorreiter bei der Entwicklung universeller visueller Assistenten und bekannt für ihre außergewöhnlichen multimodalen und visionären Fähigkeiten. Multimodale große Sprachmodelle stehen jedoch vor einer großen Herausforderung, da sie bei feinkörnigen Bildverständnisaufgaben wie Bildunterschrift, Regionsklassifizierung und Argumentation unbefriedigende Ergebnisse liefern. Ein Hauptgrund für die unterdurchschnittliche Leistung bei feinkörnigen Bildverständnisaufgaben ist die mangelnde Ausrichtung auf Regionsebene. Jüngste MLLMs wie GPT4RoI, Shikra und andere zielen darauf ab, das Verständnis auf Regionsebene in Vision-Language-Modellen zu ermöglichen, indem sie durch Bounding-Box-spezifische Regionen verarbeiten und die Abstimmung visueller Anweisungen mit räumlichen Merkmalen auf Objektebene nutzen.

Obwohl der Ansatz, das Verständnis auf Regionsebene zu ermöglichen, die Leistung verbessern könnte, kann die direkte Verwendung spärlicher Begrenzungsrahmen als verweisende Eingaberegion irrelevante Hintergrundmerkmale einführen, die zu einer ungenauen Region-Text-Paarausrichtung für die visuelle Befehlsoptimierung bei großen Sprachmodellen führen. Während des Inferenzprozesses ist die verweisende Eingabe auf Box-Ebene möglicherweise nicht in der Lage, das Objekt genau zu erkennen und darzustellen. Dies kann zu semantischen Abweichungen führen, wie im folgenden Bild dargestellt.

Im Vergleich dazu könnte die Verwendung feinkörniger Masken anstelle von groben Begrenzungsrahmen als verweisende Eingabe möglicherweise in der Lage sein, Objekte präziser darzustellen. Das kürzlich entwickelte SAM- oder Segment Anything Model trainiert auf Milliarden hochwertiger Masken, demonstriert eine bemerkenswerte Segmentierungsqualität bei Zero-Shot-Objekten und unterstützt die Verwendung von Punkten oder einfachen Begrenzungsrahmen als Eingabeaufforderungen. Das SAM-Framework kann jedoch keine primären semantischen Beschriftungen generieren und auch keine detaillierten semantischen Beschriftungen und Attribute bereitstellen. Daher mangelt es bestehenden Modellen an inhärenten multimodalen, feinkörnigen Informationen und sie verfügen nur über ein begrenztes Verständnis von Szenen in der realen Welt.

Um die Herausforderungen zu bewältigen, mit denen die bestehenden MLLMs konfrontiert sind, zielt Osprey mit einer neuartigen Trainingsmethode für Maskentextanweisungen darauf ab, die Fähigkeiten multimodaler großer Sprachmodelle für ein feinkörniges Verständnis auf Pixelebene zu erweitern. Das Osprey-Framework führt einen maskenbewussten visuellen Extraktor ein, der visuelle Maskenmerkmale mit unterschiedlicher Granularität präzise erfasst. Anschließend verschachtelt das Framework die visuellen Merkmale mit Sprachanweisungen, um die Eingabesequenz für das große Sprachmodell zu generieren, und nutzt die Faltungs-CLIP-Architektur, um die Verwendung hochauflösender Eingaben zu erleichtern. Aufgrund seines Designs und seiner Architektur ist das Osprey-Framework in der Lage, ein feinkörniges semantisches Verständnis für Regionen auf Objekt- und Teilebene zu erreichen und liefert detaillierte Objektattribute zusammen mit der primären Objektkategorie und erweiterten Beschreibungen komplexer Szenen.

Durch die Nutzung der Möglichkeiten der visuellen Befehlsoptimierung ermöglicht das Osprey-Framework neue Möglichkeiten, die über das Verständnis der Szenen auf Bild- und Boxebene hinausgehen, da das Osprey-Framework mithilfe klassenunabhängiger Masken von handelsüblichen SAMs eine feinkörnige Semantik generieren kann. Darüber hinaus zeigt Osprey auch bemerkenswerte Fähigkeiten bei der Klassifizierung verweisender Objekte, der Erkennung offener Vokabeln, der Untertitelung auf regionaler Ebene und der detaillierten Beschreibung von Regionen.

Fischadler: Methodik und Architektur

Die folgende Abbildung zeigt die Architekturübersicht des Osprey-Frameworks, bestehend aus einem großen Sprachmodell, einem maskenbewussten visuellen Extraktor auf Pixelebene und einem Vision-Encoder auf Bildebene.

Für ein bestimmtes Bild, die Eingabesprache und die verweisenden Maskenbereiche führt das Framework eine Konvertierung und Tokenisierung durch, um Einbettungen zu generieren, bevor es die Spracheinbettungssequenzen und verschachtelten Maskenmerkmale an das große Sprachmodell sendet, um ein feinkörniges semantisches Verständnis zu erhalten.

Faltungs-CLIP-Vision-Encoder

Der Vision-Encoder wird in den meisten multimodalen Anwendungen eingesetzt große Sprachmodelle wird anhand eines ViT-basierten CLIP-Modells veranschaulicht. Dadurch übernimmt das Framework eine Bildauflösung von entweder 224 x 224 Pixel oder 336 x 336 Pixel. Allerdings macht es die Verwendung des ViT-basierten CLIP-Modells für das Modell schwierig, ein feinkörniges Bildverständnis von Darstellungen auf Pixelebene zu erreichen, ein Problem, das in kleinen Regionen noch verstärkt wird. Darüber hinaus behindert die mit der ViT-Architektur verbundene Rechenüberlastung die Möglichkeit, die Auflösung des Eingabebildes zu erhöhen.

Um dieser Herausforderung zu begegnen, implementiert das Osprey-Framework in seiner Architektur ein Faltungs-CLIP-Modell als Vision-Encoder. Traditionell haben auf Convolutional Neural Networks basierende CLIP-Modelle bemerkenswerte Generalisierungsfähigkeiten über verschiedene Eingabeauflösungen hinweg gezeigt, wenn sie mit CLIP-Modellen auf Vision Transformer-Basis verglichen wurden. Die Implementierung eines CNN-basierten CLIP-Modells schafft Raum für schnelle Inferenz und effizientes Training, ohne die Leistung des Modells zu beeinträchtigen. Darüber hinaus ist ein CNN-basiertes CLIP-Modell in der Lage, Feature-Maps mit mehreren Maßstäben zu generieren, die das Framework dann direkt zur Feature-Extraktion in jeder nachfolgenden Objektregion verwendet.

Maskenbewusster visueller Extraktor

Im Gegensatz zu bestehenden bereichsbasierten Modellen, die spärliche Begrenzungsrahmen als Referenzeingabe verwenden, verwendet das Osprey-Framework detaillierte Maskenbereiche, um objektbasierte Darstellungen zu implementieren. Das Osprey-Modell verwendet eine maskenbewusste visuelle Extraktionskomponente, um Merkmale auf Pixelebene in jedem Objektbereich zu erfassen. Die visuelle Extraktionskomponente von Mask Ware kodiert visuelle Merkmale auf Maskenebene und sammelt zusätzlich die räumlichen Positionsinformationen jeder Region.

Um dies zu implementieren, verwendet Osprey zunächst die vom Vision-Encoder generierten mehrstufigen Bildmerkmale, um den Masken-Pooling-Vorgang zu übernehmen, und für jedes einzelne Merkmal bündelt das Framework alle Merkmale, die innerhalb des Maskenbereichs liegen. Anschließend kodiert das Modell die Features über verschiedene Ebenen hinweg, indem es jedes Feature durch eine lineare Projektionsebene leitet, die Einbettungen auf Regionsebene generiert und Features auf mehreren Ebenen durch Summierung zusammenführt. Das Modell verwendet dann eine MLP-Ebene, um das visuelle Maskentoken zu erstellen. Darüber hinaus bewahrt Osprey die räumliche Geometrie der Objektregion, indem es die Positionsbeziehung auf Pixelebene kodiert, indem es eine binäre Maske für jede Objektregion implementiert. Am Ende fügt Osprey das visuelle Masken-Token und seine jeweiligen räumlichen Token für die Einbettung jedes Maskenbereichs hinzu.

LLM-Tokenisierung

Wie bereits erwähnt, extrahiert das Modell die Einbettungen eines Bildes auf Bildebene, indem es es in einen vorab trainierten CNN-basierten visuellen Encoder einspeist. Für Textinformationen verwendet das Modell zunächst vorab trainierte LLM-Tokenisierer, um Textsequenzen zu tokenisieren, und projiziert diese tokenisierten Textsequenzen dann hinein Texteinbettungen. Für maskenbasierte Regionen definiert das Modell ein spezielles Token als Platzhalter und ersetzt es dann durch ein räumliches Token zusammen mit einem Masken-Token. Wenn sich das Modell in der Texteingabe auf eine Objektregion bezieht, hängt es den Platzhalter nach seinem Regionsnamen an, wodurch sich die Maskenregionen gut mit Texten mischen lassen, was zu vollständigen Sätzen ohne den Tokenisierungsraum führt. Darüber hinaus enthält das Modell neben Benutzeranweisungen auch eine Präfix-Eingabeaufforderung, ein spezielles Token, das als Platzhalter dient und dann durch die Einbettungen auf Bildebene des Vision-Encoders ersetzt wird. Schließlich verschachtelt das Framework die visuellen Token auf Regions- und Bildebene mit Texttokens und speist sie in das große Sprachmodell ein, um die Benutzeranweisungen und das Bild mit verschiedenen Regionen im Objekt zu verstehen.

Osprey: Dreistufiger Trainingsprozess

Das Osprey-Framework setzt einen dreistufigen Trainingsprozess ein, bei dem jede der Trainingsphasen durch Minimierung eines Vorhersageverlusts für das nächste Token überwacht wird.

Stufe 1: Schulung zur Bild-Text-Ausrichtung

In der ersten Phase setzt das Osprey-Framework den CNN-basierten CLIP-Vision-Encoder ein, um die Bildebenenfunktionen und den Sprachkonnektor zu trainieren, um das Modell für die Ausrichtung von Bild-Text-Funktionen zu trainieren. In der ersten Phase verwendet das Framework drei Komponenten: ein vorab trainiertes großes Sprachmodell, einen vorab trainierten Vision-Encoder und einen Projektor auf Bildebene. Das Framework übernimmt außerdem eine MLP-Schicht, die als Vision-Sprach-Verbindung dient und dabei hilft, die multimodalen generativen Fähigkeiten von Osprey zu verbessern.

Stufe 2: Vorschulung zur Masken-Text-Ausrichtung

In der zweiten Stufe lädt Osprey das in der ersten Stufe trainierte Gewicht und verwendet seine Mask-Aware Visual Extractor-Komponente, um Regionsmerkmale auf Pixelebene zu erfassen. In der zweiten Stufe trainiert das Framework nur den Mask-Aware Visual Extractor, um Spracheinbettungen an maskenbasierten Regionsfunktionen auszurichten. Darüber hinaus sammelt das Modell Maskenpaare auf Pixelebene und kurze Texte aus Datensätzen auf Teilebene und öffentlich verfügbaren Objektebenen und wandelt sie in Anweisungsfolgedaten um, um das Modell weiter zu trainieren.

Stufe 3: End-to-End-Feinabstimmung

In der dritten und letzten Phase legt das Modell die Gewichte des Vision-Encoders fest und optimiert das große Sprachmodell, den maskenbasierten Region-Feature-Extraktor und die Projektorkomponenten auf Bildebene in seiner Architektur. Das Hauptziel des Trainings in der dritten Stufe besteht darin, die Fähigkeit des Modells zu erweitern, Benutzeranweisungen genau zu befolgen und Aufgaben zum Verständnis von Regionen auf Pixelebene effizient durchzuführen.

Nach der Implementierung der drei Trainingsphasen ist das Osprey-Framework in der Lage, komplexe Szenarien zu verstehen, die durch Benutzeranweisungen definiert werden und auf Maskenregionen auf Pixelebene basieren.

Fischadler: Experimentelle Ergebnisse

Um seine Leistung zu bewerten, führen Osprey-Entwickler eine Vielzahl von Experimenten durch, um die Fähigkeiten des Modells bei der Klassifizierung, der bereichsbasierten Erkennung auf Pixelebene und komplexen Beschreibungen zu demonstrieren.

Segmentierung des offenen Wortschatzes

Das Hauptziel der Segmentierung mit offenem Vokabular besteht darin, eine maskenbasierte Regionserkennung und ihre jeweilige Kategorie explizit zu generieren. Um eine Segmentierung des offenen Vokabulars zu erreichen, verwendet Osprey zunächst eine Eingabeaufforderung für Text, woraufhin das Modell Ground-Truth-Maskenbereiche für Modellinterferenzen übernimmt, um die Leistung des Modells bei Erkennungsaufgaben des offenen Vokabulars zu bewerten. Auf der Grundlage der vom multimodalen Großsprachenmodell generierten Satzantwort berechnet Osprey die semantische Ähnlichkeit zwischen der Vokabelliste und der Ausgabe jedes Datensatzes. Die folgende Abbildung vergleicht Osprey mit modernen multimodalen großen Sprachmodellen.

Wie zu beobachten ist, übertrifft das Osprey-Framework bestehende Methoden sowohl bei den Cityscapes als auch beim ADE20K-150-Datensatz deutlich. Die Ergebnisse zeigen, dass Osprey in der Lage ist, bestehende Ansätze zu übertreffen und ein solides Verständnis und eine solide Erkennung feinkörniger Objektbereiche zu erreichen.

Verweisende Objektklassifizierung

Bei der Aufgabe „Verweisende Objektklassifizierung“ muss das Modell das Objekt innerhalb eines bestimmten Bereichs eines Bildes klassifizieren. Um seine Klassifizierungsfähigkeiten zu bewerten, verwendet das Osprey-Framework zwei semantische Relevanzmetriken, darunter Semantic IoU oder S-IoU und Semantic Similarity oder SS. Die semantische IoU stellt die Überlappung von Wörtern zwischen der Grundwahrheit und den Vorhersagebezeichnungen dar, während die semantische Ähnlichkeit die vorhergesagte Ähnlichkeit und/oder die Grundwahrheitsbezeichnungen in einem semantischen Raum misst. Das folgende Bild zeigt die Leistung von Osprey bei der Aufgabe zur Klassifizierung verweisender Objekte im Vergleich zu Modellen, die Ansätze auf Box- und Bildebene verwenden.

Detaillierte Regionsbeschreibung

In der Aufgabe „Detaillierte Regionsbeschreibung“ bewertet das Modell seine Leistung in Bezug auf die Anweisungsbefolgung detaillierter Beschreibungsfunktionen zusammen mit anderen Ansätzen auf Regionsebene. Das Modell wählt zufällig eine Eingabeinferenz-Eingabeaufforderung aus einer Liste vordefinierter Eingabeaufforderungen aus und nutzt das GPT-4-LLM-Framework, um die Qualität der vom Modell generierten Antwort anhand der auf die Eingabe verweisenden Regionen umfassend zu messen. Mithilfe der Befehlsgenerierungspipeline generiert das Modell Fragen und sucht nach GPT-4-Antworten. Anschließend bewertet das LLM die Korrektheit der Semantik und die Präzision des Referenzverständnisses. Die folgende Tabelle zeigt die Leistung von Osprey im Vergleich zu modernsten Modellen bei Aufgaben zur detaillierten Regionsbeschreibung.

Untertitel auf Regionsebene

Das Osprey-Framework übertrifft auch aktuelle Ansätze für Untertitelungsaufgaben auf Regionsebene mit den im folgenden Bild enthaltenen Ergebnissen.

Abschließende Überlegungen

In diesem Artikel haben wir über Osprey gesprochen, eine Trainingsmethode für Maskentext-Anweisungen mit dem primären Ziel, MLLMs durch die Einbeziehung feinkörniger maskierter Regionen in den Sprachunterricht zu erweitern, um ein visuelles Sprachverständnis auf Pixelebene zu erreichen. Um sein Ziel zu erreichen, kuratiert das Osprey-Framework einen maskenbasierten Regionstext-Datensatz mit über 700 Beispielen und injiziert eine Darstellung auf Pixelebene in LLM, um ein Vision-Sprachmodell zu entwerfen. Das Osprey-Framework zielt darauf ab, MLLMs für ein feinkörniges visuelles Verständnis erheblich zu verbessern. Durch die Implementierung eines CNN-basierten CLIP-Modells und eines maskenbewussten visuellen Extraktors erhält Osprey die Fähigkeit, Bilder sowohl auf Teilebene als auch auf Objektebene zu verstehen.

Verwandte Themen:CLIP-Vision MLLMs Fischadler

Als nächstes

Aufschlüsselung des O'Reilly 2024 Tech Trends Report

Verpassen Sie nicht

AlphaGeometry: Die KI von DeepMind meistert Geometrieprobleme auf Olympia-Niveau

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.