Künstliche Intelligenz

EAGLE: Erforschung des Designraums für Multimodale Große Sprachmodelle mit einer Mischung von Encodern

mm
EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

Die Fähigkeit, komplexe visuelle Informationen genau zu interpretieren, ist ein wichtiger Schwerpunkt multimodaler großer Sprachmodelle (MLLMs). Aktuelle Arbeiten zeigen, dass eine verbesserte visuelle Wahrnehmung Halluzinationen erheblich reduziert und die Leistung bei auflösungssensitiven Aufgaben wie optischer Zeichenerkennung und Dokumentenanalyse verbessert. Mehrere aktuelle MLLMs erreichen dies, indem sie eine Mischung von Vision-Encodern verwenden. Trotz ihres Erfolgs gibt es einen Mangel an systematischen Vergleichen und detaillierten Ablationsstudien, die kritische Aspekte wie Expertenauswahl und die Integration mehrerer Visionsexperten ansprechen. Dieser Artikel bietet eine umfassende Erforschung des Designraums für MLLMs mit einer Mischung von Vision-Encodern und Auflösungen, dem Eagle-Framework, das versucht, den Designraum für multimodale große Sprachmodelle mit einer Mischung von Encodern zu erforschen. Die Ergebnisse zeigen mehrere zugrunde liegende Prinzipien, die gemeinsam für verschiedene bestehende Strategien sind, was zu einem gestrafften, aber effektiven Designansatz führt. Eagle entdeckt, dass das einfache Konkatenieren von visuellen Token aus einer Menge komplementärer Vision-Encodern so effektiv ist wie komplexere Mischarchitekturen oder Strategien. Darüber hinaus führt Eagle die Pre-Alignment ein, um die Lücke zwischen visionsspezifischen Encodern und Sprachtoken zu überbrücken und die Modellkohärenz zu verbessern. Die resultierende Familie von MLLMs, Eagle, übertrifft andere führende Open-Source-Modelle auf wichtigen MLLM-Benchmarks.

Eagles Arbeit ist mit der allgemeinen Architekturdesign von multimodalen großen Sprachmodellen (MLLMs) verbunden. Neben der Linie der repräsentativen Open-Source-Forschung, die früher erwähnt wurde, gehören andere bemerkenswerte Familien von MLLMs unter anderem MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini und Llama 3.1. Abhängig von der Art und Weise, wie Visionssignale in das Sprachmodell integriert werden, können MLLMs in “cross-modale Aufmerksamkeit”-Modelle und “Prefix-Tuning”-Modelle unterteilt werden. Die former injizieren visuelle Informationen in verschiedene Schichten von LLMs mithilfe cross-modaler Aufmerksamkeit, während die latter visuelle Token als Teil der Sprachtoken-Sequenz behandelt und direkt mit Text-Embeddings anhängt. Eagles Modell gehört zur Prefix-Tuning-Familie, indem es einer LLaVA-stilisierten multimodalen Architektur folgt. Da MLLM ein schnell wachsendes Feld ist, empfiehlt Eagle, sich für weitere Einblicke an detailliertere Studien und Umfragen zu wenden.

Eagles Arbeit ist eng mit Forschungen verbunden, die sich auf die Verbesserung von Vision-Encoder-Designs für MLLMs konzentrieren. Frühe Arbeiten haben in der Regel Vision-Encodern verwendet, die auf Vision-Sprache-Ausrichtungsaufgaben wie CLIP und EVA-CLIP vor trainiert wurden. Stärkere Vision-Encodern, wie SigLIP und InternVL, wurden vorgeschlagen, um Vision-Sprache-Aufgaben mit besseren Designs, größeren Modellgrößen und effektiveren Trainingsrezepten zu verbessern. Da Modelle oft auf niedrig auflösenden Bildern vor trainiert werden und möglicherweise die Fähigkeit fehlt, feine Details zu encodieren, wird häufig eine höhere Auflösungsanpassung durchgeführt, um die MLLM-Eingabeauflösung zu erhöhen. Neben der höheren Auflösungsanpassung verwenden Modelle wie LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer und InternVL Tiling oder adaptives Tiling, um hochauflösende Eingaben zu verarbeiten, wobei Bilder in niedrig auflösende Patches unterteilt und separat verarbeitet werden. Obwohl die Fähigkeit, höhere Auflösungen zu verarbeiten, durch die Einführung zusätzlicher Visionsexperten ermöglicht wird, unterscheidet sich dieser Ansatz leicht von Tiling-Techniken, obwohl beide kompatibel sind und kombiniert werden können.

EAGLE: Verwendung einer Mischung von Encodern zum Erforschen des Designraums für Multimodale MLLMs

Der Erfolg von großen Sprachmodellen (LLMs) hat ein großes Interesse an der Aktivierung ihrer visuellen Wahrnehmungsfähigkeiten geweckt, um sie sehen, verstehen und in der realen Welt zu lassen. Im Kern dieser multimodalen großen Sprachmodelle (MLLMs) befindet sich ein typisches Design, bei dem Bilder in eine Reihe von visuellen Token umgewandelt werden, indem die Vision-Encodern verwendet werden, und mit den Text-Embeddings angehängt werden. CLIP wird oft als Vision-Encoder gewählt, da seine visuelle Darstellung mit dem Text-Raum durch Vor-Training auf Bild-Text-Paaren ausgerichtet ist. Abhängig von den Architekturen, Trainingsrezepten und der Art und Weise, wie Vision-Token in das Sprachmodell injiziert werden, gehören bemerkenswerte Familien von MLLMs unter anderem Flamingo, BLIP, PaLI, PaLM-E und LLaVA. Die meisten dieser Modelle haben relativ niedrige Eingabeauflösungen aufgrund von Einschränkungen in vor trainierten Vision-Encodern und LLM-Sequenzlänge. Eagles Arbeit ist eng mit Modellen verbunden, die mehrere Vision-Encodern für verbesserte Wahrnehmung verwenden. Mini-Gemini und LLaVA-HR schlagen vor, hochauflösende visuelle Merkmale in niedrig auflösende visuelle Token zu fusionieren. Jenseits von Auflösungsproblemen können diese vor trainierten Vision-Encodern bestimmte Fähigkeiten wie Textlesen oder Objektlokalisierung fehlen. Um dies zu beheben, integrieren verschiedene Modelle Vision-Encodern, die auf verschiedenen Vision-Aufgaben vor trainiert wurden, um die Fähigkeiten des Vision-Encoders zu verbessern.

Beispielsweise fusionieren Modelle wie Mousi und Brave visuelle Token aus verschiedenen Vision-Encodern, indem sie entlang des Kanals oder Token-Richtung konkatieren. RADIO führt eine Multi-Teacher-Distillation-Methode ein, um die Fähigkeiten verschiedener Vision-Encodern in ein einzelnes Modell zu vereinen. MoAI, IVE und Prismer verwenden die Ausgabe von Vision-Experten, wie OCR, Erkennung oder Tiefenschätzung, um zusätzliche Informationen für MLLMs zu generieren, um Antworten zu erstellen. MoVA entwickelt ein Routing-Netzwerk, um ein optimales Vision-Modell basierend auf dem gegebenen Bild und den Anweisungen zuzuweisen.

Aktuelle Studien haben gezeigt, dass stärkere Vision-Encoder-Designs wichtig sind, um MLLM-Halluzinationen zu reduzieren und die Leistung bei auflösungssensitiven Aufgaben wie optischer Zeichenerkennung zu verbessern. Mehrere Arbeiten konzentrieren sich auf die Verbesserung der Fähigkeiten des Vision-Encoders, entweder durch Skalierung der Vor-Trainingsdaten und Parameter oder durch Unterteilung von Bildern in niedrig auflösende Patches. Diese Ansätze führen jedoch oft zu großen Trainings-Ressourcen-Anforderungen. Eine effiziente, aber leistungsstarke Strategie ist die Mischung von visuellen Encodern, die mit verschiedenen Aufgaben und Eingabeauflösungen vor trainiert wurden, entweder durch Fusion von höher auflösenden Encodern mit dem CLIP-Encoder, sequenzielle Anhang von Merkmalen aus verschiedenen Encodern oder durch die Verwendung komplexerer Fusion- und Routing-Strategien, um die Vorteile verschiedener Encodern zu maximieren. Dieser “Mischung-von-Vision-Experten”-Ansatz hat sich als effektiv erwiesen, obwohl eine detaillierte Studie seines Designraums mit strenger Ablation noch fehlt, was Eagle motiviert, diesen Bereich zu überdenken. Wichtige Fragen bleiben: welche Vision-Encoder-Kombinationen zu wählen sind, wie man verschiedene Experten fusioniert und wie man Trainingsstrategien mit mehr Vision-Encodern anpasst.

Um diese Fragen zu beantworten, untersucht Eagle systematisch den Mischung-von-Vision-Encodern-Designraum für verbesserte MLLM-Wahrnehmung. Die Erforschung dieses Designraums umfasst die folgenden Schritte: 1) Benchmarking verschiedener Vision-Encodern und Suche nach höherer Auflösungsanpassung; 2) Durchführung eines “Apples-zu-Apples”-Vergleichs zwischen Vision-Encoder-Fusionsstrategien; 3) schrittweises Identifizieren der optimalen Kombination von mehreren Vision-Encodern; 4) Verbesserung der Vision-Experten-Vor-Alignment und Datenmischung. Die Erforschungsschritte sind in der folgenden Abbildung dargestellt.

Eagles Studie umfasst die Leistung von Vision-Encodern, die auf verschiedenen Aufgaben und Auflösungen vor trainiert wurden, wie Vision-Sprache-Ausrichtung, selbst-supervisiertes Lernen, Erkennung, Segmentierung und OCR. Mit einem Round-Robin-Ansatz beginnt Eagle mit dem grundlegenden CLIP-Encoder und fügt jeweils einen zusätzlichen Experten hinzu, indem er den Experten auswählt, der die beste Verbesserung in jeder Runde bietet.

Während Eagles Arbeit nicht die erste ist, die mehrere Vision-Encodern in MLLMs nutzt, führt die systematische Studie zu mehreren wichtigen Erkenntnissen unter diesem Setting:

  • Das Entsperren der Vision-Encodern während des MLLM-Trainings ist wichtig. Dies steht im Gegensatz zu Modellen wie LLaVA und anderen, die mehrere Vision-Encodern oder Lehrer verwenden, bei denen das Einfrieren der Vision-Encodern eine gängige Praxis war.
  • Einige kürzlich vorgeschlagene Fusionsstrategien zeigen keine signifikanten Vorteile. Stattdessen erwies sich die direkte Kanal-Konkatenation als einfache, aber wettbewerbsfähige Fusionsstrategie, die die beste Effizienz und Leistung bietet.
  • Das Hinzufügen zusätzlicher Vision-Experten führt zu konsistenten Gewinnen. Dies macht es zu einem vielversprechenden Weg, um systematisch die MLLM-Wahrnehmung zu verbessern, neben der Skalierung einzelner Encodern. Die Verbesserung ist besonders ausgeprägt, wenn Vision-Encodern entsperrt werden.
  • Die Vor-Alignment-Phase ist entscheidend. Eagle führt eine Vor-Alignment-Phase ein, in der nicht-text-ausgerichtete Vision-Experten individuell mit einem gefrorenen LLM fein abgestimmt werden, bevor sie zusammen trainiert werden. Diese Phase verbessert die MLLM-Leistung unter dem Mischung-von-Vision-Encodern-Design erheblich.

Eagle: Methodik und Architektur

Im Gegensatz zu früheren Methoden, die sich auf neue Fusionsparadigmen oder Architekturen zwischen Vision-Encodern konzentrieren, besteht Eagles Ziel darin, ein minimalistisches Design zu finden, um verschiedene Vision-Encodern zu fusionieren, unterstützt durch detaillierte Ablationen und das Entfernen aller unnötigen Komponenten. Wie in der folgenden Abbildung gezeigt, beginnt Eagle damit, den grundlegenden CLIP-Encoder auf eine Menge von Vision-Experten mit unterschiedlichen Architekturen, Vor-Trainingsaufgaben und Auflösungen zu erweitern. Mit diesen Experten vergleicht Eagle dann verschiedene Fusionsarchitekturen und -methoden und erforscht, wie man Vor-Trainingsstrategien mit mehr Encodern optimiert.

Schließlich kombiniert Eagle alle Erkenntnisse und erweitert den Ansatz auf mehrere Experten-Vision-Encodern mit unterschiedlichen Auflösungen und Domänenwissen. Mit den gleichen Vor-Trainingsdaten wie LLaVA-1.5, die 595.000 Bild-Text-Paare umfassen, geht Eagle zum überwachten Feinabstimmungs-Schritt über, indem es Daten aus einer Reihe von Aufgaben sammelt und in multimodale Konversationen umwandelt, einschließlich LLaVA-1.5, Laion-GPT4V, ShareGPT-4V, DocVQA, synDog-EN, ChartQA, DVQA und AI2D, was zu 934.000 Proben führt.

Das Modell wird zunächst für eine Epoche mit Bild-Text-Paaren mit einer Batch-Größe von 256 vor trainiert, wobei das gesamte Modell gefroren ist und nur die Projektionsschicht aktualisiert wird. In der zweiten Phase wird das Modell auf den überwachten Feinabstimmungsdaten für eine Epoche mit einer Batch-Größe von 128 fein abgestimmt. Für diese Erforschung verwendet Eagle Vicuna-7B als zugrunde liegendes Sprachmodell. Die Lernraten werden auf 1e-3 für die erste Phase und 2e-5 für die zweite Phase festgelegt.

Stärkerer CLIP-Encoder

Eagle beginnt die Erforschung mit dem CLIP-Modell, da es zur primären Wahl für viele MLLMs geworden ist. Während CLIP-Modelle bekannt dafür sind, multimodale Aufgaben zu verbessern, sind ihre Einschränkungen auch gut dokumentiert. Zum Beispiel neigen viele bestehende MLLMs dazu, die vor trainierten CLIP-Auflösungen (wie 224 × 224 oder 336 × 336) als ihre Eingabeauflösungen zu verwenden. In diesen Fällen kämpfen die Encodern oft darum, feine Details zu erfassen, die für auflösungssensitive Aufgaben wie OCR und Dokumentenverständnis wichtig sind.

Um höhere Eingabeauflösungen zu bewältigen, ist ein häufiger Ansatz das Tiling, bei dem Eingabebilder in Tiles unterteilt und separat kodiert werden. Ein einfacherer Ansatz ist die direkte Skalierung der Eingabeauflösung und die Interpolation der Positionseingaben des Vision-Transformers, falls erforderlich. Eagle vergleicht diese beiden Ansätze mit gefrorenen und entsperrten Vision-Encodern über verschiedene Auflösungen, wobei die Ergebnisse in der obigen Tabelle enthalten sind. Die Erkenntnisse können wie folgt zusammengefasst werden:

  • Das Entsperren des CLIP-Encoders führt zu einer signifikanten Verbesserung, wenn auf eine höhere MLLM-Eingabeauflösung interpoliert wird, die sich von der CLIP-Vor-Trainingsauflösung unterscheidet, ohne Leistungsverschlechterung, wenn die Auflösungen gleich bleiben.
  • Das Einfrieren des CLIP-Encoders und die direkte Anpassung an eine höhere MLLM-Eingabeauflösung schädigen die Leistung erheblich.
  • Unter den verglichenen Strategien erweist sich die direkte Interpolation auf 448 × 448 mit einem entsperrten CLIP-Encoder als effektiv und effizient in Bezug auf Leistung und Kosten.
  • Der beste CLIP-Encoder erreicht eine Leistung, die InternVL nahe kommt, obwohl es ein viel kleineres Modell (300M vs. 6B) mit weniger Vor-Trainingsdaten ist.

Es ist erwähnenswert, dass CLIP-448 es Eagle ermöglicht, die Einstellung mit LLaVA-HR und InternVL zu übereinstimmen, bei der die CLIP-Encodern ähnlich auf 448 × 448-Eingabe und 1024-Patch-Token-Ausgabe angepasst werden. Für weitere Untersuchungen folgt Eagle diesem einfachen Ansatz, die Eingabeauflösung zu skalieren und den Vision-Encoder während des Trainings zu entsperren.

Eagle beobachtet, dass bestehende populäre Fusionsstrategien, trotz ihrer Design-Variationen, in folgende Kategorien unterteilt werden können:

  1. Sequenzielle Anhang: Direktes Anhangen der visuellen Token aus verschiedenen Backbones als längere Sequenz.
  2. Kanal-Konkatenation: Konkatenation der visuellen Token entlang der Kanal-Dimension ohne Erhöhung der Sequenzlänge.
  3. LLaVA-HR: Injektion von hochauflösenden Merkmalen in niedrig auflösende Vision-Encodern mithilfe eines Mischung-von-Auflösungen-Adapters.
  4. Mini-Gemini: Verwendung der CLIP-Token als niedrig auflösende Abfragen, um ein anderes hochauflösendes Vision-Encoder in ko-lokalen lokalen Fenstern zu kreuzen.
  5. Deformable Attention: Ein neuer Baseline, der auf Mini-Gemini eingeführt wird, bei dem die Standard-Fenster-Aufmerksamkeit durch deformable Attention ersetzt wird.

Anstelle des Trainings eines Projektors, um mehrere Vision-Experten gleichzeitig auszurichten, wie in LLaVAs ursprünglicher Vor-Trainingsstrategie, trainieren wir zunächst die Darstellung jedes einzelnen Experten mit einem kleineren Sprachmodell (Vicuna-7B in der Praxis) mithilfe von Next-Token-Vorhersage-Überwachung. Wie in der folgenden Abbildung gezeigt, umfasst der gesamte Trainingsprozess mit Vor-Alignment drei Schritte: 1) Training jedes vor trainierten Vision-Experten mit seinem eigenen Projektion auf SFT-Daten, während das Sprachmodell gefroren bleibt; 2) Kombination aller Vision-Experten aus dem ersten Schritt und Training nur des Projektion auf Bild-Text-Paaren-Daten; 3) Training des gesamten Modells auf SFT-Daten.

Eagle: Experimente und Ergebnisse

Nach sorgfältiger Entwicklung seiner Strategien hat Eagle die folgenden Prinzipien für das Modell etabliert: (1) Integration von mehr Vision-Experten mit einem optimierten Trainingsrezept; (2) Kombination von mehreren Vision-Experten durch direkte Kanal-Konkatenation; (3) Vor-Training der Vision-Experten getrennt durch Vor-Alignment. In diesem Abschnitt wird Eagle gegen die aktuellen State-of-the-Art-MLLMs auf verschiedenen Aufgaben verglichen, um die Vorteile des Eagle-Modells weiter zu demonstrieren. Eagle verwendet Vicuna-v1.5-7B, Llama3-8B und Vicuna-v1.5-13B als Sprachmodelle. Für die Vision-Encodern werden basierend auf den Ergebnissen in Abschnitt 2.6 Eagle-Modelle als Eagle-X4 bezeichnet, die vier Vision-Encodern umfassen: CLIP, ConvNeXt, Pix2Struct und EVA-02, und Eagle-X5, die einen zusätzlichen SAM-Vision-Encoder enthält.

Visuelle Fragebeantwortungsaufgaben

Eagle vergleicht die Modellreihe über drei visuelle Fragebeantwortungsbenchmarks, einschließlich GQA, VQAv2 und VizWiz. Wie in der folgenden Tabelle gezeigt, erreicht Eagle-X5 den State-of-the-Art auf GQA und VQAv2, was die Vorteile der Integration zusätzlicher Vision-Experten unterstreicht.

OCR- und Chart-Verständigungsaufgaben

Um die OCR-, Dokument- und Chart-Verständigungsfähigkeiten von Eagle zu bewerten, wird das Modell auf OCRBench, TextVQA und ChartQA getestet. Wie in der obigen Tabelle gezeigt, übertrifft Eagle deutlich die Konkurrenz auf TextVQA, was von seiner hochauflösenden Architektur und der Integration verschiedener Vision-Encodern profitiert. Bemerkenswerterweise behält Eagle ein einfaches Design bei, das bis zu 1024 Token unterstützt, ohne komplexe Tile-Zerlegung von Bildern zu erfordern.

Die folgende Abbildung zeigt Beispiele für OCR- und Dokumentenverständigungsfälle. Mit höherer Auflösungsanpassung und der Integration von mehr Vision-Experten kann Eagle kleine Texte innerhalb von Bildern identifizieren und genaue Informationen basierend auf Benutzeranweisungen extrahieren.

Um die Vorteile der Einführung von Experten, die auf anderen Vision-Aufgaben vor trainiert wurden, besser zu verstehen, zeigt die folgende Abbildung Ergebnisse von einem Modell mit nur den ConvNeXt- und CLIP-Vision-Encodern im Vergleich zu den Ergebnissen von Eagle-X5. Mit der vollständigen Menge von Vision-Encodern korrigiert das Modell erfolgreich Fehler, was zeigt, dass selbst wenn es mit hochauflösenden Vision-Encodern vor trainiert wird, die auf Vision-Sprache-Ausrichtung vor trainiert wurden, Eagles Fähigkeiten durch die Integration zusätzlicher Vision-Experten, die auf verschiedenen Vision-Aufgaben vor trainiert wurden, weiter verbessert werden.

Multimodale Benchmark-Bewertung

Eagle wird auf sieben Benchmarks für MLLMs getestet, um seine Fähigkeiten aus verschiedenen Perspektiven zu demonstrieren, einschließlich MME, MMBench, SEED, MathVista, MMMU, ScienceQA und POPE. Insbesondere bewerten MME, MMBench und SEED die Gesamtleistung auf verschiedenen realen Aufgaben, die Vernunft, Erkennung, Wissen und OCR umfassen. MMMU konzentriert sich auf herausfordernde Probleme aus verschiedenen Domänen, die Hochschulwissen erfordern. POPE bewertet die visuellen Halluzinationen von MLLMs. Die in dieser Bewertung verwendeten Metriken entsprechen den Standard-Einstellungen dieser Benchmarks. Eagle berichtet den Wahrnehmungsscore für MME, die en_dev-Split für MMBench, die Bild-Split von SEED, die test-mini-Split von MathVista, die val-Split von MMMU, den F1-Score von POPE und den Bild-Score für ScienceQA, um die Übereinstimmung mit den von anderen Modellen berichteten Scores sicherzustellen.

Schlussgedanken

In diesem Artikel haben wir über Eagle gesprochen, einer tiefen Analyse des Designraums für die Integration von Vision-Encodern in multimodale große Sprachmodelle. Im Gegensatz zu früheren Arbeiten, die sich auf die Entwicklung neuer Fusionsparadigmen konzentrieren, findet Eagle heraus, dass systematische Designentscheidungen wichtig sind und entdeckt eine Reihe nützlicher Techniken. Schritt für Schritt optimiert Eagle das Trainingsrezept einzelner Vision-Encodern, identifiziert eine erweiterbare und effiziente Fusionsmethode und kombiniert schließlich Vision-Encodern mit unterschiedlichem Domänenwissen. Die Ergebnisse unterstreichen die kritische Bedeutung grundlegender Designraumüberlegungen.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.