Vernetzen Sie sich mit uns

Künstliche Intelligenz

EAGLE: Erkundung des Entwurfsraums für multimodale große Sprachmodelle mit einer Mischung von Encodern

mm
EAGLE: Erkundung des Entwurfsraums für multimodale große Sprachmodelle mit einer Mischung von Encodern

Die Fähigkeit, komplexe visuelle Informationen genau zu interpretieren, ist ein entscheidender Schwerpunkt multimodaler Large Language Models (MLLMs). Neuere Arbeiten zeigen, dass eine verbesserte visuelle Wahrnehmung Halluzinationen deutlich reduziert und die Leistung bei auflösungsempfindlichen Aufgaben wie optischer Zeichenerkennung und Dokumentanalyse verbessert. Mehrere neuere MLLMs erreichen dies durch die Verwendung einer Mischung aus Bildcodierern. Trotz ihres Erfolgs mangelt es an systematischen Vergleichen und detaillierten Ablationsstudien, die kritische Aspekte wie die Expertenauswahl und die Integration mehrerer Bildexperten behandeln. Dieser Artikel bietet eine umfassende Untersuchung des Designraums für MLLMs unter Verwendung einer Mischung aus Bildcodierern und Auflösungen, dem Eagle-Framework, das versucht, den Designraum für multimodale Large Language Models mit einer Mischung aus Codierern zu untersuchen. Die Ergebnisse enthüllen mehrere zugrunde liegende Prinzipien, die verschiedenen bestehenden Strategien gemeinsam sind, was zu einem rationalisierten und dennoch effektiven Designansatz führt. Eagle entdeckt, dass das einfache Verketten visueller Token aus einer Reihe komplementärer Bildcodierer genauso effektiv ist wie komplexere Mischarchitekturen oder -strategien. Darüber hinaus führt Eagle Pre-Alignment ein, um die Lücke zwischen visuell fokussierten Codierern und Sprachtoken zu schließen und die Modellkohärenz zu verbessern. Die daraus resultierende MLLM-Familie, Eagle, übertrifft andere führende Open-Source-Modelle bei wichtigen MLLM-Benchmarks. 

Eagles Arbeit befasst sich mit dem allgemeinen Architekturdesign multimodaler großer Sprachmodelle (MLLMs). Neben der bereits erwähnten Reihe repräsentativer Open-Source-Forschung umfassen weitere bemerkenswerte MLLM-Familien, ohne darauf beschränkt zu sein, MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini und Llama 3.1. Je nachdem, wie visuelle Signale in das Sprachmodell integriert werden, können MLLMs grob in Modelle mit „kreuzmodaler Aufmerksamkeit“ und „Präfix-Tuning“-Modelle unterteilt werden. Erstere fügen visuelle Informationen mithilfe kreuzmodaler Aufmerksamkeit in verschiedene Ebenen von LLMs ein, während letztere die visuellen Token als Teil der Sprachtokensequenz behandeln und ihnen direkt Text-Embeddings hinzufügen. Eagles Modell gehört zur Präfix-Tuning-Familie, da es einer multimodalen Architektur im LLaVA-Stil folgt. In Anbetracht dessen, dass MLLM ein schnell wachsendes Feld ist, empfiehlt Eagle, für weitere Erkenntnisse detailliertere Studien und Erhebungen heranzuziehen.

Eagles Arbeit ist eng mit der Forschung zur Verbesserung des Designs von Bildcodierern für MLLMs verbunden. Frühe Arbeiten verwendeten in der Regel Bildcodierer, die für Aufgaben zur Ausrichtung der Bildsprache wie CLIP und EVA-CLIP vortrainiert waren. Stärkere Bildcodierer wie SigLIP und InternVL wurden vorgeschlagen, um Aufgaben der Bildsprache durch bessere Designs, größere Modelle und effektivere Trainingsrezepte zu verbessern. Da Modelle oft mit Bildern mit niedriger Auflösung vortrainiert sind und möglicherweise nicht in der Lage sind, feinkörnige Details zu codieren, wird häufig eine Anpassung an eine höhere Auflösung vorgenommen, um die MLLM-Eingangsauflösung zu erhöhen. Zusätzlich zur Anpassung an eine höhere Auflösung verwenden Modelle wie LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer und InternVL Kacheln oder adaptives Kacheln zur Verarbeitung hochauflösender Eingaben, wobei Bilder in Patches mit niedrigerer Auflösung aufgeteilt und separat verarbeitet werden. Während die Fähigkeit zur Verarbeitung höherer Auflösungen durch die Hinzunahme zusätzlicher Bildcodierer ermöglicht wird, unterscheidet sich dieser Ansatz geringfügig von Kacheltechniken, obwohl beide kompatibel sind und kombiniert werden können.

EAGLE: Nutzung einer Mischung von Encodern zur Erkundung des Designraums für multimodale LLMs

Der Erfolg großer Sprachmodelle (LLMs) hat großes Interesse daran geweckt, ihre visuellen Wahrnehmungsfähigkeiten zu verbessern, damit sie in der realen Welt sehen, verstehen und argumentieren können. Im Kern dieser Multimodale große Sprachmodelle (MLLMs) ist ein typisches Design, bei dem Bilder von den Vision-Encodern in eine Reihe visueller Token umgewandelt und mit Text-Embeddings versehen werden. CLIP wird häufig als Vision-Encoder gewählt, da seine visuelle Darstellung durch Vortraining mit Bild-Text-Paaren auf den Textraum abgestimmt ist. Abhängig von den Architekturen, Trainingsrezepten und der Art und Weise, wie Vision-Token in das Sprachmodell eingefügt werden, umfassen wichtige MLLM-Familien Flamingo, BLIP, PaLI, PaLM-E und LLaVA. Die meisten dieser Modelle behalten aufgrund von Einschränkungen bei vortrainierten Vision-Encodern und der LLM-Sequenzlänge relativ niedrige Eingabeauflösungen bei. Die Arbeit von Eagle ist eng mit Modellen verbunden, die mehrere Vision-Encoder zur verbesserten Wahrnehmung verwenden. Mini-Gemini und LLaVA-HR schlagen vor, hochauflösende visuelle Merkmale in niedrig aufgelöste visuelle Token zu verschmelzen. Abgesehen von Auflösungsproblemen fehlen diesen vortrainierten Vision-Encodern möglicherweise bestimmte Fähigkeiten, wie das Lesen von Text oder das Lokalisieren von Objekten. Um dieses Problem zu lösen, integrieren verschiedene Modelle Vision-Encoder, die für unterschiedliche Vision-Aufgaben vortrainiert wurden, um die Fähigkeiten des Vision-Encoders zu verbessern.

Modelle wie Mousi und Brave beispielsweise verschmelzen visuelle Token von verschiedenen Bildcodierern, indem sie diese entlang des Kanals oder der Token-Richtung verketten. RADIO führt eine Multi-Teacher-Destillationsmethode ein, um die Fähigkeiten verschiedener Bildcodierer in einem einzigen Modell zu vereinen. MoAI, IVE und Prismer nutzen außerdem die Ergebnisse von Bildexperten wie OCR, Erkennung oder Tiefenschätzung, um zusätzliche Informationen für MLLMs bereitzustellen, damit diese Antworten generieren können. MoVA entwickelt ein Routing-Netzwerk, um basierend auf dem gegebenen Bild und den Anweisungen ein optimales Bildmodell zuzuweisen. 

Neuere Studien haben gezeigt, dass leistungsfähigere Vision-Encoder-Designs wichtig sind, um MLLM-Halluzinationen und die Leistung bei auflösungsempfindlichen Aufgaben wie der optischen Zeichenerkennung (OCR) zu verbessern. Mehrere Arbeiten konzentrieren sich auf die Verbesserung der Leistungsfähigkeit des Bildencoders, entweder durch Hochskalieren der vorab trainierten Daten und Parameter oder durch Aufteilen der Bilder in niedrig aufgelöste Patches. Diese Ansätze führen jedoch häufig zu einem hohen Bedarf an Trainingsressourcen. Eine effiziente und dennoch leistungsstarke Strategie besteht darin, visuelle Encoder zu mischen, die mit unterschiedlichen Aufgaben und Eingabeauflösungen vortrainiert wurden, entweder durch die Fusion von Encodern mit höherer Auflösung mit dem CLIP-Encoder, das sequenzielle Anhängen von Features aus verschiedenen Encodern oder die Anwendung komplexerer Fusions- und Routingstrategien, um die Vorteile verschiedener Encoder zu maximieren. Dieser Ansatz einer „Mischung von Bildexperten“ hat sich als effektiv erwiesen, obwohl eine detaillierte Studie seines Designraums mit rigoroser Ablation noch aussteht, was Eagle motiviert, sich erneut mit diesem Bereich zu befassen. Die wichtigsten Fragen bleiben: Welche Bildencoder-Kombinationen sind zu wählen, wie werden verschiedene Experten fusioniert und wie werden Trainingsstrategien mit mehr Bildencodern angepasst?

Um diese Fragen zu beantworten, untersucht Eagle systematisch den Designraum für die Mischung von Bildencodern zur Verbesserung der MLLM-Wahrnehmung. Die Untersuchung dieses Designraums umfasst die folgenden Schritte: 1) Benchmarking verschiedener Bildencoder und Suche nach Anpassungsmöglichkeiten mit höherer Auflösung; 2) Durchführung eines Vergleichs zwischen den Fusionsstrategien für Bildencoder; 3) schrittweise Ermittlung der optimalen Kombination mehrerer Bildencoder; 4) Verbesserung der Vorabausrichtung und Datenmischung durch Bildexperten. Die Untersuchungsschritte werden in der folgenden Abbildung dargestellt. 

Eagles Studie untersucht die Leistung von Bildcodierern, die für verschiedene Aufgaben und Auflösungen vortrainiert wurden, wie etwa Bild-Sprach-Ausrichtung, selbstüberwachtes Lernen, Erkennung, Segmentierung und OCR. Eagle verwendet einen Round-Robin-Ansatz und beginnt mit dem grundlegenden CLIP-Encoder. Anschließend fügt Eagle nach und nach einen weiteren Experten hinzu. Dabei wird in jeder Runde derjenige ausgewählt, der die beste Verbesserung bietet.

Obwohl Eagles Arbeit nicht die erste ist, die mehrere Bildkodierer in MLLMs nutzt, führt die systematische Studie in diesem Kontext zu mehreren wichtigen Erkenntnissen:

  • Das Entsperren der Bildencoder während des MLLM-Trainings ist wichtig. Dies steht im Gegensatz zu Modellen wie LLaVA und anderen, die mehrere Bildencoder oder Lehrer berücksichtigen, bei denen das Einfrieren der Bildencoder gängige Praxis ist.
  • Einige kürzlich vorgeschlagene Fusionsstrategien weisen keine nennenswerten Vorteile auf. Stattdessen erweist sich die direkte Kanalverkettung als einfache, aber wettbewerbsfähige Fusionsstrategie, die optimale Effizienz und Leistung bietet.
  • Die Einbindung zusätzlicher Vision-Experten führt zu nachhaltigen Gewinnen. Dies macht es zu einem vielversprechenden Weg, die MLLM-Wahrnehmung systematisch zu verbessern, abgesehen von der Skalierung einzelner Encoder. Die Verbesserung ist besonders ausgeprägt, wenn Vision-Encoder entsperrt werden.
  • Die Phase der Vorausrichtung ist entscheidend. Eagle führt eine Vorabstimmungsphase ein, in der nicht textausgerichtete Vision-Experten einzeln mit einem eingefrorenen LLM feinabgestimmt werden, bevor sie gemeinsam trainiert werden. Diese Phase verbessert die MLLM-Leistung im Rahmen des Mixture-of-Vision-Encoder-Designs erheblich.

Eagle: Methodik und Architektur

Im Gegensatz zu früheren Methoden, die sich auf neue Fusionsstrategien oder Architekturen zwischen Bildcodierern konzentrieren, ist Eagles Ziel, ein minimalistisches Design zur Fusion verschiedener Bildcodierer zu entwickeln, das durch detaillierte Ablationen und die Entfernung unnötiger Komponenten unterstützt wird. Wie in der folgenden Abbildung dargestellt, erweitert Eagle zunächst den grundlegenden CLIP-Encoder um eine Reihe von Bildcodierern mit unterschiedlichen Architekturen, Vortrainingsaufgaben und Auflösungen. Mit diesen Experten vergleicht Eagle dann verschiedene Fusionsarchitekturen und -methoden und untersucht, wie sich Vortrainingsstrategien mit mehreren Encodern optimieren lassen.

Schließlich kombiniert Eagle alle Erkenntnisse und erweitert den Ansatz auf mehrere Experten-Bildcodierer mit unterschiedlichen Auflösungen und Fachwissen. Unter Verwendung derselben Vortrainingsdaten wie LLaVA-1.5, die aus 595 Bild-Text-Paaren bestehen, geht Eagle zur überwachten Feinabstimmungsphase über, indem es Daten aus einer Reihe von Aufgaben sammelt und sie in multimodale Konversationen umwandelt, darunter LLaVA-1.5, Laion-GPT4V, ShareGPT-4V, DocVQA, synDog-EN, ChartQA, DVQA und AI2D, was zu 934 Beispielen führt.

Das Modell wird zunächst mit Bild-Text-Paaren für eine Epoche mit einer Batch-Größe von 256 vortrainiert, wobei das gesamte Modell eingefroren und nur die Projektorebene aktualisiert wird. In der zweiten Phase wird das Modell anhand der überwachten Feinabstimmungsdaten für eine Epoche mit einer Batch-Größe von 128 feinabgestimmt. Für diese Untersuchung verwendet Eagle Vicuna-7B als zugrunde liegendes Sprachmodell. Die Lernraten sind für die erste Phase auf 1e-3 und für die zweite Phase auf 2e-5 eingestellt.

Stärkerer CLIP-Encoder

Eagle beginnt die Erkundung mit dem CLIP-Modell, da es für viele die erste Wahl geworden ist MLLMs. Obwohl CLIP-Modelle multimodale Aufgaben verbessern, sind ihre Einschränkungen gut dokumentiert. Viele vorhandene MLLMs neigen beispielsweise dazu, die vorab trainierten CLIP-Auflösungen (wie 224 × 224 oder 336 × 336) als Eingabeauflösungen zu verwenden. In diesen Fällen haben die Encoder oft Probleme, feine Details zu erfassen, die für auflösungssensitive Aufgaben wie OCR und Dokumentverständnis wichtig sind.

Um mit einer erhöhten Eingangsauflösung umzugehen, wird häufig das Kacheln verwendet, bei dem Eingangsbilder in Kacheln aufgeteilt und separat codiert werden. Eine andere, einfachere Methode besteht darin, die Eingangsauflösung direkt zu erhöhen und die Positionseinbettungen des Vision-Transformer-Modells bei Bedarf zu interpolieren. Eagle vergleicht diese beiden Ansätze mit eingefrorenen und nicht eingefrorenen Vision-Encodern bei verschiedenen Auflösungen. Die Ergebnisse sind in der obigen Tabelle aufgeführt. Die Erkenntnisse können wie folgt zusammengefasst werden:

  • Das Aufheben der Einfrierung des CLIP-Encoders führt zu einer deutlichen Verbesserung bei der Interpolation auf eine höhere MLLM-Eingabeauflösung, die sich von der CLIP-Auflösung vor dem Training unterscheidet, ohne dass es bei gleichbleibenden Auflösungen zu Leistungseinbußen kommt.
  • Das Einfrieren des CLIP-Encoders und seine direkte Anpassung an eine höhere MLLM-Eingangsauflösung beeinträchtigt die Leistung erheblich.
  • Unter den verglichenen Strategien erweist sich die direkte Interpolation auf 448 × 448 mit einem nicht eingefrorenen CLIP-Encoder hinsichtlich Leistung und Kosten als effektiv und effizient.
  • Der beste CLIP-Encoder erreicht eine Leistung nahe an InternVL, obwohl es sich um ein viel kleineres Modell (300 M gegenüber 6 B) mit weniger Vortrainingsdaten handelt.

Es ist erwähnenswert, dass Eagle mit CLIP-448 die Einstellung mit LLaVA-HR und InternVL abgleichen kann, wobei die CLIP-Encoder ähnlich angepasst sind, um 448 × 448 Eingaben zu verarbeiten und 1024 Patch-Token auszugeben. Für weitere Untersuchungen folgt Eagle dieser einfachen Strategie, die Eingabeauflösung zu erhöhen und den Bildencoder während des Trainings freizugeben.

Eagle stellt fest, dass die bestehenden gängigen Fusionsstrategien trotz ihrer unterschiedlichen Ausgestaltung im Großen und Ganzen wie folgt kategorisiert werden können:

  1. Sequenz anhängen: Direktes Anhängen der visuellen Token aus verschiedenen Backbones als längere Sequenz.
  2. Kanalverkettung: Verketten der visuellen Token entlang der Kanaldimension, ohne die Sequenzlänge zu erhöhen.
  3. LLaVA-HR: Einfügen hochauflösender Funktionen in Bildencoder mit niedriger Auflösung mithilfe eines Adapters mit gemischter Auflösung.
  4. Mini-Zwillinge: Verwenden der CLIP-Token als Abfragen mit niedriger Auflösung, um einen anderen Bildencoder mit hoher Auflösung in gemeinsam lokalisierten lokalen Fenstern zu unterstützen.
  5. Verformbare Aufmerksamkeit: Eine neue Baseline, die auf Mini-Gemini eingeführt wird, wobei die Vanilla-Fensteraufmerksamkeit durch verformbare Aufmerksamkeit ersetzt wird.

Anstatt einen Projektor zu trainieren, um mehrere Bildexperten gleichzeitig auszurichten, wie in LLaVAs ursprünglicher Vortrainingsstrategie, richten wir zunächst die Darstellung jedes einzelnen Experten mit einem kleineren Sprachmodell (in der Praxis Vicuna-7B) aus, indem wir die nächste Token-Vorhersage überwachen. Wie in der folgenden Abbildung gezeigt, besteht der gesamte Trainingsprozess mit Vorabausrichtung aus drei Schritten: 1) Training jedes vorab trainierten Bildexperten mit seinem eigenen Projektor auf SFT-Daten, während das Sprachmodell eingefroren bleibt; 2) Kombinieren aller Bildexperten aus dem ersten Schritt und Trainieren nur des Projektors mit Bild-Text-Paardaten; 3) Trainieren des gesamten Modells auf den SFT-Daten. 

Eagle: Experimente und Ergebnisse

Nach sorgfältiger Entwicklung seiner Strategien hat Eagle die folgenden Prinzipien für das Modell festgelegt: (1) Integration mehrerer Bildverarbeitungsexperten mit einem optimierten Trainingsrezept; (2) Kombination mehrerer Bildverarbeitungsexperten durch direkte Kanalverkettung; (3) separates Vortraining der Bildverarbeitungsexperten durch Vorabgleich. In diesem Abschnitt werden zusätzliche Trainingsdaten integriert, um die Vorteile der Eagle-Modelle weiter zu demonstrieren, und Eagle wird bei verschiedenen Aufgaben mit den aktuellen MLLMs auf dem neuesten Stand der Technik verglichen. Eagle verwendet Vicuna-v1.5-7B, Llama3-8B und Vicuna-v1.5-13B als Sprachmodelle. Für die Bildcodierer werden Eagle-Modelle basierend auf den Ergebnissen in Abschnitt 2.6 als Eagle-X4 bezeichnet, das vier Bildcodierer umfasst: CLIP, ConvNeXt, Pix2Struct und EVA-02, und Eagle-X5, das einen zusätzlichen SAM-Bildcodierer umfasst.

Visuelle Fragen- und Antwortaufgaben

Eagle vergleicht die Modellreihe anhand von drei Visual Question Answering (VQA)-Benchmarks, darunter GQA, VQAv2 und VizWiz. Wie in der folgenden Tabelle dargestellt, erreicht Eagle-X5 bei GQA und VQAv2 eine Spitzenleistung und unterstreicht damit die Vorteile der Einbindung zusätzlicher Vision-Experten.

OCR- und Diagrammverständnisaufgaben

Um die OCR-, Dokument- und Diagrammverständnisfähigkeiten von Eagle zu bewerten, wird das Modell mit OCRBench, TextVQA und ChartQA verglichen. Wie in der obigen Tabelle gezeigt, übertrifft Eagle die Konkurrenz auf TextVQA deutlich und profitiert von seiner hochauflösenden Architektur und der Integration verschiedener Bildencoder. Insbesondere behält Eagle ein unkompliziertes Design bei und unterstützt bis zu 1024 Token, ohne dass eine komplexe Kachelzerlegung von Bildern erforderlich ist.

Die folgende Abbildung zeigt Beispiele für OCR und Dokumentverständnis. Durch hochauflösende Anpassung und die Einbeziehung weiterer Bildverarbeitungsexperten kann Eagle kleine Texte in Bildern erkennen und Informationen basierend auf Benutzeranweisungen präzise extrahieren. 

Um die Vorteile der Einführung von Experten, die bereits für andere Bildverarbeitungsaufgaben trainiert wurden, besser zu verstehen, zeigt die folgende Abbildung die Ergebnisse eines Modells mit nur den Bildverarbeitungs-Encodern ConvNeXt und CLIP im Vergleich zu den Ergebnissen von Eagle-X5. Mit dem vollständigen Satz von Bildverarbeitungs-Encodern korrigiert das Modell erfolgreich Fehler und zeigt, dass die Fähigkeiten von Eagle sogar dann noch verbessert werden, wenn es mit hochauflösenden Bildverarbeitungs-Encodern ausgestattet ist, die bereits für die Ausrichtung auf Bildsprache trainiert wurden, indem zusätzliche Bildverarbeitungs-Experten integriert werden, die bereits für verschiedene Bildverarbeitungsaufgaben trainiert wurden.

Multimodale Benchmark-Evaluierung

Eagle wird anhand von sieben Benchmarks für MLLMs bewertet, um seine Fähigkeiten aus verschiedenen Perspektiven zu demonstrieren, darunter MME, MMBench, SEED, MathVista, MMMU, ScienceQA und POPE. Insbesondere bewerten MME, MMBench und SEED die Gesamtleistung bei verschiedenen realen Aufgaben, die logisches Denken, Erkennen, Wissen und OCR betreffen. MMMU konzentriert sich auf anspruchsvolle Probleme aus verschiedenen Bereichen, die Kenntnisse auf Hochschulniveau erfordern. POPE bewertet die visuellen Halluzinationen von MLLMs. Die in dieser Bewertung verwendeten Metriken entsprechen den Standardeinstellungen dieser Benchmarks. Eagle meldet den Wahrnehmungswert für MME, den en_dev-Split für MMBench, den Bild-Split von SEED, den Test-Mini-Split von MathVista, den Val-Split von MMMU, den F1-Score von POPE und den Bild-Score für ScienceQA und stellt so die Übereinstimmung mit den gemeldeten Werten anderer Modelle sicher.

Fazit

In diesem Artikel haben wir über Eagle gesprochen, eine eingehende Analyse des Designraums für die Integration von Vision-Encodern in multimodale große Sprachmodelle. Im Gegensatz zu früheren Arbeiten, die sich auf die Entwicklung neuartiger Fusionsparadigmen konzentrierten, stellt Eagle fest, dass systematische Designentscheidungen wichtig sind, und entdeckt eine Reihe nützlicher Techniken. Schritt für Schritt optimiert Eagle das Trainingsrezept einzelner Vision-Encoder, identifiziert eine erweiterbare und effiziente Fusionsmethode und kombiniert nach und nach Vision-Encoder mit unterschiedlichem Domänenwissen. Die Ergebnisse unterstreichen die entscheidende Bedeutung grundlegender Überlegungen zum Designraum.

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.