Künstliche Intelligenz
EAGLE: Erforschung des Designraums für Multimodale Große Sprachmodelle mit einer Mischung von Encodern
Die Fähigkeit, komplexe visuelle Informationen genau zu interpretieren, ist ein entscheidender Fokus multimodaler großer Sprachmodelle (MLLMs). Aktuelle Arbeiten zeigen, dass eine verbesserte visuelle Wahrnehmung Halluzinationen erheblich reduziert und die Leistung bei auflösungssensitiven Aufgaben wie optischer Zeichenerkennung und Dokumentenanalyse verbessert. Mehrere aktuelle MLLMs erreichen dies, indem sie eine Mischung von Bildencodern verwenden. Trotz ihres Erfolgs gibt es einen Mangel an systematischen Vergleichen und detaillierten Ablationsstudien, die kritische Aspekte wie Expertenauswahl und die Integration mehrerer Bildexperten ansprechen. Dieser Artikel bietet eine umfassende Erforschung des Designraums für MLLMs mit einer Mischung von Bildencodern und Auflösungen, dem Eagle-Framework, das versucht, den Designraum für multimodale große Sprachmodelle mit einer Mischung von Encodern zu erforschen. Die Ergebnisse zeigen mehrere zugrunde liegende Prinzipien, die verschiedenen bestehenden Strategien gemeinsam sind, was zu einem gestrafften, aber effektiven Designansatz führt. Eagle entdeckt, dass das einfache Konkatenieren von visuellen Token aus einer Menge komplementärer Bildencoder genauso effektiv ist wie komplexere Mischarchitekturen oder Strategien. Darüber hinaus führt Eagle Pre-Alignment ein, um die Lücke zwischen bildorientierten Encodern und Sprachtoken zu überbrücken und die Modellkohärenz zu verbessern. Die resultierende Familie von MLLMs, Eagle, übertrifft andere führende Open-Source-Modelle auf wichtigen MLLM-Benchmarks.
Eagles Arbeit ist mit der allgemeinen Architekturdesign von multimodalen großen Sprachmodellen (MLLMs) verwandt. Neben der Linie der repräsentativen Open-Source-Forschung, die zuvor erwähnt wurde, gehören andere bemerkenswerte Familien von MLLMs unter anderem MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini und Llama 3.1. Abhängig von der Art und Weise, wie Bildsignale in das Sprachmodell integriert werden, können MLLMs in “cross-modale Aufmerksamkeit”-Modelle und “Prefix-Tuning”-Modelle unterteilt werden. Erstere injizieren visuelle Informationen in verschiedene Schichten von LLMs mithilfe cross-modaler Aufmerksamkeit, während letztere visuelle Token als Teil der Sprachtoken-Sequenz behandeln und sie direkt mit Text-Embeddings anfügen. Eagles Modell gehört zur Prefix-Tuning-Familie, indem es eine LLaVA-ähnliche multimodale Architektur befolgt. Da MLLM ein sich schnell entwickelndes Feld ist, empfiehlt Eagle, für weitere Einblicke detailliertere Studien und Umfragen zu konsultieren.
… (rest of the translation remains the same, following the exact structure and format as the original)








