Künstliche Intelligenz
LLaVA-UHD: ein LMM, das jedes Seitenverhältnis und hochauflösende Bilder wahrnimmt
Die jüngsten Fortschritte und Verbesserungen der großen Sprachmodelle haben eine signifikante Zunahme der Fähigkeiten zur visuell-sprachlichen Argumentation, zum Verständnis und zur Interaktion erfahren. Moderne Frameworks erreichen dies, indem sie visuelle Signale in LLMs oder große Sprachmodelle projizieren, um ihre Fähigkeit zu ermöglichen, die Welt visuell wahrzunehmen, eine Vielzahl von Szenarien, in denen visuelle Kodierungsstrategien eine entscheidende Rolle spielen. Allerdings enthalten reale Bilder nicht nur eine Vielzahl von Szenarien, sie variieren auch erheblich in Bezug auf Auflösungen und Seitenverhältnisse, was für LLMs in verschiedenen Domänen und Aufgaben erhebliche Herausforderungen darstellt. Um die erhebliche Varianz, die durch reale Bilder verursacht wird, zu bewältigen, nehmen moderne große Sprachmodelle Bilder in niedriger Auflösung, d. h. 224×224, und einem festen Seitenverhältnis, d. h. 1:1, wahr. Obwohl der Kompromiss, bei niedriger Auflösung und festem Seitenverhältnis zu bleiben, die Verallgemeinerbarkeit des LLM in realen Anwendungen erhöht, führt er oft dazu, dass die Inhalte des Bildes erheblich verschwommen werden und auch zu schweren Formverzerrungen führt. Der Kompromiss beeinträchtigt erheblich die Fähigkeiten der großen multimodalen Modelle oder LMMs, insbesondere derjenigen, die für feinkörnige Aufgaben wie die optische Zeichenerkennung und das Verständnis kleiner Objekte optimiert sind. Darüber hinaus können die Modelle, da die Auflösung und das Seitenverhältnis vordefiniert sind, nur die besten Schätzungen für die verschwommenen Bilder abgeben, was zu Modell-Halluzinationen führt, eine Situation, in der das Modell textuelle Antworten erzeugt, die nicht faktisch in den Bildern begründet sind.
In diesem Artikel werden wir über LLaVA-UHD sprechen, einem neuen Ansatz, der zunächst die LLaVA-1.5- und die GPT-4V- Frameworks als repräsentative Beispiele nimmt und versucht, die systematischen Mängel aufzudecken, die in ihrer visuellen Kodierungsstrategie verwurzelt sind. Das LLaVA-UHD-Framework, ein multimodales Modell, ist ein Versuch, diese Herausforderungen anzugehen. Das LLaVA-UHD-Framework kann Bilder in hoher Auflösung sowie in jedem Seitenverhältnis wahrnehmen. Das LLaVA-UHD-Framework besteht aus drei Schlüsselkomponenten. Zunächst eine Bildmodularisierungsstrategie, die native Auflösungsbilder in kleinere, variabel große Scheiben teilt, um die Effizienz zu verbessern und die Kodierung zu erweitern. Als Nächstes ein Komprimierungsmodul, das die von den visuellen Encodern erzeugten Bildtoken weiter komprimiert. Schließlich ein räumliches Schema, das die Scheibentoken für die großen Sprachmodelle organisiert. Umfassende Experimente zeigen, dass das LLaVA-UHD-Framework in der Lage ist, die aktuellen großen Sprachmodelle in 9 Benchmarks zu übertreffen. Darüber hinaus kann das LLaVA-UHD-Framework, indem es nur 94% der Inferenzberechnung verwendet, Bilder mit 6-mal höherer Auflösung, d. h. 672×1088, unterstützen.
LLaVA-UHD: Effiziente Wahrnehmung von Bildern in jedem Seitenverhältnis und hoher Auflösung
Die visuell-sprachliche Argumentation, das Verständnis und die Interaktion haben in letzter Zeit erhebliche Fortschritte gemacht, größtenteils aufgrund des jüngsten Schubs für große Sprachmodelle. In modernen Frameworks wird dies dadurch erreicht, dass visuelle Signale in LLMs oder große Sprachmodelle eingespeist werden, um sie in die Lage zu versetzen, die Welt visuell zu interpretieren, eine Vielzahl von Szenarien, die auf visuelle Kodierungsstrategien angewiesen sind. Der Unterschied in den Szenarien spiegelt eine begrenzte Abdeckung der LLMs in verschiedenen Domänen und Aufgaben wider, während der Unterschied in den Auflösungen und Seitenverhältnissen die großen intraklassen Variationsbreiten in den realen Bildern widerspiegelt, die schwer zu handhaben sind. Im Gegensatz zu den kleinen Skalen, die die Varianz verringern, bewältigen Modelle nach BERT die Bedeutung durch die niedrige Auflösung (z. B. für das LLaVA-UHD 224×224) von Bildern mit einem festen Seitenverhältnis, 1:1, um realen Bildern zu geben. Obwohl dieser Kompromiss nützlich ist, um die Verallgemeinerbarkeit des LLM in realen Anwendungen zu gewährleisten, führt er oft dazu, dass die Bilder sehr verschwommen werden und auch zu schweren Formverzerrungen führt. Dies verringert die Fähigkeiten der großen multimodalen Modelle oder LMMs, insbesondere derjenigen, die für feinkörnige Aufgaben wie die optische Zeichenerkennung und das Verständnis kleiner Objekte optimiert sind. Da die Auflösung und das Seitenverhältnis vordefiniert sind, können die Modelle nur die besten Schätzungen für die verschwommenen Bilder abgeben, was zu Modell-Halluzinationen führt, eine Situation, in der das Modell textuelle Antworten erzeugt, die nicht faktisch in den Bildern begründet sind. Warum nehmen Benchmark-LMM-Modelle also keine Bilder in hoher Auflösung und variablen Seitenverhältnissen wahr?
Es gibt zwei Hauptgründe, warum Benchmark-LMMs nicht in der Lage sind, Bilder mit hoher Auflösung und variablen Auflösungen wahrzunehmen. Zunächst ist es schwierig für das Modell und den Encoder, mit Bildern mit variablen Seitenverhältnissen und Auflösungen umzugehen, da die visuellen Encoder in festen Auflösungen vorgebildet werden, was die Anpassungsfähigkeit des Modells erheblich beeinträchtigt. Zweitens ist die direkte Kodierung von hochauflösenden Bildern mit Hilfe von Vision-Transformern mit erheblichen Rechenaufwänden in Bezug auf die Bildgröße verbunden. Darüber hinaus können die Rechenaufwände für das große Sprachmodell, um eine große Anzahl von visuellen Token für hochauflösende Bilder zu verarbeiten, erheblich höher sein, was die Gesamteffizienz des Modells erheblich beeinträchtigt. Um diesen Herausforderungen zu begegnen, nimmt das LLaVA-UHD, ein großes multimodales Modell, das hochauflösende Bilder und jedes Seitenverhältnis wahrnehmen kann, die LLaVA-1.5- und die GPT-4V- Frameworks als repräsentative Beispiele und versucht, die systematischen Mängel aufzudecken, die in ihrer visuellen Kodierungsstrategie verwurzelt sind.

Das obige Bild zeigt die experimentellen Ergebnisse des GPT-4V bei der Identifizierung der Anzahl von Objekten in einem Bild. Im Kern besteht das LLaVA-UHD-Framework aus drei Komponenten. Zunächst eine Bildmodularisierungsstrategie, die native Auflösungsbilder in kleinere, variabel große Scheiben teilt, um die Effizienz zu verbessern und die Kodierung zu erweitern. Im Gegensatz zu den aktuellen LLMs, die Bilder in mehrere feste Auflösungen und Seitenverhältnisse anpassen, ermöglicht die LLaVA-UHD-Framework-Strategie, die variabel großen Scheiben zu generieren, um eine vollständige Anpassung an die native Auflösungsbilder ohne Formverzerrung, Umgrößern oder Auffüllen zu ermöglichen. Zweitens komprimiert das Modell die visuellen Token durch eine Komprimierungsschicht auf eine bescheidene Länge, was die Rechenaufwände für LLMs erheblich reduziert. Schließlich organisiert das Modell die komprimierten Scheibentoken in einem räumlichen Schema, um die Scheibenpositionen in den Bildern dem großen Sprachmodell mitzuteilen.
LLaVA-UHD: Methodik und Architektur
Auf der Grundlage der Erkenntnisse aus einigen Pilotexperimenten, um bestehende Frameworks wie GPT-4V und LLaVA-1.5 zu untersuchen, implementiert das LLaVA-UHD-Framework eine dreiteilige Architektur, wie in dem folgenden Bild gezeigt.

Zunächst eine Bildmodularisierungsstrategie, die native Auflösungsbilder in kleinere, variabel große Scheiben teilt, um die Effizienz zu verbessern und die Kodierung zu erweitern. Als Nächstes ein Komprimierungsmodul, das die von den visuellen Encodern erzeugten Bildtoken weiter komprimiert. Schließlich ein räumliches Schema, das die Scheibentoken für die großen Sprachmodelle organisiert. Lassen Sie uns einen detaillierten Blick auf diese Komponenten werfen.
Modularisierte visuelle Kodierung
Ein häufiger Ansatz, um mit hochauflösenden Bildern mit unterschiedlichem Seitenverhältnis umzugehen, besteht darin, die Positionseingaben des Vision-Transformers oder ViT auf die Zielgröße zu interpolieren, um direkt als Ganzes zu kodieren. Allerdings ist die Implementierung dieses Ansatzes oft mit hohen Rechenaufwänden verbunden, und Probleme außerhalb der Verteilung führen zu einer weiteren Leistungsverschlechterung. Um diese Herausforderung zu bewältigen, präsentiert das LLaVA-UHD-Framework eine modularisierte visuelle Kodierungsstrategie, die im Wesentlichen darauf abzielt, native Auflösungsbilder in kleinere, variabel große Scheiben zu teilen, deren Form jeweils nahe der Standard-Vortrainings-Einstellung des Vision-Transformers liegt. Aufgrund der Verwendung variabel großer Scheiben kann das LLaVA-UHD-Framework eine vollständige Anpassung an die native Auflösungsbilder ohne Umgrößern oder Auffüllen erreichen. Darüber hinaus besteht das primäre Ziel der Bildscheibenstrategie darin, eine Aufteilung von hochauflösenden Bildern mit minimalen Änderungen der Auflösungen jeder Scheibe zu bestimmen. Für ein gegebenes Bild mit einer bestimmten Auflösung (w, h) und einem Vision-Transformer, der in einer anderen Auflösung vorgebildet wurde, bestimmt das LLaVA-UHD-Framework zunächst die ideale Rechenleistung, d. h. die Anzahl der Scheiben, die zum Verarbeiten des Bildes erforderlich sind. Das Framework teilt dann die Anzahl der Scheiben in m Spalten und n Zeilen auf. Das Framework definiert dann eine Bewertungsfunktion, um die Abweichung von der Standard-Vortrainings-Einstellung des Vision-Transformers zu messen. Theoretisch kann das LLaVA-UHD-Framework demonstrieren, dass die Partitionierungsstrategie, die in seiner Architektur implementiert ist, geringe erwartete Änderungen und moderate Worst-Case-Änderungen in Bezug auf die Standard-Vortrainingsauflösung für jede Scheibe garantiert.
Darüber hinaus implementieren die meisten aktuellen LLMs eine statische Auflösung für die Bildscheibenkodierung, ein Ansatz, der die vollständige Anpassung des Modells an die native Auflösungen verhindert, da sie nur Zugang zu mehreren vordefinierten, festen Formscheiben haben. Zusätzlich verletzt die statische Scheibenauflösung die Leistung, Effizienz und Korrektheit des Modells, da sie unweigerlich zu Formverzerrungen, Umgrößern oder Auffüllen führt. Um dieses Problem zu bewältigen, schlägt das LLaVA-UHD-Framework vor, die Bildscheiben in dem Seitenverhältnis zu kodieren, das durch die Partitionierungsstrategie definiert ist. Um genauer zu sein, vergrößert das LLaVA-UHD-Framework zunächst das ursprüngliche Bild proportional gemäß dem Seitenverhältnis, sodass die Anzahl der Patches innerhalb des Vortrainingsbudgets, d. h. der Anzahl der Positionseingaben-Sequenzen im Vision-Transformer, maximal bleibt. Das LLaVA-UHD-Modell formt dann die vorgebildete 1D-Positionseingabe-Sequenz des Vision-Transformers in ein 2D-Format um, gemäß seiner Vortrainings-Einstellung.
Komprimierungsschicht
Ein häufiges Problem, mit dem LLMs bei der Verarbeitung von hochauflösenden Bildern konfrontiert sind, ist, dass die Anzahl der visuellen Token, die sie verarbeiten müssen, erheblich höher ist (zum Vergleich: das LLaVA-1.5-Framework erzeugt bei der Verarbeitung eines einzelnen Bildes mit einer Auflösung von 672×1008 etwa 3500 visuelle Token), was einen großen Teil der Rechenressourcen und -kosten ausmacht. Um dieser Herausforderung zu begegnen, implementiert das LLaVA-UHD-Modell eine gemeinsame Perceiver-Resampler-Schicht, um die visuellen Token jeder Bildscheibe zu komprimieren. Das Modell implementiert dann einen Satz von Abfragevektoren über Kreuz-Aufmerksamkeit, um die Ausgabe der Bildtoken durch die visuellen Encoder auf eine geringere Anzahl zu resamples. Im Vergleich zu den gängigen Multilayer-Perceptron-basierten visuellen Projektionsstrategien kann der Perceiver-Resampler-Ansatz, der von LLaVA-UHD implementiert wird, eine erschwingliche, aber feste Anzahl von visuellen Token unabhängig von der Bildauflösung beibehalten, was das LLaVA-UHD-Framework für die Verarbeitung und das Verständnis von hochauflösenden Bildern kompatibler macht. Um dies zu veranschaulichen, generiert das LLaVA-UHD-Framework die gleiche Anzahl von Token, wenn es ein Bild mit einer Auflösung von 672×1008 kodiert, wie das LLaVA-1.5-Framework, wenn es ein Bild mit einer Auflösung von 336×336 kodiert, was etwa 6-mal effizienter ist als sein Wettbewerber.
Räumliches Schema für Bildscheiben
Es ist notwendig, dem großen Sprachmodell die räumliche Organisation der Bildscheiben mitzuteilen, da die Partitionierung von Bildern dynamisch über verschiedene Bilder hinweg ist. Das LLaVA-UHD-Framework entwirft und implementiert ein räumliches Schema, das zwei spezielle Token verwendet, um dem LLM die relative Position der Bildscheiben mitzuteilen. Unter diesem räumlichen Schema verwendet das LLaVA-UHD-Framework “,” um die Scheibenrepräsentationen in einer Zeile zu trennen, und die verschiedenen Zeilen werden durch ein “n” getrennt.
LLaVA-UHD: Experimente und Ergebnisse
Das LLaVA-UHD-Framework wird gegen 9 beliebte Benchmarks bewertet, einschließlich allgemeiner visueller Frage-Antwort-Benchmarks, optischer Zeichen-basierter visueller Frage-Antwort-Benchmarks, Halluzinations-Benchmarks und umfassender Benchmarks. Darüber hinaus wird das LLaVA-UHD-Framework mit starken Baselines wie LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 und mehr verglichen.
Die Leistung des LLaVA-UHD-Frameworks in 9 beliebten Benchmarks wird zusammengefasst und mit beliebten Benchmarks in der folgenden Tabelle verglichen.

Basierend auf den obigen Ergebnissen kann festgestellt werden, dass das LLaVA-UHD-Framework in der Lage ist, starke Baselinemodelle in beliebten Benchmarks zu übertreffen, einschließlich starker allgemeiner Baselinemodelle, die auf einer erheblich größeren Menge an Daten trainiert wurden, sowie LLMs, die erheblich mehr Rechenleistung benötigen, wie Fuyu-8B, Monkey und mehr. Zweitens zeigen die Ergebnisse auch, dass das LLaVA-UHD-Framework erheblich bessere Ergebnisse als die LLaVA-1.5-Architektur erzielt, und während die LLaVA-1.5 eine feste Auflösung von 336×336 unterstützt, unterstützt das LLaVA-UHD-Framework Bilder mit einer Auflösung von 672×1088 und jedem Seitenverhältnis, sowie die gleiche Anzahl von visuellen Token.


Schlussgedanken
In diesem Artikel haben wir über LLaVA-UHD gesprochen, einem neuen Ansatz, der zunächst die LLaVA-1.5- und die GPT-4V- Frameworks als repräsentative Beispiele nimmt und versucht, die systematischen Mängel aufzudecken, die in ihrer visuellen Kodierungsstrategie verwurzelt sind. Das LLaVA-UHD-Framework, ein multimodales Modell, ist ein Versuch, diese Herausforderungen anzugehen. Das LLaVA-UHD-Framework kann Bilder in hoher Auflösung sowie in jedem Seitenverhältnis wahrnehmen. Das LLaVA-UHD-Framework besteht aus drei Schlüsselkomponenten. Zunächst eine Bildmodularisierungsstrategie, die native Auflösungsbilder in kleinere, variabel große Scheiben teilt, um die Effizienz zu verbessern und die Kodierung zu erweitern. Als Nächstes ein Komprimierungsmodul, das die von den visuellen Encodern erzeugten Bildtoken weiter komprimiert. Schließlich ein räumliches Schema, das die Scheibentoken für die großen Sprachmodelle organisiert. Umfassende Experimente zeigen, dass das LLaVA-UHD-Framework in der Lage ist, die aktuellen großen Sprachmodelle in 9 Benchmarks zu übertreffen. Darüber hinaus kann das LLaVA-UHD-Framework, indem es nur 94% der Inferenzberechnung verwendet, Bilder mit 6-mal höherer Auflösung, d. h. 672×1088, unterstützen.












