Künstliche Intelligenz

Multimodale KI entwickelt sich weiter, da ChatGPT mit GPT-4V (ision) das Sehen erlangt

Published October 9, 2023

Updated April 4, 2026

Aayush Mittal Mittal

In dem kontinuierlichen Bemühen, KI menschlicher zu machen, haben OpenAIs GPT-Modelle ständig die Grenzen erweitert. GPT-4 kann nun Anfragen sowohl im Text als auch in Bildern akzeptieren.

Multimodalität in generativer KI bezeichnet die Fähigkeit eines Modells, verschiedene Ausgaben wie Text, Bilder oder Audio basierend auf der Eingabe zu erzeugen. Diese Modelle, die auf spezifischen Daten trainiert werden, lernen zugrunde liegende Muster, um ähnliche neue Daten zu generieren, und bereichern so KI-Anwendungen.

Neue Entwicklungen in multimodaler KI

Ein bemerkenswerter Schritt in diesem Bereich ist die Integration von DALL-E 3 in ChatGPT, eine bedeutende Verbesserung von OpenAIs Text-zu-Bild-Technologie. Diese Kombination ermöglicht eine nahtlosere Interaktion, bei der ChatGPT hilft, präzise Anfragen für DALL-E 3 zu formulieren, und so Benutzerideen in lebendige KI-generierte Kunst umwandelt. So können Benutzerekt mit DALL-E 3 interagieren, aber die Kombination mit ChatGPT macht den Prozess der Erstellung von KI-Kunst noch benutzerfreundlicher.

Erfahren Sie mehr über DALL-E 3 und seine Integration mit ChatGPT hier. Diese Zusammenarbeit zeigt nicht nur den Fortschritt in multimodaler KI, sondern macht auch die Erstellung von KI-Kunst für Benutzer zu einem Kinderspiel.

https://openai.com/dall-e-3

Google’s Health hat auf der anderen Seite im Juni dieses Jahres Med-PaLM M vorgestellt. Es handelt sich um ein multimodales generatives Modell, das darauf spezialisiert ist, diverse biomedizinische Daten zu kodieren und zu interpretieren. Dies wurde durch Feinabstimmung von PaLM-E, einem Sprachmodell, für medizinische Domänen unter Verwendung eines Open-Source-Benchmarks, MultiMedBench, erreicht. Dieser Benchmark besteht aus über 1 Million Samples aus 7 biomedizinischen Datentypen und 14 Aufgaben wie medizinischer Fragebeantwortung und Erstellung von Röntgenberichten.

GPT-4 Vision-Mechanik

GPT-4s bemerkenswerte visuelle Sprachfähigkeiten, obwohl beeindruckend, haben zugrunde liegende Methoden, die an der Oberfläche bleiben.

Erkundung von GPT-4 Vision

Bestimmung der Bildursprünge mit ChatGPT

GPT-4 Vision verbessert ChatGPTs Fähigkeit, Bilder zu analysieren und ihre geografischen Ursprünge zu bestimmen. Diese Funktion übergeht Benutzerinteraktionen von reinem Text zu einer Mischung aus Text und visuellen Elementen und wird zu einem nützlichen Werkzeug für diejenigen, die sich über verschiedene Orte durch Bilddaten informieren möchten.

Fragt ChatGPT, wo ein Landmark-Bild aufgenommen wurde

Komplexe mathematische Konzepte

GPT-4 Vision excelt in der Erforschung komplexer mathematischer Ideen durch Analyse grafischer oder handschriftlicher Ausdrücke. Diese Funktion dient als nützliches Werkzeug für Personen, die komplexe mathematische Probleme lösen möchten, und markiert GPT-4 Vision als bemerkenswerte Hilfe in Bildung und Wissenschaft.

Fragt ChatGPT, ein komplexes mathematisches Konzept zu verstehen

Umwandlung von handschriftlichen Eingaben in LaTeX-Code

Eine der bemerkenswerten Fähigkeiten von GPT-4V ist die Fähigkeit, handschriftliche Eingaben in LaTeX-Code umzuwandeln. Diese Funktion ist ein Segen für Forscher, Akademiker und Studenten, die oft handschriftliche mathematische Ausdrücke oder andere technische Informationen in ein digitales Format umwandeln müssen. Die Umwandlung von handschriftlichem in LaTeX erweitert den Horizont der Dokumentendigitalisierung und vereinfacht den technischen Schreibprozess.

GPT-4V’s Fähigkeit, handschriftliche Eingaben in LaTeX-Code umzuwandeln

Extrahierung von Tabellendetails

GPT-4V zeigt Fähigkeiten bei der Extrahierung von Details aus Tabellen und beantwortet damit verbundene Anfragen, ein wertvolles Asset in der Datenanalyse. Benutzer können GPT-4V nutzen, um durch Tabellen zu suchen, wichtige Erkenntnisse zu sammeln und datengetriebene Fragen zu beantworten, was es zu einem robusten Werkzeug für Datenanalysten und andere Fachleute macht.

GPT-4V entschlüsselt Tabellendetails und beantwortet damit verbundene Anfragen

Verständnis von visuellem Zeigen

Die einzigartige Fähigkeit von GPT-4V, visuelles Zeigen zu verstehen, fügt eine neue Dimension der Benutzerinteraktion hinzu. Durch das Verständnis visueller Hinweise kann GPT-4V auf Anfragen mit höherem Kontextverständnis reagieren.

GPT-4V zeigt die einzigartige Fähigkeit, visuelles Zeigen zu verstehen

Erstellung einfacher Mock-Up-Websites mithilfe einer Zeichnung

Motiviert durch diesen Tweet, versuchte ich, ein Mock-Up für die Unite.AI-Website zu erstellen.

Einschränkungen und Mängel von GPT-4V(ision)

Um GPT-4V zu analysieren, führte das Open-AI-Team qualitative und quantitative Bewertungen durch. Qualitative Bewertungen umfassten interne Tests und externe Expertenbewertungen, während quantitative Bewertungen Modellverweigerungen und Genauigkeit in verschiedenen Szenarien wie der Identifizierung schädlicher Inhalte, demographischer Erkennung, Datenschutzbedenken, Geolocation, Cybersicherheit und multimodalen Jailbreaks maßen.

Related Topics:chatgpt DALL-E 3 Multimodal AI PROMPT ENGINEERING

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.

Unite.AI