Kunstig intelligens

Multimodal AI udvikler sig, da ChatGPT får syn med GPT-4V(ision)

Published October 9, 2023

Updated April 4, 2026

Aayush Mittal Mittal

I den fortsatte bestræbelse på at gøre AI mere menneskelignende har OpenAI’s GPT-modeller konstant udvidet grænserne. GPT-4 kan nu acceptere prompts af både tekst og billeder.

Seneste fremskridt i multimodal AI

En bemærkelsesværdig udvikling i dette felt er integrationen af DALL-E 3 i ChatGPT, en betydelig opgradering af OpenAI’s tekst-til-billede-teknologi. Denne kombination muliggør en mere flydende interaktion, hvor ChatGPT hjælper med at udarbejde præcise prompts for DALL-E 3, og omdanner brugernes ideer til levende AI-genereret kunst. Således kan brugerne også interagereekte med DALL-E 3, men med ChatGPT som en del af processen, bliver skabelsen af AI-kunst meget mere brugervenlig. Læs mere om DALL-E 3 og dens integration med ChatGPT her. Dette samarbejde viser ikke kun fremgangen i multimodal AI, men gør også AI-kunstskabelsen til en leg for brugerne.

https://openai.com/dall-e-3

Google’s sundhedsafdeling introducerede i juni dette år Med-PaLM M, der er en multimodal generativ model, der er dygtig til at kodificere og fortolke forskellige biomedicinske data. Dette blev opnået ved at finjustere PaLM-E, et sprogmodel, til at imødekomme medicinske domæner ved hjælp af en open-source-benchmark, MultiMedBench. Denne benchmark består af over 1 million eksempler på tværs af 7 biomedicinske datatyper og 14 opgaver som medicinsk spørgsmålssvar og generering af radiologirapporter.

GPT-4 Vision Mechanics

GPT-4’s bemærkelsesværdige visuelt-sproglige evner, selvom de er imponerende, har underliggende metoder, der forbliver på overfladen.

Udforskning af GPT-4 Vision

Bestemmelse af billeders oprindelse med ChatGPT

GPT-4 Vision forbedrer ChatGPT’s evne til at analysere billeder og pege på deres geografiske oprindelse. Denne funktion overgår brugernes interaktioner fra kun tekst til en blanding af tekst og billeder og bliver et håndværktøj for dem, der er nysgerrige efter at se på forskellige steder gennem billeddata.

At spørge ChatGPT, hvor et billede af et vartegn er taget

Komplekse matematiske begreber

GPT-4 Vision udmærker sig ved at dykke ned i komplekse matematiske ideer ved at analysere grafiske eller håndskrevne udtryk. Denne funktion fungerer som et nyttigt værktøj for personer, der søger at løse intrikate matematiske problemer, og markerer GPT-4 Vision som en bemærkelsesværdig hjælp i uddannelses- og akademiske felter.

At spørge ChatGPT om at forstå et komplekst matematisk begreb

Omvandling af håndskrevne input til LaTeX-koder

En af GPT-4V’s bemærkelsesværdige evner er dens evne til at oversætte håndskrevne input til LaTeX-koder. Denne funktion er en velsignelse for forskere, akademikere og studerende, der ofte har brug for at omdanne håndskrevne matematiske udtryk eller anden teknisk information til en digital format. Transformationen fra håndskrevet til LaTeX udvider horisonten for dokumentdigitalisering og forenkler den tekniske skriveproces.

GPT-4V’s evne til at konvertere håndskrevet input til LaTeX-koder

Ekstraktion af tabeldetaljer

GPT-4V viser evner i at trække detaljer ud af tabeller og besvare relaterede spørgsmål, en vital aktiv for dataanalyse. Brugere kan udnytte GPT-4V til at sieve gennem tabeller, samle nøgleinformationer og løse spørgsmål, hvilket gør det til et kraftfuldt værktøj for dataanalytikere og andre fagfolk.

GPT-4V kan forstå detaljer i tabellen og besvare relaterede spørgsmål

Forståelse af visuelt pege

GPT-4V’s unikke evne til at forstå visuelt pege tilføjer en ny dimension til brugerinteraktion. Ved at forstå visuelle signaler kan GPT-4V besvare spørgsmål med en højere kontekstuel forståelse.

GPT-4V-demonstrates-the-unique-capability-of-understanding-visual-pointing

GPT-4V viser den unikke evne til at forstå visuelt pege

Opbygning af enkle mock-up-websider ved hjælp af tegning

Motiveret af denne tweet, forsøgte jeg at opbygge en mock-up til Unite.AI-websitet.

</div

Related Topics:chatgpt DALL-E 3 Multimodal AI PROMPT ENGINEERING

Aayush Mittal

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.

Unite.AI