Kunstmatige intelligentie

Multimodale AI evolueert met ChatGPT die zicht krijgt met GPT-4V(ision)

Published October 9, 2023

Updated April 4, 2026

Aayush Mittal Mittal

In de voortdurende inspanning om AI meer zoals mensen te maken, hebben de GPT-modellen van OpenAI de grenzen voortdurend verlegd. GPT-4 kan nu prompts accepteren van zowel tekst als afbeeldingen.

Multimodaliteit in generatieve AI geeft de mogelijkheid van een model aan om diverse uitvoer te produceren, zoals tekst, afbeeldingen of audio, op basis van de invoer. Deze modellen, getraind op specifieke gegevens, leren onderliggende patronen om soortgelijke nieuwe gegevens te genereren, waardoor AI-toepassingen worden verrijkt.

Recente vooruitgang in multimodale AI

Een recente opvallende sprong in dit veld is te zien met de integratie van DALL-E 3 in ChatGPT, een significante upgrade in OpenAI’s tekst-naar-afbeeldingstechnologie. Deze combinatie maakt een soepelere interactie mogelijk waarbij ChatGPT helpt bij het maken van precieze prompts voor DALL-E 3, waardoor gebruikersideeën worden omgezet in levendige AI-gegenereerde kunst. Dus, terwijl gebruikers rechtstreeks kunnen communiceren met DALL-E 3, maakt het hebben van ChatGPT in de mix het proces van het maken van AI-kunst veel gebruikersvriendelijker.

Kijk voor meer informatie over DALL-E 3 en de integratie met ChatGPT hier. Deze samenwerking toont niet alleen de vooruitgang in multimodale AI, maar maakt ook het creëren van AI-kunst een fluitje van een cent voor gebruikers.

https://openai.com/dall-e-3

Google’s health aan de andere kant introduceerde Med-PaLM M in juni van dit jaar. Het is een multimodale generatief model dat bedreven is in het coderen en interpreteren van diverse biomedische gegevens. Dit werd bereikt door het fijn afstemmen van PaLM-E, een taalmodel, om te voldoen aan medische domeinen met behulp van een open-source benchmark, MultiMedBench. Deze benchmark bestaat uit meer dan 1 miljoen samples over 7 biomedische gegevenstypen en 14 taken zoals medische vraagbeantwoording en radiologierapportgeneratie.

Verschillende industrieën nemen innovatieve multimodale AI-hulpmiddelen aan om bedrijfsuitbreiding te stimuleren, operaties te stroomlijnen en klantbetrokkenheid te verhogen. Vooruitgang in spraak-, video- en tekst-AI-mogelijkheden zet de groei van multimodale AI aan.

Bedrijven zoeken naar multimodale AI-toepassingen die in staat zijn om bedrijfsmodellen en -processen te transformeren, waardoor groeimogelijkheden worden geopend over het hele generatieve AI-ecosysteem, van gegevenstools tot opkomende AI-toepassingen.

Na de lancering van GPT-4 in maart, merkten sommige gebruikers een daling in de responskwaliteit op over tijd, een zorg die werd geuit door opvallende ontwikkelaars en op de forums van OpenAI. Aanvankelijk werd dit door OpenAI verworpen, maar een latere studie bevestigde het probleem. Het onthulde een daling in de nauwkeurigheid van GPT-4 van 97,6% tot 2,4% tussen maart en juni, wat wijst op een daling in antwoordkwaliteit met opeenvolgende modelupdates.

ChatGPT (Blauw) & Artificial intelligence (Rood) Google Search Trend

De hype rond Open AI’s ChatGPT is nu terug. Het komt nu met een visiefunctie GPT-4V, waardoor gebruikers GPT-4 kunnen laten analyseren van afbeeldingen die door hen zijn gegeven. Dit is de nieuwste functie die voor gebruikers is geopend.

Het toevoegen van afbeeldingsanalyse aan grote taalmodellen (LLM’s) zoals GPT-4 wordt door sommigen gezien als een grote stap vooruit in AI-onderzoek en -ontwikkeling. Dit soort multimodale LLM opent nieuwe mogelijkheden, waardoor taalmodellen voorbij tekst gaan en nieuwe interfaces bieden en nieuwe soorten taken oplossen, waardoor gebruikers nieuwe ervaringen krijgen.

De training van GPT-4V was voltooid in 2022, met vroegtijdige toegang uitgerold in maart 2023. De visuele functie in GPT-4V wordt aangedreven door GPT-4-tech. Het trainingsproces bleef hetzelfde. Aanvankelijk was het model getraind om het volgende woord in een tekst te voorspellen met een enorme dataset van zowel tekst als afbeeldingen van diverse bronnen, waaronder het internet.

Later werd het fijn afgestemd met meer gegevens, met behulp van een methode genaamd versterking van het leren van menselijke feedback (RLHF), om uitvoer te genereren die door mensen werd bevoroordeeld.

GPT-4 Visiemechanica

GPT-4’s opvallende visuele taalvaardigheden, hoewel indrukwekkend, hebben onderliggende methoden die aan de oppervlakte blijven.

Om deze hypothese te onderzoeken, werd een nieuw visueel-taalmodel geïntroduceerd, MiniGPT-4, met behulp van een geavanceerd LLM genaamd Vicuna. Dit model gebruikt een visuele encoder met vooraf getrainde componenten voor visuele perceptie, die aansluit bij de Vicuna-taalmodel door middel van een enkele projectielaag. De architectuur van MiniGPT-4 is eenvoudig maar effectief, met de focus op het uitlijnen van visuele en taalkenmerken om visuele conversatievaardigheden te verbeteren.

MiniGPT-4’s architectuur omvat een visuele encoder met vooraf getrainde ViT en Q-Former, een enkele lineaire projectielaag en een geavanceerd Vicuna-groot taalmodel.

De trend van autoregressieve taalmodellen in visuele-taaltaken is ook toegenomen, waarbij gebruik wordt gemaakt van cross-modale overdracht om kennis te delen tussen taal- en multimodale domeinen.

MiniGPT-4 verbindt de visuele en taaldomeinen door visuele informatie van een vooraf getrainde visuele encoder uit te lijnen met een geavanceerd LLM. Het model gebruikt Vicuna als taaldecoder en volgt een tweefasentrainingsaanpak. Aanvankelijk wordt het getraind op een grote dataset van afbeelding-tekstparen om visuele-taalvaardigheden te begrijpen, gevolgd door fijn afstemmen op een kleinere, hoogwaardige dataset om generatiebetrouwbaarheid en bruikbaarheid te verbeteren.

Om de natuurlijkheid en bruikbaarheid van gegenereerde taal in MiniGPT-4 te verbeteren, ontwikkelden onderzoekers een tweefasenalignatieproces, om het gebrek aan adequate visuele-taaluitlijningsdatasets aan te pakken. Ze curateerden een gespecialiseerde dataset voor dit doel.

Aanvankelijk genereerde het model gedetailleerde beschrijvingen van invoerafbeeldingen, waarbij de details werden verbeterd door het gebruik van een conversatieprompt die aansluit bij de Vicuna-taalmodelindeling.

Initiële afbeeldingsbeschrijvingsprompt:

###Human: <Img><ImageFeature></Img>Beschrijf deze afbeelding in detail. Geef zoveel mogelijk details. Zeg alles wat je ziet. ###Assistant:

Voor datapostverwerking werden eventuele inconsistenties of fouten in de gegenereerde beschrijvingen gecorrigeerd met behulp van ChatGPT, gevolgd door handmatige verificatie om een hoge kwaliteit te garanderen.

Tweede-fase fijnafstemmingsprompt:

###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

Deze verkenning opent een venster naar het begrijpen van de mechanismen van multimodale generatieve AI zoals GPT-4, waarbij licht wordt geworpen op hoe visuele en taalmodi effectief kunnen worden geïntegreerd om coherente en contextueel rijke uitvoer te genereren.

Verkennen van GPT-4 Visie

Bepalen van afbeeldingsbronnen met ChatGPT

GPT-4 Visie verhoogt ChatGPT’s vermogen om afbeeldingen te analyseren en hun geografische oorsprong te bepalen. Deze functie verandert gebruikersinteracties van alleen tekst in een combinatie van tekst en visuele elementen, waardoor het een handig hulpmiddel wordt voor mensen die nieuwsgierig zijn naar verschillende plaatsen via beeldgegevens.

Vragen stellen aan ChatGPT waar een landmarkafbeelding is gemaakt

Complex wiskundig concept

GPT-4 Visie blinkt uit in het onderzoeken van complexe wiskundige ideeën door grafische of met de hand geschreven uitdrukkingen te analyseren. Deze functie fungeert als een nuttig hulpmiddel voor personen die ingewikkelde wiskundige problemen proberen op te lossen, waardoor GPT-4 Visie een opvallende hulp is in educatieve en academische velden.

Vragen stellen aan ChatGPT om een complex wiskundig concept te begrijpen

Omzetten van met de hand ingevoerde gegevens in LaTeX-codes

Een van de opvallende mogelijkheden van GPT-4V is de mogelijkheid om met de hand ingevoerde gegevens om te zetten in LaTeX-codes. Deze functie is een zegen voor onderzoekers, academici en studenten die vaak met de hand geschreven wiskundige uitdrukkingen of andere technische gegevens in een digitale indeling moeten omzetten. De transformatie van met de hand naar LaTeX breidt de horizon van documentdigitisering uit en vereenvoudigt het technische schrijfproces.

GPT-4V’s mogelijkheid om met de hand ingevoerde gegevens om te zetten in LaTeX-codes

Extractie van tabellengegevens

GPT-4V toont vaardigheid in het extraheren van gegevens uit tabellen en het beantwoorden van gerelateerde vragen, een essentieel actief voor gegevensanalyse. Gebruikers kunnen GPT-4V gebruiken om door tabellen te zoeken, belangrijke inzichten te verzamelen en gegevensgestuurde vragen op te lossen, waardoor het een robuust hulpmiddel is voor gegevensanalisten en andere professionals.

GPT-4V begrijpt de details in de tabel en beantwoordt gerelateerde vragen

Visueel aanwijzen begrijpen

De unieke mogelijkheid van GPT-4V om visueel aanwijzen te begrijpen, voegt een nieuwe dimensie toe aan gebruikersinteractie. Door visuele hints te begrijpen, kan GPT-4V vragen beantwoorden met een hogere contextuele begrip.

GPT-4V toont de unieke mogelijkheid om visueel aanwijzen te begrijpen

Een eenvoudige mock-upwebsite maken met een tekening

Gemotiveerd door deze tweet, probeerde ik een mock-up te maken voor de Unite.AI-website.

Hoewel het resultaat niet helemaal overeenkwam met mijn oorspronkelijke visie, hier is het resultaat dat ik behaalde.

ChatGPT Vision gebaseerde HTML-frontend

Beperkingen en fouten van GPT-4V(ision)

Om GPT-4V te analyseren, voerde het Open AI-team kwalitatieve en kwantitatieve beoordelingen uit. Kwalitatieve beoordelingen omvatten interne tests en externe expertbeoordelingen, terwijl kwantitatieve beoordelingen modelweigeringen en nauwkeurigheid in verschillende scenario’s maten, zoals het identificeren van schadelijke inhoud, demografische herkenning, privacyproblemen, geolocatie, cybersecurity en multimodale inbreuken.

Toch is het model niet perfect.

Het paper benadrukt de beperkingen van GPT-4V, zoals onjuiste inferenties en ontbrekende tekst of tekens in afbeeldingen. Het kan hallucineren of feiten verzinnen. In het bijzonder is het niet geschikt voor het identificeren van gevaarlijke stoffen in afbeeldingen, die het vaak verkeerd identificeert.

In medische beeldvorming kan GPT-4V inconsistentie antwoorden geven en ontbreekt het aan kennis van standaardpraktijken, wat kan leiden tot potentiële misdiagnoses.

Onbetrouwbaar voor medische doeleinden (Bron)

Het faalt ook om de nuances van bepaalde haatsymbolen te begrijpen en kan ongepaste inhoud genereren op basis van visuele invoer. OpenAI raadt aan om GPT-4V niet te gebruiken voor kritische interpretaties, vooral in medische of gevoelige contexten.

Samenvatting

Gemaakt met Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

De komst van GPT-4 Visie (GPT-4V) brengt een aantal interessante mogelijkheden en nieuwe uitdagingen met zich mee. Voordat het werd uitgerold, is veel moeite gedaan om ervoor te zorgen dat risico’s, vooral met betrekking tot afbeeldingen van personen, grondig zijn onderzocht en verminderd. Het is indrukwekkend om te zien hoe GPT-4V vooruitgang heeft geboekt, met veelbelovende resultaten in moeilijke gebieden zoals geneeskunde en wetenschap.

Nu zijn er enkele grote vragen op tafel. Bijvoorbeeld, zouden deze modellen in staat moeten zijn om beroemde personen te identificeren op basis van afbeeldingen? Zouden ze moeten raden naar iemands geslacht, ras of gevoelens op basis van een afbeelding? En zouden er speciale aanpassingen moeten worden gemaakt om visueel gehandicapten te helpen? Deze vragen openen een doos van wormen over privacy, eerlijkheid en hoe AI in ons leven past, waar iedereen een mening over zou moeten hebben.

Related Topics:chatgpt DALL-E 3 Multimodal AI PROMPT ENGINEERING

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.

Unite.AI