Connect with us

Kunstmatige intelligentie

Zie, denk, leg uit: De opkomst van visuele taalmodellen in AI

mm

Ongeveer een decennium geleden was kunstmatige intelligentie verdeeld tussen beeldherkenning en taalbegrip. Visuele modellen konden objecten herkennen, maar konden ze niet beschrijven, en taalmodellen konden tekst genereren, maar konden niet “zien”. Vandaag verdwijnt die scheiding snel. Visuele taalmodellen (VLM’s) combineren nu visuele en taalvaardigheden, waardoor ze afbeeldingen kunnen interpreteren en uitleggen op een manier die bijna menselijk aanvoelt. Wat ze echt opmerkelijk maakt, is hun stap-voor-stap redeneringsproces, bekend als Chain-of-Thought, dat helpt om deze modellen om te zetten in krachtige, praktische tools in branches als gezondheidszorg en onderwijs. In dit artikel zullen we onderzoeken hoe VLM’s werken, waarom hun redenering ertoe doet en hoe ze branches van geneeskunde tot zelfrijdende auto’s transformeren.

Visuele taalmodellen begrijpen

Visuele taalmodellen, of VLM’s, zijn een type kunstmatige intelligentie dat zowel afbeeldingen als tekst tegelijk kan begrijpen. In tegenstelling tot oudere AI-systemen die alleen tekst of afbeeldingen konden verwerken, combineren VLM’s deze twee vaardigheden. Dit maakt ze buitengewoon veelzijdig. Ze kunnen naar een afbeelding kijken en beschrijven wat er gebeurt, vragen over een video beantwoorden of zelfs afbeeldingen creëren op basis van een geschreven beschrijving.

Bijvoorbeeld, als je een VLM vraagt om een foto van een hond die in een park rent te beschrijven. Een VLM zegt niet alleen: “Er is een hond.” Het kan je vertellen: “De hond jaagt op een bal bij een grote eikenboom.” Het ziet de afbeelding en verbindt deze met woorden op een manier die zin heeft. Deze mogelijkheid om visueel en taalbegrip te combineren, creëert allerlei mogelijkheden, van het helpen bij het zoeken naar foto’s online tot het assisteren bij complexe taken zoals medische beeldvorming.

In hun kern werken VLM’s door twee belangrijke onderdelen te combineren: een visueel systeem dat afbeeldingen analyseert en een taalsysteem dat tekst verwerkt. Het visuele deel let op details zoals vormen en kleuren, terwijl het taaldeel deze details omzet in zinnen. VLM’s worden getraind op enorme datasets met miljarden afbeelding-tekstparen, waardoor ze uitgebreide ervaring ontwikkelen om een sterk begrip en hoge nauwkeurigheid te ontwikkelen.

Wat Chain-of-Thought-redenering betekent in VLM’s

Chain-of-Thought-redenering, of CoT, is een manier om AI stap voor stap te laten denken, net zoals wij een probleem aanpakken door het op te breken. In VLM’s betekent dit dat de AI niet alleen een antwoord geeft wanneer je het iets over een afbeelding vraagt, maar ook uitlegt hoe het daar komt, waarbij elke logische stap onderweg wordt uitgelegd.

Laat ons zeggen dat je een VLM een foto van een verjaardagstaart met kaarsen laat zien en vraagt: “Hoe oud is de persoon?” Zonder CoT zou het misschien alleen maar een nummer raden. Met CoT denkt het erover na: “Oké, ik zie een taart met kaarsen. Kaarsen laten meestal iemands leeftijd zien. Laten we ze tellen, er zijn 10. Dus de persoon is waarschijnlijk 10 jaar oud.” Je kunt de redenering volgen terwijl deze zich ontvouwt, wat het antwoord veel betrouwbaarder maakt.

Evenzo, wanneer een VLM een verkeersscène wordt getoond en gevraagd wordt: “Is het veilig om over te steken?” De VLM kan redeneren: “Het voetgangerslicht is rood, dus je moet niet oversteken. Er is ook een auto die draait in de buurt en die beweegt, niet stilstaat. Dat betekent dat het niet veilig is op dit moment.” Door deze stappen te doorlopen, toont de AI precies waar het op let in de afbeelding en waarom het besluit wat het doet.

Waarom Chain-of-Thought ertoe doet in VLM’s

De integratie van CoT-redenering in VLM’s brengt verschillende belangrijke voordelen met zich mee.

Ten eerste maakt het de AI gemakkelijker te vertrouwen. Wanneer het zijn stappen uitlegt, krijg je een duidelijk begrip van hoe het tot het antwoord kwam. Dit is belangrijk in gebieden zoals gezondheidszorg. Bijvoorbeeld, wanneer een VLM naar een MRI-scan kijkt, kan het zeggen: “Ik zie een schaduw in de linkerkant van de hersenen. Dat gebied controleert spraak, en de patiënt heeft moeite met praten, dus het kan een tumor zijn.” Een arts kan deze logica volgen en vertrouwen in de input van de AI hebben.

Ten tweede helpt het de AI complexe problemen aan te pakken. Door dingen op te breken, kan het vragen aan die meer dan een snelle blik nodig hebben. Bijvoorbeeld, kaarsen tellen is eenvoudig, maar de veiligheid op een drukke straat bepalen vereist meerdere stappen, waaronder het controleren van lichten, het opsporen van auto’s, het beoordelen van snelheid. CoT stelt de AI in staat om die complexiteit aan te pakken door het op te delen in meerdere stappen.

Ten slotte maakt het de AI aanpasbaarder. Wanneer het stap voor stap redeneert, kan het zijn kennis toepassen op nieuwe situaties. Als het nog nooit een specifiek type taart heeft gezien, kan het nog steeds de kaars-leeftijdverbinding begrijpen, omdat het erover nadenkt, in plaats van alleen te vertrouwen op gememoriseerde patronen.

Hoe Chain-of-Thought en VLM’s branches herdefiniëren

De combinatie van CoT en VLM’s heeft een aanzienlijke impact op verschillende gebieden:

  • Gezondheidszorg: In de geneeskunde gebruiken VLM’s zoals Google’s Med-PaLM 2 CoT om complexe medische vragen op te breken in kleinere diagnostische stappen. Bijvoorbeeld, wanneer het een röntgenfoto van de borst en symptomen zoals hoesten en hoofdpijn krijgt, kan de AI denken: “Deze symptomen kunnen een verkoudheid, allergieën of iets ergers zijn. Geen gezwollen lymfeklieren, dus het is niet waarschijnlijk een ernstige infectie. Longen lijken schoon, dus waarschijnlijk geen longontsteking. Een gewone verkoudheid past het beste.” Het loopt door de opties en komt tot een antwoord, waardoor artsen een duidelijke uitleg krijgen om mee te werken.
  • Zelfrijdende auto’s: Voor autonome voertuigen verbeteren CoT-geënhanceerde VLM’s de veiligheid en besluitvorming. Bijvoorbeeld, een zelfrijdende auto kan een verkeersscène stap voor stap analyseren: controleert voetgangerssignalen, identificeert bewegende voertuigen en beslist of het veilig is om door te rijden. Systemen zoals Wayve’s LINGO-1 genereren natuurlijke taalcommentaar om acties zoals vertragen voor een fietser uit te leggen. Dit helpt ingenieurs en passagiers de redenering van het voertuig te begrijpen. Stapsgewijze logica stelt het voertuig ook in staat om beter om te gaan met ongebruikelijke wegcondities door visuele invoer te combineren met contextuele kennis.
  • Georuimtelijke analyse: Google’s Gemini-model past CoT-redenering toe op georuimtelijke gegevens zoals kaarten en satellietbeelden. Bijvoorbeeld, het kan de schade van een orkaan beoordelen door satellietbeelden, weersvoorspellingen en demografische gegevens te integreren, en vervolgens duidelijke visualisaties en antwoorden op complexe vragen te genereren. Deze mogelijkheid versnelt de reactie op rampen door besluitvormers tijdige, nuttige inzichten te bieden zonder technische expertise te vereisen.
  • Robotica: In de robotica maakt de integratie van CoT en VLM’s het mogelijk voor robots om beter te plannen en uit te voeren taken die meerdere stappen omvatten. Bijvoorbeeld, wanneer een robot de taak krijgt om een object op te tillen, stelt CoT-geactiveerde VLM het in staat om de beker te identificeren, de beste greepplaatsen te bepalen, een botsingsvrije baan te plannen en de beweging uit te voeren, allemaal terwijl het “uitlegt” elke stap van zijn proces. Projecten zoals RT-2 demonstreren hoe CoT robots in staat stelt om beter aan te passen aan nieuwe taken en complexe opdrachten te reageren met duidelijke redenering.
  • Onderwijs: In het onderwijs gebruiken AI-tutors zoals Khanmigo CoT om beter te leren. Voor een wiskundeprobleem kan het een student begeleiden: “Schrijf eerst de vergelijking op. Vervolgens krijg je de variabele alleen door 5 van beide kanten af te trekken. Nu delen we door 2.” In plaats van het antwoord te geven, loopt het door het proces, waardoor studenten concepten stap voor stap kunnen begrijpen.

De bottom line

Visuele taalmodellen (VLM’s) stellen AI in staat om visuele gegevens te interpreteren en uit te leggen met behulp van mensachtige, stap-voor-stap redenering via Chain-of-Thought (CoT)-processen. Deze aanpak verhoogt vertrouwen, aanpasbaarheid en probleemoplossing in branches zoals gezondheidszorg, zelfrijdende auto’s, georuimtelijke analyse, robotica en onderwijs. Door te transformeren hoe AI complexe taken aanpakt en besluitvorming ondersteunt, stellen VLM’s een nieuwe standaard in voor betrouwbare en praktische intelligente technologie.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.