Kunstmatige intelligentie
Multimodale leren wordt prominent onder AI-ontwikkelaars

Venture Beat (VB) heeft een van zijn wekelijkse rapporten gewijd aan de voordelen van multimodaal leren bij de ontwikkeling van kunstmatige intelligentie. Hun aanleiding was een rapport van ABI Research over dit onderwerp.
Het belangrijkste concept ligt in het feit dat “datasets de fundamenten zijn van AI-systemen,” en dat zonder datasets, “modellen geen relaties kunnen leren die hun voorspellingen informeren.” Het ABI-rapport voorspelt dat “terwijl de totale geïnstalleerde basis van AI-apparaten zal groeien van 2,69 miljard in 2019 tot 4,47 miljard in 2024, relatief weinig daarvan interoperabel zal zijn op korte termijn.”
Dit kan een aanzienlijke verspilling van tijd, energie en middelen vertegenwoordigen, “in plaats van de gigabytes tot petabytes aan gegevens die door hen heen stromen te combineren in één AI-model of -framework, zullen ze onafhankelijk en heterogeen werken om de gegevens die ze krijgen te begrijpen.”
Om dit te overwinnen, stelt ABI multimodaal leren voor, een methode die gegevens “van verschillende sensoren en invoer in één systeem kan consolideren. Multimodaal leren kan complementaire informatie of trends dragen, die vaak alleen zichtbaar worden wanneer ze allemaal in het leerproces worden opgenomen.”
VB presenteert een haalbaar voorbeeld dat afbeeldingen en tekstbijschriften beschouwt. “Als verschillende woorden worden gepaard met soortgelijke afbeeldingen, zijn deze woorden waarschijnlijk gebruikt om dezelfde dingen of objecten te beschrijven. Omgekeerd, als sommige woorden naast verschillende afbeeldingen verschijnen, impliceert dit dat deze afbeeldingen hetzelfde object vertegenwoordigen. Gezien dit, zou het mogelijk moeten zijn voor een AI-model om afbeeldingsobjecten te voorspellen vanuit tekstbeschrijvingen, en inderdaad, een lichaam van academische literatuur heeft bewezen dat dit het geval is.”
Ondanks de mogelijke voordelen, merkt ABI op dat zelfs techreuzen als IBM, Microsoft, Amazon en Google voornamelijk gefocust blijven op unimodale systemen. Een van de redenen hiervoor is de uitdaging die een dergelijke omschakeling zou vertegenwoordigen.
Desondanks verwachten de ABI-onderzoekers dat “het totale aantal geleverde apparaten zal groeien van 3,94 miljoen in 2017 tot 514,12 miljoen in 2023, gestimuleerd door de adoptie in de robotica, consumenten-, gezondheidszorg- en media- en entertainmentsectoren.” Onder de voorbeelden van bedrijven die al multimodaal leren implementeren, noemen ze Waymo, dat dergelijke benaderingen gebruikt om “hyper-aware zelfrijdende voertuigen” te bouwen, en Intel Labs, waar het engineeringteam van het bedrijf “technieken voor sensordataverzameling in real-worldomgevingen onderzoekt.”
Intel Labs-hoofdingenieur Omesh Tickoo legde aan VB uit dat “wat we deden, was, met behulp van technieken om de context te achterhalen, zoals de tijd van de dag, we een systeem hebben gebouwd dat je vertelt wanneer de gegevens van een sensor niet van de hoogste kwaliteit zijn. Gegeven die betrouwbaarheidswaarde, weegt het verschillende sensoren tegen elkaar af op verschillende intervallen en kiest het de juiste mix om ons het antwoord te geven dat we zoeken.”
VB merkt op dat unimodaal leren zal blijven domineren waar het zeer effectief is – in toepassingen zoals afbeeldingsherkenning en natuurlijke taalverwerking. Tegelijkertijd voorspelt het dat “naarmate elektronica goedkoper wordt en compute meer schaalbaar, multimodaal leren waarschijnlijk alleen maar in prominentie zal toenemen.”






