Artificial Intelligence
Multimodaal leren wordt steeds prominenter onder AI-ontwikkelaars

Venture Beat (VB) wijdde een van haar wekelijkse rapporten aan de voordelen van multimodaal leren bij de ontwikkeling van kunstmatige intelligentie. Hun prompt was een verslag by ABI Research over de kwestie.
Het sleutelconcept ligt in het feit dat "datasets zijn fundamentele bouwstenen van AI-systemen', en dat zonder datasets 'modellen de relaties die hun voorspellingen ondersteunen niet kunnen leren'. Het ABI-rapport voorspelt dat "terwijl de totale geĂŻnstalleerde basis van AI-apparaten zal groeien van 2.69 miljard in 2019 tot 4.47 miljard in 2024, er relatief weinig op korte termijn interoperabel zullen zijn."
Dit kan een aanzienlijke verspilling van tijd, energie en middelen betekenen, "in plaats van de gigabytes tot petabytes aan gegevens die er doorheen stromen te combineren in een enkel AI-model of raamwerk, zullen ze onafhankelijk en heterogeen werken om de gegevens die ze krijgen te begrijpen.”
Om dit te ondervangen, stelt ABI voor multimodaal leren, een methodologie die zou kunnen consolideren data “van verschillende sensoren en ingangen in één systeem. Multimodaal leren kan aanvullende informatie of trends bevatten, die vaak pas duidelijk worden als ze allemaal in het leerproces worden opgenomen.”
VB presenteert een levensvatbaar voorbeeld dat rekening houdt met afbeeldingen en tekstbijschriften. “ Als verschillende woorden worden gecombineerd met vergelijkbare afbeeldingen, worden deze woorden waarschijnlijk gebruikt om dezelfde dingen of objecten te beschrijven. Omgekeerd, als sommige woorden naast verschillende afbeeldingen verschijnen, betekent dit dat deze afbeeldingen hetzelfde object vertegenwoordigen. Daarom zou het voor een AI-model mogelijk moeten zijn om beeldobjecten te voorspellen op basis van tekstbeschrijvingen, en inderdaad, een grote hoeveelheid academische literatuur heeft bewezen dat dit het geval is.”
Ondanks de mogelijke voordelen merkt ABI op dat zelfs techreuzen het leuk vinden IBM, Microsoft, Amazon en Google blijven zich voornamelijk richten op unimodale systemen. Een van de redenen hiervoor zijn de uitdagingen die zo'n overstap met zich meebrengt.
Toch voorzien de ABI-onderzoekers dat “het totale aantal verzonden apparaten zal groeien van 3.94 miljoen in 2017 tot 514.12 miljoen in 2023, onder impuls van de acceptatie in de segmenten robotica, consumenten, gezondheidszorg en media en entertainment.” Onder de voorbeelden van bedrijven die al multimodaal leren implementeren, noemen ze Waymo die dergelijke benaderingen gebruikt om "hyperbewuste, zelfrijdende voertuigen" te bouwen, en Intel Labs, waar het technische team van het bedrijf "technieken onderzoekt voor het verzamelen van sensorgegevens in real-world omgevingen."
Omesh Tickoo, hoofdingenieur van Intel Labs, legde dat uit aan VB “Wat we hebben gedaan, is door technieken te gebruiken om de context, zoals het tijdstip van de dag, te achterhalen, een systeem te bouwen dat je vertelt wanneer de gegevens van een sensor niet van de hoogste kwaliteit zijn. Gezien die betrouwbaarheidswaarde weegt het verschillende sensoren met verschillende tussenpozen tegen elkaar en kiest het de juiste mix om ons het antwoord te geven waarnaar we op zoek zijn.”
VB merkt dat op unimodaal leren zal de boventoon blijven voeren daar waar het zeer effectief is – in toepassingen als beeldherkenning en natuurlijke taalverwerking. Tegelijkertijd voorspelt het rapport dat “naarmate elektronica goedkoper wordt en computers schaalbaarder, multimodaal leren waarschijnlijk alleen maar belangrijker zal worden.”