Kunstig intelligens
Multimodal læring bliver mere fremtrædende blandt AI-udviklere

Venture Beat (VB) har viet en af sine ugentlige rapporter til fordelene ved multimodal læring i udviklingen af kunstig intelligens. Deres prompt var en rapport af ABI Research om emnet.
Hovedkonceptet ligger i, at “data sæt er fundamentale byggesten til AI-systemer,” og at uden data sæt, “kan modellerne ikke lære relationerne, der underbygger deres forudsigelser.” ABI-rapporten forudser, at “mens den samlede antal installeret AI-enheder vil vokse fra 2,69 milliarder i 2019 til 4,47 milliarder i 2024, vil der kun være få, der er interoperable på kort sigt.”
Dette kunne repræsentere en betydelig spild af tid, energi og ressourcer, “i stedet for at kombinere gigabytes til petabytes af data, der flyder gennem dem, til en enkelt AI-model eller ramme, vil de arbejde uafhængigt og heterogent for at give mening til data, de får.”
For at overvinde dette, foreslår ABI multimodal læring, en metode, der kunne konsolidere data “fra forskellige sensorer og input til et enkelt system. Multimodal læring kan bære komplementær information eller tendenser, der ofte kun bliver tydelige, når de alle er inkluderet i læreprocessen.”
VB præsenterer et virkeligt eksempel, der tager billeder og tekst-underskrifter i betragtning. “Hvis forskellige ord er parret med lignende billeder, er disse ord sandsynligvis brugt til at beskrive de samme ting eller objekter. Omvendt, hvis nogle ord optræder ved siden af forskellige billeder, antyder dette, at disse billeder repræsenterer det samme objekt. Givet dette, burde det være muligt for en AI-model at forudsige billedobjekter fra tekstbeskrivelser, og faktisk har en mængde akademisk litteratur bevist, at dette er tilfældet.”
Trods de mulige fordele, bemærker ABI, at selv teknologigiganter som IBM, Microsoft, Amazon og Google fortsat fokuserer overvejende på unimodale systemer. En af årsagerne er de udfordringer, en sådan skift ville repræsentere.
Alligevel forudser ABI-forskerne, at “det samlede antal leverede enheder vil vokse fra 3,94 millioner i 2017 til 514,12 millioner i 2023, drevet af adoption i robotteknologi, forbruger-, sundheds- og medie- og underholdningssektorerne.” Blandt eksemplerne på virksomheder, der allerede implementerer multimodal læring, nævner de Waymo, som bruger sådanne tilgange til at bygge “hyper-tilgængelige selvkørende køretøjer,” og Intel Labs, hvor virksomhedens ingeniørteam “undersøger teknikker til sensor-data-samling i virkelige miljøer.”
Intel Labs’ principal ingeniør Omesh Tickoo forklarede til VB, at “det, vi gjorde, var at bruge teknikker til at figurere ud kontekst såsom tid på dagen, og vi byggede et system, der fortæller os, når en sensors data ikke er af højeste kvalitet. Givet denne tillidsværdighedsværdi, vægter det forskellige sensorer mod hinanden på forskellige intervaller og vælger den rette blanding for at give os svaret, vi søger.”
VB bemærker, at unimodal læring vil forblive dominerende, hvor det er højst effektivt – i ansøgninger som billedgenkendelse og naturlig sprogbehandling. Samtidig forudser det, at “da elektronik bliver billigere og beregning mere skalerbar, vil multimodal læring sandsynligvis kun stige i fremtræden.”






