Connect with us

Kunstig intelligens

Multimodalt læring blir mer fremtredende blant AI-utviklere

mm

Venture Beat (VB) viet ett av sine ukentlige rapporter til fordelen med multimodalt læring i utviklingen av kunstig intelligens. Deres utløsende var en rapport av ABI Research om saken.

Hovedkonseptet ligger i det faktum at “datamengder er grunnleggende byggestener for AI-systemer,” og at uten datamengder, “kan modellene ikke lære relasjonene som informerer deres prediksjoner.” ABI-rapporten forutsier at “mens den totale installerte basen av AI-enheter vil vokse fra 2,69 milliarder i 2019 til 4,47 milliarder i 2024, vil relativt få være interoperable på kort sikt.”

Dette kan representere en betydelig spill av tid, energi og ressurser, “i stedet for å kombinere gigabyte til petabyte med data som flyter gjennom dem i ett enkelt AI-modell eller ramme, vil de arbeide uavhengig og heterogent for å gi mening til dataene de mates.”

For å overvinne dette, foreslår ABI multimodalt læring, en metode som kunne konsolidere data “fra forskjellige sensorer og innganger til ett enkelt system. Multimodalt læring kan bære komplementær informasjon eller trender, som ofte bare blir tydelig når de alle er inkludert i læreprosessen.”

VB presenterer et gjeldende eksempel som tar hensyn til bilder og tekstbeskrivelser. “Hvis forskjellige ord er parret med lignende bilder, er disse ordene sannsynligvis brukt til å beskrive de samme tingene eller objektene. Omvendt, hvis noen ord dukker opp ved siden av forskjellige bilder, antyder dette at disse bildene representerer det samme objektet. Gitt dette, burde det være mulig for en AI-modell å forutsi bildeobjekter fra tekstbeskrivelser, og faktisk, en mengde akademisk litteratur har bevist at dette er tilfelle.”

Til tross for de mulige fordelen, merker ABI at selv teknologigigantene som IBM, Microsoft, Amazon og Google fortsatt fokuserer hovedsakelig på unimodale systemer. En av årsakene er de utfordringene en slik omstilling ville representere.

Likevel forventer ABI-forskerne at “det totale antallet enheter som leveres vil vokse fra 3,94 millioner i 2017 til 514,12 millioner i 2023, drevet av adopsjon i robotikk, forbruker, helsevesen og medie- og underholdningssegmentene.” Blant eksemplene på selskaper som allerede implementerer multimodalt læring nevner de Waymo, som bruker slike tilnærminger til å bygge “hyper-oppmerksomme selvkjørende kjøretøy,” og Intel Labs, hvor selskapets ingeniørteam “undersøker teknikker for sensor-data-samling i sanntidsmiljøer.”

Intel Labs’ hovedingeniør Omesh Tickoo forklarte til VB at “Hva vi gjorde, var å bruke teknikker til å finne kontekst som tid på dagen, bygde vi et system som forteller deg når en sensors data ikke er av høyeste kvalitet. Gitt denne konfidensverdien, vektlegger det forskjellige sensorer mot hverandre på forskjellige intervaller og velger riktig blanding for å gi oss svaret vi søker.”

VB påpeker at unimodalt læring vil forbli dominerende der det er høyt effektivt – i applikasjoner som bilde-gjenkjenning og naturlig språkbehandling. Samtidig forutsier de at “etterhvert som elektronikken blir billigere og beregningene mer skalerbare, vil multimodalt læring sannsynligvis bare øke i fremtredenhet.”

Tidligere diplomat og oversetter for FN, nå frilans journalist/forfatter/forsker, med fokus på moderne teknologi, kunstig intelligens og moderne kultur.