Artificiell intelligens
Multimodalt lärande blir allt mer framträdande bland AI-utvecklare

Venture Beat (VB) ägnade en av sina veckorapporter åt fördelarna med multimodalt lärande i utvecklingen av artificiell intelligens. Deras utgångspunkt var en rapport av ABI Research i frågan.
Den viktigaste konceptet ligger i det faktum att “datamängder är de grundläggande byggstenarna i AI-system,” och att utan datamängder, “kan modellerna inte lära sig de relationer som informerar deras förutsägelser.” ABI-rapporten förutspår att “medan den totala installerade basen av AI-enheter kommer att växa från 2,69 miljarder 2019 till 4,47 miljarder 2024, kommer relativt få att vara kompatibla på kort sikt.”
Detta kan representera en betydande slöseri med tid, energi och resurser, “istället för att kombinera gigabyte till petabyte av data som flyter genom dem till en enda AI-modell eller ramverk, kommer de att fungera oberoende och heterogent för att förstå datan de matas med.”
För att övervinna detta föreslår ABI multimodalt lärande, en metodik som kunde konsolidera data “från olika sensorer och inmatningar till ett enda system. Multimodalt lärande kan bära kompletterande information eller trender, som ofta bara blir tydliga när de alla ingår i lärandeprocessen.”
VB presenterar ett livskraftigt exempel som överväger bilder och textbeskrivningar. “Om olika ord är parade med liknande bilder, är dessa ord troligen använda för att beskriva samma saker eller föremål. Omvänt, om vissa ord visas bredvid olika bilder, antyder detta att dessa bilder representerar samma föremål. Givet detta, borde det vara möjligt för en AI-modell att förutsäga bildföremål från textbeskrivningar, och faktiskt, en mängd akademisk litteratur har bevisat att detta är fallet.”
Trots de möjliga fördelarna noterar ABI att även teknikjättar som IBM, Microsoft, Amazon och Google fortfarande fokuserar främst på unimodala system. En av anledningarna är de utmaningar en sådan switch skulle representera.
Ändå förutspår ABI-forskarna att “den totala mängden enheter som levereras kommer att växa från 3,94 miljoner 2017 till 514,12 miljoner 2023, driven av antagande i robotik, konsument, hälsovård och media och underhållningssegment.” Bland exemplen på företag som redan implementerar multimodalt lärande citerar de Waymo som använder sådana tillvägagångssätt för att bygga “hyper-medvetna självkörande fordon,” och Intel Labs, där företagets ingenjörsteam “undersöker tekniker för sensor data-samling i realvärldsmiljöer.”
Intel Labs huvudingenjör Omesh Tickoo förklarade för VB att “Vad vi gjorde var, med hjälp av tekniker för att fastställa sammanhang såsom tid på dagen, byggde vi ett system som berättar för dig när en sensors data inte är av högsta kvalitet. Givet den här förtroendevärdet, väger det olika sensorer mot varandra vid olika intervall och väljer rätt mix för att ge oss svaret vi söker.”
VB noterar att unimodalt lärande kommer att förbli dominerande där det är mycket effektivt – i applikationer som bildigenkänning och naturlig språkbehandling. Samtidigt förutspår det att “när elektronik blir billigare och beräkningar blir mer skalbara, kommer multimodalt lärande sannolikt att öka i betydelse.”






