škrbina Multimodalno učenje postaja vidno med razvijalci umetne inteligence - Unite.AI
Povežite se z nami

Umetna inteligenca

Multimodalno učenje postaja vidno med razvijalci umetne inteligence

mm
Posodobljeno on

Venture Beat (VB) je eno svojih tedenskih poročil posvetil prednostim multimodalnega učenja pri razvoju umetne inteligence. Njihov poziv je bil a poročilo by ABI Research o zadevi.

Ključni koncept je v tem, da »nabori podatkov so temeljni gradniki sistemov umetne inteligence," in da se brez naborov podatkov "modeli ne morejo naučiti odnosov, ki informirajo njihove napovedi." Poročilo ABI napoveduje, da »medtem ko se bo skupna nameščena baza naprav z umetno inteligenco povečala z 2.69 milijarde v letu 2019 na 4.47 milijarde v letu 2024, jih bo razmeroma malo kratkoročno interoperabilnih.«

To bi lahko pomenilo precejšnjo izgubo časa, energije in virov, "Namesto da bi združili podatke od gigabajtov do petabajtov, ki tečejo skozi njih, v en sam model ali ogrodje umetne inteligence, bodo delovali neodvisno in heterogeno, da bi razumeli podatke, ki jim jih posredujejo.«

Da bi to premagali, ABI predlaga večmodalno učenje, metodologijo, ki bi lahko utrdila podatkov »iz različnih senzorjev in vhodov v en sam sistem. Multimodalno učenje lahko nosi komplementarne informacije ali trende, ki pogosto postanejo očitni šele, ko so vsi vključeni v učni proces.«

VB predstavlja izvedljiv primer, ki upošteva slike in besedilne napise. “ Če so različne besede povezane s podobnimi slikami, se te besede verjetno uporabljajo za opis istih stvari ali predmetov. Nasprotno, če se nekatere besede pojavijo poleg različnih slik, to pomeni, da te slike predstavljajo isti predmet. Glede na to bi moralo biti mogoče, da model umetne inteligence predvidi slikovne objekte iz besedilnih opisov, in res je korpus akademske literature dokazal, da je tako.«

Kljub možnim prednostim ABI ugotavlja, da so všeč tudi tehnološkim velikanom  IBM, Microsoft, Amazon in Google se še naprej osredotočajo predvsem na unimodalne sisteme. Eden od razlogov so izzivi, ki bi jih predstavljal tak prehod.

Kljub temu raziskovalci ABI predvidevajo, da "skupno število poslanih naprav bo naraslo s 3.94 milijona leta 2017 na 514.12 milijona leta 2023, kar bo spodbudilo sprejetje v segmentih robotike, potrošnikov, zdravstva ter medijev in zabave.« Med primeri podjetij, ki že izvajajo multimodalno učenje, navajajo Waymo ki uporablja takšne pristope za izdelavo "hiper ozaveščenih samovozečih vozil" in Intel Labs, kjer inženirska ekipa podjetja "raziskuje tehnike primerjanja podatkov senzorjev v okoljih realnega sveta."

Glavni inženir Intel Labs Omesh Tickoo je za VB to pojasnil »Naredili smo to, da smo s tehnikami za ugotavljanje konteksta, kot je čas v dnevu, zgradili sistem, ki vam pove, kdaj podatki senzorja niso najvišje kakovosti. Glede na to vrednost zaupanja pretehta različne senzorje proti vsakemu v različnih intervalih in izbere pravo mešanico, da nam ponudi odgovor, ki ga iščemo.«

VB ugotavlja, da unimodalno učenje bo ostalo prevladujoče tam, kjer je zelo učinkovito – v aplikacijah, kot sta prepoznavanje slik in obdelava naravnega jezika. Hkrati napoveduje, da "bo elektronika postajala cenejša in je računalništvo bolj razširljivo, multimodalno učenje verjetno samo še bolj pomembno."

Nekdanji diplomat in prevajalec za ZN, trenutno samostojni novinar/pisatelj/raziskovalec, ki se osredotoča na sodobno tehnologijo, umetno inteligenco in sodobno kulturo.