Intelligenza artificiale
L’apprendimento multimodale sta diventando prominente tra gli sviluppatori di intelligenza artificiale

Venture Beat (VB) ha dedicato uno dei suoi rapporti settimanali ai vantaggi dell’apprendimento multimodale nello sviluppo dell’intelligenza artificiale. Il loro prompt era un rapporto di ABI Research sulla questione.
Il concetto chiave risiede nel fatto che “i set di dati sono i blocchi costitutivi fondamentali dei sistemi di intelligenza artificiale”, e che senza set di dati, “i modelli non possono apprendere le relazioni che informano le loro previsioni.” Il rapporto ABI prevede che “mentre la base installata totale di dispositivi di intelligenza artificiale crescerà da 2,69 miliardi nel 2019 a 4,47 miliardi nel 2024, pochi di essi saranno interoperabili nel breve termine.”
Ciò potrebbe rappresentare uno spreco considerevole di tempo, energia e risorse, “invece di combinare i gigabyte o i petabyte di dati che scorrono attraverso di essi in un unico modello o struttura di intelligenza artificiale, essi funzioneranno in modo indipendente e eterogeneo per dare un senso ai dati che ricevono.”
Per superare questo, ABI propone l’apprendimento multimodale, una metodologia che potrebbe consolidare i dati “provenienti da vari sensori e input in un unico sistema. L’apprendimento multimodale può trasportare informazioni complementari o tendenze, che spesso diventano evidenti solo quando sono incluse nel processo di apprendimento.”
VB presenta un esempio fattibile che considera immagini e didascalie di testo. “Se diverse parole sono abbinate a immagini simili, è probabile che queste parole siano utilizzate per descrivere le stesse cose o oggetti. Al contrario, se alcune parole appaiono accanto a immagini diverse, ciò implica che queste immagini rappresentano lo stesso oggetto. Date queste, dovrebbe essere possibile per un modello di intelligenza artificiale prevedere oggetti di immagini da descrizioni di testo, e in effetti, una serie di letteratura accademica ha dimostrato che ciò è il caso.”
Nonostante i possibili vantaggi, ABI nota che anche i giganti della tecnologia come IBM, Microsoft, Amazon e Google continuano a concentrarsi principalmente su sistemi unimodali. Una delle ragioni è la sfida che un tale passaggio rappresenterebbe.
Tuttavia, i ricercatori ABI anticipano che “il numero totale di dispositivi spediti crescerà da 3,94 milioni nel 2017 a 514,12 milioni nel 2023, spinto dall’adozione nei segmenti di robotica, consumer, assistenza sanitaria e media e intrattenimento.” Tra gli esempi di aziende che stanno già implementando l’apprendimento multimodale, citano Waymo che utilizza tali approcci per costruire “veicoli autonomi iper-consci”, e Intel Labs, dove il team di ingegneria dell’azienda “sta indagando le tecniche per la raccolta di dati dei sensori in ambienti del mondo reale.”
L’ingegnere principale di Intel Labs Omesh Tickoo ha spiegato a VB che “Quello che abbiamo fatto è utilizzare tecniche per capire il contesto come l’ora del giorno, abbiamo costruito un sistema che ti dice quando i dati di un sensore non sono della più alta qualità. Dato quel valore di confidenza, pesa diversi sensori contro gli altri a intervalli diversi e sceglie la giusta miscela per darci la risposta che stiamo cercando.”
VB nota che l’apprendimento unimodale rimarrà predominante dove è altamente efficace – in applicazioni come il riconoscimento di immagini e l’elaborazione del linguaggio naturale. Allo stesso tempo, prevede che “man mano che l’elettronica diventa più economica e il calcolo più scalabile, l’apprendimento multimodale probabilmente aumenterà solo di importanza.”






