Connect with us

Intelligence artificielle

L’apprentissage multimodal devient prépondérant parmi les développeurs d’IA

mm

Venture Beat (VB) a consacré l’un de ses rapports hebdomadaires aux avantages de l’apprentissage multimodal dans le développement de l’intelligence artificielle. Leur point de départ était un rapport de ABI Research sur le sujet.

Le concept clé réside dans le fait que « les jeux de données sont les briques fondamentales des systèmes d’IA », et que sans jeux de données, « les modèles ne peuvent pas apprendre les relations qui éclairent leurs prédictions. » Le rapport d’ABI prévoit que « alors que la base installée totale d’appareils d’IA passera de 2,69 milliards en 2019 à 4,47 milliards en 2024, relativement peu seront interopérables à court terme. »

Cela pourrait représenter une perte considérable de temps, d’énergie et de ressources, « plutôt que de combiner les gigaoctets à des pétaoctets de données qui traversent ces appareils dans un seul modèle ou cadre d’IA, ils fonctionneront de manière indépendante et hétérogène pour donner un sens aux données qu’ils reçoivent. »

Pour surmonter cela, ABI propose l’apprentissage multimodal, une méthodologie qui pourrait consolider les données « provenant de divers capteurs et entrées dans un seul système. L’apprentissage multimodal peut porter des informations ou des tendances complémentaires, qui ne deviennent souvent évidentes que lorsqu’elles sont toutes incluses dans le processus d’apprentissage. »

VB présente un exemple viable qui prend en compte les images et les légendes de texte. « Si différents mots sont associés à des images similaires, ces mots sont probablement utilisés pour décrire les mêmes choses ou objets. Inversement, si certains mots apparaissent à côté d’images différentes, cela implique que ces images représentent le même objet. Compte tenu de cela, il devrait être possible pour un modèle d’IA de prédire les objets d’une image à partir de descriptions de texte, et en effet, un corpus de littérature universitaire a prouvé que c’est le cas. »

Malgré les avantages possibles, ABI note que même les géants de la technologie comme IBM, Microsoft, Amazon et Google se concentrent principalement sur les systèmes unimodaux. L’une des raisons est que le passage à un tel système représenterait des défis. »

Cependant, les chercheurs d’ABI anticipent que « le nombre total d’appareils expédiés passera de 3,94 millions en 2017 à 514,12 millions en 2023, stimulé par l’adoption dans les secteurs de la robotique, du consommateur, des soins de santé et des médias et du divertissement. » Parmi les exemples d’entreprises qui mettent déjà en œuvre l’apprentissage multimodal, ils citent Waymo qui utilise de telles approches pour construire des « véhicules autonomes hyper-conscients », et Intel Labs, où l’équipe d’ingénieurs de l’entreprise « étudie les techniques de collecte de données de capteurs dans des environnements réels. »

L’ingénieur principal d’Intel Labs, Omesh Tickoo, a expliqué à VB que « ce que nous avons fait, en utilisant des techniques pour déterminer le contexte tel que l’heure de la journée, nous avons construit un système qui vous indique quand les données d’un capteur ne sont pas de la plus haute qualité. Étant donné cette valeur de confiance, il pondère différents capteurs les uns par rapport aux autres à des intervalles différents et choisit le mélange approprié pour nous donner la réponse que nous recherchons. »

VB note que l’apprentissage unimodal restera prépondérant là où il est très efficace – dans des applications comme la reconnaissance d’images et le traitement du langage naturel. En même temps, il prévoit que « à mesure que les composants électroniques deviennent moins chers et que le calcul devient plus évolutif, l’apprentissage multimodal gagnera probablement en importance. »

Ancien diplomate et traducteur pour les Nations Unies, actuellement journaliste/écrivain/chercheur free-lance, se concentrant sur la technologie moderne, l'intelligence artificielle et la culture moderne.