Inteligência artificial
O Aprendizado Multimodal Está se Tornando Proeminente Entre os Desenvolvedores de IA

Venture Beat (VB) dedicou um de seus relatórios semanais às vantagens do aprendizado multimodal no desenvolvimento da inteligência artificial. Seu estímulo foi um relatório da ABI Research sobre o assunto.
O conceito-chave reside no fato de que “conjuntos de dados são blocos de construção fundamentais de sistemas de IA”, e que sem conjuntos de dados, “modelos não podem aprender as relações que informam suas previsões.” O relatório da ABI prevê que “enquanto a base instalada total de dispositivos de IA crescerá de 2,69 bilhões em 2019 para 4,47 bilhões em 2024, comparativamente poucos serão interoperáveis no curto prazo.”
Isso pode representar um desperdício considerável de tempo, energia e recursos, “em vez de combinar os gigabytes a petabytes de dados que fluem por meio deles em um único modelo ou estrutura de IA, eles trabalharão de forma independente e heterogênea para dar sentido aos dados que recebem.”
Para superar isso, a ABI propõe aprendizado multimodal, uma metodologia que poderia consolidar dados “de vários sensores e entradas em um único sistema. O aprendizado multimodal pode transportar informações complementares ou tendências, que muitas vezes só se tornam evidentes quando são incluídas no processo de aprendizado.”
A VB apresenta um exemplo viável que considera imagens e legendas de texto. “Se diferentes palavras forem combinadas com imagens semelhantes, essas palavras provavelmente são usadas para descrever as mesmas coisas ou objetos. Por outro lado, se algumas palavras aparecem ao lado de imagens diferentes, isso implica que essas imagens representam o mesmo objeto. Dado isso, deve ser possível para um modelo de IA prever objetos de imagem a partir de descrições de texto, e de fato, um corpo de literatura acadêmica provou que isso é o caso.”
Apesar das possíveis vantagens, a ABI observa que mesmo gigantes da tecnologia como IBM, Microsoft, Amazon e Google continuam a se concentrar predominantemente em sistemas unimodais. Uma das razões é o desafio que tal mudança representaria.
Ainda assim, os pesquisadores da ABI antecipam que “o número total de dispositivos expedidos crescerá de 3,94 milhões em 2017 para 514,12 milhões em 2023, impulsionado pela adoção nos segmentos de robótica, consumidor, saúde e mídia e entretenimento.” Entre os exemplos de empresas que já estão implementando aprendizado multimodal, eles citam Waymo, que está usando tais abordagens para construir “veículos autodirigíveis hiperconscientes”, e Intel Labs, onde a equipe de engenharia da empresa está “investigando técnicas para coleta de dados de sensores em ambientes do mundo real.”
O engenheiro principal do Intel Labs, Omesh Tickoo, explicou à VB que “O que fizemos foi, usando técnicas para descobrir o contexto, como o horário do dia, construímos um sistema que diz quando os dados de um sensor não são de alta qualidade. Dado esse valor de confiança, ele pondera diferentes sensores contra cada um em intervalos diferentes e escolhe a combinação certa para nos dar a resposta que estamos procurando.”
A VB observa que o aprendizado unimodal permanecerá predominante onde é altamente eficaz – em aplicações como reconhecimento de imagens e processamento de linguagem natural. Ao mesmo tempo, prevê que “à medida que a eletrônica se torna mais barata e o cálculo se torna mais escalável, o aprendizado multimodal provavelmente aumentará em proeminência.”






