Inteligencia artificial
El aprendizaje multimodal se está volviendo prominente entre los desarrolladores de IA

Venture Beat (VB) dedicó uno de sus informes semanales a las ventajas del aprendizaje multimodal en el desarrollo de la inteligencia artificial. Su punto de partida fue un informe de ABI Research sobre el tema.
El concepto clave radica en el hecho de que “los conjuntos de datos son los bloques de construcción fundamentales de los sistemas de IA”, y que sin conjuntos de datos, “los modelos no pueden aprender las relaciones que informan sus predicciones”. El informe de ABI predice que “mientras que la base instalada total de dispositivos de IA crecerá de 2.69 mil millones en 2019 a 4.47 mil millones en 2024, comparativamente pocos serán interoperables en el corto plazo”.
Esto podría representar un desperdicio considerable de tiempo, energía y recursos, “en lugar de combinar los gigabytes a petabytes de datos que fluyen a través de ellos en un solo modelo o marco de IA, trabajarán de forma independiente y heterogénea para dar sentido a los datos que se les proporcionan”.
Para superar esto, ABI propone aprendizaje multimodal, una metodología que podría consolidar datos “de varios sensores y entradas en un solo sistema. El aprendizaje multimodal puede llevar información o tendencias complementarias, que a menudo solo se vuelven evidentes cuando se incluyen todas en el proceso de aprendizaje”.
VB presenta un ejemplo viable que considera imágenes y subtítulos de texto. “Si diferentes palabras se emparejan con imágenes similares, es probable que estas palabras se utilicen para describir las mismas cosas o objetos. Por el contrario, si algunas palabras aparecen junto a diferentes imágenes, esto implica que estas imágenes representan el mismo objeto. Dado esto, debería ser posible que un modelo de IA prediga objetos de imagen a partir de descripciones de texto, y de hecho, una gran cantidad de literatura académica ha demostrado que esto es el caso”.
A pesar de las posibles ventajas, ABI señala que incluso gigantes tecnológicos como IBM, Microsoft, Amazon y Google siguen centrando su atención predominantemente en sistemas unimodales. Una de las razones es el desafío que supondría un cambio de este tipo.
Sin embargo, los investigadores de ABI anticipan que “la cantidad total de dispositivos enviados crecerá de 3,94 millones en 2017 a 514,12 millones en 2023, impulsada por la adopción en los segmentos de robótica, consumidor, atención médica y medios y entretenimiento”. Entre los ejemplos de empresas que ya están implementando aprendizaje multimodal, citan Waymo, que está utilizando este enfoque para construir “vehículos autónomos hiperconscientes”, y Intel Labs, donde el equipo de ingeniería de la empresa está “investigando técnicas para la recopilación de datos de sensores en entornos del mundo real”.
El ingeniero principal de Intel Labs, Omesh Tickoo, explicó a VB que “Lo que hicimos fue, utilizando técnicas para determinar el contexto, como la hora del día, creamos un sistema que te dice cuándo los datos de un sensor no son de la más alta calidad. Dado ese valor de confianza, pesa diferentes sensores contra cada uno en diferentes intervalos y elige la mezcla adecuada para darnos la respuesta que estamos buscando”.
VB señala que el aprendizaje unimodal seguirá siendo predominante donde es altamente efectivo – en aplicaciones como el reconocimiento de imágenes y el procesamiento del lenguaje natural. Al mismo tiempo, predice que “a medida que la electrónica se vuelva más asequible y la computación más escalable, el aprendizaje multimodal probablemente solo aumentará en prominencia”.






