Искусственный интеллект

Мультимодальное обучение становится все более популярным среди разработчиков ИИ

Published November 24, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Venture Beat (VB) посвятил одну из своих еженедельных отчетов преимуществам мультимодального обучения в разработке искусственного интеллекта. Их поводом был отчет ABI Research на эту тему.

Ключевая концепция заключается в том, что “наборы данных являются фундаментальными строительными блоками систем ИИ”, и что без наборов данных “модели не могут изучить отношения, которые информируют их прогнозы”. Отчет ABI прогнозирует, что “хотя общее количество установленных устройств ИИ вырастет с 2,69 миллиарда в 2019 году до 4,47 миллиарда в 2024 году, сравнительно небольшое количество из них будет взаимодействовать в короткий срок”.

Это может представлять собой значительную трату времени, энергии и ресурсов, “вместо того, чтобы объединить гигабайты до петабайтов данных, протекающих через них в одну модель ИИ или框架, они будут работать независимо и гетерогенно, чтобы понять данные, которые им передаются”.

Чтобы преодолеть это, ABI предлагает мультимодальное обучение, методологию, которая могла бы консолидировать данные “из различных датчиков и входов в одну систему. Мультимодальное обучение может нести дополнительную информацию или тенденции, которые часто становятся очевидными только тогда, когда они все включены в процесс обучения”.

VB представляет жизнеспособный пример, который учитывает изображения и текстовые подписи. “Если разные слова сочетаются с похожими изображениями, эти слова, вероятно, используются для описания одних и тех же вещей или объектов. Напротив, если некоторые слова появляются рядом с разными изображениями, это подразумевает, что эти изображения представляют один и тот же объект. Учитывая это, должно быть возможно для модели ИИ предсказать объекты изображений из текстовых описаний, и действительно, ряд академических работ доказал, что это так”.

Несмотря на возможные преимущества, ABI отмечает, что даже технологические гиганты, такие как IBM, Microsoft, Amazon и Google, продолжают сосредотачиваться в основном на унимодальных системах. Одна из причин этого заключается в проблемах, которые представляет собой такой переход.

Тем не менее, исследователи ABI предсказывают, что “общее количество отгруженных устройств вырастет с 3,94 миллиона в 2017 году до 514,12 миллиона в 2023 году, стимулируемое принятием в робототехнике, потребительском, здравоохранении и сегментах СМИ и развлечений”. Среди примеров компаний, которые уже реализуют мультимодальное обучение, они упоминают Waymo, которая использует такие подходы для создания “гипер-осведомленных самоходных транспортных средств”, и Intel Labs, где инженерная команда компании “изучает методы сбора данных датчиков в реальных средах”.

Главный инженер Intel Labs Omesh Tickoo объяснил VB, что “мы использовали методы для определения контекста, такие как время суток, и построили систему, которая говорит нам, когда данные датчика не являются самого высокого качества. Учитывая это значение уверенности, оно взвешивает разные датчики против друг друга на разных интервалах и выбирает правильную смесь, чтобы дать нам ответ, который мы ищем”.

VB отмечает, что унимодальное обучение останется преобладающим там, где оно высокоэффективно – в приложениях, таких как распознавание изображений и обработка естественного языка. В то же время он предсказывает, что “по мере того, как электроника становится дешевле и вычисления более масштабируемыми, мультимодальное обучение, вероятно, будет только расти в значимости”.

Related Topics:ABI intel labs Multimodal

Ljubinko Zivkovic

Бывший дипломат и переводчик для ООН, в настоящее время фрилансер-журналист/писатель/исследователь, фокусирующийся на современных технологиях, искусственном интеллекте и современной культуре.

Unite.AI

Мультимодальное обучение становится все более популярным среди разработчиков ИИ

You may like