Искусственный интеллект
Мультимодальное обучение становится все более популярным среди разработчиков ИИ

Venture Beat (VB) посвятил одну из своих еженедельных отчетов преимуществам мультимодального обучения в разработке искусственного интеллекта. Их поводом был отчет ABI Research на эту тему.
Ключевая концепция заключается в том, что “наборы данных являются фундаментальными строительными блоками систем ИИ”, и что без наборов данных “модели не могут изучить отношения, которые информируют их прогнозы”. Отчет ABI прогнозирует, что “хотя общее количество установленных устройств ИИ вырастет с 2,69 миллиарда в 2019 году до 4,47 миллиарда в 2024 году, сравнительно небольшое количество из них будет взаимодействовать в короткий срок”.
Это может представлять собой значительную трату времени, энергии и ресурсов, “вместо того, чтобы объединить гигабайты до петабайтов данных, протекающих через них в одну модель ИИ или框架, они будут работать независимо и гетерогенно, чтобы понять данные, которые им передаются”.
Чтобы преодолеть это, ABI предлагает мультимодальное обучение, методологию, которая могла бы консолидировать данные “из различных датчиков и входов в одну систему. Мультимодальное обучение может нести дополнительную информацию или тенденции, которые часто становятся очевидными только тогда, когда они все включены в процесс обучения”.
VB представляет жизнеспособный пример, который учитывает изображения и текстовые подписи. “Если разные слова сочетаются с похожими изображениями, эти слова, вероятно, используются для описания одних и тех же вещей или объектов. Напротив, если некоторые слова появляются рядом с разными изображениями, это подразумевает, что эти изображения представляют один и тот же объект. Учитывая это, должно быть возможно для модели ИИ предсказать объекты изображений из текстовых описаний, и действительно, ряд академических работ доказал, что это так”.
Несмотря на возможные преимущества, ABI отмечает, что даже технологические гиганты, такие как IBM, Microsoft, Amazon и Google, продолжают сосредотачиваться в основном на унимодальных системах. Одна из причин этого заключается в проблемах, которые представляет собой такой переход.
Тем не менее, исследователи ABI предсказывают, что “общее количество отгруженных устройств вырастет с 3,94 миллиона в 2017 году до 514,12 миллиона в 2023 году, стимулируемое принятием в робототехнике, потребительском, здравоохранении и сегментах СМИ и развлечений”. Среди примеров компаний, которые уже реализуют мультимодальное обучение, они упоминают Waymo, которая использует такие подходы для создания “гипер-осведомленных самоходных транспортных средств”, и Intel Labs, где инженерная команда компании “изучает методы сбора данных датчиков в реальных средах”.
Главный инженер Intel Labs Omesh Tickoo объяснил VB, что “мы использовали методы для определения контекста, такие как время суток, и построили систему, которая говорит нам, когда данные датчика не являются самого высокого качества. Учитывая это значение уверенности, оно взвешивает разные датчики против друг друга на разных интервалах и выбирает правильную смесь, чтобы дать нам ответ, который мы ищем”.
VB отмечает, что унимодальное обучение останется преобладающим там, где оно высокоэффективно – в приложениях, таких как распознавание изображений и обработка естественного языка. В то же время он предсказывает, что “по мере того, как электроника становится дешевле и вычисления более масштабируемыми, мультимодальное обучение, вероятно, будет только расти в значимости”.






