Свяжитесь с нами:

Мультимодальное обучение становится все более популярным среди разработчиков ИИ

Искусственный интеллект

Мультимодальное обучение становится все более популярным среди разработчиков ИИ

mm

Venture Beat (VB) посвятил один из своих еженедельных отчетов преимуществам мультимодального обучения в развитии искусственного интеллекта. Их подсказка была докладе by ABI Research по вопросу.

Ключевое понятие заключается в том, что «наборы данных являются фундаментальными строительными блоками систем ИИ», и что без наборов данных «модели не могут изучать взаимосвязи, которые формируют их прогнозы». В отчете ABI прогнозируется, что «хотя общая установленная база устройств ИИ вырастет с 2.69 млрд в 2019 году до 4.47 млрд в 2024 году, в краткосрочной перспективе сравнительно немногие из них будут совместимы».

Это может представлять собой значительную трату времени, энергии и ресурсов»,вместо того, чтобы объединять гигабайты и петабайты данных, проходящих через них, в единую модель или структуру ИИ, они будут работать независимо и неоднородно, чтобы понять данные, которые им передаются».

Чтобы преодолеть это, ABI предлагает мультимодальное обучение, методология, которая может консолидировать данные «от различных датчиков и вводов в единую систему. Мультимодальное обучение может нести дополнительную информацию или тенденции, которые часто становятся очевидными только тогда, когда все они включены в процесс обучения».

VB представляет собой жизнеспособный пример, в котором учитываются изображения и текстовые подписи. “ Если разные слова сочетаются с похожими изображениями, эти слова, вероятно, используются для описания одних и тех же вещей или объектов. И наоборот, если некоторые слова появляются рядом с разными изображениями, это означает, что эти изображения представляют один и тот же объект. Учитывая это, модель ИИ должна иметь возможность предсказывать объекты изображений на основе текстовых описаний, и действительно, множество академических публикаций доказали, что это так».

Несмотря на возможные преимущества, ABI отмечает, что даже такие технологические гиганты, как  IBM, Microsoft, Amazon и Google продолжают ориентироваться преимущественно на одномодальные системы. Одной из причин являются проблемы, связанные с таким переключением.

Тем не менее, исследователи ABI ожидают, что «общее количество отгруженных устройств вырастет с 3.94 миллиона в 2017 году до 514.12 миллиона в 2023 году, чему будет способствовать внедрение в сегментах робототехники, потребительских товаров, здравоохранения, СМИ и развлечений». Среди примеров компаний, которые уже внедряют мультимодальное обучение, они приводят Waymo который использует такие подходы для создания «самоуправляемых транспортных средств с гиперсознанием» и Intel Labs, где команда инженеров компании «исследует методы сопоставления данных датчиков в реальных условиях».

Главный инженер Intel Labs Омеш Тику объяснил VB, что «Что мы сделали, так это, используя методы для определения контекста, такого как время суток, мы создали систему, которая сообщает вам, когда данные датчика не самого высокого качества. Учитывая это значение достоверности, он сопоставляет разные датчики с разными интервалами и выбирает правильное сочетание, чтобы дать нам ответ, который мы ищем».

ВБ отмечает, что унимодальное обучение останется преобладающим там, где оно высокоэффективно – в таких приложениях, как распознавание изображений и обработка естественного языка. В то же время он предсказывает, что «по мере того, как электроника станет дешевле, а вычисления станут более масштабируемыми, мультимодальное обучение, вероятно, будет только приобретать популярность».

Бывший дипломат и переводчик ООН, в настоящее время независимый журналист/писатель/исследователь, специализирующийся на современных технологиях, искусственном интеллекте и современной культуре.