Искусственный интеллект

Обучение ИИ понимать и использовать изображения в диалоге

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Исследователи из Южной Кореи разработали набор данных, предназначенный для помощи в исследованиях понимания ИИ того, как люди используют изображения в диалоге, и для помощи моделям естественного языка в участии в этом очень недавнем развитии человеческих коммуникаций.

Статья, из KAIST в Дэдок Иннополисе, отмечает, что исследования таких много модальных диалоговых систем за последние десять лет были осложнены наборами данных и методологиями, центрированными на дисциплинах, периферийных к теме, таких как визуальное ответ на вопросы и подписывание изображений.

В этих более старых подходах изображения оцениваются вне лексического контекста разговора, без понимания того, как диалог улучшается и развивается за счет реакций на изображения, и без междоменной схемы для декодирования вклада визуальных вкладов в дискурс.

Изображения как первоклассные аспекты диалога

Многие из вышеперечисленных подходов на сегодняшний день были инициативами или разработками исследовательского отдела ИИ Microsoft, который в 2017 году также изучал тему много модальных разговоров, которые начинаются с изображения, а не свободно используют изображения в качестве компонентов диалога.

Чтобы устранить нехватку в исследовательских данных, южнокорейские исследователи разработали набор данных из 45 000 экземпляров диалога, включающих ад хок использование изображений, без концентрации на вирусных ‘мем’ изображениях; последние, хотя и являются областью интереса в языковых исследованиях, являются, по сути, менее сложной задачей, поскольку смысл вирусных мемов может быть выведен более легко через тысячи контекстных использований на социальных медиа платформах.

Разработка иллюстраций в качестве замены текста

Чтобы разработать методологию для двусторонней транслитерации слово/фраза>изображение, южнокорейские исследователи обучили систему машинного обучения заменять части текстового разговора на семантически релевантный контент изображения.

Архитектура корейской системы для генерации набора данных для много модального диалога. Источник: https://arxiv.org/pdf/2107.08685.pdf

Предварительная обработка целевых фраз включала удаление стоп слов, которые могли бы препятствовать прогнозированию следующего хода в разговоре, и обрезку низкокачественных обменов через контекстные фильтры подобия.

Чтобы проверить полезность набора данных, исследователи настроили модуль для прогнозирования следующего ‘хода’ в диалоге, учитывая контекст разговора и изображения, участвующие в нем.

Графический интерфейс для оценки человека, использованный в исследовании.

Были использованы пять внешних наборов данных в качестве базового материала для 45k набора данных (который доступен на GitHub). Три из них являются текстовыми элементами: DailyDialog, вручную аннотированный многоходовой текстовый набор из 2017 года; и EmpatheticDialogues и PersonaChat от Facebook, оба из 2018 года. Два изображения-ориентированных набора данных, использованных для этого, были MS-COCO и Flicker30k.

Пары изображений/текста – схема JSON фраз в наборе данных, связанных с изображениями (в этом примере) из базы данных изображений Microsoft COCO.

Замена текста на изображение для системы была обеспечена предварительно обученной Сетью визуально-семантического рассуждения (VSRN), разработанной в 2019 году в Университете Норtheastern в Бостоне. VSRN была настроена для работы с вручную предварительно выбранными фразами из текстовых наборов данных.

Установление согласованности

Согласованность исходных наборов данных была установлена путем разработки шести комбинаций каждого диалогового набора данных, коррелированных с экземплярами каждого изображения-набора данных, и оцененных за несколько раундов людьми.

Оценка человека была основана на трех критериях: последовательности контекста обмена; актуальности изображения для основной концепции, которую изображение пытается выразить; и степени, в которой изображение содержит ключевые объекты из целевого предложения.

Учитывая последний критерий, можно утверждать, что схема, которую исследователи решили использовать, в значительной степени исключила возможность юмористических, саркастических, абстрактных или метафизических возможностей для семантического значения изображения, которое может быть введено в текстовый разговор.

Однако это семинальная работа, и она должна начаться где-то, в то время как значительные усилия тратятся в другом месте в секторе обработки естественного языка (NLP), чтобы отобразить случаи сарказма, среди других менее осязаемых примеров отношения изображения/текста.

Тестирование

Чтобы протестировать генерацию набора данных, исследователи использовали трехчастную модель извлечения, основанную на исследовании Image-Chat Facebook 2020 года. Модуль состоит из Resnext-101 в качестве кодировщика изображения; BERT от Google для текстового кодировщика; и пользовательской модуль融合 для этих.

Система достигла 50,35 и 14,38 на задаче прогнозирования текущего и следующего предложения, улучшив базовую линию для каждой задачи.

Позже два исследователя были задействованы в создании 100 много модальных диалогов путем вставки изображений в разговоры вручную и запуска системы против этих ‘органических’ много модальных разговоров. Система смогла прогнозировать текущий и следующий ход с высоким осознанием контекста даже для этих ад хок примеров.

Результаты тестирования для корейской системы генерации набора данных для много модального диалога, показывающие последовательно высокую корреляцию между текст-изображением подобием и оценками вопросов на основе человека на тех же данных.