Искусственный интеллект
Обучение ИИ понимать и использовать изображения в диалоге

Исследователи из Южной Кореи разработали набор данных, предназначенный для помощи в исследованиях понимания ИИ того, как люди используют изображения в диалоге, и для помощи моделям естественного языка в участии в этом очень недавнем развитии человеческих коммуникаций.
Статья, из KAIST в Дэдок Иннополисе, отмечает, что исследования таких много модальных диалоговых систем за последние десять лет были осложнены наборами данных и методологиями, центрированными на дисциплинах, периферийных к теме, таких как визуальное ответ на вопросы и подписывание изображений.
В этих более старых подходах изображения оцениваются вне лексического контекста разговора, без понимания того, как диалог улучшается и развивается за счет реакций на изображения, и без междоменной схемы для декодирования вклада визуальных вкладов в дискурс.
Изображения как первоклассные аспекты диалога
Многие из вышеперечисленных подходов на сегодняшний день были инициативами или разработками исследовательского отдела ИИ Microsoft, который в 2017 году также изучал тему много модальных разговоров, которые начинаются с изображения, а не свободно используют изображения в качестве компонентов диалога.
Чтобы устранить нехватку в исследовательских данных, южнокорейские исследователи разработали набор данных из 45 000 экземпляров диалога, включающих ад хок использование изображений, без концентрации на вирусных ‘мем’ изображениях; последние, хотя и являются областью интереса в языковых исследованиях, являются, по сути, менее сложной задачей, поскольку смысл вирусных мемов может быть выведен более легко через тысячи контекстных использований на социальных медиа платформах.
Разработка иллюстраций в качестве замены текста
Чтобы разработать методологию для двусторонней транслитерации слово/фраза>изображение, южнокорейские исследователи обучили систему машинного обучения заменять части текстового разговора на семантически релевантный контент изображения.

Архитектура корейской системы для генерации набора данных для много модального диалога. Источник: https://arxiv.org/pdf/2107.08685.pdf
Предварительная обработка целевых фраз включала удаление стоп слов, которые могли бы препятствовать прогнозированию следующего хода в разговоре, и обрезку низкокачественных обменов через контекстные фильтры подобия.
Чтобы проверить полезность набора данных, исследователи настроили модуль для прогнозирования следующего ‘хода’ в диалоге, учитывая контекст разговора и изображения, участвующие в нем.

Графический интерфейс для оценки человека, использованный в исследовании.
Были использованы пять внешних наборов данных в качестве базового материала для 45k набора данных (который доступен на GitHub). Три из них являются текстовыми элементами: DailyDialog, вручную аннотированный многоходовой текстовый набор из 2017 года; и EmpatheticDialogues и PersonaChat от Facebook, оба из 2018 года. Два изображения-ориентированных набора данных, использованных для этого, были MS-COCO и Flicker30k.

Пары изображений/текста – схема JSON фраз в наборе данных, связанных с изображениями (в этом примере) из базы данных изображений Microsoft COCO.
Замена текста на изображение для системы была обеспечена предварительно обученной Сетью визуально-семантического рассуждения (VSRN), разработанной в 2019 году в Университете Норtheastern в Бостоне. VSRN была настроена для работы с вручную предварительно выбранными фразами из текстовых наборов данных.
Установление согласованности
Согласованность исходных наборов данных была установлена путем разработки шести комбинаций каждого диалогового набора данных, коррелированных с экземплярами каждого изображения-набора данных, и оцененных за несколько раундов людьми.
Оценка человека была основана на трех критериях: последовательности контекста обмена; актуальности изображения для основной концепции, которую изображение пытается выразить; и степени, в которой изображение содержит ключевые объекты из целевого предложения.
Учитывая последний критерий, можно утверждать, что схема, которую исследователи решили использовать, в значительной степени исключила возможность юмористических, саркастических, абстрактных или метафизических возможностей для семантического значения изображения, которое может быть введено в текстовый разговор.
Однако это семинальная работа, и она должна начаться где-то, в то время как значительные усилия тратятся в другом месте в секторе обработки естественного языка (NLP), чтобы отобразить случаи сарказма, среди других менее осязаемых примеров отношения изображения/текста.
Тестирование
Чтобы протестировать генерацию набора данных, исследователи использовали трехчастную модель извлечения, основанную на исследовании Image-Chat Facebook 2020 года. Модуль состоит из Resnext-101 в качестве кодировщика изображения; BERT от Google для текстового кодировщика; и пользовательской модуль融合 для этих.
Система достигла 50,35 и 14,38 на задаче прогнозирования текущего и следующего предложения, улучшив базовую линию для каждой задачи.
Позже два исследователя были задействованы в создании 100 много модальных диалогов путем вставки изображений в разговоры вручную и запуска системы против этих ‘органических’ много модальных разговоров. Система смогла прогнозировать текущий и следующий ход с высоким осознанием контекста даже для этих ад хок примеров.













