Штучний інтелект

Навчання штучного інтелекту розуміти та використовувати зображення в діалозі

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

Дослідники з Південної Кореї розробили набір даних, призначений для допомоги у дослідженнях щодо розуміння штучним інтелектом того, як люди використовують зображення в діалозі, та для допомоги моделям природної мови брати участь у цьому дуже недавньому розвитку людських комунікацій.

Ця стаття, з KAIST у Daedeok Innopolis, зазначає, що дослідження таких багатомодальних діалогових систем за останні десять років були обмежені наборами даних і методологіями, що центруються на дисциплінах, периферійних до теми, таких як візуальне питання-відповідь і підпис зображення.

У цих старих підходах зображення оцінюються поза лексичним контекстом розмови, без розуміння того, як діалог посилюється і розвивається за допомогою відповідей зображень, і немає схеми для декодування внеску візуальних внесків у дискурс.

Зображення як першокласні аспекти діалогу

Багато з вищезазначених підходів на сьогодні були ініціативами або розробками від дослідницького відділу Microsoft по штучному інтелекту, який у 2017 році також досліджував тему багатомодальних розмов, які починаються з зображення, а не вільно використовують зображення як компоненти діалогу.

Для вирішення нестачі у дослідницьких даних південнокорейські дослідники розробили набір даних із 45 000 екземплярів діалогу, що涉ляють використання зображень ad hoc, без концентрації на віральних “мем” зображеннях; останні, хоча й є областю інтересу у мовних дослідженнях, є, ймовірно, меншим викликом, оскільки значення вірусних мемів можна вивести легше через тисячі контекстних використань на соціальних платформах.

Розробка ілюстрацій як заміни тексту

Для розробки методології для двосторонньої транслітерації слово/фраза>зображення південнокорейські дослідники тренували систему машинного навчання для заміни частин текстової розмови на семантично відповідний вміст зображення.

Архітектура корейської системи для генерації набору даних для багатомодального діалогового дослідження. Джерело: https://arxiv.org/pdf/2107.08685.pdf

Попередня обробка цільових фраз включала видалення стоп-слов, які могли б інгібувати передбачення наступної репліки в розмові, і обрізання низькоякісних обмінів через фільтри контекстної схожості.

Для перевірки корисності набору даних дослідники встановили модуль для передбачення наступної “повороту” в діалозі, враховуючи контекст розмови та зображень, що беруть участь.

Система оцінки людини, використана у дослідженні.

П’ять зовнішніх наборів даних були використані як базовий матеріал для набору даних 45k (який доступний на GitHub). Три з них є текстовими елементами: DailyDialog, вручну анотований багаторозмовий текстовий набір з 2017 року; і Facebook’s EmpatheticDialogues і PersonaChat, обидва з 2018 року. Два зображення-базовані набори даних, використані були MS-COCO і Flicker30k.

Пари зображення/текст – схема JSON фраз у наборі даних, пов’язаних із зображеннями (у цьому прикладі) з бази даних зображень Microsoft COCO.

Заміна тексту на зображення для системи була здійснена за допомогою попередньо тренованої Візуальної семантичної мережі rozumіння (VSRN), розробленої у 2019 році в Північно-Східному університеті в Бостоні. VSRN була встановлена для роботи з вручну вибраними фразами з текстових наборів даних.

Встановлення узгодженості

Узгодженість джерельних наборів даних була встановлена шляхом розробки шести комбінацій кожного діалогового набору даних, корельованих з екземплярами кожного зображення, і оцінених протягом декількох раундів людьми.

Людська оцінка була заснована на трьох критеріях: узгодженості з контекстом обміну; відповідності зображення до основної концепції, яку зображення намагалося виразити; і ступеня, у якому зображення містило ключові об’єкти з цільової речення.

Якщо вважати останній критерій, можна стверджувати, що схема, яку дослідники вирішили, у великій мірі дискваліфікувала можливість гумористичних, саркастичних, абстрактних або метафізичних можливостей семантичного значення зображення, яке могло бути введено до текстової розмови.

Однак, це є семінальною роботою, і вона повинна початися десь, тоді як значні зусилля витрачаються в іншому місці в секторі обробки природної мови (NLP) для картографування випадків сарказму, серед інших менш осяжних прикладів відносини зображення/текст.

Тестування

Для тестування рамки генерації даних дослідники використали тричастинну модель відновлення, засновану на дослідженні Image-Chat Facebook 2020 року. Модуль складається з Resnext-101 як кодувальника зображення; Google’s BERT для текстового кодувальника; і спеціального модуля злиття для цих.

Система досягла 50,35 і 14,38 у задачах передбачення поточної і наступної речення, покращуючи базові значення для кожної задачі.

Пізніше двоє дослідників були доручені створити 100 багатомодальних діалогів шляхом вставки зображень у розмови вручну, і запустити систему проти цих “органічних” багатомодальних розмов. Система була здатна передбачити поточну і наступну репліку з високою свідомістю контексту навіть для цих ad hoc прикладів.

Результати тестування для корейської багатомодальної системи генерації набору даних, що показують постійно високу кореляцію між текстово-зображенням схожістю і людьми-орієнтованими оціками на тих самих даних.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]