人工知能

AIに画像を理解・使用させるための対話の研究

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

韓国からの研究者は、AIが人間が対話で画像を使用する方法を理解し、自然言語モデルがこの非常に最近の人間のコミュニケーションの発展に参加できるように設計されたデータセットを開発しました。

論文は、KAISTのDaedeok Innopolisから、過去10年間の多モーダル対話システムに関する研究が、視覚的な質問回答や画像キャプションなどの周辺分野に焦点を当てたデータセットや方法論によって妨げられてきたことを指摘しています。

これらの古いアプローチでは、画像は会話の語彙的コンテキストの外で評価され、画像応答によって対話がどのように強化され発展するかを理解しておらず、視覚的な貢献を解釈するためのクロスドメインスキーマがありません。

対話の第一級の側面としての画像

これまでの多くのアプローチは、MicrosoftのAI研究部門からのもので、2017年にも調査しました。画像で始まる多モーダル会話のトピックではなく、対話のコンポーネントとして自由に画像を使用することです。

研究データの不足を補うために、韓国人の研究者は、45,000の対話インスタンスのデータセットを開発しました。画像の使用はアドホックで、ウイルス性的「ミーム」画像に焦点を当てていません。後者は言語研究における関心のある分野ですが、ソーシャルメディアプラットフォームでの数千のコンテキスト内での使用を通じてミームの意味をより簡単に推測できるため、チャレンジは少ないと考えられます。

テキストの代わりにイラストを開発する

単語/フレーズ>画像の双方向変換の方法論を開発するために、韓国人の研究者は、機械学習システムを訓練して、テキストベースの会話の部分を意味的に関連する画像コンテンツに置き換えました。

韓国システムによる多モーダル対話研究のためのデータセット生成アーキテクチャ。 ソース: https://arxiv.org/pdf/2107.08685.pdf

ターゲットフレーズの前処理には、予測を妨げる可能性のあるストップワードの削除と、コンテキストの類似性フィルタを使用した低品質な交換のプルーニングが含まれます。

データセットの有用性をテストするために、研究者は、会話のコンテキストと画像を考慮して、次の「ターン」である会話を予測するモジュールを設定しました。

研究で使用された人間評価GUI。

5つの外部データセットが、45kデータセット（GitHubにあります）のベース素材として使用されました。3つはテキストベースの要素です：DailyDialog、2017年のマニュアルで注釈されたマルチターンテキストベースのセット；そして、FacebookのEmpatheticDialoguesとPersonaChat、両方とも2018年からです。使用された2つの画像ベースのデータセットは、MS-COCOとFlicker30kです。

画像/テキストペア – データセットのフレーズのJSONスキーマ、画像（この例ではMicrosoftのCOCO画像データベース）と関連付けられたもの。

テキストから画像への置換は、2019年にボストンのノースイースタン大学で開発された、事前トレーニング済みの視覚的意味推論ネットワーク（VSRN）によって提供されました。VSRNは、寄稿テキストデータセットからの手動で選択されたフレーズで動作するように設定されました。

一貫性の確立

ソースデータセットの一貫性は、各会話データセットの6つの組み合わせを開発し、それを各画像データセットのインスタンスと関連付けて、複数のラウンドで人間によって評価することで確立されました。

人間のスコアリングは、次の3つの基準に基づいていました。交換のコンテキストへの一貫性；画像が表現しようとしている中心的な概念への画像の関連性；画像がターゲット句の重要なオブジェクトを含む程度。

後者の基準を考慮すると、研究者が選択したスキーマは、テキスト会話に挿入される画像の意味的な意味のユーモラス、皮肉、抽象的、または形而上学的な可能性を大幅に無視していることが示唆されます。

しかし、これは先駆的な研究であり、どこかから始める必要があります。Natural Language Processing（NLP）セクターの他の場所では、サーカズムの例をマッピングするなどの努力が行われています。

テスト

データ生成フレームワークをテストするために、研究者は、Facebookの2020年のImage-Chat研究に基づく3部構成のリトリーバルモデルを使用しました。モジュールは、Resnext-101を画像エンコーダーとして、GoogleのBERTをテキストエンコーダーとして、そしてこれらの融合モジュールとして使用します。

システムは、現在と次の文予測タスクで50.35と14.38を達成し、各タスクのベースラインを上回りました。

その後、2人の研究者は、100の多モーダル会話を手動で作成し、会話に画像を挿入し、システムをこれらの「有機的」な多モーダル会話に対して実行するように指示されました。システムは、コンテキストを高く認識して、現在と次のターンの交換を予測することができました。