人工智能

教導 AI 理解和使用對話中的圖像

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

韓國研究人員開發了一個數據集，旨在幫助 AI 研究人員了解人類在對話中使用圖像的方式，並幫助自然語言模型參與這項最近的人類溝通發展。

論文中，KAIST 的 Daedeok Innopolis 研究人員指出，過去十年來，多模態對話系統的研究因為數據集和方法的限制而受到阻礙，這些限制主要集中在與主題相關的學科上，例如視覺問題回答和圖像字幕。

在這些舊的方法中，圖像是在對話的語法背景之外進行評估的，無法理解圖像響應如何增強和發展對話，也沒有跨領域的模式來解碼視覺貢獻對話的貢獻。

圖像作為對話的第一類面向

迄今為止，許多這類方法都是由微軟的 AI 研究部門開發的，該部門在 2017 年也研究了由圖像啟動的多模態對話的主題，而不是自由使用圖像作為對話組件。

為了解決研究數據的不足，韓國研究人員開發了一個包含 45,000 個對話實例的數據集，涉及圖像的臨時使用，不集中於病毒式的「表情包」圖像；後者雖然是語言研究中的興趣領域，但可以更容易地通過社交媒體平台上的上下文使用推斷其含義。

開發插圖作為文本的替代

為了開發詞語/短語到圖像的雙向轉寫方法，韓國研究人員訓練了一個機器學習系統，可以將文本對話的一部分替換為語義相關的圖像內容。

韓國系統生成多模態對話研究數據集的架構。 來源：https://arxiv.org/pdf/2107.08685.pdf

對目標短語的預處理涉及刪除可能抑制對話預測的停用詞，以及通過上下文相似性過濾器刪除質量較差的交換。

為了測試數據集的實用性，研究人員設置了一個模塊，根據對話的上下文和圖像預測下一個「回合」。

研究中使用的人類評估 GUI。

五個外部數據集被用作 45k 數據集（可在 GitHub 上找到）的基礎材料。其中三個是文本基礎元素： 每日對話，2017 年的一個手動注釋的多回合文本基礎集；以及 Facebook 的 同理心對話 和 人物聊天，均為 2018 年的產物。使用的兩個圖像基礎數據集分別是 MS-COCO 和 Flicker30k。