Connect with us

人工智能

教導 AI 理解和使用對話中的圖像

mm

韓國研究人員開發了一個數據集,旨在幫助 AI 研究人員了解人類在對話中使用圖像的方式,並幫助自然語言模型參與這項最近的人類溝通發展。

論文 中,KAIST 的 Daedeok Innopolis 研究人員指出,過去十年來,多模態對話系統的研究因為數據集和方法的限制而受到阻礙,這些限制主要集中在與主題相關的學科上,例如 視覺問題回答圖像字幕

在這些舊的方法中,圖像是在對話的語法背景之外進行評估的,無法理解圖像響應如何增強和發展對話,也沒有跨領域的模式來解碼視覺貢獻對話的貢獻。

圖像作為對話的第一類面向

迄今為止,許多這類方法都是由微軟的 AI 研究部門開發的,該部門在 2017 年也 研究了 由圖像啟動的多模態對話的主題,而不是自由使用圖像作為對話組件。

為了解決研究數據的不足,韓國研究人員開發了一個包含 45,000 個對話實例的數據集,涉及圖像的臨時使用,不集中於 病毒式的「表情包」圖像;後者雖然是語言研究中的興趣領域,但可以更容易地通過社交媒體平台上的上下文使用推斷其含義。

開發插圖作為文本的替代

為了開發詞語/短語到圖像的雙向轉寫方法,韓國研究人員訓練了一個機器學習系統,可以將文本對話的一部分替換為語義相關的圖像內容。

韓國系統生成多模態對話研究數據集的架構。來源:https://arxiv.org/pdf/2107.08685.pdf

韓國系統生成多模態對話研究數據集的架構。 來源:https://arxiv.org/pdf/2107.08685.pdf

對目標短語的預處理涉及刪除可能抑制對話預測的 停用詞,以及通過上下文相似性過濾器刪除質量較差的交換。

為了測試數據集的實用性,研究人員設置了一個模塊,根據對話的上下文和圖像預測下一個「回合」。

研究中使用的人類評估 GUI。

研究中使用的人類評估 GUI。

五個外部數據集被用作 45k 數據集(可在 GitHub 上找到)的基礎材料。其中三個是文本基礎元素: 每日對話,2017 年的一個手動注釋的多回合文本基礎集;以及 Facebook 的 同理心對話人物聊天,均為 2018 年的產物。使用的兩個圖像基礎數據集分別是 MS-COCO 和 Flicker30k

圖像/文本配對 – 數據集中的短語 JSON 模式,關聯到圖像(在此示例中)來自 Microsoft 的 COCO 圖像數據庫。

圖像/文本配對 – 數據集中的短語 JSON 模式,關聯到圖像(在此示例中)來自 Microsoft 的 COCO 圖像數據庫。

文本到圖像的替換是由 2019 年在波士頓東北大學開發的預訓練 視覺語義推理網絡(VSRN)提供的。VSRN 設置為在手動預選的短語上運行,來自貢獻文本數據集。

建立連貫性

來源數據集的連貫性是通過開發每個對話數據集的六個組合,相關聯到每個圖像數據集的實例,並經過多輪由人類評估而建立的。

人類評分基於三個標準:一致性到交換的上下文;圖像相關性到圖像試圖表達的核心概念;以及圖像包含目標句子中的關鍵對象的程度。

根據後一個標準,可以認為研究人員決定使用的模式基本上忽略了圖像在文本對話中可能具有的幽默、諷刺、抽象或形而上學的語義含義的可能性。

然而,這是一項開創性的工作,它必須從某個地方開始,而在自然語言處理(NLP)領域的其他地方,正在進行大量的努力,以 繪製對話中的諷刺例子,以及其他圖像/文本關係中不太明顯的例子。

測試

為了測試數據生成框架,研究人員使用了一個基於 Facebook 2020 年 圖像聊天 研究的三部分檢索模型。該模塊由 Resnext-101 作為圖像編碼器;Google 的 BERT 作為文本編碼器;以及一個自定義的融合模塊。

系統在當前和下一個句子預測任務中分別達到 50.35 和 14.38,超過了每個任務的基線。

後來,兩名研究人員被要求創建 100 個多模態對話,方法是手動將圖像插入對話中,並運行系統對這些「有機」的多模態對話進行測試。系統能夠預測當前和下一個回合的交換,具有很高的上下文意識,甚至對這些臨時例子也能做到。

韓國多模態數據集生成系統的測試結果,顯示文本到圖像相似性和人類基於相同數據的問題評分之間的一致性相關性。

韓國多模態數據集生成系統的測試結果,顯示文本到圖像相似性和人類基於相同數據的問題評分之間的一致性相關性。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai