Anderson 视角
教育 AI 理解和使用对话中的图像

来自韩国的研究人员开发了一个数据集,旨在帮助研究人员了解人类在对话中使用图像的方式,并帮助自然语言模型参与这种最近的人类交流发展。
来自大德科技谷KAIST的论文指出,过去十年中,多模态对话系统的研究由于数据集和方法论集中在次要学科上(如视觉问答和图像字幕),而受到限制。
在这些旧的方法中,图像是在对话的词汇背景之外进行评估的,没有理解图像响应如何增强和发展对话,也没有跨领域的模式来解码视觉贡献对话的贡献。
图像作为对话的第一类方面
迄今为止,许多方法都是由微软AI研究部门发起的,该部门在2017年也研究了由图像开始的多模态对话的主题,而不是自由使用图像作为对话组件。
为了解决研究数据的不足,韩国研究人员开发了一个包含45,000个对话实例的数据集,这些实例涉及图像的即席使用,不专注于病毒式“表情包”图像;后者虽然是语言研究的兴趣领域,但可以更容易地通过社交媒体平台上的上下文使用推断其含义。
开发插图作为文本的替代
为了开发词语/短语与图像的双向转换方法,韩国研究人员训练了一个机器学习系统,以在语义上相关的图像内容中替换文本对话的部分。
目标短语的预处理涉及删除可能阻碍对话下一句预测的停用词,以及通过上下文相似性过滤器剪枝质量较差的交流。
为了测试数据集的实用性,研究人员设置了一个模块来预测对话的下一个“回合”,同时考虑对话的上下文和涉及的图像。

研究中使用的人类评估GUI。
五个外部数据集被用作45k数据集(可在GitHub上找到)的基础材料。三个是基于文本的元素:DailyDialog,2017年的一份手动注释的多轮文本数据集;以及Facebook的EmpatheticDialogues和PersonaChat,均来自2018年。使用的两个基于图像的数据集是MS-COCO和Flicker30k。

图像/文本对——数据集中的短语JSON模式,关联到图像(在此示例中)来自Microsoft的COCO图像数据库。
系统的文本到图像替换由2019年波士顿东北大学开发的预训练视觉语义推理网络(VSRN)提供支持。VSRN被设置为在手动预先选择的短语上运行,这些短语来自贡献的文本数据集。
建立连贯性
通过开发每个对话数据集和每个图像数据集的六种组合,并通过多轮由人类评估,建立了源数据集的连贯性。
人类评分基于三个标准:一致性与交流的上下文;图像的相关性与图像试图表达的核心概念;以及图像中包含目标句子中的关键对象的程度。
考虑到后一个标准,可以认为研究人员决定的模式在很大程度上忽略了图像在文本对话中可能具有幽默、讽刺、抽象或形而上学含义的可能性。
然而,这是一项开创性的工作,它必须从某个地方开始,同时自然语言处理(NLP)领域的其他地方也在努力绘制社交媒体中讽刺的实例,以及图像/文本关系的其他不太有形的例子。
测试
为了测试数据生成框架,研究人员使用了基于Facebook2020年Image-Chat研究的三部分检索模型。该模块由Resnext-101作为图像编码器;Google的BERT作为文本编码器;以及一个自定义的融合模块。
该系统在当前和下一个句子预测任务中实现了50.35和14.38的成绩,改进了每个任务的基线。
后来,两名研究人员被要求创建100个多模态对话,方法是将图像手动插入对话中,并将系统运行在这些“有机”的多模态对话中。该系统能够以高的上下文意识预测当前和下一个回合的交流,甚至对于这些即席示例。














