关注我们.

人工智能

统一语音和手势合成

mm

当我从意大利南部呆了几年回到英国时,我花了很长时间才停止在说话时打手势。 在英国,用大胆的手势来支持你的演讲只会让你看起来咖啡因过多。 在意大利,作为学习语言的人,它实际上对我有帮助 被理解即使是现在,在我很少说意大利语的时候,“野手”也会再次派上用场。不动身几乎不可能说意大利语。

近年来,手势支持的通信 在意大利和犹太文化中 引起公众关注的不仅仅是马丁·斯科塞斯和伍迪·艾伦早期电影作品中的一个比喻。 2013年,《纽约时报》编制了一份 短视频历史 意大利手势; 学术界开始研究手势的种族倾向,而不是将这个主题视为一种刻板印象; 来自 Unicode 联盟的新表情符号是 弥补手势的不足 伴随着纯粹的数字化、基于文本的通信。

语音和手势的统一方法

现在, 新的研究 瑞典皇家理工学院语言、音乐和听力系的研究人员正在尝试将语音和手势识别结合成一个统一的多模式系统,该系统可以通过将肢体语言作为语音的综合辅助手段而不是平行的研究领域来增加我们对基于语音的交流的理解。

来自瑞典语音/手势项目测试页面的视觉效果。 来源:https://swatsw.github.io/isg_icmi21/

来自瑞典语音/手势项目测试页面的视觉效果。 来源:https://swatsw.github.io/isg_icmi21/

该研究提出了一种称为集成语音和手势(ISG)合成的新模型,并汇集了来自语音和手势研究的许多最先进的神经模型。

新方法放弃了线性 管道模型 (其中手势信息作为辅助处理阶段从语音中顺序导出)用于更集成的方法,该方法根据最终用户与现有系统同等评价,并且实现更快的合成时间和减少的参数数量。

线性方法与集成方法。 资料来源:https://arxiv.org/pdf/2108.11436.pdf

线性方法与集成方法。 资料来源:https://arxiv.org/pdf/2108.11436.pdf

新的多模态系统包含一个自发的文本到语音合成器和一个音频语音驱动的手势生成器,两者都经过现有 Trinity Speech Gesture 的训练 数据集。 该数据集包含一名男子谈论不同主题并自由打手势的 244 分钟音频和身体捕捉。

这部作品是一部小说,与 榴莲 项目,它生成面部表情和语音,而不是手势和语音,并且更多地属于表情识别和合成领域。

架构

该项目的语音和视觉(手势)部分在数据方面不平衡; 文本稀疏,手势丰富且数据密集——这对于定义目标和指标来说是一个挑战。 因此,研究人员主要通过人类对输出的响应来评估系统,而不是更明显的机械方法,例如均方误差(MSE)。

两个主要的 ISG 模型是围绕 第二次迭代 谷歌 2017 年 塔科特隆 端到端语音合成项目,以及韩国 发光TTS 该计划于 2020 年发布。Tacotron 采用自回归 LSTM 架构,而 Glow-TTS 通过卷积算子并行运行,具有更快的 GPU 性能,并且没有自回归模型可能出现的稳定性问题。

研究人员在项目期间测试了三种有效的语音/手势系统:多模态语音和手势生成的修改版本 出版 2021 年,由许多相同的研究人员参与新项目; 开源 Tacotron 2 的专用和修改后的 ISG 版本; 以及 Glow-TTS 的高度修改的 ISG 版本。

为了评估这些系统,研究人员创建了一个基于网络的反馈环境,该环境具有清晰的 3D 人说话并移动到预定义的文本片段(环境的总体外观可以在 公共项目页面).

测试环境。

测试环境。

测试对象被要求根据语音和手势、仅语音和仅手势来评估系统性能。 结果显示,新 ISG 版本比旧管道版本略有改进,尽管新系统运行速度更快且资源更少。

当被问及“手势有多人性化?”时,完全集成的 ISG 模型略微领先于较慢的管道模型,而基于 Tacotron 和 Glow 的模型则进一步落后。

当被问及“这个手势有多人性化?”时,完全集成的 ISG 模型略微领先于速度较慢的管道模型,而 Tacotron 和基于 Glow 的模型则落后很多。

嵌入式耸肩

Tacotron2-ISG 模型是三种方法中最成功的,它展示了与数据集中一些最常见短语相关的“潜意识”学习水平,例如“我不知道”——尽管缺乏明确的数据使其生成伴随这个短语的耸肩动作,但研究人员发现生成器确实耸了耸肩。

研究人员指出,由于这个新项目的特殊性,它必然会缺乏通用资源,例如整合语音和手势数据、适合训练该系统的专用数据集。尽管这项研究具有先锋性,但他们仍认为,这在语音、语言学和手势识别领域是一个充满希望且鲜为人知的探索方向。

 

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai