人工智能
人工智能如何使手语识别更加精确

当我们思考打破沟通障碍时,我们经常关注 语言翻译应用 或语音助手。但对于数百万使用手语的人来说,这些工具尚未完全弥合了差距。手语不仅仅是手势 – 它是一种丰富、复杂的沟通形式,包括面部表情和身体语言,每个元素都承载着至关重要的意义。
这里是使其特别具有挑战性的原因:与口语不同,口语主要在词汇和语法上有所不同,世界各地的手语在传达意义的方式上有着根本的不同。例如,美国手语(ASL)有其自己的独特语法和句法,与口语英语不相匹配。
这种复杂性意味着创建能够实时识别和翻译手语的技术需要对整个语言系统有所了解。
一种新的识别方法
这是佛罗里达大西洋大学(FAU)的工程和计算机科学学院的一支团队决定采取一种新方法。他们没有试图一下子解决手语的全部复杂性,而是专注于掌握一个至关重要的第一步:通过人工智能以前所未有的准确性识别美国手语字母手势。
可以把它想象成教计算机读懂手写,但是在三维空间中并且在运动中。该团队建造了 quelque coisa令人惊叹的东西:一组包含29,820张静态图像,显示美国手语手势。但他们不仅仅收集了图片,还在每张图片上标记了21个手部关键点,创建了一个详细的地图,展示了手如何移动和形成不同的标志。
作为博士生领导这项研究的Bader Alsharif解释说:“这种方法在以前的研究中尚未被探索,因此它是一个新的和有前途的方向,未来可能会有所突破。”
技术的分解
让我们深入探讨使手语识别系统工作的技术组合。
MediaPipe和YOLOv8
魔术发生在两个强大的工具的无缝集成中:MediaPipe和YOLOv8。可以把MediaPipe想象成一个专家手势观察者 – 一个熟练的手语解释者,可以跟踪每一个细微的手指运动和手部位置。研究团队选择MediaPipe是因为其在提供准确的手部标志跟踪方面的卓越能力,正如我们上面提到的,可以识别每只手的21个精确点。
但跟踪还不够 – 我们需要了解这些运动的意义。这就是YOLOv8的用处。YOLOv8是一个模式识别专家,它可以处理所有这些跟踪点,并弄清楚它们代表哪个字母或手势。研究表明,当YOLOv8处理图像时,它将图像分成一个S × S网格,每个网格单元负责检测其边界内的对象(在这种情况下,手势)。

Alsharif et al., Franklin Open (2024)
系统的实际工作原理
这个过程比乍一看更复杂。
以下是幕后发生的事情:
手部检测阶段
当你做出一个手势时,MediaPipe首先识别图像中的手并绘制出21个关键点。这些点不仅仅是随机的点 – 它们对应于手上的特定关节和标志,从手指尖到手掌底部。
空间分析
然后,YOLOv8对这些信息进行实时分析。对于图像中的每个网格单元,它预测:
- 手势存在的概率
- 手势位置的精确坐标
- 其预测的置信度
分类
系统使用一种称为“边界框预测”的方法 – 想象一下在你的手势周围画一个完美的矩形。YOLOv8计算每个框的五个关键值:x和y坐标的中心,宽度,高度和置信度。

Alsharif et al., Franklin Open (2024)
为什么这种组合如此有效
研究团队发现,通过组合这些技术,他们创造了比各个部分之和更伟大的东西。MediaPipe的精确跟踪与YOLOv8的高级对象检测相结合,产生了惊人的准确结果 – 我们谈论的是98%的精度率和99%的F1评分。
使其特别令人印象深刻的是,该系统如何处理手语的复杂性。有些手势可能看起来对未经训练的眼睛来说非常相似,但该系统可以发现微妙的差异。
创纪录的结果
当研究人员开发新技术时,人们总是会问:“它实际上有多有效?”对于这个手语识别系统,结果令人印象深刻。
FAU的团队对他们的系统进行了严格的测试,以下是他们发现的内容:
- 该系统正确识别手势的准确率为98%
- 它可以捕捉到98%的所有手势
- 总体性能评分达到令人印象深刻的99%
“我们的研究结果表明,我们的模型能够准确地检测和分类美国手语手势,错误率非常低,”Alsharif解释说。
该系统在日常情况下表现良好 – 不同的照明,各种手部位置,甚至不同的人都可以使用手语。
这一突破推动了手语识别的可能性的边界。以前的系统在准确性方面一直苦苦挣扎,但通过将MediaPipe的跟踪与YOLOv8的检测能力相结合,研究团队创造了些特别的东西。
“该模型的成功在很大程度上归功于对迁移学习的仔细集成,数据集的精心创建以及精确的调优,”研究的共同作者Mohammad Ilyas说。这种对细节的关注在系统的出色性能中得到了回报。
这对沟通意味着什么
该系统的成功为使沟通更加便捷和包容打开了令人兴奋的可能性。
该团队不仅仅满足于识别字母。下一个大挑战是教导系统了解更广泛的各种手势。想想那些看起来几乎相同的手势 – 比如手语中的字母“M”和“N”。研究人员正在努力使他们的系统更好地捕捉这些细微的差异。正如Alsharif博士所说:“重要的是,本研究的发现不仅强调了系统的稳健性,还强调了其在实际、实时应用中的潜力。”
该团队现在专注于:
- 使系统能够在常规设备上平稳运行
- 使其足够快,以适应现实世界的对话
- 确保它在任何环境中都能可靠地运行
FAU的工程和计算机科学学院院长Stella Batalama分享了更大的愿景:“通过改进美国手语识别,这项工作有助于创建可以增强聋人和听力障碍人群沟通的工具。”
想象一下走进医生办公室或参加课堂,这项技术可以瞬间弥合沟通差距。这才是真正的目标 – 创建真正帮助人们联系的技术。不论是在教育、医疗保健还是日常对话中,这个系统代表着朝着一个沟通障碍不断减少的世界迈出的一步。












