Anderson 视角
人工智能可以从单个脚步声识别一个人

一个新的研究计划已经开发出了一种低成本的系统,能够根据脚步声识别一个人,即使只有一步。
在论文《被动多人身份识别通过深度脚步分离和识别》(PURE)中,来自南洋理工大学和肯塔基大学等机构的研究人员合作,建立了识别率最高可达90%,从音频样本中可以看出这是非常简短的。
PURE的架构依赖于一个通用麦克风阵列的数据,原始音频捕获通过背景谱减法进行降噪。信噪比高,包括同时捕获的对话,一个源分离算法被激活以执行离散的脚步提取。
脚步音频通过域对抗适应进行澄清和分析,框架包括特征提取器、身份预测器和域判别器。
PURE的硬件
PURE使用的设备是一个嵌入在定制的树莓派4基础上的麦克风阵列。
麦克风以最高可用的速率捕获音频(脚步声),由于这些数据非常短暂,需要尽可能详细。然而,空中脚步声(脚步声在空中传播)被降采样到16kHz,以节省本地处理能力用于结构声步。
研究人员从脚步声效果音板和脚步声效果中合成训练数据集。Ted Talks的音频组件被用于产生训练数据,以便从背景对话中提取脚步声。
防止“重放攻击”在脚步识别中
这种系统需要能够抵御“重放攻击”,即攻击者可能会录制特定的脚步模式并重放它,希望系统会将录音识别为活跃用户。
为了防止这种情况,PURE分析“接触”脚步的到达时间(ToA)和空中脚步的到达角度(AoA)。
重放脚步的缺乏动态信息使得它们相对容易被识别,尽管在处理数据时需要考虑这一点。通过观察脚步的自然不规则性和环境中的速度(例如,在办公环境中不太可能有人会跑或闲逛),可以确保接收的数据是真实的。
该项目使用波束形成技术来计算ToA,但AoA的提取更为复杂,需要一个R-Net神经网络,该网络使用对抗学习来计算脚步的范围。这基本上与前面的神经网络相同,除了身份预测器被替换为范围估计器。
准确性
PURE在广泛的声学环境中进行了测试,使用各种步行速度和距离。随着产生脚步的人数增加,准确性自然下降,随着多个脚步源的速度增加也会下降。
然而,根据域适应,100次试验的结果表明,该系统可以从3-5个脚步中识别用户,准确率范围从90.73%到96.53%;从2-3个脚步中,准确率范围从88.16%到95.92%;从单个脚步中,准确率范围从81.75%到88.6%。
研究人员预见PURE将具有广泛的适用性,原因是所涉及的商品硬件成本低,并且它在延迟和准确性方面优于类似的系统,同时对环境干扰和重放攻击具有鲁棒性。
步态分析的增长
这项机器学习研究的特定领域在过去十年中主要集中在计算机视觉上,并在使用作为情节装置的《碟中谍:神鬼影》(2015)中获得了文化上的推动。
到目前为止,步态识别技术已被提出用于老年护理、术后康复,以及更有争议的零售环境中的个性化广告投放,尽管这种系统显然具有在安全环境中对员工进行监控的潜在用途。
2018年,据报道中国当局使用了来自AI开发公司Watrix的基于视觉的步态分析作为其闭路公共监控系统的一个方面。
步态识别还被实现了通过监测Wi-Fi信号的反射。
然而,这些方法都有固有的局限性,需要无法保证的照明条件、无遮挡的视野、昂贵的专用设备、过于特定的本地条件或佩戴设备等等。

















