网络安全

一种揭示 ATM 上“屏蔽”PIN 输入的 AI 方法

Published October 18, 2021

Updated April 28, 2026

Martin Anderson

意大利和荷兰的研究人员开发了一种机器学习方法，能够根据捕获的视频推断出银行客户在 ATM 上输入的 PIN 号码，即使客户用手遮挡以防止肩上窥视。该方法涉及训练一个卷积神经网络（CNN）和一个长短期记忆（LSTM）模块，使用“遮挡手”PIN 输入的视频，在一个“影子”ATM 上，这个 ATM 安装了与目标 ATM 相同的键盘——这种设备可以购买，研究人员为项目购买了它，并在实验室条件下重建了一个“镜像”ATM 以收集数据。假的 ATM 可以在私下训练，如研究人员所做的，这消除了在公共场所安装假 ATM 的风险，这是这种犯罪的常见手法。

两种用于模拟 ATM 的 PIN 垫模型。右侧是“影子”ATM。来源：https://arxiv.org/pdf/2110.08113.pdf

左侧，两种用于意大利研究的 PIN 垫模型。右侧是研究人员在实验室条件下构建的“影子”ATM。 来源：https://arxiv.org/pdf/2110.08113.pdf

该系统，根据手部运动和 PIN 输入期间的定位，可以预测 41% 的 4 位 PIN 和 30% 的 5 位 PIN 号码，在三次尝试内（通常是银行在锁定客户账户之前允许的最大尝试次数）。测试涉及 58 名使用随机 PIN 号码的志愿者。该研究的数据是公开的，发现该系统的提议比人类通过肩上窥视来猜测 PIN 的能力有四倍的改进。该论文的标题为 Hand Me Your PIN! Inferring ATM PINs of Users Typing with a Covered Hand，来自帕多瓦大学的五位研究人员和德尔夫特理工大学的一位研究人员。

研究人员排除了没有充分覆盖 PIN 垫的捕获（左侧）。

研究人员认为，他们的系统比以前的工作更好，之前的工作是基于时间、声音和热信号，而没有视频分析组件。他们还指出，增加对“剪切”设备的认识，中心是卡片输入槽，因为这是传统的攻击方法，客户没有理由相信任何类似的隐藏微型摄像头可以“透过”他们覆盖的手，或者键盘的通用杂音和每个按键的相同反馈声音可以泄露任何信息。ATM 的“额外”设备将出现在目前没有人期望的地方，在 ATM 凹陷的上部内部表面下，作为一个模制的外壳，隐藏摄像头设备，或者甚至完全在 ATM 表面外，附着在附近的建筑物或柱子上。

PIN 钱

尽管违反规定的后果很严重，但 PIN 号码是我们使用的最短、最容易被猜到的密码；据估计，攻击者已经有 1/10 的机会正确猜到 PIN。社会工程学并不总是需要更复杂的 AI 基础攻击，因为 1234 已经被估计为所有 PIN 的 11%，而 19（作为出生年份的第一部分）代表超过 80% 的 PIN 号码的前两位数字。然而，新论文的作者并没有给自己这个优势，而是试图调查“屏蔽”PIN 输入的手部扭动是否有一个可以指示哪些数字被按下的可解码模式。为了建立基线，研究人员为数据收集目的构建了一个假的 ATM（见上图）。这代表了提议的假设攻击方法，即恶意人员将在长时间内被动分析典型的 PIN 输入特征，以便为稍后对账户的“扫荡”做准备。虽然这种“研究”的方法在复杂的 ATM 欺诈犯罪中很常见，许多假的 ATM 在长时间内泄露客户数据，但在这种情况下，攻击者可以在自己的空间中设置假的 ATM，并在没有公共输入的情况下训练它。由于 ATM 的屏幕在 PIN 输入期间不太可能被遮挡，按键的时序可以通过将手部运动与“屏蔽”数字（通常为星号）在 ATM 屏幕上出现的时序以及与按键同步的通用反馈噪音（如蜂鸣声）相结合来建立，这个时序揭示了“屏蔽”场景中手的确切位置。

针对特定键盘

首先，必须通过观察和记录“遮挡”PIN 输入来开发一个模型。理想情况下，键盘应该是特定行业标准模型，尽管几毫米的变化不会阻止该方法的工作。按键时序可以通过音频和视觉提示（即反馈蜂鸣声、键盘杂音和星号反馈）获得。有了这些断点，攻击者可以自动提取训练集，并继续训练一个模型，以识别按特定键的代表性手配置。这将产生一个按概率排名的列表，用于卡片的 PIN，其中前三位将被选为当系统在现实世界中识别出真实客户数据时的攻击。

方法

数据收集是在两个会话中进行的，使用右手志愿者进行研究。每位参与者输入 100 个随机生成的 5 位 PIN 号码，以确保所有十个可能的键盘按键都得到均匀覆盖。这样，研究人员收集了 5,800 个单独的 PIN 输入。测试中使用的 PIN 垫是 DAVO LIN Model D-8201F 和 DAVO LIN Model D-8203 B 模型。它们是商用型号，用于 ATM，并分别在这里和这里（以及许多其他供应商）有售。收集的视频段被转换为灰度并归一化和裁剪，然后调整为 250×250 像素，以便在机器学习训练会话中使用。视频被分段以获得与按键相关的帧子序列。音频提示（如上所述）被用作按键事件的时间戳标记。

训练

数据集被分成训练、验证和测试集，训练在一台 Xeon(R) Intel CPU 上进行，CPU 频率为 E5-2670 2.60GHz，内存为 128GB。数据在 Keras2.3.0-tf（TensorFlow 2.2.0）和 Python 3.8.6 上实现，使用三块 Tesla K20m GPU，每块 GPU 有 5GB 的 VRAM。为了考虑捕获环境的可变性（照明、摄像头角度的轻微差异等），合成示例和扰动（如旋转和视图偏移）被生成，作者报告称，这种数据增强是提高模型有效性的一个很大的帮助。

结果

该模型被测试在三个场景中：“单个 PIN 垫”，攻击者知道 PIN 垫的型号，并专门为其训练；“PIN 垫独立”，模型被训练在一个与目标 PIN 垫类似（但不相同）的垫上；以及“混合场景”，攻击者拥有两个 PIN 垫的副本。

三个场景的总体结果，其中 Top-N 表示在 N 次尝试中猜出数字。

5 位数字和 4 位数字 PIN 的推断之间存在显著的准确性差异：

对策

在考虑现有系统的对策（即没有彻底重新思考整个 PIN/ATM 安全基础设施）时，研究人员认为，对于这种攻击，目前没有真正可行的防御。延长 PIN 的最小位数会使其更难被记住；使用触摸屏软件键盘随机化数字键盘的顺序，尽管在 ATM 部署中越来越常见，也会产生可用性问题；屏幕保护器不仅会在现有的 ATM 上部署时很昂贵，而且会使论文中描述的攻击方法更容易实施，具体取决于它提供的覆盖范围。研究人员断言，他们的攻击方法即使 PIN 垫有 75% 被覆盖也可以工作（而覆盖更多会使客户难以输入）。在设计人工等同的自动 PIN 提取时，真正的人只能根据相同的信息实现一小部分 AI 系统的准确性。在工作的未来发展中，研究人员计划调查非右手的人的结果，并研究可能减轻攻击的覆盖手策略。他们还计划用更大年龄和种族多样性的志愿者重复实验，因为他们观察到老年人在输入 PIN 时会有更明显和更具启发性的手部动作，而且这种攻击“将难以适用于其他种族的人”（而不是白种人）。

Unite.AI

一种揭示 ATM 上“屏蔽”PIN 输入的 AI 方法

PIN 钱

针对特定键盘

方法

训练

结果

对策

You may like