Ângulo de Anderson

Um Método de IA para Revelar Entradas de PIN “Protegidas” em Caixas Eletrônicos

mm

Pesquisadores da Itália e da Holanda desenvolveram um método de aprendizado de máquina capaz de inferir o número de PIN que um cliente de banco digita em um caixa eletrônico, com base em vídeo capturado – mesmo em casos em que o cliente protege sua mão para se proteger contra o “olhar sobre o ombro”.

O método envolve treinar uma Rede Neural Convolucional (CNN) e um módulo de Memória de Longo Prazo (LSTM) em vídeos de entradas de PIN “com mão coberta” em um caixa eletrônico “sombra” que foi equipado com o mesmo teclado numérico que o caixa eletrônico alvo – equipamento que pode ser comprado, como os pesquisadores fizeram para o projeto, recreando um caixa eletrônico “espelho” para coletar os dados.

O caixa eletrônico falso pode ser treinado em particular, como os pesquisadores fizeram, eliminando o risco de instalações públicas de caixas eletrônicos falsos, um modus operandi comum neste tipo de crime.

Dois modelos de teclado numérico usados para a pesquisa italiana. À direita, o caixa eletrônico

À esquerda, dois modelos de teclado numérico usados para a pesquisa italiana. À direita, o caixa eletrônico “sombra” construído pelos pesquisadores em laboratório. Fonte: https://arxiv.org/pdf/2110.08113.pdf

O sistema, que se baseia em movimentos e posicionamento da mão durante a entrada do PIN, pode prever atualmente 41% dos PINs de 4 dígitos e 30% dos PINs de 5 dígitos em três tentativas (geralmente o número máximo de tentativas que um banco permite antes de bloquear a conta do cliente). Os testes envolveram 58 voluntários que usaram números de PIN aleatórios.

A pesquisa, cujos dados estão disponíveis publicamente, descobriu que o sistema proposto oferece uma melhoria quatro vezes maior do que a capacidade humana de adivinhar um PIN por meio de “olhar sobre o ombro” em uma vítima.

O artigo é intitulado Hand Me Your PIN! Inferring ATM PINs of Users Typing with a Covered Hand e vem de cinco pesquisadores da Universidade de Pádua e um da Universidade de Tecnologia de Delft.

Os pesquisadores excluíram capturas onde os sujeitos não cobriram adequadamente o teclado numérico (à esquerda).

Os pesquisadores excluíram capturas onde os sujeitos não cobriram adequadamente o teclado numérico (à esquerda).

Os pesquisadores afirmam que seu sistema alcança resultados superiores ao trabalho anterior que se baseia em tempo, som e assinaturas térmicas, sem um componente de análise de vídeo.

Eles também observam que o aumento da conscientização sobre dispositivos de “skimming” se concentra na ranhura de entrada do cartão, pois este é um método tradicional de ataque, e que os clientes não têm motivo para acreditar que micro-câmeras escondidas possam “ver” através de suas mãos cobertas, ou que o barulho genérico das teclas e o som de feedback idêntico para cada pressionamento de tecla possam divulgar alguma informação.

O “equipamento adicional” do caixa eletrônico, portanto, pareceria estar em um local onde ninguém está atualmente esperando, sob a superfície superior do recuo do caixa eletrônico, como um invólucro moldado que esconde o equipamento da câmera – ou mesmo completamente fora da superfície do caixa eletrônico, preso a um prédio ou poste próximo.

Dinheiro de PIN

Apesar das consequências graves de uma violação, os números de PIN são entre as senhas mais curtas e fáceis de adivinhar que usamos; estima-se que um atacante já tem uma chance de 1 em 10 de adivinhar um PIN corretamente. A engenharia social não é sempre um adjunto necessário a ataques mais sofisticados baseados em IA, desde que 1234 foi estimado para representar 11% de todos os PINs, enquanto 19 (como a primeira parte de um ano de nascimento) representa os dois primeiros números em mais de 80% dos números de PIN.

No entanto, os autores do novo artigo não se deram essa vantagem, mas sim se propuseram a investigar se os movimentos da mão durante as entradas de PIN “protegidas” têm um padrão decifrável que possa indicar quais números estão sendo pressionados.

Para estabelecer uma base, os pesquisadores construíram um caixa eletrônico falso para fins de coleta de dados (veja a primeira imagem acima). Isso representa o método de ataque hipotético proposto, onde um malfeitor analisará passivamente as características típicas de entrada de PIN ao longo de um longo período de tempo para se preparar para um ataque posterior às contas.

Embora essa abordagem “estudada” seja comum em crimes de fraude de caixa eletrônico sofisticados, com muitos casos de caixas eletrônicos falsos exfiltrando dados de clientes ao longo de um longo período, neste caso o atacante pode configurar o caixa eletrônico falso em seu próprio espaço e treiná-lo sem entrada pública.

Como a tela do caixa eletrônico não é provável que seja ocultada durante a entrada do PIN, o tempo de uma pressionamento de tecla pode ser estabelecido sincronizando os movimentos da mão com a aparência dos dígitos “maskados” (geralmente asteriscos) que aparecem na tela do caixa eletrônico em resposta à entrada do usuário, e também aos sons de feedback genéricos (como bipes) que coincidem com os movimentos. Essa sincronização revela a disposição exata da mão em um cenário “protegido” no momento da entrada.

Visando Teclados Específicos

Primeiro, um modelo deve ser desenvolvido por observação e gravação de entradas de PIN “protegidas”. Idealmente, o teclado deve ser um modelo padrão da indústria, embora alguma variação de milímetros não impeça o método de funcionar. Os tempos de pressionamento de tecla podem ser obtidos por meio de pistas visuais e auditivas (por exemplo, bipes de feedback, barulho de teclas e asteriscos de feedback).

Com esses pontos de interrupção, o atacante pode automatizar a extração de um conjunto de treinamento e treinar um modelo capaz de identificar configurações de mão representativas para a pressionamento de uma tecla específica. Isso produzirá uma lista classificada de probabilidades para o PIN do cartão, das quais as três primeiras serão selecionadas para o ataque quando dados de clientes autênticos forem identificados pelo sistema em um cenário real.

Metodologia

A coleta de dados foi realizada em duas sessões, usando voluntários destros para o estudo. Cada participante digitou 100 números de PIN de 5 dígitos aleatórios, para garantir uma cobertura uniforme de todos os possíveis pressionamentos de tecla do teclado. Dessa forma, os pesquisadores coletaram 5.800 entradas de PIN individuais.

Os teclados usados nos testes foram os modelos DAVO LIN D-8201F e DAVO LIN D-8203 B. São modelos comerciais usados em caixas eletrônicos e estão disponíveis, respectivamente, aqui e aqui (entre muitos outros vendedores).

Os segmentos de vídeo coletados foram convertidos para escala de cinza e normalizados e recortados, antes de serem redimensionados para 250×250 pixels para inclusão nas sessões de treinamento de aprendizado de máquina. Os cliques foram segmentados para obter sub-sequências de quadros relacionados a pressionamentos de tecla. As pistas auditivas (como mencionado acima) foram usadas como marcadores de tempo para eventos de pressionamento.

Treinamento

Os conjuntos de dados foram divididos em conjuntos de treinamento, validação e teste, com o treinamento realizado em um processador Intel Xeon(R) E5-2670 2,60 GHz, com 128 GB de RAM. Os dados foram implementados em Keras 2.3.0-tf (TensorFlow 2.2.0) e Python 3.8.6 em três GPUs Tesla K20m com 5 GB de VRAM cada.

Para levar em conta a variabilidade nos ambientes de captura (iluminação, ligeiras diferenças nos ângulos da câmera, etc.), exemplos sintéticos e perturbações (como rotação e deslocamento de visão) foram gerados, e os autores relatam que esse tipo de aumento de dados é uma grande ajuda para melhorar a eficácia do modelo.

Resultados

O modelo foi testado em três cenários: ‘teclado único’, onde o atacante conhece o modelo do teclado e o treina especificamente para ele; ‘teclado independente’, onde o modelo é treinado em um teclado semelhante (mas não idêntico) ao teclado alvo; e um cenário ‘misturado’, onde o atacante tem uma cópia de ambos os teclados.

Resultados gerais nos três cenários, onde Top-N significa uma suposição do dígito dentro de N tentativas.

Resultados gerais nos três cenários, onde Top-N significa uma suposição do dígito dentro de N tentativas.

Há uma diferença notada na precisão para inferência de PINs de 5 dígitos versus 4 dígitos:

Contra-Medidas

Ao considerar contra-medidas para sistemas existentes (ou seja, sem uma reestruturação radical da infraestrutura de segurança do PIN/caixa eletrônico), os pesquisadores consideram que não há defesas realmente viáveis contra esse tipo de ataque.

Aumentar o número mínimo de dígitos necessários em um PIN tornaria os números mais difíceis de lembrar; randomizar a ordem dos números do teclado com um teclado de software de touch-screen, embora isso esteja acontecendo cada vez mais em implantações de caixas eletrônicos, também produz problemas de usabilidade; e protetores de tela não apenas seriam caros para implantar em caixas eletrônicos existentes, mas também argumentariam que o ataque do artigo tornaria o método ainda mais fácil de implementar, dependendo de quanto cobertura ele poderia dar. Os pesquisadores afirmam que seu ataque é viável mesmo quando 75% do teclado numérico está coberto (e cobrir mais tornaria difícil para o cliente digitar).

Ao criar um equivalente humano ao método automático de extração de PIN, pessoas reais foram, por contraste, apenas capazes de alcançar uma fração da precisão do sistema de IA em adivinhar PINs, com base nas mesmas informações.

Em futuros desenvolvimentos do trabalho, os pesquisadores pretendem examinar os resultados de pessoas não destros e investigar estratégias de cobertura de mão que possam mitigar o ataque. Eles também pretendem repetir os experimentos com uma diversidade maior de idades e raças, desde que observam que pessoas mais velhas fazem movimentos de mão mais significativos e reveladores ao digitar um PIN, e que o ataque “terá dificuldades em funcionar para pessoas de outras raças” (que não caucasianas).

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.