Entre em contato

Líderes de pensamento

Fuzzy Matching – Definição, Processo e Técnicas

mm

Publicado

 on

An pesquisa accenture mostrou que 75% dos consumidores preferem comprar de varejistas que conhecem seu nome e comportamento de compra, e 52% deles têm maior probabilidade de trocar de marca se não oferecerem experiências personalizadas. Com milhões de pontos de dados sendo capturados por marcas quase todos os dias, identificar clientes únicos e construir seus perfis é um dos maiores desafios enfrentados pela maioria das empresas.

Quando uma empresa usa várias ferramentas para capturar dados, é muito comum digitar incorretamente o nome de um cliente ou aceitar um endereço de e-mail com um padrão incorreto. Além disso, quando aplicativos de dados diferentes têm informações variadas sobre o mesmo cliente, fica impossível obter informações sobre o comportamento e as preferências do cliente.

A seguir, aprenderemos o que é correspondência fuzzy, como é implementada, as técnicas comuns usadas e os desafios enfrentados. Vamos começar.

O que é correspondência difusa?

Correspondência difusa é uma técnica de correspondência de dados que compara dois ou mais registros e calcula a probabilidade de eles pertencerem à mesma entidade. Em vez de categorizar amplamente os registros como correspondentes e não correspondentes, a correspondência difusa gera um número (geralmente entre 0-100%) que identifica a probabilidade de esses registros pertencerem ao mesmo cliente, produto, funcionário etc.

Um algoritmo de correspondência difusa eficiente cuida de uma variedade de ambiguidades de dados, como inversões de nome/sobrenome, acrônimos, nomes abreviados, erros ortográficos fonéticos e deliberados, abreviações, pontuações adicionadas/removidas, etc.

Processo de correspondência difusa

O processo de correspondência fuzzy é realizado da seguinte forma:

  1. Registros de perfil para erros básicos de padronização. Esses erros são corrigidos para que uma visão uniforme e padronizada seja alcançada nos registros.
  2. Selecionar e mapear atributos com base em qual correspondência difusa ocorrerá. Como esses atributos podem ter títulos diferentes, eles devem ser mapeados entre as fontes.
  3. Escolha uma técnica de correspondência difusa para cada atributo. Por exemplo, nomes podem ser combinados com base na distância do teclado ou variantes de nome, enquanto números de telefone podem ser combinados com base em métricas de similaridade numérica.
  4. Selecione um peso para cada atributo, de modo que os atributos atribuídos a pesos mais altos (ou prioridade mais alta) tenham mais impacto no nível geral de confiança de correspondência em comparação com os campos com pesos mais baixos.
  5. Defina o nível do limite – registros com pontuação de correspondência difusa maior do que o nível são considerados uma correspondência e os que ficam aquém são uma não correspondência.
  6. Execute algoritmos de correspondência difusa e analisar os resultados da partida.
  7. Substituir quaisquer falsos positivos e negativos que podem surgir.
  8. ir, desduplicar ou simplesmente eliminar os registros duplicados.

Parâmetros de correspondência difusa

A partir do processo definido acima, você pode ver que um algoritmo de correspondência difusa possui vários parâmetros que formam a base dessa técnica. Isso inclui os pesos dos atributos, a técnica de correspondência difusa e o nível de limite de pontuação.

Para obter resultados ideais, você deve executar técnicas de correspondência difusa com parâmetros variados e encontrar os valores que melhor se adequam aos seus dados. Muitos fornecedores empacotam esses recursos em sua solução de correspondência difusa, onde esses parâmetros são ajustados automaticamente, mas podem ser personalizados dependendo de suas necessidades.

O que são técnicas de correspondência difusa?

Existem muitas técnicas de correspondência difusa usadas hoje que diferem com base no algoritmo exato da fórmula usada para comparar e combinar campos. Dependendo da natureza de seus dados, você pode escolher a técnica adequada para suas necessidades. Aqui está uma lista de técnicas comuns de correspondência difusa:

  1. Semelhança baseada em caracteres métricas que são melhores para corresponder às strings. Esses incluem:
    1. Editar distância: Calcula a distância entre duas strings, computada caractere por caractere.
    2. Distância de lacuna afim: Calcula a distância entre duas strings considerando também o intervalo ou os espaços entre as strings.
    3. Distância Smith-Waterman: Calcula a distância entre duas strings considerando também a presença ou ausência de prefixos e sufixos.
    4. Jaro distância: Melhor combinar nomes e sobrenomes.
  2. Similaridade baseada em token métricas que são melhores para corresponder palavras completas em strings. Esses incluem:
    1. Sequências atômicas: divide sequências longas em palavras delimitadas por pontuações e compara palavras individuais.
    2. WHIRL: Semelhante a strings atômicas, mas WHIRL também atribui pesos a cada palavra.
  3. Métricas de similaridade fonética que são melhores para comparar palavras com som semelhante, mas com composição de caracteres totalmente diferente. Esses incluem:
    1. Soundex: melhor para comparar sobrenomes que são diferentes na ortografia, mas soam semelhantes.
    2. NYSIIS: Semelhante ao Soundex, mas também retém detalhes sobre a posição da vogal.
    3. Metaphone: Compara palavras com sons semelhantes que existem no idioma inglês, outras palavras familiares aos americanos e nomes próprios e de família comumente usados ​​nos EUA.
  4. Métricas de similaridade numérica que comparam números, a que distância estão uns dos outros, a distribuição de dados numéricos, etc.

Desafios da correspondência difusa

O processo de correspondência difusa - apesar da benefícios surpreendentes oferece – pode ser bastante difícil de implementar. Aqui estão alguns desafios comuns enfrentados pelas empresas:

1.     Maior taxa de falsos positivos e negativos

Muitas soluções de correspondência difusa têm uma taxa mais alta de falsos positivos e negativos. Isso acontece quando o algoritmo classifica incorretamente correspondências e não correspondências ou vice-versa. Definições de correspondência configuráveis ​​e parâmetros difusos podem ajudar a reduzir links incorretos o máximo possível.

2.     Complexidade computacional

Durante o processo de correspondência, cada registro é comparado a todos os outros registros no mesmo conjunto de dados. E se você estiver lidando com vários conjuntos de dados, o número de comparações aumentará mais. Percebe-se que as comparações crescem quadraticamente conforme o tamanho do banco de dados cresce. Por esse motivo, você deve usar um sistema capaz de lidar com cálculos com uso intensivo de recursos.

3.     Teste de validação

Os registros correspondentes são mesclados para representar uma visão 360 completa das entidades. Qualquer erro ocorrido durante esse processo pode adicionar riscos às suas operações comerciais. É por isso que testes de validação detalhados devem ser conduzidos para garantir que o algoritmo sintonizado esteja produzindo consistentemente resultados com alta taxa de precisão.

Embrulhar

As empresas costumam pensar em soluções de correspondência difusa como projetos complexos, com uso intensivo de recursos e drenagem de dinheiro que duram muito tempo. A verdade é que investir na solução certa que produz resultados rápidos e precisos é a chave. As organizações precisam considerar uma série de fatores ao optar por uma ferramenta de correspondência difusa, como o tempo e o dinheiro que estão dispostos a investir, o design de escalabilidade que têm em mente e a natureza de seus conjuntos de dados. Isso os ajudará a selecionar uma solução que lhes permita obter o máximo de seus dados.

Sou Analista de Marketing de Produto na Escada de dados com formação em TI. Escrevo apaixonadamente sobre problemas de higiene de dados do mundo real enfrentados por muitas organizações hoje. Gosto de comunicar soluções, dicas e práticas que podem ajudar as empresas a obter qualidade de dados inerente em seus processos de inteligência de negócios. Eu me esforço para criar conteúdo direcionado a uma ampla gama de públicos, desde pessoal técnico até o usuário final, bem como comercializá-lo em várias plataformas digitais.