LĂ­deres de pensamento

CorresponĂȘncia Difusa – Definição, Processo e TĂ©cnicas

mm

Uma pesquisa da Accenture mostrou que 75% dos consumidores preferem comprar de varejistas que conhecem seu nome e comportamento de compra, e 52% deles são mais propensos a mudar de marca se não oferecerem experiências personalizadas. Com milhões de pontos de dados sendo capturados por marcas quase todos os dias, identificar clientes únicos e construir seus perfis é um dos maiores desafios enfrentados pela maioria das empresas.

Quando uma empresa usa várias ferramentas para capturar dados, é muito comum cometer erros de digitação no nome do cliente ou aceitar um endereço de e-mail com um padrão incorreto. Além disso, quando aplicações de dados dispares têm informações diferentes sobre o mesmo cliente, torna-se impossível obter insights sobre o comportamento e preferências do cliente.

Em seguida, aprenderemos o que é a corresponência difusa, como ela é implementada, as técnicas comuns usadas e os desafios enfrentados. Vamos começar.

O que é corresponência difusa?

A corresponência difusa é uma técnica de correspondência de dados que compara dois ou mais registros e calcula a probabilidade deles pertencerem à mesma entidade. Em vez de categorizar registros amplamente como correspondência e não correspondência, a corresponência difusa produz um número (geralmente entre 0-100%) que identifica quão provável é que esses registros pertençam ao mesmo cliente, produto, funcionário, etc.

Um algoritmo de corresponência difusa eficiente cuida de uma variedade de ambiguidades de dados, como reversões de nome e sobrenome, abreviações, nomes abreviados, erros de digitação fonéticos e deliberados, abreviações, pontuações adicionadas ou removidas, etc.

Processo de corresponência difusa

O processo de corresponência difusa é realizado da seguinte forma:

  1. Registros de perfil para erros de padronização básicos. Esses erros são corrigidos para que uma visão uniforme e padronizada seja alcançada em todos os registros.
  2. Selecione e mapeie atributos com base nos quais a corresponência difusa será realizada. Como esses atributos podem ter títulos diferentes, eles devem ser mapeados em todas as fontes.
  3. Escolha uma técnica de corresponência difusa para cada atributo. Por exemplo, nomes podem ser correspondidos com base na distância do teclado ou variantes de nomes, enquanto números de telefone podem ser correspondidos com base em métricas de similaridade numérica.
  4. Selecione um peso para cada atributo, de modo que atributos com pesos mais altos (ou prioridade mais alta) terão mais impacto no nível geral de confiança da correspondência em comparação com campos que têm pesos mais baixos.
  5. Defina o nível de limiar – registros com pontuação de corresponência difusa superior ao nível são considerados uma correspondência e os que não atingem o nível são considerados não correspondência.
  6. Execute algoritmos de corresponência difusa e analise os resultados da correspondência.
  7. Anule qualquer falso positivo e negativos que possam surgir.
  8. Mesclar, deduplicar ou simplesmente eliminar registros duplicados.

Parâmetros de corresponência difusa

A partir do processo definido acima, você pode ver que um algoritmo de corresponência difusa tem vários parâmetros que formam a base dessa técnica. Esses incluem os pesos de atributo, a técnica de corresponência difusa e o nível de pontuação de limiar.

Para obter resultados ótimos, você deve executar técnicas de corresponência difusa com parâmetros variados e encontrar os valores que melhor se adaptam aos seus dados. Muitos fornecedores embutem essas capacidades em suas soluções de corresponência difusa, onde esses parâmetros são ajustados automaticamente, mas podem ser personalizados de acordo com as suas necessidades.

Quais são as técnicas de corresponência difusa?

Existem muitas técnicas de corresponência difusa usadas hoje que diferem com base no algoritmo ou fórmula usada para comparar e corresponder campos. Dependendo da natureza dos seus dados, você pode escolher a técnica que melhor atende às suas necessidades. Aqui está uma lista de técnicas comuns de corresponência difusa:

  1. Métricas de similaridade baseadas em caracteres que são as melhores para corresponder strings. Essas incluem:
    1. Distância de edição: Calcula a distância entre duas strings, computada caractere por caractere.
    2. Distância de lacuna afim: Calcula a distância entre duas strings, considerando também os espaços entre strings.
    3. Distância de Smith-Waterman: Calcula a distância entre duas strings, considerando também a presença ou ausência de prefixos e sufixos.
    4. Distância de Jaro: Melhor para corresponder nomes e sobrenomes.
  2. Métricas de similaridade baseadas em tokens que são as melhores para corresponder palavras completas em strings. Essas incluem:
    1. Strings atômicas: Divide longas strings em palavras delimitadas por pontuações e compara individualmente.
    2. WHIRL: Semelhante a strings atômicas, mas WHIRL também atribui pesos a cada palavra.
  3. Métricas de similaridade fonética que são as melhores para comparar palavras que soam semelhantes, mas têm composições de caracteres completamente diferentes. Essas incluem:
    1. Soundex: Melhor para comparar sobrenomes que são diferentes na ortografia, mas soam semelhantes.
    2. NYSIIS: Semelhante ao Soundex, mas também retém detalhes sobre a posição das vogais.
    3. Metaphone: Compara palavras que soam semelhantes que existem na língua inglesa, outras palavras familiares para os americanos e nomes e sobrenomes comuns usados nos EUA.
  4. Métricas de similaridade numérica que comparam números, quão longe eles estão um do outro, a distribuição de dados numéricos, etc.

Desafios da corresponência difusa

O processo de corresponência difusa – apesar dos benefícios incríveis que ele oferece – pode ser bastante difícil de implementar. Aqui estão alguns desafios comuns enfrentados pelas empresas:

1.     Taxa mais alta de falsos positivos e negativos

Muitas soluções de corresponência difusa têm uma taxa mais alta de falsos positivos e negativos. Isso ocorre quando o algoritmo classifica incorretamente correspondências e não correspondências ou vice-versa. Definições de correspondência configuráveis e parâmetros difusos podem ajudar a reduzir ligações incorretas o máximo possível.

2.     Complexidade computacional

Durante o processo de correspondência, cada registro é comparado a todos os outros registros no mesmo conjunto de dados. E se você estiver lidando com vários conjuntos de dados, então o número de comparações aumenta ainda mais. É notado que as comparações crescem quadraticamente à medida que o tamanho do banco de dados aumenta. Por esse motivo, você deve usar um sistema capaz de lidar com cálculos intensivos em recursos.

3.     Teste de validação

Os registros correspondidos são mesclados para representar uma visão completa de 360 graus das entidades. Qualquer erro incorrido durante esse processo pode adicionar risco às operações comerciais. É por isso que testes de validação detalhados devem ser realizados para garantir que o algoritmo ajustado esteja produzindo consistentemente resultados com alta taxa de precisão.

Conclusão

As empresas frequentemente pensam em soluções de corresponência difusa como projetos complexos, intensivos em recursos e que consomem muito dinheiro, que duram muito tempo. A verdade é que investir na solução certa que produz resultados rápidos e precisos é a chave. As organizações precisam considerar vários fatores ao optar por uma ferramenta de corresponência difusa, como o tempo e o dinheiro que estão dispostas a investir, o design de escalabilidade que têm em mente e a natureza dos seus conjuntos de dados. Isso ajudará a selecionar uma solução que permita obter o máximo proveito dos seus dados. As organizações precisam considerar vários fatores ao optar por uma ferramenta de corresponência difusa, como o tempo e o dinheiro que estão dispostas a investir, o design de escalabilidade que têm em mente e a natureza dos seus conjuntos de dados. Isso ajudará a selecionar uma solução que permita obter o máximo proveito dos seus dados.

Sou um Analista de Marketing de Produtos na Data Ladder com formação em TI. Escrevo com paixĂŁo sobre problemas de higiene de dados do mundo real enfrentados por muitas organizaçÔes hoje. Gosto de comunicar soluçÔes, dicas e prĂĄticas que podem ajudar as empresas a alcançar a qualidade de dados inerente em seus processos de inteligĂȘncia de negĂłcios. Me esforço para criar conteĂșdo direcionado a uma ampla gama de pĂșblicos, desde pessoal tĂ©cnico atĂ© usuĂĄrio final, bem como marketing em vĂĄrias plataformas digitais.