Des leaders d'opinion
Fuzzy Matching - Définition, processus et techniques

An enquête Accenture ont montré que 75 % des consommateurs préfèrent acheter auprès de détaillants qui connaissent leur nom et leur comportement d'achat, et 52 % d'entre eux sont plus susceptibles de changer de marque s'ils n'offrent pas d'expériences personnalisées. Avec des millions de points de données capturés par les marques presque chaque jour, l'identification des clients uniques et la construction de leurs profils est l'un des plus grands défis auxquels sont confrontées la plupart des entreprises.
Lorsqu'une entreprise utilise plusieurs outils pour capturer des données, il est très courant de mal orthographier le nom d'un client ou d'accepter une adresse e-mail avec un modèle incorrect. De plus, lorsque des applications de données disparates ont des informations variables sur le même client, il devient impossible d'avoir un aperçu du comportement et des préférences de vos clients.
Ensuite, nous apprendrons ce qu'est la correspondance floue, comment elle est mise en œuvre, les techniques courantes utilisées et les défis rencontrés. Commençons.
Qu'est-ce que la correspondance floue ?
Correspondance floue est une technique de correspondance de données qui compare deux enregistrements ou plus et calcule la probabilité qu'ils appartiennent à la même entité. Plutôt que de catégoriser globalement les enregistrements comme correspondants et non-correspondants, la correspondance approximative génère un nombre (généralement compris entre 0 et 100 %) qui identifie la probabilité que ces enregistrements appartiennent au même client, produit, employé, etc.
Un algorithme de correspondance floue efficace prend en charge une gamme d'ambiguïtés de données, telles que les inversions de prénom/nom, les acronymes, les noms abrégés, les fautes d'orthographe phonétiques et délibérées, les abréviations, les ponctuations ajoutées/supprimées, etc.
Processus d'appariement flou
Le processus d'appariement flou se déroule comme suit :
- Enregistrements de profil pour les erreurs de normalisation de base. Ces erreurs sont corrigées afin d'obtenir une vue uniforme et standardisée pour tous les enregistrements.
- Sélectionner et mapper les attributs en fonction de laquelle la correspondance floue aura lieu. Étant donné que ces attributs peuvent être intitulés différemment, ils doivent être mappés entre les sources.
- Choisir une technique d'appariement flou pour chaque attribut. Par exemple, les noms peuvent être mis en correspondance en fonction de la distance du clavier ou des variantes de nom, tandis que les numéros de téléphone peuvent être mis en correspondance en fonction de métriques de similarité numérique.
- Sélectionnez un poids pour chaque attribut, de sorte que les attributs auxquels sont attribués des poids plus élevés (ou une priorité plus élevée) auront plus d'impact sur le niveau de confiance de correspondance global par rapport aux champs ayant des poids plus faibles.
- Définir le niveau de seuil – les enregistrements avec un score d'appariement approximatif supérieur au niveau sont considérés comme une correspondance et ceux qui ne correspondent pas sont une non-correspondance.
- Exécuter des algorithmes de correspondance floue et analyser les résultats du match.
- Remplacer les faux positifs et les points négatifs qui pourraient survenir.
- aller, dédupliquer ou simplement éliminer les enregistrements en double.
Paramètres de correspondance floue
À partir du processus défini ci-dessus, vous pouvez voir qu'un algorithme de correspondance floue a un certain nombre de paramètres qui constituent la base de cette technique. Ceux-ci incluent les pondérations des attributs, la technique d'appariement approximatif et le niveau de seuil de score.
Pour obtenir des résultats optimaux, vous devez exécuter des techniques de correspondance approximative avec des paramètres variables et trouver les valeurs qui conviennent le mieux à vos données. De nombreux fournisseurs intègrent de telles fonctionnalités dans leur solution de correspondance floue où ces paramètres sont réglés automatiquement mais peuvent être personnalisés en fonction de vos besoins.
Quelles sont les techniques d'appariement flou?
Il existe de nombreuses techniques de correspondance approximative utilisées aujourd'hui qui diffèrent en fonction de l'algorithme exact de la formule utilisée pour comparer et faire correspondre les champs. Selon la nature de vos données, vous pouvez choisir la technique adaptée à vos besoins. Voici une liste des techniques courantes d'appariement approximatif :
- Similitude basée sur les personnages métriques qui correspondent le mieux aux chaînes. Ceux-ci inclus:
- Éditer la distance : Calcule la distance entre deux chaînes, calculée caractère par caractère.
- Distance d'espacement affine : Calcule la distance entre deux chaînes en tenant également compte de l'écart ou des espaces entre les chaînes.
- Distance Smith-Waterman : Calcule la distance entre deux chaînes en considérant également la présence ou l'absence de préfixes et de suffixes.
- Distance Jaro : Le mieux est de faire correspondre les noms et prénoms.
- Similitude basée sur les jetons métriques qui sont les meilleures pour faire correspondre des mots complets dans des chaînes. Ceux-ci inclus:
- Chaînes atomiques : divise les longues chaînes en mots délimités par des ponctuations et compare sur des mots individuels.
- WHIRL : Semblable aux chaînes atomiques, mais WHIRL attribue également des poids à chaque mot.
- Métriques de similarité phonétique qui sont les meilleurs pour comparer des mots qui se ressemblent mais qui ont une composition de caractères totalement différente. Ceux-ci inclus:
- Soundex : Il est préférable de comparer des noms de famille dont l'orthographe est différente mais dont le son est similaire.
- NYSIIS : Semblable à Soundex, mais il conserve également des détails sur la position des voyelles.
- Métaphone : compare des mots à consonance similaire qui existent en anglais, d'autres mots familiers aux Américains et des prénoms et noms de famille couramment utilisés aux États-Unis.
- Métriques de similarité numérique qui comparent les nombres, à quelle distance ils sont les uns des autres, la distribution des données numériques, etc.
Défis de l'appariement approximatif
Le processus d'appariement approximatif – malgré le avantages incroyables qu'il offre - peut être assez difficile à mettre en œuvre. Voici quelques défis courants auxquels sont confrontées les entreprises :
1. Taux plus élevé de faux positifs et négatifs
De nombreuses solutions d'appariement flou ont un taux plus élevé de faux positifs et de faux négatifs. Cela se produit lorsque l'algorithme classe de manière incorrecte les correspondances et les non-correspondances ou vice versa. Les définitions de correspondance configurables et les paramètres flous peuvent aider à réduire autant que possible les liens incorrects.
2. Complexité informatique
Au cours du processus de correspondance, chaque enregistrement est comparé à tous les autres enregistrements du même jeu de données. Et si vous avez affaire à plusieurs ensembles de données, le nombre de comparaisons augmente davantage. On remarque que les comparaisons augmentent de manière quadratique à mesure que la taille de la base de données augmente. Pour cette raison, vous devez utiliser un système capable de gérer des calculs gourmands en ressources.
3. Validation des tests
Les enregistrements correspondants sont fusionnés pour représenter une vue complète à 360° des entités. Toute erreur commise au cours de ce processus peut ajouter un risque à vos opérations commerciales. C'est pourquoi des tests de validation détaillés doivent être effectués pour s'assurer que l'algorithme réglé produit constamment des résultats avec un taux de précision élevé.
Conclure
Les entreprises considèrent souvent les solutions de rapprochement approximatif comme des projets complexes, gourmands en ressources et épuisants qui durent trop longtemps. La vérité est d'investir dans la bonne solution qui produit des résultats rapides et précis est la clé. Les organisations doivent tenir compte un certain nombre de facteurs tout en optant pour un outil de correspondance floue, tels que le temps et l'argent qu'ils sont prêts à investir, la conception d'évolutivité qu'ils ont en tête et la nature de leurs ensembles de données. Cela les aidera à choisir une solution qui leur permettra de tirer le meilleur parti de leurs données.












