Suivez nous sur

Fuzzy Matching - Définition, processus et techniques

Des leaders d'opinion

Fuzzy Matching - Définition, processus et techniques

mm

An enquĂŞte Accenture ont montrĂ© que 75 % des consommateurs prĂ©fèrent acheter auprès de dĂ©taillants qui connaissent leur nom et leur comportement d'achat, et 52 % d'entre eux sont plus susceptibles de changer de marque s'ils n'offrent pas d'expĂ©riences personnalisĂ©es. Avec des millions de points de donnĂ©es capturĂ©s par les marques presque chaque jour, l'identification des clients uniques et la construction de leurs profils est l'un des plus grands dĂ©fis auxquels sont confrontĂ©es la plupart des entreprises.

Lorsqu'une entreprise utilise plusieurs outils pour capturer des données, il est très courant de mal orthographier le nom d'un client ou d'accepter une adresse e-mail avec un modèle incorrect. De plus, lorsque des applications de données disparates ont des informations variables sur le même client, il devient impossible d'avoir un aperçu du comportement et des préférences de vos clients.

Ensuite, nous apprendrons ce qu'est la correspondance floue, comment elle est mise en œuvre, les techniques courantes utilisées et les défis rencontrés. Commençons.

Qu'est-ce que la correspondance floue ?

Correspondance floue est une technique de correspondance de donnĂ©es qui compare deux enregistrements ou plus et calcule la probabilitĂ© qu'ils appartiennent Ă  la mĂŞme entitĂ©. PlutĂ´t que de catĂ©goriser globalement les enregistrements comme correspondants et non-correspondants, la correspondance approximative gĂ©nère un nombre (gĂ©nĂ©ralement compris entre 0 et 100 %) qui identifie la probabilitĂ© que ces enregistrements appartiennent au mĂŞme client, produit, employĂ©, etc.

Un algorithme de correspondance floue efficace prend en charge une gamme d'ambiguïtés de données, telles que les inversions de prénom/nom, les acronymes, les noms abrégés, les fautes d'orthographe phonétiques et délibérées, les abréviations, les ponctuations ajoutées/supprimées, etc.

Processus d'appariement flou

Le processus d'appariement flou se dĂ©roule comme suit :

  1. Enregistrements de profil pour les erreurs de normalisation de base. Ces erreurs sont corrigées afin d'obtenir une vue uniforme et standardisée pour tous les enregistrements.
  2. Sélectionner et mapper les attributs en fonction de laquelle la correspondance floue aura lieu. Étant donné que ces attributs peuvent être intitulés différemment, ils doivent être mappés entre les sources.
  3. Choisir une technique d'appariement flou pour chaque attribut. Par exemple, les noms peuvent être mis en correspondance en fonction de la distance du clavier ou des variantes de nom, tandis que les numéros de téléphone peuvent être mis en correspondance en fonction de métriques de similarité numérique.
  4. Sélectionnez un poids pour chaque attribut, de sorte que les attributs auxquels sont attribués des poids plus élevés (ou une priorité plus élevée) auront plus d'impact sur le niveau de confiance de correspondance global par rapport aux champs ayant des poids plus faibles.
  5. Définir le niveau de seuil – les enregistrements avec un score d'appariement approximatif supérieur au niveau sont considérés comme une correspondance et ceux qui ne correspondent pas sont une non-correspondance.
  6. Exécuter des algorithmes de correspondance floue et analyser les résultats du match.
  7. Remplacer les faux positifs et les points négatifs qui pourraient survenir.
  8. aller, dédupliquer ou simplement éliminer les enregistrements en double.

Paramètres de correspondance floue

À partir du processus défini ci-dessus, vous pouvez voir qu'un algorithme de correspondance floue a un certain nombre de paramètres qui constituent la base de cette technique. Ceux-ci incluent les pondérations des attributs, la technique d'appariement approximatif et le niveau de seuil de score.

Pour obtenir des résultats optimaux, vous devez exécuter des techniques de correspondance approximative avec des paramètres variables et trouver les valeurs qui conviennent le mieux à vos données. De nombreux fournisseurs intègrent de telles fonctionnalités dans leur solution de correspondance floue où ces paramètres sont réglés automatiquement mais peuvent être personnalisés en fonction de vos besoins.

Quelles sont les techniques d'appariement flou?

Il existe de nombreuses techniques de correspondance approximative utilisées aujourd'hui qui diffèrent en fonction de l'algorithme exact de la formule utilisée pour comparer et faire correspondre les champs. Selon la nature de vos données, vous pouvez choisir la technique adaptée à vos besoins. Voici une liste des techniques courantes d'appariement approximatif :

  1. Similitude basée sur les personnages métriques qui correspondent le mieux aux chaînes. Ceux-ci inclus:
    1. Éditer la distance : Calcule la distance entre deux chaĂ®nes, calculĂ©e caractère par caractère.
    2. Distance d'espacement affine : Calcule la distance entre deux chaĂ®nes en tenant Ă©galement compte de l'Ă©cart ou des espaces entre les chaĂ®nes.
    3. Distance Smith-Waterman : Calcule la distance entre deux chaînes en considérant également la présence ou l'absence de préfixes et de suffixes.
    4. Distance Jaro : Le mieux est de faire correspondre les noms et prĂ©noms.
  2. Similitude basée sur les jetons métriques qui sont les meilleures pour faire correspondre des mots complets dans des chaînes. Ceux-ci inclus:
    1. ChaĂ®nes atomiques : divise les longues chaĂ®nes en mots dĂ©limitĂ©s par des ponctuations et compare sur des mots individuels.
    2. WHIRL : Semblable aux chaĂ®nes atomiques, mais WHIRL attribue Ă©galement des poids Ă  chaque mot.
  3. Métriques de similarité phonétique qui sont les meilleurs pour comparer des mots qui se ressemblent mais qui ont une composition de caractères totalement différente. Ceux-ci inclus:
    1. Soundex : Il est préférable de comparer des noms de famille dont l'orthographe est différente mais dont le son est similaire.
    2. NYSIIS : Semblable à Soundex, mais il conserve également des détails sur la position des voyelles.
    3. MĂ©taphone : compare des mots Ă  consonance similaire qui existent en anglais, d'autres mots familiers aux AmĂ©ricains et des prĂ©noms et noms de famille couramment utilisĂ©s aux États-Unis.
  4. Métriques de similarité numérique qui comparent les nombres, à quelle distance ils sont les uns des autres, la distribution des données numériques, etc.

Défis de l'appariement approximatif

Le processus d'appariement approximatif – malgrĂ© le avantages incroyables qu'il offre - peut ĂŞtre assez difficile Ă  mettre en Ĺ“uvre. Voici quelques dĂ©fis courants auxquels sont confrontĂ©es les entreprises :

1.     Taux plus Ă©levĂ© de faux positifs et nĂ©gatifs

De nombreuses solutions d'appariement flou ont un taux plus élevé de faux positifs et de faux négatifs. Cela se produit lorsque l'algorithme classe de manière incorrecte les correspondances et les non-correspondances ou vice versa. Les définitions de correspondance configurables et les paramètres flous peuvent aider à réduire autant que possible les liens incorrects.

2.     ComplexitĂ© informatique

Au cours du processus de correspondance, chaque enregistrement est comparé à tous les autres enregistrements du même jeu de données. Et si vous avez affaire à plusieurs ensembles de données, le nombre de comparaisons augmente davantage. On remarque que les comparaisons augmentent de manière quadratique à mesure que la taille de la base de données augmente. Pour cette raison, vous devez utiliser un système capable de gérer des calculs gourmands en ressources.

3.     Validation des tests

Les enregistrements correspondants sont fusionnés pour représenter une vue complète à 360° des entités. Toute erreur commise au cours de ce processus peut ajouter un risque à vos opérations commerciales. C'est pourquoi des tests de validation détaillés doivent être effectués pour s'assurer que l'algorithme réglé produit constamment des résultats avec un taux de précision élevé.

Conclure

Les entreprises considèrent souvent les solutions de rapprochement approximatif comme des projets complexes, gourmands en ressources et épuisants qui durent trop longtemps. La vérité est d'investir dans la bonne solution qui produit des résultats rapides et précis est la clé. Les organisations doivent tenir compte un certain nombre de facteurs tout en optant pour un outil de correspondance floue, tels que le temps et l'argent qu'ils sont prêts à investir, la conception d'évolutivité qu'ils ont en tête et la nature de leurs ensembles de données. Cela les aidera à choisir une solution qui leur permettra de tirer le meilleur parti de leurs données.

Je suis analyste marketing produit chez Ă‰chelle de donnĂ©es avec une formation en informatique. J'Ă©cris avec passion sur les problèmes rĂ©els d'hygiène des donnĂ©es auxquels sont confrontĂ©es de nombreuses organisations aujourd'hui. J'aime communiquer des solutions, des conseils et des pratiques qui peuvent aider les entreprises Ă  atteindre la qualitĂ© inhĂ©rente des donnĂ©es dans leurs processus d'informatique dĂ©cisionnelle. Je m'efforce de crĂ©er du contenu destinĂ© Ă  un large Ă©ventail de publics, allant du personnel technique Ă  l'utilisateur final, ainsi que de le commercialiser sur diverses plateformes numĂ©riques.