Connect with us

Leaders d’opinion

Appariement Flou – Définition, Processus et Techniques

mm

Une étude d’Accenture a montré que 75 % des consommateurs préfèrent acheter auprès de détaillants qui connaissent leur nom et leur comportement d’achat, et 52 % d’entre eux sont plus susceptibles de changer de marque s’ils n’offrent pas d’expériences personnalisées. Avec des millions de points de données capturés par les marques presque chaque jour, identifier les clients uniques et construire leurs profils est l’un des plus grands défis auxquels sont confrontées la plupart des entreprises.

Lorsqu’une entreprise utilise plusieurs outils pour capturer des données, il est très courant de mal orthographier le nom d’un client ou d’accepter une adresse e-mail avec un modèle incorrect. De plus, lorsque des applications de données disparates ont des informations différentes sur le même client, il devient impossible d’obtenir des informations sur le comportement et les préférences du client.

Ensuite, nous allons apprendre ce qu’est l’appariement flou, comment il est mis en œuvre, les techniques courantes utilisées et les défis rencontrés. Commençons.

Qu’est-ce que l’appariement flou ?

L’appariement flou est une technique de mise en correspondance de données qui compare deux ou plusieurs enregistrements et calcule la probabilité qu’ils appartiennent à la même entité. Plutôt que de catégoriser largement les enregistrements en correspondance et non-correspondance, l’appariement flou produit un nombre (généralement entre 0-100 %) qui identifie la probabilité que ces enregistrements appartiennent au même client, produit, employé, etc.

Un algorithme d’appariement flou efficace prend soin d’une gamme d’ambiguïtés de données, telles que les inversions de prénom/nom, les acronymes, les noms abrégés, les fautes d’orthographe phonétiques et délibérées, les abréviations, les ponctuations ajoutées/supprimées, etc.

Processus d’appariement flou

Le processus d’appariement flou est effectué comme suit :

  1. Enregistrements de profil pour les erreurs de standardisation de base. Ces erreurs sont corrigées afin d’obtenir une vue uniforme et standardisée à travers les enregistrements.
  2. Sélection et mise en correspondance des attributs en fonction desquels l’appariement flou aura lieu. Puisque ces attributs peuvent être intitulés différemment, ils doivent être mis en correspondance à travers les sources.
  3. Choix d’une technique d’appariement flou pour chaque attribut. Par exemple, les noms peuvent être mis en correspondance en fonction de la distance du clavier ou des variantes de noms, tandis que les numéros de téléphone peuvent être mis en correspondance en fonction de métriques de similarité numérique.
  4. Sélection d’un poids pour chaque attribut, de telle sorte que les attributs affectés de poids plus élevés (ou de priorité plus élevée) auront plus d’impact sur le niveau de confiance de correspondance global par rapport aux champs ayant des poids plus faibles.
  5. Définition du niveau de seuil – les enregistrements avec un score d’appariement flou supérieur au niveau sont considérés comme une correspondance et ceux qui sont en deçà sont une non-correspondance.
  6. Exécution des algorithmes d’appariement flou et analyse des résultats de correspondance.
  7. Neutralisation de faux positifs et négatifs qui pourraient survenir.
  8. Fusion, déduplication ou élimination simple des enregistrements en double.

Paramètres d’appariement flou

À partir du processus défini ci-dessus, vous pouvez voir qu’un algorithme d’appariement flou a un certain nombre de paramètres qui forment la base de cette technique. Ces paramètres incluent les poids d’attributs, la technique d’appariement flou et le niveau de score de seuil.

Pour obtenir des résultats optimaux, vous devez exécuter des techniques d’appariement flou avec des paramètres variables et trouver les valeurs qui conviennent le mieux à vos données. De nombreux fournisseurs regroupent ces capacités dans leur solution d’appariement flou, où ces paramètres sont réglés automatiquement mais peuvent être personnalisés en fonction de vos besoins.

Quelles sont les techniques d’appariement flou ?

Il existe de nombreuses techniques d’appariement flou utilisées aujourd’hui qui diffèrent en fonction de l’algorithme ou de la formule utilisée pour comparer et mettre en correspondance les champs. En fonction de la nature de vos données, vous pouvez choisir la technique qui convient le mieux à vos besoins. Voici une liste de techniques d’appariement flou courantes :

  1. Similarité basée sur les caractères qui est la meilleure pour mettre en correspondance les chaînes de caractères. Celles-ci incluent :
    1. Distance d’édition : Calcule la distance entre deux chaînes de caractères, calculée caractère par caractère.
    2. Distance d’intervalle affine : Calcule la distance entre deux chaînes de caractères en considérant également les espaces entre les chaînes de caractères.
    3. Distance de Smith-Waterman : Calcule la distance entre deux chaînes de caractères en considérant également la présence ou l’absence de préfixes et de suffixes.
    4. Distance de Jaro : Meilleure pour la mise en correspondance des prénoms et noms de famille.
  2. Métriques de similarité basées sur les jetons qui sont les meilleures pour mettre en correspondance les mots complets dans les chaînes de caractères. Celles-ci incluent :
    1. Chaînes atomiques : Divise les longues chaînes de caractères en mots délimités par des ponctuations et les compare sur des mots individuels.
    2. WHIRL : Similaire aux chaînes atomiques, mais WHIRL attribue également des poids à chaque mot.
  3. Métriques de similarité phonétique qui sont les meilleures pour comparer les mots qui se prononcent de manière similaire mais ont une composition de caractères complètement différente. Celles-ci incluent :
    1. Soundex : Meilleure pour comparer les noms de famille qui sont différents dans l’orthographe mais se prononcent de manière similaire.
    2. NYSIIS : Similaire à Soundex, mais il conserve également des détails sur la position des voyelles.
    3. Métaphone : Compare les mots qui se prononcent de manière similaire qui existent dans la langue anglaise, d’autres mots familiers aux Américains et les prénoms et noms de famille couramment utilisés aux États-Unis.
  4. Métriques de similarité numérique qui comparent les nombres, à quelle distance ils sont les uns des autres, la distribution des données numériques, etc.

Defis de l’appariement flou

Le processus d’appariement flou – malgré les avantages incroyables qu’il offre – peut être assez difficile à mettre en œuvre. Voici quelques défis courants auxquels sont confrontées les entreprises :

1.     Taux plus élevé de faux positifs et de faux négatifs

De nombreuses solutions d’appariement flou ont un taux plus élevé de faux positifs et de faux négatifs. Cela se produit lorsque l’algorithme classe incorrectement les correspondances et les non-correspondances ou vice versa. Des définitions de correspondance configurables et des paramètres flous peuvent aider à réduire les liens incorrects autant que possible.

2.     Complexité computationnelle

Au cours du processus de mise en correspondance, chaque enregistrement est comparé à chaque autre enregistrement dans le même jeu de données. Et si vous travaillez avec plusieurs jeux de données, le nombre de comparaisons augmente encore. On a constaté que les comparaisons augmentent de manière quadratique à mesure que la taille de la base de données augmente. Pour cette raison, vous devez utiliser un système capable de gérer des calculs gourmands en ressources.

3.     Test de validation

Les enregistrements mis en correspondance sont fusionnés pour représenter une vue complète à 360 degrés des entités. Toute erreur survenue au cours de ce processus peut ajouter un risque à vos opérations commerciales. C’est pourquoi des tests de validation détaillés doivent être effectués pour garantir que l’algorithme réglé produit constamment des résultats avec un taux de précision élevé.

Conclusion

Les entreprises pensent souvent que les solutions d’appariement flou sont des projets complexes, gourmands en ressources et coûteux qui durent trop longtemps. La vérité est que investir dans la bonne solution qui produit des résultats rapides et précis est la clé. Les organisations doivent prendre en compte un certain nombre de facteurs lors du choix d’un outil d’appariement flou, tels que le temps et l’argent qu’ils sont prêts à investir, la conception d’évolutivité qu’ils ont en tête et la nature de leurs jeux de données. Cela les aidera à sélectionner une solution qui leur permettra de tirer le meilleur parti de leurs données.

Je suis un analyste marketing de produits chez Data Ladder avec une formation en IT. J'écris avec passion sur les problèmes de propreté des données dans le monde réel auxquels sont confrontées de nombreuses organisations aujourd'hui. J'aime communiquer des solutions, des conseils et des pratiques qui peuvent aider les entreprises à atteindre une qualité de données inhérente dans leurs processus d'intelligence d'affaires. Je m'efforce de créer du contenu ciblé pour un large éventail de publics, allant du personnel technique à l'utilisateur final, ainsi que de le commercialiser sur diverses plateformes numériques.