taló Coincidència difusa: definició, procés i tècniques - Unite.AI
Connecteu-vos amb nosaltres

Líders del pensament

Coincidència difusa: definició, procés i tècniques

mm

publicat

 on

An enquesta accentura van demostrar que el 75% dels consumidors prefereixen comprar a minoristes que coneixen el seu nom i el seu comportament de compra, i el 52% d'ells tenen més probabilitats de canviar de marca si no ofereixen experiències personalitzades. Amb milions de punts de dades capturats per les marques gairebé cada dia, identificar clients únics i crear els seus perfils és un dels reptes més grans als quals s'enfronten la majoria de les empreses.

Quan una empresa utilitza diverses eines per capturar dades, és molt comú escriure malament el nom d'un client o acceptar una adreça de correu electrònic amb un patró incorrecte. A més, quan aplicacions de dades diferents tenen informació variable sobre el mateix client, és impossible obtenir informació sobre el comportament i les preferències del vostre client.

A continuació, aprendrem què és la concordança difusa, com s'implementa, les tècniques habituals utilitzades i els reptes als quals s'enfronten. Comencem.

Què és la concordança difusa?

Coincidència difusa és una tècnica de comparació de dades que compara dos o més registres i calcula la probabilitat que pertanyin a la mateixa entitat. En lloc de classificar els registres de manera general com a coincidència i no coincidència, la concordança difusa genera un número (normalment entre 0 i 100%) que identifica la probabilitat que aquests registres pertanyin al mateix client, producte, empleat, etc.

Un algorisme de concordança difusa eficient s'ocupa d'una sèrie d'ambigüitats de dades, com ara inversions de nom/cognoms, sigles, noms escurçats, faltes d'ortografia fonètica i deliberada, abreviatures, puntuació afegit/eliminat, etc.

Procés de concordança difusa

El procés de concordança difusa es realitza de la següent manera:

  1. Registres de perfil per errors bàsics d'estandardització. Aquests errors es corregeixen de manera que s'aconsegueix una visió uniforme i estandarditzada en tots els registres.
  2. Selecciona i mapeja els atributs en funció de la concordança difusa que tindrà lloc. Com que aquests atributs poden tenir un títol diferent, s'han de mapejar entre les fonts.
  3. Trieu una tècnica de concordança difusa per a cada atribut. Per exemple, els noms es poden relacionar en funció de la distància del teclat o de les variants de nom, mentre que els números de telèfon es poden fer coincidir en funció de mètriques de similitud numèrica.
  4. Seleccioneu un pes per a cada atribut, de manera que els atributs amb ponderació més alta (o prioritat més alta) tindran més impacte en el nivell de confiança general de la concordança en comparació amb els camps amb pes més baixos.
  5. Definiu el nivell de llindar – Els registres amb una puntuació de concordança difusa superior al nivell es consideren una coincidència i els que queden curts no coincideixen.
  6. Executeu algorismes de concordança difusos i analitzar els resultats del partit.
  7. Anul·leu qualsevol fals positiu i negatius que puguin sorgir.
  8. Unir, deduplicar o simplement eliminar els registres duplicats.

Paràmetres de concordança difusos

A partir del procés definit anteriorment, podeu veure que un algorisme de concordança difusa té una sèrie de paràmetres que formen la base d'aquesta tècnica. Aquests inclouen els pesos dels atributs, la tècnica de concordança difusa i el nivell de llindar de puntuació.

Per obtenir resultats òptims, heu d'executar tècniques de concordança difusa amb diferents paràmetres i trobar els valors que s'adaptin millor a les vostres dades. Molts venedors empaqueten aquestes capacitats dins de la seva solució de concordança difusa on aquests paràmetres s'ajusten automàticament, però es poden personalitzar en funció de les vostres necessitats.

Què són les tècniques de concordança difusa?

Actualment s'utilitzen moltes tècniques de concordança difuses que es diferencien en funció de l'algorisme exacte de la fórmula que s'utilitza per comparar i concordar camps. Depenent de la naturalesa de les vostres dades, podeu triar la tècnica que s'adapti als vostres requisits. Aquí hi ha una llista de tècniques de concordança difusa habituals:

  1. Similitud basada en caràcters mètriques que millor coincideixen amb les cadenes. Això inclou:
    1. Edita la distància: Calcula la distància entre dues cadenes, calculada caràcter per caràcter.
    2. Distància de buit afí: Calcula la distància entre dues cordes tenint en compte també l'espai o espais entre cordes.
    3. Distància Smith-Waterman: Calcula la distància entre dues cadenes considerant també la presència o absència de prefixos i sufixos.
    4. Distància Jaro: Millor fer coincidir noms i cognoms.
  2. Similitud basada en fitxes mètriques que són millors per fer coincidir paraules completes en cadenes. Això inclou:
    1. Cordes atòmiques: divideix les cadenes llargues en paraules delimitades per signes de puntuació i compara paraules individuals.
    2. WHIRL: semblant a les cadenes atòmiques, però WHIRL també assigna pesos a cada paraula.
  3. Mètriques de semblança fonètica que són els millors per comparar paraules que sonen semblants però tenen una composició de caràcters totalment diferent. Això inclou:
    1. Soundex: és millor comparar cognoms que són diferents en ortografia però que sonen semblants.
    2. NYSIIS: semblant a Soundex, però també conserva detalls sobre la posició de les vocals.
    3. Metàfon: compara paraules que sonen semblants que existeixen en anglès, altres paraules conegudes pels nord-americans i els noms i cognoms que s'utilitzen habitualment als EUA.
  4. Mètriques de semblança numèrica que comparen nombres, a quina distància es troben entre ells, la distribució de dades numèriques, etc.

Reptes de la concordança difusa

El procés de concordança difusa, malgrat el avantatges sorprenents ofereix - pot ser bastant difícil d'implementar. Aquests són alguns dels reptes comuns als quals s'enfronten les empreses:

1.     Major taxa de falsos positius i negatius

Moltes solucions de concordança difuses tenen una taxa més alta de falsos positius i negatius. Això passa quan l'algorisme classifica incorrectament les coincidències i les no coincidències o viceversa. Les definicions de concordança configurables i els paràmetres difusos poden ajudar a reduir tant com sigui possible els enllaços incorrectes.

2.     Complexitat computacional

Durant el procés de concordança, cada registre es compara amb tots els altres registres del mateix conjunt de dades. I si esteu tractant amb diversos conjunts de dades, el nombre de comparacions augmenta més. Es nota que les comparacions creixen quadràticament a mesura que creix la mida de la base de dades. Per aquest motiu, heu d'utilitzar un sistema que sigui capaç de gestionar càlculs que requereixen molts recursos.

3.     Validació de proves

Els registres coincidents es combinen per representar una visió completa de 360 ​​de les entitats. Qualsevol error incorregut durant aquest procés pot afegir risc a les operacions empresarials. És per això que s'han de realitzar proves de validació detallades per garantir que l'algoritme ajustat produeixi resultats constantment amb una alta precisió.

Embolicar

Les empreses sovint pensen en les solucions de concordança difuses com a projectes complexos, intensius en recursos i que consumeixen diners que s'executen durant massa temps. La veritat és que invertir en la solució adequada que produeixi resultats ràpids i precisos és la clau. Les organitzacions han de tenir en compte una sèrie de factors mentre s'opta per una eina de concordança difusa, com ara el temps i els diners que estan disposats a invertir, el disseny d'escalabilitat que tenen en ment i la naturalesa dels seus conjunts de dades. Això els ajudarà a seleccionar una solució que els permeti treure el màxim profit de les seves dades.

Sóc analista de màrqueting de productes a Escala de dades amb formació en informàtica. Escric apassionadament sobre problemes d'higiene de dades del món real als quals s'enfronten moltes organitzacions avui dia. M'agrada comunicar solucions, consells i pràctiques que poden ajudar les empreses a assolir la qualitat de les dades inherent als seus processos d'intel·ligència empresarial. M'esforcem per crear contingut dirigit a un ampli ventall de públics, des del personal tècnic fins a l'usuari final, així com comercialitzar-lo a través de diverses plataformes digitals.