stub Fuzzy Matching – Definition, proces og teknikker - Unite.AI
Følg os

Tanke ledere

Fuzzy Matching – Definition, proces og teknikker

mm

Udgivet

 on

An accenture-undersøgelse viste, at 75 % af forbrugerne foretrækker at købe hos forhandlere, der kender deres navn og købsadfærd, og 52 % af dem er mere tilbøjelige til at skifte mærke, hvis de ikke tilbyder personlige oplevelser. Med millioner af datapunkter, der registreres af brands næsten hver dag, er det en af ​​de største udfordringer, som de fleste virksomheder står over for, at identificere unikke kunder og opbygge deres profiler.

Når en virksomhed bruger flere værktøjer til at indsamle data, er det meget almindeligt at stave en kundes navn forkert eller acceptere en e-mailadresse med et forkert mønster. Desuden, når forskellige dataapplikationer har varierende information om den samme kunde, bliver det umuligt at få indsigt i din kundeadfærd og præferencer.

Dernæst vil vi lære, hvad fuzzy matching er, hvordan det implementeres, de almindelige anvendte teknikker og de udfordringer, vi står over for. Lad os komme igang.

Hvad er fuzzy matching?

Fuzzy matching er en datamatchningsteknik, der sammenligner to eller flere poster og beregner sandsynligheden for, at de tilhører den samme enhed. I stedet for bredt at kategorisere poster som et match og ikke-matching, giver fuzzy matching et tal (normalt mellem 0-100%), der identificerer, hvor sandsynligt det er, at disse poster tilhører den samme kunde, produkt, medarbejder osv.

En effektiv fuzzy matching-algoritme tager sig af en række data-uklarheder, såsom for-/efternavnsvendinger, akronymer, forkortede navne, fonetiske og bevidste stavefejl, forkortelser, tilføjede/fjernede tegnsætninger osv.

Fuzzy matchningsproces

Fuzzy matching-processen udføres som følger:

  1. Profiloptegnelser for grundlæggende standardiseringsfejl. Disse fejl rettes, så der opnås en ensartet og standardiseret visning på tværs af poster.
  2. Vælg og kortlæg attributter baseret på hvilken fuzzy matching der vil finde sted. Da disse attributter kan have en anden titel, skal de kortlægges på tværs af kilder.
  3. Vælg en fuzzy matching-teknik for hver egenskab. For eksempel kan navne matches baseret på tastaturafstand eller navnevarianter, mens telefonnumre kan matches baseret på numeriske lighedsmetrikker.
  4. Vælg en vægt for hver egenskab, således at attributter tildelt højere vægt (eller højere prioritet) vil have større indflydelse på det overordnede matchkonfidensniveau sammenlignet med felter med lavere vægt.
  5. Definer tærskelniveauet – Records med fuzzy matching-score højere end niveauet anses for at være en match, og de, der kommer til kort, er en non-match.
  6. Kør fuzzy matchende algoritmer og analysere kampresultaterne.
  7. Tilsidesæt eventuelle falske positiver og negativer, der kan dukke op.
  8. Flet, dedupliker eller simpelthen eliminer dubletterne.

Fuzzy matchende parametre

Fra processen defineret ovenfor kan du se, at en fuzzy matching-algoritme har en række parametre, der danner grundlaget for denne teknik. Disse inkluderer attributvægte, fuzzy matching-teknik og scoretærskelniveauet.

For at få optimale resultater skal du udføre fuzzy matching-teknikker med varierende parametre og finde de værdier, der passer bedst til dine data. Mange leverandører pakker sådanne muligheder i deres fuzzy matching-løsning, hvor disse parametre automatisk justeres, men kan tilpasses afhængigt af dine behov.

Hvad er fuzzy matching-teknikker?

Der er mange fuzzy matching-teknikker, der bruges i dag, og som adskiller sig baseret på den nøjagtige algoritme for formel, der bruges til at sammenligne og matche felter. Afhængigt af arten af ​​dine data kan du vælge den teknik, der passer til dine behov. Her er en liste over almindelige fuzzy matching-teknikker:

  1. Karakterbaseret lighed målinger, der er bedst til at matche strenge. Disse omfatter:
    1. Rediger afstand: Beregner afstanden mellem to strenge, beregnet tegn for tegn.
    2. Affin afstand: Beregner afstanden mellem to strenge ved også at overveje mellemrummet eller mellemrummene mellem strenge.
    3. Smith-Waterman distance: Beregner afstanden mellem to strenge ved også at overveje tilstedeværelsen eller fraværet af præfikser og suffikser.
    4. Jaro afstand: Bedst at matche på for- og efternavne.
  2. Token-baseret lighed målinger, der er bedst til at matche hele ord i strenge. Disse omfatter:
    1. Atomstrenge: Opdeler lange strenge i ord afgrænset af tegnsætninger og sammenligner på individuelle ord.
    2. WHIRL: Svarer til atomstrenge, men WHIRL tildeler også vægte til hvert ord.
  3. Fonetiske lighedsmetrikker det er bedst at sammenligne ord, der lyder ens, men som har en helt anden karaktersammensætning. Disse omfatter:
    1. Soundex: Bedst at sammenligne efternavne, der er forskellige i stavemåde, men som lyder ens.
    2. NYSIIS: Ligner Soundex, men det bevarer også detaljer om vokalposition.
    3. Metafon: Sammenligner lignende lydende ord, der findes på engelsk, andre ord, der er kendt for amerikanere, og for- og efternavne, der almindeligvis bruges i USA.
  4. Numeriske lighedsmålinger der sammenligner tal, hvor langt de er fra hinanden, fordelingen af ​​numeriske data osv.

Udfordringer ved fuzzy matching

Den fuzzy matching-proces – på trods af fantastiske fordele det giver – kan være ret svært at implementere. Her er nogle almindelige udfordringer, som virksomheder står over for:

1.     Højere frekvens af falske positive og negative

Mange fuzzy matching-løsninger har en højere frekvens af falske positive og negative. Dette sker, når algoritmen forkert klassificerer kampe og ikke-matches eller omvendt. Konfigurerbare matchdefinitioner og fuzzy parametre kan hjælpe med at reducere ukorrekte links så meget som muligt.

2.     Computational kompleksitet

Under matchningsprocessen sammenlignes hver post med hver anden post i det samme datasæt. Og hvis du har med flere datasæt at gøre, så stiger antallet af sammenligninger mere. Det bemærkes, at sammenligninger vokser kvadratisk, efterhånden som databasestørrelsen vokser. Af denne grund skal du bruge et system, der er i stand til at håndtere ressourcekrævende beregninger.

3.     Validering af test

De matchede poster flettes sammen for at repræsentere en komplet 360°-visning af enheder. Enhver fejl, der opstår under denne proces, kan tilføje risiko for din virksomhedsdrift. Dette er grunden til, at der skal udføres detaljerede valideringstests for at sikre, at den indstillede algoritme konsekvent producerer resultater med høj nøjagtighed.

Wrap up

Virksomheder tænker ofte på fuzzy matching-løsninger som komplekse, ressourcekrævende og pengedrænende projekter, der løber for længe. Sandheden er at investere i den rigtige løsning, der giver hurtige og præcise resultater, er nøglen. Organisationer skal overveje en række faktorer, mens du vælger et fuzzy matchende værktøj, såsom den tid og de penge, de er villige til at investere, det skalerbarhedsdesign, de har i tankerne, og arten af ​​deres datasæt. Dette vil hjælpe dem med at vælge en løsning, der sætter dem i stand til at få mest muligt ud af deres data.

Jeg er produktmarkedsføringsanalytiker hos Datastige med baggrund i IT. Jeg skriver lidenskabeligt om datahygiejneproblemer i den virkelige verden, som mange organisationer står over for i dag. Jeg kan godt lide at kommunikere løsninger, tips og praksisser, der kan hjælpe virksomheder med at opnå iboende datakvalitet i deres business intelligence-processer. Jeg stræber efter at skabe indhold, der er målrettet mod en bred vifte af målgrupper, lige fra teknisk personale til slutbruger, samt at markedsføre det på tværs af forskellige digitale platforme.