stub Fuzzy Matching – Definisjon, prosess og teknikker – Unite.AI
Kontakt med oss

Tankeledere

Fuzzy Matching – Definisjon, prosess og teknikker

mm

Publisert

 on

An aksenturundersøkelse viste at 75 % av forbrukerne foretrekker å kjøpe fra forhandlere som kjenner deres navn og kjøpsatferd, og 52 % av dem er mer sannsynlig å bytte merke hvis de ikke tilbyr personlige opplevelser. Med millioner av datapunkter som fanges opp av merkevarer nesten hver dag, er det å identifisere unike kunder og bygge profiler en av de største utfordringene de fleste selskaper står overfor.

Når en bedrift bruker flere verktøy for å fange data, er det svært vanlig å stave en kundes navn feil eller godta en e-postadresse med feil mønster. Dessuten, når ulike dataapplikasjoner har varierende informasjon om den samme kunden, blir det umulig å få innsikt i kundenes atferd og preferanser.

Deretter vil vi lære hva fuzzy matching er, hvordan det implementeres, de vanlige teknikkene som brukes og utfordringene vi står overfor. La oss komme i gang.

Hva er fuzzy matching?

Uklar matching er en datamatchingsteknikk som sammenligner to eller flere poster og beregner sannsynligheten for at de tilhører samme enhet. I stedet for grovt å kategorisere poster som samsvarende og ikke-matchende, gir fuzzy matching et tall (vanligvis mellom 0-100%) som identifiserer hvor sannsynlig det er at disse postene tilhører samme kunde, produkt, ansatt osv.

En effektiv fuzzy matching-algoritme tar seg av en rekke data-uklarheter, som for-/etternavnsvendinger, akronymer, forkortede navn, fonetiske og bevisste feilstavinger, forkortelser, lagt til/fjernet tegnsetting, etc.

Uklar matchingsprosess

Den uklare matchingsprosessen utføres som følger:

  1. Profilopptegnelser for grunnleggende standardiseringsfeil. Disse feilene rettes slik at det oppnås et enhetlig og standardisert syn på tvers av poster.
  2. Velg og kartlegg attributter basert på hvilken fuzzy matching som vil finne sted. Siden disse attributtene kan ha en annen tittel, må de tilordnes på tvers av kilder.
  3. Velg en uklar matchingsteknikk for hver egenskap. For eksempel kan navn matches basert på tastaturavstand eller navnevarianter, mens telefonnumre kan matches basert på numeriske likhetsberegninger.
  4. Velg en vekt for hvert attributt, slik at attributter som er tildelt høyere vekt (eller høyere prioritet) vil ha større innvirkning på det generelle samsvarkonfidensnivået sammenlignet med felt som har lavere vekt.
  5. Definer terskelnivået – Rekorder med fuzzy matching-score høyere enn nivået anses å være en kamp, ​​og de som kommer til kort er en ikke-match.
  6. Kjør uklare matchende algoritmer og analysere kampresultatene.
  7. Overstyr eventuelle falske positiver og negative som kan dukke opp.
  8. Flett, deduplisere eller ganske enkelt eliminere duplikatpostene.

Uklare samsvarende parametere

Fra prosessen definert ovenfor kan du se at en fuzzy matching-algoritme har en rekke parametere som danner grunnlaget for denne teknikken. Disse inkluderer attributtvekter, uklar matchingsteknikk og poenggrensenivå.

For å få optimale resultater, må du utføre fuzzy matching-teknikker med varierende parametere og finne verdiene som passer best til dine data. Mange leverandører pakker slike funksjoner i deres uklare matchende løsning der disse parameterne blir automatisk justert, men kan tilpasses avhengig av dine behov.

Hva er fuzzy matching-teknikker?

Det er mange uklare samsvarsteknikker som brukes i dag som er forskjellige basert på den eksakte algoritmen til formelen som brukes til å sammenligne og matche felt. Avhengig av arten av dataene dine, kan du velge teknikken som passer for dine behov. Her er en liste over vanlige uklare matchingsteknikker:

  1. Karakterbasert likhet beregninger som passer best til strenger. Disse inkluderer:
    1. Rediger avstand: Beregner avstanden mellom to strenger, beregnet tegn for tegn.
    2. Affin gap avstand: Beregner avstanden mellom to strenger ved også å vurdere gapet eller mellomrommene mellom strengene.
    3. Smith-Waterman avstand: Beregner avstanden mellom to strenger ved også å vurdere tilstedeværelsen eller fraværet av prefikser og suffikser.
    4. Jaro avstand: Best å matche på for- og etternavn.
  2. Tokenbasert likhet beregninger som er best for å matche hele ord i strenger. Disse inkluderer:
    1. Atomstrenger: Deler lange strenger inn i ord avgrenset med tegnsetting og sammenligner på individuelle ord.
    2. WHIRL: Ligner på atomstrenger, men WHIRL tildeler også vekter til hvert ord.
  3. Fonetiske likhetsmålinger som er best å sammenligne ord som høres like ut, men som har en helt annen karaktersammensetning. Disse inkluderer:
    1. Soundex: Best å sammenligne etternavn som er forskjellige i stavemåte, men som høres like ut.
    2. NYSIIS: Ligner på Soundex, men den beholder også detaljer om vokalposisjon.
    3. Metafon: Sammenligner lignende ord som finnes i engelsk språk, andre ord som er kjent for amerikanere, og fornavn og familienavn som ofte brukes i USA.
  4. Numeriske likhetsberegninger som sammenligner tall, hvor langt de er fra hverandre, fordelingen av numeriske data osv.

Utfordringer med uklar matching

Den uklare matchingsprosessen – til tross for fantastiske fordeler det tilbyr – kan være ganske vanskelig å implementere. Her er noen vanlige utfordringer bedrifter står overfor:

1.     Høyere forekomst av falske positive og negative

Mange uklare matchende løsninger har en høyere andel falske positive og negative. Dette skjer når algoritmen feilklassifiserer treff og ikke-treff eller omvendt. Konfigurerbare samsvarsdefinisjoner og uklare parametere kan bidra til å redusere uriktige koblinger så mye som mulig.

2.     Beregningskompleksitet

Under matchingsprosessen sammenlignes hver post med annenhver post i samme datasett. Og hvis du har å gjøre med flere datasett, øker antallet sammenligninger mer. Det legges merke til at sammenligninger vokser kvadratisk ettersom databasestørrelsen vokser. Av denne grunn må du bruke et system som er i stand til å håndtere ressurskrevende beregninger.

3.     Validering av testing

De samsvarende postene slås sammen for å representere en fullstendig 360-visning av enheter. Enhver feil som oppstår under denne prosessen kan legge til risiko for virksomheten din. Dette er grunnen til at detaljert valideringstesting må utføres for å sikre at den innstilte algoritmen konsekvent produserer resultater med høy nøyaktighetshastighet.

Wrap up

Bedrifter tenker ofte på uklare matchende løsninger som komplekse, ressurskrevende og pengekrevende prosjekter som varer for lenge. Sannheten er å investere i den riktige løsningen som gir raske og nøyaktige resultater er nøkkelen. Organisasjoner må vurdere en rekke faktorer mens du velger et fuzzy matching-verktøy, for eksempel tiden og pengene de er villige til å investere, skalerbarhetsdesignet de har i tankene, og arten av datasettene deres. Dette vil hjelpe dem til å velge en løsning som gjør dem i stand til å få mest mulig ut av dataene sine.

Jeg er en produktmarkedsføringsanalytiker hos Datastige med bakgrunn fra IT. Jeg skriver lidenskapelig om datahygieneproblemer i den virkelige verden mange organisasjoner står overfor i dag. Jeg liker å formidle løsninger, tips og praksiser som kan hjelpe bedrifter med å oppnå iboende datakvalitet i deres forretningsinformasjonsprosesser. Jeg streber etter å lage innhold som er målrettet mot et bredt spekter av publikum, alt fra teknisk personell til sluttbruker, samt markedsføre det på tvers av ulike digitale plattformer.