škrbina Mehko ujemanje – definicija, proces in tehnike – Unite.AI
Povežite se z nami

Voditelji misli

Mehko ujemanje – definicija, proces in tehnike

mm

objavljeno

 on

An raziskava poudarka je pokazalo, da 75 % potrošnikov raje kupuje pri trgovcih na drobno, ki poznajo njihovo ime in nakupovalno vedenje, 52 % pa jih bo bolj verjetno zamenjalo blagovno znamko, če ti ne ponujajo prilagojenih izkušenj. Z milijoni podatkovnih točk, ki jih blagovne znamke zajemajo skoraj vsak dan, je prepoznavanje edinstvenih strank in ustvarjanje njihovih profilov eden največjih izzivov, s katerimi se sooča večina podjetij.

Ko podjetje uporablja več orodij za zajemanje podatkov, je zelo pogosto napačno črkovano ime stranke ali sprejeti e-poštni naslov z napačnim vzorcem. Poleg tega, ko imajo različne podatkovne aplikacije različne informacije o isti stranki, postane nemogoče pridobiti vpogled v vedenje in želje vaše stranke.

Nato se bomo naučili, kaj je mehko ujemanje, kako se izvaja, običajne uporabljene tehnike in izzive, s katerimi se srečujemo. Začnimo.

Kaj je mehko ujemanje?

Mehko ujemanje je tehnika ujemanja podatkov, ki primerja dva ali več zapisov in izračuna verjetnost, da pripadajo isti entiteti. Namesto široke kategorizacije zapisov kot ujemajočih se in neujemajočih, mehko ujemanje izpiše število (običajno med 0–100 %), ki določa, kako verjetno je, da ti zapisi pripadajo isti stranki, izdelku, zaposlenemu itd.

Učinkovit algoritem mehkega ujemanja poskrbi za vrsto dvoumnosti podatkov, kot so zamenjava imena/priimka, akronimi, skrajšana imena, fonetična in namerna napačna črkovanja, okrajšave, dodana/odstranjena ločila itd.

Postopek mehkega ujemanja

Postopek mehkega ujemanja poteka na naslednji način:

  1. Profilni zapisi za osnovne standardizacijske napake. Te napake so odpravljene, tako da je dosežen enoten in standardiziran pogled v vseh zapisih.
  2. Izberite in preslikajte atribute na podlagi katerega bo potekalo mehko ujemanje. Ker so lahko ti atributi drugače naslovljeni, jih je treba preslikati v vire.
  3. Izberite tehniko mehkega ujemanja za vsak atribut. Na primer, imena se lahko ujemajo na podlagi oddaljenosti tipkovnice ali različic imen, medtem ko se telefonske številke lahko ujemajo na podlagi meritev številske podobnosti.
  4. Izberite težo za vsak atribut, tako da bodo imeli atributi z višjo utežjo (ali višjo prioriteto) večji vpliv na splošno stopnjo zaupanja ujemanja v primerjavi s polji z nižjo utežjo.
  5. Določite raven praga – zapisi z rezultatom mehkega ujemanja, ki je višji od ravni, se štejejo za ujemajoče se, tisti, ki ne dosegajo, pa se ne ujemajo.
  6. Izvedite algoritme mehkega ujemanja in analizirati rezultate tekem.
  7. Preglasite morebitne lažne pozitivne rezultate in negativne strani, ki se lahko pojavijo.
  8. Spoji, deduplicirati ali preprosto odstraniti dvojnike zapisov.

Parametri mehkega ujemanja

Iz zgoraj definiranega postopka lahko vidite, da ima algoritem mehkega ujemanja številne parametre, ki so osnova te tehnike. Ti vključujejo uteži atributov, tehniko mehkega ujemanja in raven praga rezultatov.

Če želite dobiti optimalne rezultate, morate izvesti tehnike mehkega ujemanja z različnimi parametri in najti vrednosti, ki najbolje ustrezajo vašim podatkom. Številni prodajalci zapakirajo takšne zmogljivosti v svojo rešitev za mehko ujemanje, kjer se ti parametri samodejno nastavijo, vendar jih je mogoče prilagoditi glede na vaše potrebe.

Kaj so tehnike mehkega ujemanja?

Danes se uporabljajo številne tehnike mehkega ujemanja, ki se razlikujejo glede na točen algoritem formule, ki se uporablja za primerjavo in ujemanje polj. Glede na naravo vaših podatkov lahko izberete tehniko, ki ustreza vašim zahtevam. Tukaj je seznam pogostih tehnik mehkega ujemanja:

  1. Podobnost na podlagi znakov metrike, ki se najbolje ujemajo z nizi. Tej vključujejo:
    1. Uredi razdaljo: Izračuna razdaljo med dvema nizoma, izračunan znak za znakom.
    2. Razdalja afine vrzeli: Izračuna razdaljo med dvema nizoma tako, da upošteva tudi vrzel ali presledke med nizoma.
    3. Razdalja Smith-Waterman: Izračuna razdaljo med dvema nizoma tako, da upošteva tudi prisotnost ali odsotnost predpon in pripon.
    4. Razdalja Jaro: Najboljše za ujemanje imena in priimka.
  2. Podobnost na osnovi žetonov metrike, ki najbolje ustrezajo celotnim besedam v nizih. Tej vključujejo:
    1. Atomski nizi: dolge nize razdeli na besede, ločene z ločili, in primerja posamezne besede.
    2. WHIRL: Podobno kot atomski nizi, vendar WHIRL vsaki besedi dodeli tudi uteži.
  3. Fonetična metrika podobnosti ki so najboljše za primerjavo besed, ki zvenijo podobno, vendar imajo popolnoma drugačno sestavo znakov. Tej vključujejo:
    1. Soundex: Najbolje je primerjati priimke, ki se razlikujejo po črkovanju, a zvenijo podobno.
    2. NYSIIS: Podobno kot Soundex, vendar ohranja tudi podrobnosti o položaju samoglasnikov.
    3. Metafon: primerja podobne zveneče besede, ki obstajajo v angleškem jeziku, druge besede, ki jih poznajo Američani, ter imena in priimke, ki se običajno uporabljajo v ZDA.
  4. Številske metrike podobnosti ki primerjajo števila, koliko so med seboj oddaljena, porazdelitev številskih podatkov itd.

Izzivi mehkega ujemanja

Postopek mehkega ujemanja – kljub neverjetne koristi ponuja – je lahko zelo težko izvajati. Tukaj je nekaj pogostih izzivov, s katerimi se srečujejo podjetja:

1.     Višja stopnja lažno pozitivnih in negativnih rezultatov

Veliko rešitev mehkega ujemanja ima višjo stopnjo lažno pozitivnih in negativnih rezultatov. To se zgodi, ko algoritem nepravilno razvrsti ujemajoče se in neujemajoče se ali obratno. Nastavljive definicije ujemanja in mehki parametri lahko pomagajo čim bolj zmanjšati napačne povezave.

2.     Računalniška zapletenost

Med postopkom ujemanja se vsak zapis primerja z vsemi drugimi zapisi v istem nizu podatkov. In če imate opravka z več nizi podatkov, se število primerjav še poveča. Opaziti je, da primerjave rastejo kvadratno, ko raste velikost baze podatkov. Iz tega razloga morate uporabiti sistem, ki je sposoben obravnavati izračune, ki zahtevajo veliko virov.

3.     Validacijsko testiranje

Ujemajoči se zapisi so združeni, da predstavljajo celoten 360-stopinjski pogled entitet. Vsaka napaka, do katere pride med tem postopkom, lahko poveča tveganje za vaše poslovne operacije. Zato je treba izvesti podrobno validacijsko testiranje, da se zagotovi, da uglašeni algoritem dosledno daje rezultate z visoko stopnjo natančnosti.

Zaviti

Podjetja si rešitve mehkega ujemanja pogosto predstavljajo kot zapletene projekte, ki zahtevajo veliko virov in odtekajo denar ter trajajo predolgo. Resnica je, da je ključna naložba v pravo rešitev, ki daje hitre in natančne rezultate. Organizacije morajo upoštevati več dejavnikov, medtem ko se odločite za orodje za mehko ujemanje, na primer čas in denar, ki so ga pripravljeni vložiti, zasnova razširljivosti, ki jo imajo v mislih, in narava njihovih naborov podatkov. To jim bo pomagalo izbrati rešitev, ki jim bo omogočila, da kar najbolje izkoristijo svoje podatke.

Sem analitik trženja izdelkov pri Lestvica podatkov z znanjem IT. Strastno pišem o dejanskih težavah s higieno podatkov, s katerimi se danes soočajo številne organizacije. Rad sporočam rešitve, nasvete in prakse, ki lahko pomagajo podjetjem pri doseganju inherentne kakovosti podatkov v njihovih procesih poslovne inteligence. Prizadevam si ustvariti vsebino, ki je namenjena širokemu krogu občinstva, od tehničnega osebja do končnih uporabnikov, ter jo tržiti na različnih digitalnih platformah.