peň Fuzzy Matching – definícia, proces a techniky – Unite.AI
Spojte sa s nami

Myšlienkoví vodcovia

Fuzzy Matching – definícia, proces a techniky

mm

uverejnené

 on

An prieskum accenture ukázali, že 75 % spotrebiteľov uprednostňuje nákup od maloobchodníkov, ktorí poznajú ich meno a nákupné správanie, a 52 % z nich s väčšou pravdepodobnosťou zmení značku, ak neponúkajú personalizované skúsenosti. Keďže značky takmer každý deň zachytávajú milióny údajových bodov, je identifikácia jedinečných zákazníkov a budovanie ich profilov jednou z najväčších výziev, ktorým väčšina spoločností čelí.

Keď podnik používa viacero nástrojov na získavanie údajov, je veľmi bežné, že nesprávne napíšete meno zákazníka alebo akceptujete e-mailovú adresu s nesprávnym vzorom. Navyše, keď rôzne dátové aplikácie majú rôzne informácie o tom istom zákazníkovi, je nemožné získať prehľad o správaní a preferenciách vašich zákazníkov.

Ďalej sa dozvieme, čo je to fuzzy párovanie, ako sa implementuje, bežne používané techniky a výzvy, ktorým čelíme. Začnime.

Čo je to fuzzy párovanie?

Fuzzy párovanie je technika porovnávania údajov, ktorá porovnáva dva alebo viac záznamov a vypočítava pravdepodobnosť, že patria k rovnakej entite. Namiesto všeobecnej kategorizácie záznamov ako zhodných a nezhodných záznamov výsledkom fuzzy zhody je číslo (zvyčajne medzi 0 – 100 %), ktoré identifikuje, aká je pravdepodobnosť, že tieto záznamy patria rovnakému zákazníkovi, produktu, zamestnancovi atď.

Efektívny algoritmus fuzzy párovania sa stará o celý rad nejednoznačností údajov, ako sú zmeny krstného/priezviska, akronymy, skrátené mená, fonetické a úmyselne preklepy, skratky, pridané/odstránené interpunkčné znamienka atď.

Fuzzy párovací proces

Proces fuzzy párovania sa vykonáva takto:

  1. Profilové záznamy pre základné štandardizačné chyby. Tieto chyby sú opravené, aby sa dosiahol jednotný a štandardizovaný pohľad na všetky záznamy.
  2. Vyberte a namapujte atribúty na základe ktorých bude prebiehať fuzzy párovanie. Keďže tieto atribúty môžu byť pomenované inak, musia byť mapované naprieč zdrojmi.
  3. Vyberte techniku ​​fuzzy párovania pre každý atribút. Napríklad mená možno priradiť na základe vzdialenosti klávesnice alebo variantov mien, zatiaľ čo telefónne čísla možno priradiť na základe metrík číselnej podobnosti.
  4. Vyberte hmotnosť pre každý atribút tak, že atribúty s vyššou váhou (alebo vyššou prioritou) budú mať väčší vplyv na celkovú úroveň spoľahlivosti zhody v porovnaní s poľami s nižšou váhou.
  5. Definujte prahovú úroveň – záznamy so skóre fuzzy zhody vyšším ako je úroveň sa považujú za zhodné a tie, ktoré nedosahujú, sú nezhodné.
  6. Spustite fuzzy párovacie algoritmy a analyzovať výsledky zápasu.
  7. Prepíšte všetky falošne pozitívne výsledky a negatíva, ktoré sa môžu objaviť.
  8. ísť, deduplikovať alebo jednoducho odstrániť duplikáty záznamov.

Fuzzy párovacie parametre

Z procesu definovaného vyššie môžete vidieť, že algoritmus fuzzy párovania má množstvo parametrov, ktoré tvoria základ tejto techniky. Patria sem váhy atribútov, technika fuzzy párovania a prahová úroveň skóre.

Ak chcete získať optimálne výsledky, musíte vykonať techniky fuzzy párovania s rôznymi parametrami a nájsť hodnoty, ktoré najlepšie vyhovujú vašim údajom. Mnohí predajcovia ponúkajú takéto možnosti v rámci svojho riešenia fuzzy párovania, kde sú tieto parametre automaticky ladené, ale možno ich prispôsobiť podľa vašich potrieb.

Čo sú techniky fuzzy párovania?

V súčasnosti sa používa veľa techník fuzzy párovania, ktoré sa líšia na základe presného algoritmu vzorca používaného na porovnávanie a párovanie polí. V závislosti od charakteru vašich údajov si môžete vybrať techniku, ktorá je vhodná pre vaše požiadavky. Tu je zoznam bežných techník fuzzy párovania:

  1. Podobnosť založená na znakoch metriky, ktoré najlepšie zodpovedajú reťazcom. Tie obsahujú:
    1. Upraviť vzdialenosť: Vypočíta vzdialenosť medzi dvoma reťazcami, vypočítanú znak po znaku.
    2. Vzdialenosť afinnej medzery: Vypočíta vzdialenosť medzi dvoma strunami, pričom zohľadní aj medzeru alebo medzery medzi strunami.
    3. Vzdialenosť Smith-Waterman: Vypočíta vzdialenosť medzi dvoma reťazcami, pričom zohľadní aj prítomnosť alebo neprítomnosť predpôn a prípon.
    4. Jaro vzdialenosť: Najlepšie je zhodovať sa s menom a priezviskom.
  2. Tokenová podobnosť metriky, ktoré najlepšie zodpovedajú úplným slovám v reťazcoch. Tie obsahujú:
    1. Atómové reťazce: Rozdeľuje dlhé reťazce na slová oddelené interpunkciou a porovnáva na jednotlivých slovách.
    2. WHIRL: Podobne ako atómové struny, ale WHIRL tiež priraďuje váhu každému slovu.
  3. Metriky fonetickej podobnosti ktoré sú najlepšie na porovnanie slov, ktoré znejú podobne, ale majú úplne odlišné zloženie znakov. Tie obsahujú:
    1. Soundex: Najlepšie je porovnať priezviská, ktoré sa líšia pravopisom, ale znejú podobne.
    2. NYSIIS: Podobne ako Soundex, ale zachováva aj podrobnosti o polohe samohlásky.
    3. Metafón: Porovnáva podobne znejúce slová, ktoré existujú v angličtine, iné slová známe Američanom a krstné mená a priezviská bežne používané v USA.
  4. Číselné metriky podobnosti ktoré porovnávajú čísla, ako ďaleko sú od seba, rozloženie číselných údajov atď.

Výzvy fuzzy párovania

Proces fuzzy párovania – napriek tomu úžasné výhody ponúka – implementácia môže byť dosť náročná. Tu je niekoľko bežných problémov, ktorým čelia podniky:

1.     Vyššia miera falošne pozitívnych a negatívnych výsledkov

Mnohé riešenia fuzzy párovania majú vyššiu mieru falošne pozitívnych a negatívnych výsledkov. Stáva sa to vtedy, keď algoritmus nesprávne klasifikuje zhody a nezhody alebo naopak. Konfigurovateľné definície zhody a fuzzy parametre môžu pomôcť čo najviac obmedziť nesprávne prepojenia.

2.     Výpočtová zložitosť

Počas procesu porovnávania sa každý záznam porovnáva s každým iným záznamom v rovnakom súbore údajov. A ak máte čo do činenia s viacerými množinami údajov, počet porovnaní sa zvýši. Všimli sme si, že porovnania rastú kvadraticky s rastúcou veľkosťou databázy. Z tohto dôvodu musíte použiť systém, ktorý je schopný spracovať výpočty náročné na zdroje.

3.     Overenie testovania

Priradené záznamy sa zlúčia, aby predstavovali úplný 360° pohľad na entity. Akákoľvek chyba, ktorá sa vyskytne počas tohto procesu, môže zvýšiť riziko pre vaše obchodné operácie. To je dôvod, prečo sa musí vykonať podrobné overovacie testovanie, aby sa zabezpečilo, že vyladený algoritmus bude konzistentne produkovať výsledky s vysokou presnosťou.

Zabaliť

Firmy často považujú riešenia fuzzy párovania za zložité, na zdroje náročné a peniaze odčerpávajúce projekty, ktoré trvajú príliš dlho. Pravdou je investícia do správneho riešenia, ktoré prináša rýchle a presné výsledky. Organizácie musia zvážiť pri výbere nástroja fuzzy párovania, ako je čas a peniaze, ktoré sú ochotní investovať, návrh škálovateľnosti, ktorý majú na mysli, a povaha ich súborov údajov. Pomôže im to vybrať si riešenie, ktoré im umožní vyťažiť maximum zo svojich údajov.

Som produktový marketingový analytik v Dátový rebrík so zázemím v IT. Vášnivo píšem o skutočných problémoch hygieny údajov, ktorým dnes čelia mnohé organizácie. Rád komunikujem o riešeniach, tipoch a postupoch, ktoré môžu firmám pomôcť dosiahnuť prirodzenú kvalitu údajov v procesoch business intelligence. Snažím sa vytvárať obsah, ktorý je zameraný na široké spektrum cieľových skupín, od technického personálu až po koncových používateľov, ako aj marketing na rôznych digitálnych platformách.