cung Përputhja Fuzzy – Përkufizimi, Procesi dhe Teknikat - Unite.AI
Lidhu me ne

Udhëheqësit e mendimit

Përputhja Fuzzy – Përkufizimi, Procesi dhe Teknikat

mm

Publikuar

 on

An sondazhi i theksimit tregoi se 75% e konsumatorëve preferojnë të blejnë nga shitës me pakicë që njohin emrin dhe sjelljen e tyre blerëse, dhe 52% e tyre kanë më shumë gjasa të ndryshojnë markën nëse nuk ofrojnë përvoja të personalizuara. Me miliona pika të dhënash që kapen nga markat pothuajse çdo ditë, identifikimi i klientëve unikë dhe ndërtimi i profileve të tyre është një nga sfidat më të mëdha me të cilat përballen shumica e kompanive.

Kur një ndërmarrje përdor mjete të shumta për kapjen e të dhënave, është shumë e zakonshme të shkruhet gabimisht emri i një klienti ose të pranohet një adresë emaili me një model të pasaktë. Për më tepër, kur aplikacionet e të dhënave të ndryshme kanë informacione të ndryshme për të njëjtin klient, bëhet e pamundur të fitoni njohuri për sjelljen dhe preferencat tuaja të klientit.

Më pas, do të mësojmë se çfarë është përputhja fuzzy, si zbatohet, teknikat e zakonshme të përdorura dhe sfidat me të cilat përballemi. Le të fillojmë.

Çfarë është përputhje fuzzy?

Përputhje e paqartë është një teknikë e përputhjes së të dhënave që krahason dy ose më shumë regjistrime dhe llogarit gjasat që ato t'i përkasin të njëjtit entitet. Në vend që të kategorizojë gjerësisht të dhënat si një përputhje dhe jo-përputhje, përputhja fuzzy nxjerr një numër (zakonisht midis 0-100%) që identifikon sa gjasa ka që këto regjistrime t'i përkasin të njëjtit klient, produkt, punonjës, etj.

Një algoritëm efikas i përputhjes fuzzy kujdeset për një sërë paqartësish të të dhënave, të tilla si ndryshimi i emrit/mbiemrit, akronimet, emrat e shkurtuar, gabimet drejtshkrimore fonetike dhe të qëllimshme, shkurtesat, shenjat e pikësimit të shtuara/hequr, etj.

Procesi i paqartë i përputhjes

Procesi i përputhjes fuzzy kryhet si më poshtë:

  1. Të dhënat e profilit për gabimet bazë të standardizimit. Këto gabime rregullohen në mënyrë që të arrihet një pamje uniforme dhe e standardizuar në të gjitha rekordet.
  2. Zgjidhni dhe harto atributet në bazë të së cilës do të bëhet përputhje fuzzy. Meqenëse këto atribute mund të titullohen ndryshe, ato duhet të hartohen nëpër burime.
  3. Zgjidhni një teknikë të përputhjes së paqartë për çdo atribut. Për shembull, emrat mund të përputhen në bazë të distancës së tastierës ose varianteve të emrit, ndërsa numrat e telefonit mund të përputhen bazuar në metrikat e ngjashmërisë numerike.
  4. Zgjidhni një peshë për çdo atribut, në mënyrë të tillë që atributet e caktuara me pesha më të larta (ose prioritet më të lartë) do të kenë më shumë ndikim në nivelin e përgjithshëm të besimit të ndeshjes në krahasim me fushat që kanë peshë më të ulët.
  5. Përcaktoni nivelin e pragut – Rekordet me rezultate të paqarta të përputhjes më të larta se niveli konsiderohen si një ndeshje dhe ato që nuk janë të shkurtra janë të papërputhshme.
  6. Ekzekutoni algoritme të përputhjes së paqartë dhe analizoni rezultatet e ndeshjes.
  7. Anuloni çdo pozitiv false dhe negative që mund të dalin.
  8. Shkrihet, fshini ose thjesht eliminoni regjistrimet e dublikatave.

Parametrat e paqartë të përputhjes

Nga procesi i përcaktuar më sipër, mund të shihni se një algoritëm i përputhjes fuzzy ka një numër parametrash që formojnë bazën e kësaj teknike. Këto përfshijnë peshat e atributeve, teknikën e përputhjes së paqartë dhe nivelin e pragut të rezultatit.

Për të marrë rezultate optimale, duhet të ekzekutoni teknika të përputhjes së paqartë me parametra të ndryshëm dhe të gjeni vlerat që i përshtaten më mirë të dhënave tuaja. Shumë shitës paketojnë aftësi të tilla brenda zgjidhjes së tyre të përputhjes fuzzy, ku këto parametra akordohen automatikisht, por mund të personalizohen në varësi të nevojave tuaja.

Cilat janë teknikat e përputhjes fuzzy?

Ka shumë teknika të përputhjes së paqartë që përdoren sot që ndryshojnë në bazë të algoritmit të saktë të formulës së përdorur për të krahasuar dhe përputhur fushat. Në varësi të natyrës së të dhënave tuaja, ju mund të zgjidhni teknikën që është e përshtatshme për kërkesat tuaja. Këtu është një listë e teknikave të zakonshme të përputhjes fuzzy:

  1. Ngjashmëria e bazuar në karakter metrikat që janë më të mira për të përputhur vargjet. Kjo perfshin:
    1. Redakto distancën: Llogarit distancën midis dy vargjeve, të llogaritur karakter për karakter.
    2. Distanca e hendekut afina: Llogarit distancën midis dy vargjeve duke marrë në konsideratë edhe hendekun ose hapësirat midis vargjeve.
    3. Distanca Smith-Waterman: Llogarit distancën ndërmjet dy vargjeve duke marrë parasysh edhe praninë ose mungesën e parashtesave dhe prapashtesave.
    4. Distanca e Jaro: Më së miri përputhen me emrin dhe mbiemrin.
  2. Ngjashmëri e bazuar në shenjë metrikat që janë më të mira për të përputhur fjalët e plota në vargje. Kjo perfshin:
    1. Vargjet atomike: Ndan vargjet e gjata në fjalë të kufizuara nga shenjat e pikësimit dhe krahason me fjalë të veçanta.
    2. WHIRL: Ngjashëm me vargjet atomike, por WHIRL gjithashtu cakton pesha për secilën fjalë.
  3. Metrika e ngjashmërisë fonetike që janë më të mira për të krahasuar fjalët që tingëllojnë të ngjashme, por kanë përbërje karakteri krejtësisht të ndryshme. Kjo perfshin:
    1. Soundex: Më mirë të krahasoni mbiemrat që janë të ndryshëm në drejtshkrim, por tingëllojnë të ngjashëm.
    2. NYSIIS: Ngjashëm me Soundex, por ruan gjithashtu detaje rreth pozicionit të zanoreve.
    3. Metafon: Krahason fjalët me tinguj të ngjashëm që ekzistojnë në gjuhën angleze, fjalë të tjera të njohura për amerikanët dhe emrat e parë dhe të familjes që përdoren zakonisht në SHBA.
  4. Metrika numerike e ngjashmërisë që krahasojnë numrat, sa janë larg njëri-tjetrit, shpërndarjen e të dhënave numerike etj.

Sfidat e përputhjes fuzzy

Procesi i përputhjes fuzzy – pavarësisht nga përfitime të mahnitshme ofron - mund të jetë mjaft e vështirë për t'u zbatuar. Këtu janë disa sfida të zakonshme me të cilat përballen bizneset:

1.     Shkalla më e lartë e pozitiveve dhe negativeve të rreme

Shumë zgjidhje të paqarta të përputhjes kanë një shkallë më të lartë të pozitiveve dhe negativeve të rreme. Kjo ndodh kur algoritmi klasifikon gabimisht ndeshjet dhe jo-përputhjet ose anasjelltas. Përkufizimet e konfigurueshme të përputhjes dhe parametrat e paqartë mund të ndihmojnë në reduktimin e lidhjeve të pasakta sa më shumë që të jetë e mundur.

2.     Kompleksiteti llogaritës

Gjatë procesit të përputhjes, çdo rekord krahasohet me çdo rekord tjetër në të njëjtin grup të dhënash. Dhe nëse keni të bëni me grupe të dhënash të shumta, atëherë numri i krahasimeve rritet më shumë. Vërehet se krahasimet rriten në mënyrë kuadratike me rritjen e madhësisë së bazës së të dhënave. Për këtë arsye, ju duhet të përdorni një sistem që është i aftë të trajtojë llogaritjet me burime intensive.

3.     Verifikimi i testimit

Regjistrimet e përputhura janë shkrirë së bashku për të përfaqësuar një pamje të plotë 360 të entiteteve. Çdo gabim i ndodhur gjatë këtij procesi mund të shtojë rrezik për operacionet e biznesit tuaj. Kjo është arsyeja pse testimi i detajuar i vlefshmërisë duhet të kryhet për të siguruar që algoritmi i akorduar po prodhon vazhdimisht rezultate me shkallë të lartë saktësie.

Mbylle

Bizneset shpesh mendojnë për zgjidhjet e paqarta të përputhjes si projekte komplekse, me burime intensive dhe që shpenzojnë para që funksionojnë për një kohë të gjatë. E vërteta është investimi në zgjidhjen e duhur që prodhon rezultate të shpejta dhe të sakta është çelësi. Organizatat duhet të marrin në konsideratë një sërë faktorësh gjatë zgjedhjes së një mjeti të përputhjes fuzzy, të tilla si koha dhe paratë që ata janë të gatshëm të investojnë, dizajni i shkallëzimit që ata kanë në mendje dhe natyra e grupeve të të dhënave të tyre. Kjo do t'i ndihmojë ata të zgjedhin një zgjidhje që u mundëson atyre të përfitojnë sa më shumë nga të dhënat e tyre.

Unë jam një analist i marketingut të produkteve në Shkalla e të Dhënave me përvojë në IT. Unë shkruaj me pasion për çështjet e higjienës së të dhënave të botës reale me të cilat përballen shumë organizata sot. Më pëlqen të komunikoj zgjidhje, këshilla dhe praktika që mund të ndihmojnë bizneset në arritjen e cilësisë së të dhënave të qenësishme në proceset e tyre të inteligjencës së biznesit. Unë përpiqem të krijoj përmbajtje që synon një grup të gjerë audiencash, duke filluar nga personeli teknik deri te përdoruesi fundor, si dhe ta tregtoj atë nëpër platforma të ndryshme dixhitale.