tynkä Fuzzy Matching – määritelmä, prosessi ja tekniikat – Unite.AI
Liity verkostomme!

Ajatusten johtajat

Fuzzy Matching – määritelmä, prosessi ja tekniikat

mm

Julkaistu

 on

An aksenttikartoitus osoitti, että 75 % kuluttajista ostaa mieluummin jälleenmyyjiltä, ​​jotka tietävät nimensä ja ostokäyttäytymisensä, ja 52 % heistä vaihtavat todennäköisemmin tuotemerkkiä, jos he eivät tarjoa henkilökohtaisia ​​kokemuksia. Brändit keräävät miljoonia tietopisteitä lähes joka päivä, joten ainutlaatuisten asiakkaiden tunnistaminen ja heidän profiilinsa rakentaminen on yksi useimpien yritysten suurimmista haasteista.

Kun yritys käyttää useita työkaluja tietojen keräämiseen, on hyvin yleistä, että asiakkaan nimi kirjoitetaan väärin tai hyväksytään väärän mallin sisältävä sähköpostiosoite. Lisäksi kun eri tietosovelluksilla on erilaista tietoa samasta asiakkaasta, on mahdotonta saada käsitystä asiakkaan käyttäytymisestä ja mieltymyksistä.

Seuraavaksi opimme, mitä sumea vastaavuus on, miten se toteutetaan, mitä yleisiä tekniikoita käytetään ja mitä haasteita kohtaa. Aloitetaan.

Mikä on sumea vastaavuus?

Sumea vastaavuus on tietojen täsmäytystekniikka, joka vertaa kahta tai useampaa tietuetta ja laskee todennäköisyyden, että ne kuuluvat samaan kokonaisuuteen. Sen sijaan, että tietueita luokiteltaisiin laajasti vastaavuuksiin ja ei-vastaaviin, sumea vastaavuus tuottaa numeron (yleensä välillä 0–100 %), joka ilmaisee, kuinka todennäköistä on, että nämä tietueet kuuluvat samalle asiakkaalle, tuotteelle, työntekijälle jne.

Tehokas sumea täsmäytysalgoritmi huolehtii useista tietojen epäselvyyksistä, kuten etu- ja sukunimien vaihtamisesta, lyhenteistä, lyhennetyistä nimistä, foneettisista ja tahallisista kirjoitusvirheistä, lyhenteistä, lisätyistä/poistetuista välimerkeistä jne.

Sumea sovitusprosessi

Sumea sovitusprosessi suoritetaan seuraavasti:

  1. Profiilien tietueet perusstandardointivirheille. Nämä virheet on korjattu, jotta tietueista saadaan yhtenäinen ja standardoitu näkymä.
  2. Valitse ja yhdistä attribuutit jonka perusteella sumea vastaavuus tapahtuu. Koska nämä attribuutit voivat olla nimetty eri tavalla, ne on kartoitettava eri lähteiden välillä.
  3. Valitse sumea sovitustekniikka jokaiselle attribuutille. Esimerkiksi nimet voidaan yhdistää näppäimistön etäisyyden tai nimimuunnelmien perusteella, kun taas puhelinnumeroita voidaan täsmäyttää numeeristen samankaltaisuusmittojen perusteella.
  4. Valitse paino jokaiselle attribuutille siten, että attribuutit, joille on määritetty korkeampi painoarvo (tai korkeampi prioriteetti), vaikuttavat enemmän osuman yleiseen luottamustasoon verrattuna kenttiin, joilla on pienempi paino.
  5. Määritä kynnystaso – tasoa korkeammat ennätykset, joiden pistemäärä on sumea, katsotaan osuviksi ja alle jääneet ovat ei-osuvia.
  6. Suorita sumeita hakualgoritmeja ja analysoida ottelun tuloksia.
  7. Ohita kaikki väärät positiiviset tulokset ja negatiivisia asioita, joita saattaa tulla esille.
  8. mennä, poista kaksoiskappaleet tai yksinkertaisesti poista tietueiden kaksoiskappaleet.

Sumeat vastaavat parametrit

Yllä määritellystä prosessista voit nähdä, että sumealla sovitusalgoritmilla on useita parametreja, jotka muodostavat tämän tekniikan perustan. Näitä ovat attribuuttien painot, sumea vastaavuustekniikka ja pisteiden kynnystaso.

Parhaan tuloksen saavuttamiseksi sinun on suoritettava sumeita täsmäystekniikoita vaihtelevilla parametreilla ja löydettävä arvot, jotka sopivat tietoihisi parhaiten. Monet toimittajat pakkaavat tällaisia ​​ominaisuuksia sumeaan sovitusratkaisuinsa, jossa nämä parametrit viritetään automaattisesti, mutta niitä voidaan mukauttaa tarpeidesi mukaan.

Mitä ovat sumeat sovitustekniikat?

Nykyään käytetään monia sumeita täsmäystekniikoita, jotka eroavat kenttien vertailuun ja vastaavuuteen käytetyn kaavan tarkan algoritmin perusteella. Tietojesi luonteesta riippuen voit valita tarpeisiisi sopivan tekniikan. Tässä on luettelo yleisistä sumeasta sovitustekniikoista:

  1. Hahmopohjainen samankaltaisuus mittareita, jotka sopivat parhaiten merkkijonoihin. Nämä sisältävät:
    1. Muokkaa etäisyyttä: Laskee kahden merkkijonon välisen etäisyyden merkki kerrallaan.
    2. Affine välietäisyys: Laskee kahden merkkijonon välisen etäisyyden ottamalla huomioon myös merkkijonojen välisen raon.
    3. Smith-Watermanin etäisyys: Laskee kahden merkkijonon välisen etäisyyden ottamalla huomioon myös etuliitteiden ja jälkiliitteiden olemassaolon tai puuttumisen.
    4. Jaron etäisyys: Paras yhteensopivuus etu- ja sukunimellä.
  2. Token-pohjainen samankaltaisuus mittareita, jotka sopivat parhaiten kokonaisiin merkkijonoihin. Nämä sisältävät:
    1. Atomic merkkijonot: Jakaa pitkät merkkijonot välimerkeillä rajatuiksi sanoiksi ja vertailee yksittäisiä sanoja.
    2. WHIRL: Samanlainen kuin atomijonot, mutta WHIRL määrittää myös painot jokaiselle sanalle.
  3. Foneettiset samankaltaisuusmittarit jotka ovat parasta vertailla sanoja, jotka kuulostavat samalta, mutta joilla on täysin erilainen merkkikoostumus. Nämä sisältävät:
    1. Soundex: Paras vertailla sukunimiä, joiden oikeinkirjoitus on erilainen, mutta kuulostaa samalta.
    2. NYSIIS: Samanlainen kuin Soundex, mutta se säilyttää myös yksityiskohdat vokaalin sijainnista.
    3. Metafoni: Vertaa samankaltaisia ​​englanninkielisiä sanoja, muita amerikkalaisille tuttuja sanoja sekä Yhdysvalloissa yleisesti käytettyjä etu- ja sukunimiä.
  4. Numeeriset samankaltaisuusmittarit jotka vertaavat lukuja, kuinka kaukana ne ovat toisistaan, numeeristen tietojen jakautumista jne.

Sumean sovituksen haasteita

Sumea sovitusprosessi – huolimatta hämmästyttäviä etuja se tarjoaa – voi olla melko vaikea toteuttaa. Tässä on joitain yleisiä haasteita, joita yritykset kohtaavat:

1.     Suurempi väärien positiivisten ja negatiivisten tulosten määrä

Monissa sumeissa sovitusratkaisuissa on suurempi määrä vääriä positiivisia ja negatiivisia. Näin tapahtuu, kun algoritmi luokittelee osumat ja ei-vastaavuudet väärin tai päinvastoin. Konfiguroitavat osumamääritykset ja sumeat parametrit voivat auttaa vähentämään virheellisiä linkkejä mahdollisimman paljon.

2.     Laskennallinen monimutkaisuus

Täsmäysprosessin aikana jokaista tietuetta verrataan kaikkiin muihin saman tietojoukon tietueisiin. Ja jos käsittelet useita tietojoukkoja, vertailujen määrä kasvaa enemmän. On huomattu, että vertailut kasvavat neliöllisesti tietokannan koon kasvaessa. Tästä syystä sinun on käytettävä järjestelmää, joka pystyy käsittelemään resurssiintensiivisiä laskelmia.

3.     Testauksen validointi

Vastaavat tietueet yhdistetään muodostamaan kokonaisuuden kokonaisuuden 360 asteen näkymän. Kaikki tämän prosessin aikana tapahtuneet virheet voivat lisätä riskejä liiketoimintaasi. Tästä syystä on suoritettava yksityiskohtainen validointitestaus sen varmistamiseksi, että viritetty algoritmi tuottaa jatkuvasti tuloksia suurella tarkkuudella.

Paketoida

Yritykset ajattelevat usein sumeita sovitusratkaisuja monimutkaisina, resurssiintensiivisinä ja rahaa vieviä projekteja, jotka kestävät liian kauan. Totuus on sijoittaminen oikeaan ratkaisuun, joka tuottaa nopeita ja tarkkoja tuloksia. Organisaatioiden on harkittava useista tekijöistä valitessaan sumean hakutyökalun, kuten aika ja raha, jonka he ovat valmiita sijoittamaan, heidän mielessään oleva skaalautuvuussuunnittelu ja tietojoukkojen luonne. Tämä auttaa heitä valitsemaan ratkaisun, jonka avulla he saavat kaiken irti tiedoistaan.

Olen tuotemarkkinointianalyytikko osoitteessa Datatikkaat jolla on IT-tausta. Kirjoitan intohimoisesti todellisista datahygieniaongelmista, joita monet organisaatiot kohtaavat nykyään. Haluan viestiä ratkaisuista, vinkeistä ja käytännöistä, jotka voivat auttaa yrityksiä saavuttamaan luontaisen tiedon laadun liiketoimintatiedon prosesseissaan. Pyrin luomaan sisältöä, joka on suunnattu laajalle yleisölle aina teknisestä henkilöstöstä loppukäyttäjiin, sekä markkinoimaan sitä eri digitaalisilla alustoilla.