Connect with us

Dopasowanie rozmyte – Definicja, Proces i Techniki

Liderzy opinii

Dopasowanie rozmyte – Definicja, Proces i Techniki

mm

Badanie przeprowadzone przez Accenture wykazało, że 75% konsumentów woli kupować u detalistów, którzy znają ich imię i zachowania zakupowe, a 52% z nich jest bardziej skłonnych do przełączenia się na inną markę, jeśli nie oferują spersonalizowanych doświadczeń. Z milionami punktów danych przechwytywanych przez marki niemal każdego dnia, identyfikacja unikalnych klientów i tworzenie ich profili jest jednym z największych wyzwań, przed którymi stają się większość firm.

Gdy przedsiębiorstwo używa wielu narzędzi do przechwytywania danych, bardzo często zdarza się, że nazwisko klienta jest źle napisane lub zaakceptowane jest adres e-mail z niepoprawnym wzorcem. Co więcej, gdy rozproszone aplikacje danych mają różne informacje o tym samym kliencie, staje się to niemożliwe, aby uzyskać wgląd w zachowania i preferencje klienta.

Następnie dowiemy się, co to jest dopasowanie rozmyte, jak jest wdrażane, jakie techniki są stosowane oraz jakie wyzwania się pojawiają. Zaczynajmy.

Co to jest dopasowanie rozmyte?

Dopasowanie rozmyte jest techniką dopasowania danych, która porównuje dwa lub więcej rekordów i oblicza prawdopodobieństwo, że należą one do tej samej jednostki. Zamiast ogólnie klasyfikować rekordy jako dopasowane i niedopasowane, dopasowanie rozmyte generuje liczbę (zwykle między 0-100%), która określa, jak prawdopodobne jest, że te rekordy należą do tego samego klienta, produktu, pracownika itp.

Wydajny algorytm dopasowania rozmytego zajmuje się szeregiem niejasności danych, takich jak odwrócenie imienia i nazwiska, skróty, nazwy skrócone, fonetyczne i celowe błędy pisarskie, skróty, dodane lub usunięte znaki przestankowe itp.

Proces dopasowania rozmytego

Proces dopasowania rozmytego jest realizowany w następujący sposób:

  1. Rekordy profili dla podstawowych błędów standaryzacji. Te błędy są poprawiane, aby osiągnąć ujednolicone i standaryzowane widoki rekordów.
  2. Wybierz i mapuj atrybuty na podstawie których będzie odbywać się dopasowanie rozmyte. Ponieważ te atrybuty mogą mieć różne tytuły, muszą być mapowane na źródła.
  3. Wybierz technikę dopasowania rozmytego dla każdego atrybutu. Na przykład nazwy mogą być dopasowane na podstawie odległości klawiatury lub wariantów nazw, podczas gdy numery telefonów mogą być dopasowane na podstawie metryk podobieństwa numerycznego.
  4. Wybierz wagę dla każdego atrybutu, tak aby atrybuty z wyższymi wagami (lub wyższym priorytetem) miały większy wpływ na ogólny poziom ufności dopasowania w porównaniu z polami o niższych wagach.
  5. Definiuj poziom progowy – rekordy z wynikiem dopasowania rozmytego wyższym niż ten poziom są uważane za dopasowane, a te, które nie osiągają tego poziomu, są uważane za niedopasowane.
  6. Uruchom algorytmy dopasowania rozmytego i analizuj wyniki dopasowania.
  7. Nadpisz fałszywe pozytywy i negatywy, które mogą pojawić się.
  8. Połącz, usunięte duplikaty lub po prostu usunięte rekordy duplikatów.

Parametry dopasowania rozmytego

Z procesu określonego powyżej wynika, że algorytm dopasowania rozmytego ma szereg parametrów, które stanowią podstawę tej techniki. Obejmują one wagę atrybutów, technikę dopasowania rozmytego oraz poziom progowy.

Aby uzyskać optymalne wyniki, należy wykonać techniki dopasowania rozmytego z różnymi parametrami i znaleźć wartości, które najlepiej odpowiadają Twoim danym. Wiele dostawców pakietuje takie możliwości w ramach swoich rozwiązań dopasowania rozmytego, gdzie te parametry są automatycznie dostosowywane, ale mogą być również dostosowane w zależności od Twoich potrzeb.

Co to są techniki dopasowania rozmytego?

Istnieje wiele technik dopasowania rozmytego stosowanych dzisiaj, które różnią się w zależności od dokładnego algorytmu lub formuły użytej do porównania i dopasowania pól. W zależności od charakteru Twoich danych, możesz wybrać technikę, która najlepiej odpowiada Twoim wymaganiom. Oto lista typowych technik dopasowania rozmytego:

  1. Podobieństwo oparte na znakach jest najlepsze do dopasowania ciągów. Obejmują one:
    1. Odległość edycyjna: Oblicza odległość między dwoma ciągami, obliczaną znak po znaku.
    2. Odległość afiniczna: Oblicza odległość między dwoma ciągami, biorąc pod uwagę również lukę lub spacje między ciągami.
    3. Odległość Smitha-Watermana: Oblicza odległość między dwoma ciągami, biorąc pod uwagę również obecność lub brak prefiksów i sufiksów.
    4. Odległość Jaro: Najlepsza do dopasowania imion i nazwisk.
  2. Podobieństwo oparte na tokenach jest najlepsze do dopasowania pełnych słów w ciągach. Obejmują one:
    1. Atomic strings: Dzieli długie ciągi na słowa oddzielone znakami przestankowymi i porównuje je z poszczególnymi słowami.
    2. WHIRL: Podobne do atomic strings, ale WHIRL również przypisuje wagi do każdego słowa.
  3. Podobieństwo fonetyczne jest najlepsze do porównywania słów, które brzmią podobnie, ale mają całkowicie różny skład znaków. Obejmują one:
    1. Soundex: Najlepsze do porównywania nazwisk, które są różne w pisowni, ale brzmią podobnie.
    2. NYSIIS: Podobne do Soundex, ale NYSIIS również zachowuje szczegóły dotyczące położenia samogłosek.
    3. Metaphone: Porównuje słowa, które brzmią podobnie, istniejące w języku angielskim, inne słowa znane Amerykanom oraz imiona i nazwiska powszechnie używane w USA.
  4. Podobieństwo numeryczne porównuje liczby, jak daleko są one od siebie, dystrybucję danych numerycznych itp.

Wyzwania dopasowania rozmytego

Proces dopasowania rozmytego – pomimo niesamowitych korzyści, które oferuje – może być dość trudny do wdrożenia. Oto niektóre typowe wyzwania, z którymi borykają się firmy:

1.     Wyższy poziom fałszywych pozytywów i negatywów

Wiele rozwiązań dopasowania rozmytego ma wyższy poziom fałszywych pozytywów i negatywów. Zdarza się to, gdy algorytm niepoprawnie klasyfikuje dopasowania i niedopasowania lub odwrotnie. Konfigurowalne definicje dopasowań i parametry dopasowania rozmytego mogą pomóc zredukować niepoprawne połączenia jak najwięcej.

2.     Złożoność obliczeniowa

Podczas procesu dopasowania każdy rekord jest porównywany z każdym innym rekordem w tym samym zestawie danych. A jeśli masz do czynienia z wieloma zestawami danych, liczba porównań wzrasta. Zauważa się, że porównania rosną kwadratowo wraz ze wzrostem rozmiaru bazy danych. Dlatego też należy używać systemu, który jest w stanie obsłużyć obciążenia obliczeniowe.

3.     Walidacja testowa

Połączone rekordy są łączone, aby reprezentować pełne 360-stopniowe widzenie jednostek. Każdy błąd, który wystąpi podczas tego procesu, może dodać ryzyko do Twoich operacji biznesowych. Dlatego też należy przeprowadzić szczegółowe testy walidacyjne, aby upewnić się, że dostrojony algorytm stale generuje wyniki o wysokim poziomie dokładności.

Podsumowanie

Firmy często uważają rozwiązania dopasowania rozmytego za złożone, zasobożerne i kosztowne projekty, które trwają zbyt długo. Prawdą jest, że inwestowanie w odpowiednie rozwiązanie, które generuje szybkie i dokładne wyniki, jest kluczem. Organizacje muszą wziąć pod uwagę szereg czynników przy wyborze narzędzia dopasowania rozmytego, takich jak czas i pieniądze, które są gotowe zainwestować, projekt skalowalności, jaki mają na myśli, oraz charakter ich zestawów danych. To pomoże im wybrać rozwiązanie, które pozwoli im uzyskać najwięcej z ich danych.

I’m a Product Marketing Analyst at Data Ladder with a background in IT. I passionately write about real-world data hygiene issues faced by many organizations today. I like to communicate solutions, tips, and practices that can help businesses in achieving inherent data quality in their business intelligence processes. I strive to create content that is targeted towards a wide array of audiences, ranging from technical personnel to end-user, as well as marketing it across various digital platforms.