Düşünce Liderleri

Bulanık Eşleştirme – Tanım, Süreç ve Teknikler

Yayınlanan Ağustos 30, 2022

Zara Ziad

An vurgu araştırması tüketicilerin %75'inin adlarını ve satın alma davranışlarını bilen perakendecilerden alışveriş yapmayı tercih ettiğini ve %52'sinin kişiselleştirilmiş deneyimler sunmuyorlarsa marka değiştirme olasılıklarının daha yüksek olduğunu gösterdi. Neredeyse her gün markalar tarafından yakalanan milyonlarca veri noktasıyla, benzersiz müşterileri belirlemek ve profillerini oluşturmak çoğu şirketin karşılaştığı en büyük zorluklardan biridir.

Bir kuruluş, verileri yakalamak için birden çok araç kullandığında, bir müşterinin adının yanlış yazılması veya yanlış desene sahip bir e-posta adresinin kabul edilmesi çok yaygın bir durumdur. Ayrıca, farklı veri uygulamaları aynı müşteri hakkında farklı bilgilere sahip olduğunda, müşteri davranışınız ve tercihleriniz hakkında içgörü elde etmek imkansız hale gelir.

Daha sonra, bulanık eşlemenin ne olduğunu, nasıl uygulandığını, kullanılan yaygın teknikleri ve karşılaşılan zorlukları öğreneceğiz. Başlayalım.

Bulanık eşleştirme nedir?

Bulanık eşleme iki veya daha fazla kaydı karşılaştıran ve bunların aynı varlığa ait olma olasılığını hesaplayan bir veri eşleştirme tekniğidir. Kayıtları geniş bir şekilde eşleşen ve eşleşmeyen olarak kategorize etmek yerine, bulanık eşleştirme, bu kayıtların aynı müşteriye, ürüne, çalışana vb. ait olma olasılığını tanımlayan bir sayı (genellikle %0-100 arasında) verir.

Verimli bir bulanık eşleme algoritması, ad/soyad ters çevirmeleri, kısaltmalar, kısaltılmış adlar, fonetik ve kasıtlı yazım hataları, kısaltmalar, eklenen/kaldırılan noktalama işaretleri gibi bir dizi veri belirsizliğiyle ilgilenir.

Bulanık eşleştirme süreci

Bulanık eşleştirme işlemi şu şekilde gerçekleştirilir:

Profil kayıtları temel standardizasyon hataları için. Bu hatalar, kayıtlar arasında tek tip ve standart bir görünüm elde edilecek şekilde düzeltilir.
Öznitelikleri seçin ve eşleyin hangi bulanık eşleştirmenin gerçekleşeceğine bağlı olarak. Bu özniteliklerin adları farklı olabileceğinden, kaynaklar arasında eşlenmeleri gerekir.
Bir bulanık eşleştirme tekniği seçin her özellik için. Örneğin, adlar klavye mesafesine veya ad türevlerine göre eşleştirilebilirken, telefon numaraları sayısal benzerlik metriklerine göre eşleştirilebilir.
ağırlık seçin daha yüksek ağırlıklara (veya daha yüksek önceliğe) atanan özelliklerin, daha düşük ağırlıklara sahip alanlara kıyasla genel eşleşme güven düzeyi üzerinde daha fazla etkisi olacak şekilde her bir özellik için.
Eşik seviyesini tanımlayın – düzeyden daha yüksek bulanık eşleştirme puanına sahip kayıtlar bir eşleşme olarak kabul edilir ve yetersiz kalanlar eşleşmez.
Bulanık eşleştirme algoritmalarını çalıştırın ve maç sonuçlarını analiz edin.
Yanlış pozitifleri geçersiz kıl ve ortaya çıkabilecek olumsuzluklar.
gitmek, tekilleştirme veya basitçe ortadan kaldırma yinelenen kayıtlar.

Bulanık eşleştirme parametreleri

Yukarıda tanımlanan süreçten, bir bulanık eşleştirme algoritmasının bu tekniğin temelini oluşturan bir dizi parametreye sahip olduğunu görebilirsiniz. Bunlar nitelik ağırlıklarını, bulanık eşleştirme tekniğini ve puan eşik seviyesini içerir.

En iyi sonuçları elde etmek için, değişen parametrelerle bulanık eşleştirme teknikleri uygulamalı ve verilerinize en uygun değerleri bulmalısınız. Birçok satıcı, bu tür yetenekleri, bu parametrelerin otomatik olarak ayarlandığı ancak ihtiyaçlarınıza göre özelleştirilebildiği bulanık eşleme çözümlerinde paketler.

Bulanık eşleştirme teknikleri nelerdir?

Alanları karşılaştırmak ve eşleştirmek için kullanılan formülün tam algoritmasına bağlı olarak farklılık gösteren, günümüzde kullanılan birçok bulanık eşleştirme tekniği vardır. Verilerinizin doğasına bağlı olarak, gereksinimlerinize uygun tekniği seçebilirsiniz. İşte yaygın bulanık eşleştirme tekniklerinin bir listesi:

Karakter tabanlı benzerlik dizeleri eşleştirmek için en iyi olan metrikler. Bunlar şunları içerir:
1. Mesafeyi düzenle: Karakter karakter hesaplanan iki dizi arasındaki mesafeyi hesaplar.
2. Afin boşluk mesafesi: Diziler arasındaki boşluk veya boşlukları da dikkate alarak iki dizi arasındaki mesafeyi hesaplar.
3. Smith-Waterman mesafesi: Öneklerin ve soneklerin varlığını veya yokluğunu da dikkate alarak iki dizi arasındaki mesafeyi hesaplar.
4. Yaro mesafesi: Ad ve soyadları eşleştirmek için en iyisi.
Belirteç tabanlı benzerlik dizelerdeki tam sözcükleri eşleştirmek için en iyi olan ölçümler. Bunlar şunları içerir:
1. Atomik diziler: Uzun dizileri noktalama işaretleriyle ayrılmış sözcüklere ayırır ve tek tek sözcüklerle karşılaştırır.
2. WHIRL: Atom dizilerine benzer, ancak WHIRL ayrıca her bir kelimeye ağırlıklar atar.
fonetik benzerlik ölçüleri Benzer görünen ancak karakter kompozisyonu tamamen farklı olan kelimeleri karşılaştırmak en iyisidir. Bunlar şunları içerir:
1. Soundex: Yazım açısından farklı ancak kulağa benzer olan soyadlarını karşılaştırmak en iyisidir.
2. NYSIIS: Soundex'e benzer, ancak sesli harf konumuyla ilgili ayrıntıları da korur.
3. Metafon: İngilizce dilinde bulunan benzer sesli sözcükleri, Amerikalıların aşina olduğu diğer sözcükleri ve ABD'de yaygın olarak kullanılan ad ve soyadlarını karşılaştırır.
Sayısal benzerlik metrikleri sayıları, birbirlerinden ne kadar uzakta olduklarını, sayısal verilerin dağılımını vb. karşılaştıran

Bulanık eşleştirmenin zorlukları

Bulanık eşleştirme süreci – buna rağmen inanılmaz faydalar sunar – uygulanması oldukça zor olabilir. İşletmelerin karşılaştığı bazı yaygın zorluklar şunlardır:

1. Daha yüksek yanlış pozitif ve negatif oranı

Birçok bulanık eşleştirme çözümü, daha yüksek yanlış pozitif ve negatif oranına sahiptir. Bu, algoritma eşleşmeleri ve eşleşmeme durumlarını yanlış bir şekilde sınıflandırdığında veya tam tersi olduğunda gerçekleşir. Yapılandırılabilir eşleşme tanımları ve bulanık parametreler, yanlış bağlantıları mümkün olduğunca azaltmaya yardımcı olabilir.

2. Hesaplama karmaşıklığı

Eşleştirme işlemi sırasında, her kayıt aynı veri kümesindeki diğer tüm kayıtlarla karşılaştırılır. Birden çok veri kümesiyle uğraşıyorsanız, karşılaştırma sayısı daha da artar. Veritabanı boyutu büyüdükçe karşılaştırmaların karesel olarak büyüdüğü fark edilir. Bu nedenle, yoğun kaynak gerektiren hesaplamaları gerçekleştirebilecek bir sistem kullanmalısınız.

3. Doğrulama testi

Eşleşen kayıtlar, varlıkların eksiksiz bir 360 derecelik görünümünü temsil etmek için birleştirilir. Bu süreçte meydana gelen herhangi bir hata, ticari faaliyetlerinize risk ekleyebilir. Bu nedenle, ayarlanan algoritmanın sürekli olarak yüksek doğruluk oranına sahip sonuçlar ürettiğinden emin olmak için ayrıntılı doğrulama testi yapılmalıdır.

Sarmak

İşletmeler genellikle bulanık eşleştirme çözümlerini çok uzun süren karmaşık, yoğun kaynak tüketen ve para tüketen projeler olarak düşünür. Gerçek şu ki, hızlı ve doğru sonuçlar üreten doğru çözüme yatırım yapmak anahtardır. Kuruluşların dikkate alması gereken Bir bulanık eşleştirme aracını seçerken bir dizi faktöryatırım yapmak istedikleri zaman ve para, akıllarındaki ölçeklenebilirlik tasarımı ve veri kümelerinin doğası gibi. Bu, verilerinden en iyi şekilde yararlanmalarını sağlayan bir çözüm seçmelerine yardımcı olacaktır.

İlgili konular:veri bulanık eşleme