Pemimpin Pikiran
Pencocokan Fuzzy β Definisi, Proses dan Teknik

An survei aksen menunjukkan bahwa 75% konsumen lebih suka membeli dari peritel yang mengetahui nama dan perilaku pembelian mereka, dan 52% dari mereka cenderung beralih merek jika mereka tidak menawarkan pengalaman yang dipersonalisasi. Dengan jutaan poin data yang diambil oleh merek hampir setiap hari, mengidentifikasi pelanggan unik dan membangun profil mereka adalah salah satu tantangan terbesar yang dihadapi sebagian besar perusahaan.
Saat perusahaan menggunakan banyak alat untuk mengambil data, sangat umum terjadi kesalahan mengeja nama pelanggan atau menerima alamat email dengan pola yang salah. Selain itu, ketika aplikasi data yang berbeda memiliki berbagai informasi tentang pelanggan yang sama, tidak mungkin mendapatkan wawasan tentang perilaku dan preferensi pelanggan Anda.
Selanjutnya kita akan mempelajari apa itu fuzzy matching, bagaimana penerapannya, teknik umum yang digunakan, dan tantangan yang dihadapi. Mari kita mulai.
Apa itu pencocokan fuzzy?
Pencocokan kabur adalah teknik pencocokan data yang membandingkan dua atau lebih catatan dan menghitung kemungkinan mereka milik entitas yang sama. Alih-alih mengkategorikan catatan secara luas sebagai cocok dan tidak cocok, pencocokan fuzzy menghasilkan angka (biasanya antara 0-100%) yang mengidentifikasi seberapa besar kemungkinan catatan ini milik pelanggan, produk, karyawan, dll. yang sama.
Algoritme pencocokan fuzzy yang efisien menangani berbagai ambiguitas data, seperti pembalikan nama depan/belakang, akronim, nama pendek, fonetik dan kesalahan eja yang disengaja, singkatan, tanda baca ditambahkan/dihapus, dll.
Proses pencocokan fuzzy
Proses pencocokan fuzzy dilakukan sebagai berikut:
- Catatan profil untuk kesalahan standardisasi dasar. Kesalahan ini diperbaiki sehingga tampilan yang seragam dan terstandarisasi dapat dicapai di seluruh rekaman.
- Pilih dan petakan atribut berdasarkan mana pencocokan fuzzy akan berlangsung. Karena atribut ini mungkin memiliki judul yang berbeda, mereka harus dipetakan di berbagai sumber.
- Pilih teknik pencocokan fuzzy untuk setiap atribut. Misalnya, nama dapat dicocokkan berdasarkan jarak keyboard atau varian nama, sedangkan nomor telepon dapat dicocokkan berdasarkan metrik kesamaan numerik.
- Pilih berat untuk setiap atribut, sehingga atribut yang diberi bobot lebih tinggi (atau prioritas lebih tinggi) akan berdampak lebih besar pada tingkat kepercayaan kecocokan keseluruhan dibandingkan dengan bidang yang memiliki bobot lebih rendah.
- Tentukan tingkat ambang batas β catatan dengan skor pencocokan fuzzy lebih tinggi dari level dianggap cocok dan yang gagal dianggap tidak cocok.
- Jalankan algoritma pencocokan fuzzy dan menganalisis hasil pertandingan.
- Abaikan setiap positif palsu dan negatif yang mungkin muncul.
- Bergabung, hapus duplikat, atau hilangkan saja catatan duplikat.
Parameter pencocokan fuzzy
Dari proses yang didefinisikan di atas, Anda dapat melihat bahwa algoritma pencocokan fuzzy memiliki sejumlah parameter yang menjadi dasar dari teknik ini. Ini termasuk bobot atribut, teknik pencocokan fuzzy, dan tingkat ambang skor.
Untuk mendapatkan hasil yang optimal, Anda harus menjalankan teknik pencocokan fuzzy dengan parameter yang bervariasi dan menemukan nilai yang paling sesuai dengan data Anda. Banyak vendor mengemas kemampuan seperti itu dalam solusi pencocokan fuzzy mereka di mana parameter ini disetel secara otomatis tetapi dapat disesuaikan tergantung pada kebutuhan Anda.
Apa teknik pencocokan fuzzy?
Ada banyak teknik pencocokan fuzzy yang digunakan saat ini yang berbeda berdasarkan algoritma yang tepat dari rumus yang digunakan untuk membandingkan dan mencocokkan bidang. Bergantung pada sifat data Anda, Anda dapat memilih teknik yang sesuai dengan kebutuhan Anda. Berikut adalah daftar teknik pencocokan fuzzy yang umum:
- Kemiripan berbasis karakter metrik yang paling cocok untuk mencocokkan string. Ini termasuk:
- Mengedit jarak: Menghitung jarak antara dua string, dihitung karakter demi karakter.
- Jarak celah afin: Menghitung jarak antara dua string dengan juga mempertimbangkan celah atau jarak antar string.
- Jarak Smith-Waterman: Menghitung jarak antara dua string dengan juga mempertimbangkan ada tidaknya prefiks dan sufiks.
- Jarak Jaro: Terbaik untuk mencocokkan nama depan dan belakang.
- Kesamaan berbasis token metrik yang paling cocok untuk mencocokkan kata lengkap dalam string. Ini termasuk:
- String atom: Membagi string panjang menjadi kata-kata yang dibatasi oleh tanda baca dan membandingkan setiap kata.
- WHIRL: Mirip dengan string atom tetapi WHIRL juga memberikan bobot pada setiap kata.
- Metrik kesamaan fonetik yang terbaik untuk membandingkan kata-kata yang terdengar mirip tetapi memiliki komposisi karakter yang sama sekali berbeda. Ini termasuk:
- Soundex: Terbaik untuk membandingkan nama keluarga yang ejaannya berbeda tetapi terdengar mirip.
- NYSIIS: Mirip dengan Soundex, tetapi juga mempertahankan detail tentang posisi vokal.
- Metafon: Membandingkan kata-kata yang terdengar serupa yang ada dalam bahasa Inggris, kata-kata lain yang akrab bagi orang Amerika, dan nama depan dan keluarga yang biasa digunakan di AS.
- Metrik kesamaan numerik yang membandingkan angka, seberapa jauh mereka satu sama lain, distribusi data numerik, dll.
Tantangan pencocokan fuzzy
Proses pencocokan fuzzy β meskipun manfaat luar biasa yang ditawarkannya β bisa sangat sulit untuk diimplementasikan. Berikut adalah beberapa tantangan umum yang dihadapi oleh bisnis:
1. Tingkat positif dan negatif palsu yang lebih tinggi
Banyak solusi pencocokan fuzzy memiliki tingkat positif dan negatif palsu yang lebih tinggi. Ini terjadi ketika algoritme salah mengklasifikasikan kecocokan dan ketidakcocokan atau sebaliknya. Definisi kecocokan yang dapat dikonfigurasi dan parameter fuzzy dapat membantu mengurangi tautan yang salah sebanyak mungkin.
2. Kompleksitas komputasi
Selama proses pencocokan, setiap record dibandingkan dengan setiap record lain dalam kumpulan data yang sama. Dan jika Anda berurusan dengan banyak kumpulan data, maka jumlah perbandingannya akan meningkat lebih banyak. Terlihat bahwa perbandingan tumbuh secara kuadrat seiring dengan pertumbuhan ukuran basis data. Untuk alasan ini, Anda harus menggunakan sistem yang mampu menangani komputasi intensif sumber daya.
3. Memvalidasi pengujian
Catatan yang cocok digabungkan bersama untuk mewakili tampilan entitas 360 yang lengkap. Kesalahan apa pun yang terjadi selama proses ini dapat menambah risiko pada operasi bisnis Anda. Inilah sebabnya mengapa pengujian validasi terperinci harus dilakukan untuk memastikan algoritme yang disetel secara konsisten menghasilkan hasil dengan tingkat akurasi yang tinggi.
Bungkus
Bisnis sering menganggap solusi pencocokan kabur sebagai proyek yang kompleks, intensif sumber daya, dan menguras uang yang berjalan terlalu lama. Yang benar adalah berinvestasi dalam solusi yang tepat yang menghasilkan hasil yang cepat dan akurat adalah kuncinya. Organisasi perlu mempertimbangkan sejumlah faktor sambil memilih alat pencocokan fuzzy, seperti waktu dan uang yang bersedia mereka investasikan, desain skalabilitas yang mereka pikirkan, dan sifat kumpulan data mereka. Ini akan membantu mereka memilih solusi yang memungkinkan mereka mendapatkan hasil maksimal dari data mereka.