ผู้นำทางความคิด
Fuzzy Matching – ความหมาย กระบวนการ และเทคนิค
An การสำรวจสำเนียง แสดงให้เห็นว่า 75% ของผู้บริโภคชอบซื้อจากผู้ค้าปลีกที่รู้จักชื่อและพฤติกรรมการซื้อของพวกเขา และ 52% ในจำนวนนี้มีแนวโน้มที่จะเปลี่ยนแบรนด์หากพวกเขาไม่ได้มอบประสบการณ์ที่เป็นส่วนตัว ด้วยจุดข้อมูลหลายล้านจุดที่ถูกบันทึกโดยแบรนด์เกือบทุกวัน การระบุลูกค้าที่ไม่ซ้ำใครและสร้างโปรไฟล์ของพวกเขาจึงเป็นหนึ่งในความท้าทายที่ใหญ่ที่สุดที่บริษัทส่วนใหญ่ต้องเผชิญ
เมื่อองค์กรใช้เครื่องมือหลายอย่างในการเก็บข้อมูล เป็นเรื่องปกติมากที่จะสะกดชื่อลูกค้าผิดหรือยอมรับที่อยู่อีเมลที่มีรูปแบบไม่ถูกต้อง ยิ่งไปกว่านั้น เมื่อแอปพลิเคชันข้อมูลที่แตกต่างกันมีข้อมูลที่แตกต่างกันเกี่ยวกับลูกค้ารายเดียวกัน คุณจะไม่สามารถรับข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมและความชอบของลูกค้าของคุณได้
ต่อไป เราจะเรียนรู้ว่าการจับคู่แบบฟัซซีคืออะไร วิธีการนำไปใช้ เทคนิคทั่วไปที่ใช้ และความท้าทายที่ต้องเผชิญ มาเริ่มกันเลย.
Fuzzy Matching คืออะไร?
การจับคู่ที่คลุมเครือ เป็นเทคนิคการจับคู่ข้อมูลที่เปรียบเทียบสองเรกคอร์ดขึ้นไปและคำนวณความเป็นไปได้ของเรกคอร์ดที่เป็นของเอนทิตีเดียวกัน แทนที่จะจัดประเภทเร็กคอร์ดอย่างกว้างๆ ว่าตรงกันหรือไม่ตรงกัน การจับคู่แบบคลุมเครือจะแสดงตัวเลข (ปกติระหว่าง 0-100%) ที่ระบุถึงความเป็นไปได้ที่เรกคอร์ดเหล่านี้เป็นของลูกค้า ผลิตภัณฑ์ พนักงาน ฯลฯ คนเดียวกัน
อัลกอริธึมการจับคู่แบบฟัซซีที่มีประสิทธิภาพจะดูแลช่วงของความกำกวมของข้อมูล เช่น การกลับชื่อ/นามสกุล คำย่อ ชื่อย่อ การสะกดผิดแบบออกเสียงและจงใจ ตัวย่อ เครื่องหมายวรรคตอนเพิ่ม/นำออก เป็นต้น
กระบวนการจับคู่แบบคลุมเครือ
กระบวนการจับคู่แบบคลุมเครือดำเนินการดังนี้:
- บันทึกโปรไฟล์ สำหรับข้อผิดพลาดมาตรฐานขั้นพื้นฐาน ข้อผิดพลาดเหล่านี้ได้รับการแก้ไขเพื่อให้ได้มุมมองที่เหมือนกันและเป็นมาตรฐานทั่วทั้งเรกคอร์ด
- เลือกและแมปแอตทริบิวต์ ขึ้นอยู่กับการจับคู่แบบคลุมเครือที่จะเกิดขึ้น เนื่องจากแอตทริบิวต์เหล่านี้อาจมีชื่อแตกต่างกัน จึงต้องมีการแมประหว่างแหล่งที่มา
- เลือกเทคนิคการจับคู่แบบคลุมเครือ สำหรับแต่ละแอตทริบิวต์ ตัวอย่างเช่น สามารถจับคู่ชื่อตามระยะห่างของแป้นพิมพ์หรือรูปแบบชื่อต่างๆ ในขณะที่หมายเลขโทรศัพท์สามารถจับคู่ตามเมตริกความคล้ายคลึงของตัวเลข
- เลือกน้ำหนัก สำหรับแต่ละแอตทริบิวต์ เช่น แอตทริบิวต์ที่กำหนดน้ำหนักที่สูงกว่า (หรือลำดับความสำคัญที่สูงกว่า) จะมีผลกระทบต่อระดับความมั่นใจในการจับคู่โดยรวมมากกว่าเมื่อเปรียบเทียบกับฟิลด์ที่มีน้ำหนักต่ำกว่า
- กำหนดระดับเกณฑ์ – บันทึกที่มีคะแนนการจับคู่คลุมเครือสูงกว่าระดับจะถือว่าเป็นการแข่งขันและคะแนนที่ต่ำกว่าจะถือว่าไม่ตรงกัน
- เรียกใช้อัลกอริทึมการจับคู่แบบคลุมเครือ และวิเคราะห์ผลการแข่งขัน
- ลบล้างผลบวกลวงใดๆ และด้านลบที่อาจเกิดขึ้น
- ผสาน, ขจัดข้อมูลซ้ำ หรือเพียงกำจัด บันทึกที่ซ้ำกัน.
พารามิเตอร์การจับคู่แบบคลุมเครือ
จากกระบวนการที่กำหนดไว้ข้างต้น คุณจะเห็นว่าอัลกอริทึมการจับคู่แบบคลุมเครือมีพารามิเตอร์จำนวนหนึ่งที่เป็นพื้นฐานของเทคนิคนี้ ซึ่งรวมถึงน้ำหนักแอตทริบิวต์ เทคนิคการจับคู่แบบคลุมเครือ และระดับเกณฑ์คะแนน
เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด คุณต้องใช้เทคนิคการจับคู่แบบคลุมเครือกับพารามิเตอร์ต่างๆ และค้นหาค่าที่เหมาะสมกับข้อมูลของคุณมากที่สุด ผู้ค้าหลายรายบรรจุความสามารถดังกล่าวไว้ในโซลูชันการจับคู่แบบฟัซซี ซึ่งพารามิเตอร์เหล่านี้ได้รับการปรับอัตโนมัติแต่สามารถปรับแต่งได้ตามความต้องการของคุณ
เทคนิคการจับคู่แบบคลุมเครือคืออะไร?
มีเทคนิคการจับคู่แบบฟัซซีมากมายที่ใช้กันในปัจจุบันซึ่งแตกต่างกันไปตามอัลกอริทึมของสูตรที่ใช้ในการเปรียบเทียบและจับคู่ฟิลด์ คุณสามารถเลือกเทคนิคที่เหมาะสมกับความต้องการของคุณได้ ทั้งนี้ขึ้นอยู่กับลักษณะของข้อมูลของคุณ ต่อไปนี้คือรายการเทคนิคการจับคู่แบบคลุมเครือทั่วไป:
- ความคล้ายคลึงกันตามตัวละคร เมตริกที่เหมาะกับสตริงมากที่สุด เหล่านี้รวมถึง:
- แก้ไขระยะทาง: คำนวณระยะห่างระหว่างสองสตริง คำนวณอักขระต่ออักขระ
- ระยะห่างระหว่างช่องว่าง: คำนวณระยะห่างระหว่างสองสตริงโดยพิจารณาช่องว่างหรือช่องว่างระหว่างสตริงด้วย
- ระยะทางสมิธ-วอเตอร์แมน: คำนวณระยะห่างระหว่างสองสตริงโดยพิจารณาว่ามีหรือไม่มีคำนำหน้าและคำต่อท้าย
- ระยะทางจาโร: ดีที่สุดเพื่อให้ตรงกับชื่อและนามสกุล
- ความคล้ายคลึงกันตามโทเค็น เมตริกที่ดีที่สุดเพื่อจับคู่คำทั้งหมดในสตริง เหล่านี้รวมถึง:
- Atomic strings: แบ่งสตริงยาวๆ เป็นคำๆ คั่นด้วยเครื่องหมายวรรคตอนและเปรียบเทียบในแต่ละคำ
- WHIRL: คล้ายกับสตริงอะตอม แต่ WHIRL ยังกำหนดน้ำหนักให้กับแต่ละคำด้วย
- เมตริกความคล้ายคลึงกันของการออกเสียง เป็นการดีที่สุดที่จะเปรียบเทียบคำที่ฟังดูคล้ายกัน แต่มีองค์ประกอบที่แตกต่างกันโดยสิ้นเชิง เหล่านี้รวมถึง:
- Soundex: ดีที่สุดในการเปรียบเทียบนามสกุลที่สะกดต่างกันแต่ฟังดูคล้ายกัน
- NYSIIS: คล้ายกับ Soundex แต่ยังคงรายละเอียดเกี่ยวกับตำแหน่งเสียงสระ
- Metaphone: เปรียบเทียบคำที่มีเสียงคล้ายกันซึ่งมีอยู่ในภาษาอังกฤษ คำอื่นๆ ที่ชาวอเมริกันคุ้นเคย และชื่อและนามสกุลที่ใช้กันทั่วไปในสหรัฐอเมริกา
- เมตริกความคล้ายคลึงกันที่เป็นตัวเลข การเปรียบเทียบตัวเลข ระยะห่างระหว่างกัน การกระจายของข้อมูลตัวเลข เป็นต้น
ความท้าทายของการจับคู่แบบคลุมเครือ
กระบวนการจับคู่แบบคลุมเครือ – แม้จะมี ผลประโยชน์ที่น่าอัศจรรย์ มันให้ - ค่อนข้างยากที่จะนำไปใช้ นี่คือความท้าทายทั่วไปที่ธุรกิจต้องเผชิญ:
1. อัตราที่สูงขึ้นของผลบวกปลอมและลบ
โซลูชันการจับคู่แบบคลุมเครือจำนวนมากมีอัตราของผลบวกปลอมและผลลบสูงกว่า สิ่งนี้เกิดขึ้นเมื่ออัลกอริทึมจำแนกประเภทที่ตรงกันและไม่ตรงกันอย่างไม่ถูกต้อง หรือในทางกลับกัน คำจำกัดความการจับคู่ที่กำหนดค่าได้และพารามิเตอร์คลุมเครือสามารถช่วยลดลิงก์ที่ไม่ถูกต้องได้มากที่สุด
2. ความซับซ้อนในการคำนวณ
ในระหว่างกระบวนการจับคู่ ทุกเรกคอร์ดจะถูกเปรียบเทียบกับเรกคอร์ดอื่นๆ ทั้งหมดในชุดข้อมูลเดียวกัน และหากคุณจัดการกับชุดข้อมูลหลายชุด จำนวนการเปรียบเทียบก็จะเพิ่มมากขึ้น สังเกตว่าการเปรียบเทียบเพิ่มขึ้นเป็นกำลังสองเมื่อขนาดฐานข้อมูลใหญ่ขึ้น ด้วยเหตุผลนี้ คุณต้องใช้ระบบที่สามารถจัดการกับการคำนวณที่ใช้ทรัพยากรมาก
3. การตรวจสอบความถูกต้องของการทดสอบ
เรกคอร์ดที่ตรงกันจะถูกรวมเข้าด้วยกันเพื่อแสดงมุมมอง 360 องศาที่สมบูรณ์ของเอนทิตี ข้อผิดพลาดใดๆ ที่เกิดขึ้นระหว่างขั้นตอนนี้อาจเพิ่มความเสี่ยงให้กับการดำเนินธุรกิจของคุณ นี่คือเหตุผลที่ต้องมีการทดสอบการตรวจสอบโดยละเอียดเพื่อให้แน่ใจว่าอัลกอริทึมที่ปรับแต่งแล้วนั้นให้ผลลัพธ์ที่สม่ำเสมอด้วยอัตราความแม่นยำสูง
ห่อ
ธุรกิจต่างๆ มักคิดว่าโซลูชันการจับคู่แบบคลุมเครือเป็นโครงการที่ซับซ้อน ใช้ทรัพยากรมาก และใช้เงินมาก ซึ่งใช้เวลานานเกินไป ความจริงก็คือการลงทุนในโซลูชันที่เหมาะสมซึ่งให้ผลลัพธ์ที่รวดเร็วและแม่นยำคือกุญแจสำคัญ องค์กรจำเป็นต้องพิจารณา ปัจจัยหลายประการในขณะที่เลือกใช้เครื่องมือจับคู่แบบคลุมเครือเช่น เวลาและเงินที่พวกเขายินดีลงทุน การออกแบบความสามารถในการปรับขนาดที่พวกเขามีอยู่ในใจ และธรรมชาติของชุดข้อมูลของพวกเขา สิ่งนี้จะช่วยให้พวกเขาเลือกโซลูชันที่ช่วยให้พวกเขาได้รับประโยชน์สูงสุดจากข้อมูลของพวกเขา