ต้นขั้ว Fuzzy Matching – ความหมาย กระบวนการ และเทคนิค - Unite.AI
เชื่อมต่อกับเรา

ผู้นำทางความคิด

Fuzzy Matching – ความหมาย กระบวนการ และเทคนิค

mm

การตีพิมพ์

 on

An การสำรวจสำเนียง แสดงให้เห็นว่า 75% ของผู้บริโภคชอบซื้อจากผู้ค้าปลีกที่รู้จักชื่อและพฤติกรรมการซื้อของพวกเขา และ 52% ในจำนวนนี้มีแนวโน้มที่จะเปลี่ยนแบรนด์หากพวกเขาไม่ได้มอบประสบการณ์ที่เป็นส่วนตัว ด้วยจุดข้อมูลหลายล้านจุดที่ถูกบันทึกโดยแบรนด์เกือบทุกวัน การระบุลูกค้าที่ไม่ซ้ำใครและสร้างโปรไฟล์ของพวกเขาจึงเป็นหนึ่งในความท้าทายที่ใหญ่ที่สุดที่บริษัทส่วนใหญ่ต้องเผชิญ

เมื่อองค์กรใช้เครื่องมือหลายอย่างในการเก็บข้อมูล เป็นเรื่องปกติมากที่จะสะกดชื่อลูกค้าผิดหรือยอมรับที่อยู่อีเมลที่มีรูปแบบไม่ถูกต้อง ยิ่งไปกว่านั้น เมื่อแอปพลิเคชันข้อมูลที่แตกต่างกันมีข้อมูลที่แตกต่างกันเกี่ยวกับลูกค้ารายเดียวกัน คุณจะไม่สามารถรับข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมและความชอบของลูกค้าของคุณได้

ต่อไป เราจะเรียนรู้ว่าการจับคู่แบบฟัซซีคืออะไร วิธีการนำไปใช้ เทคนิคทั่วไปที่ใช้ และความท้าทายที่ต้องเผชิญ มาเริ่มกันเลย.

Fuzzy Matching คืออะไร?

การจับคู่ที่คลุมเครือ เป็นเทคนิคการจับคู่ข้อมูลที่เปรียบเทียบสองเรกคอร์ดขึ้นไปและคำนวณความเป็นไปได้ของเรกคอร์ดที่เป็นของเอนทิตีเดียวกัน แทนที่จะจัดประเภทเร็กคอร์ดอย่างกว้างๆ ว่าตรงกันหรือไม่ตรงกัน การจับคู่แบบคลุมเครือจะแสดงตัวเลข (ปกติระหว่าง 0-100%) ที่ระบุถึงความเป็นไปได้ที่เรกคอร์ดเหล่านี้เป็นของลูกค้า ผลิตภัณฑ์ พนักงาน ฯลฯ คนเดียวกัน

อัลกอริธึมการจับคู่แบบฟัซซีที่มีประสิทธิภาพจะดูแลช่วงของความกำกวมของข้อมูล เช่น การกลับชื่อ/นามสกุล คำย่อ ชื่อย่อ การสะกดผิดแบบออกเสียงและจงใจ ตัวย่อ เครื่องหมายวรรคตอนเพิ่ม/นำออก เป็นต้น

กระบวนการจับคู่แบบคลุมเครือ

กระบวนการจับคู่แบบคลุมเครือดำเนินการดังนี้:

  1. บันทึกโปรไฟล์ สำหรับข้อผิดพลาดมาตรฐานขั้นพื้นฐาน ข้อผิดพลาดเหล่านี้ได้รับการแก้ไขเพื่อให้ได้มุมมองที่เหมือนกันและเป็นมาตรฐานทั่วทั้งเรกคอร์ด
  2. เลือกและแมปแอตทริบิวต์ ขึ้นอยู่กับการจับคู่แบบคลุมเครือที่จะเกิดขึ้น เนื่องจากแอตทริบิวต์เหล่านี้อาจมีชื่อแตกต่างกัน จึงต้องมีการแมประหว่างแหล่งที่มา
  3. เลือกเทคนิคการจับคู่แบบคลุมเครือ สำหรับแต่ละแอตทริบิวต์ ตัวอย่างเช่น สามารถจับคู่ชื่อตามระยะห่างของแป้นพิมพ์หรือรูปแบบชื่อต่างๆ ในขณะที่หมายเลขโทรศัพท์สามารถจับคู่ตามเมตริกความคล้ายคลึงของตัวเลข
  4. เลือกน้ำหนัก สำหรับแต่ละแอตทริบิวต์ เช่น แอตทริบิวต์ที่กำหนดน้ำหนักที่สูงกว่า (หรือลำดับความสำคัญที่สูงกว่า) จะมีผลกระทบต่อระดับความมั่นใจในการจับคู่โดยรวมมากกว่าเมื่อเปรียบเทียบกับฟิลด์ที่มีน้ำหนักต่ำกว่า
  5. กำหนดระดับเกณฑ์ – บันทึกที่มีคะแนนการจับคู่คลุมเครือสูงกว่าระดับจะถือว่าเป็นการแข่งขันและคะแนนที่ต่ำกว่าจะถือว่าไม่ตรงกัน
  6. เรียกใช้อัลกอริทึมการจับคู่แบบคลุมเครือ และวิเคราะห์ผลการแข่งขัน
  7. ลบล้างผลบวกลวงใดๆ และด้านลบที่อาจเกิดขึ้น
  8. ผสาน, ขจัดข้อมูลซ้ำ หรือเพียงกำจัด บันทึกที่ซ้ำกัน.

พารามิเตอร์การจับคู่แบบคลุมเครือ

จากกระบวนการที่กำหนดไว้ข้างต้น คุณจะเห็นว่าอัลกอริทึมการจับคู่แบบคลุมเครือมีพารามิเตอร์จำนวนหนึ่งที่เป็นพื้นฐานของเทคนิคนี้ ซึ่งรวมถึงน้ำหนักแอตทริบิวต์ เทคนิคการจับคู่แบบคลุมเครือ และระดับเกณฑ์คะแนน

เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด คุณต้องใช้เทคนิคการจับคู่แบบคลุมเครือกับพารามิเตอร์ต่างๆ และค้นหาค่าที่เหมาะสมกับข้อมูลของคุณมากที่สุด ผู้ค้าหลายรายบรรจุความสามารถดังกล่าวไว้ในโซลูชันการจับคู่แบบฟัซซี ซึ่งพารามิเตอร์เหล่านี้ได้รับการปรับอัตโนมัติแต่สามารถปรับแต่งได้ตามความต้องการของคุณ

เทคนิคการจับคู่แบบคลุมเครือคืออะไร?

มีเทคนิคการจับคู่แบบฟัซซีมากมายที่ใช้กันในปัจจุบันซึ่งแตกต่างกันไปตามอัลกอริทึมของสูตรที่ใช้ในการเปรียบเทียบและจับคู่ฟิลด์ คุณสามารถเลือกเทคนิคที่เหมาะสมกับความต้องการของคุณได้ ทั้งนี้ขึ้นอยู่กับลักษณะของข้อมูลของคุณ ต่อไปนี้คือรายการเทคนิคการจับคู่แบบคลุมเครือทั่วไป:

  1. ความคล้ายคลึงกันตามตัวละคร เมตริกที่เหมาะกับสตริงมากที่สุด เหล่านี้รวมถึง:
    1. แก้ไขระยะทาง: คำนวณระยะห่างระหว่างสองสตริง คำนวณอักขระต่ออักขระ
    2. ระยะห่างระหว่างช่องว่าง: คำนวณระยะห่างระหว่างสองสตริงโดยพิจารณาช่องว่างหรือช่องว่างระหว่างสตริงด้วย
    3. ระยะทางสมิธ-วอเตอร์แมน: คำนวณระยะห่างระหว่างสองสตริงโดยพิจารณาว่ามีหรือไม่มีคำนำหน้าและคำต่อท้าย
    4. ระยะทางจาโร: ดีที่สุดเพื่อให้ตรงกับชื่อและนามสกุล
  2. ความคล้ายคลึงกันตามโทเค็น เมตริกที่ดีที่สุดเพื่อจับคู่คำทั้งหมดในสตริง เหล่านี้รวมถึง:
    1. Atomic strings: แบ่งสตริงยาวๆ เป็นคำๆ คั่นด้วยเครื่องหมายวรรคตอนและเปรียบเทียบในแต่ละคำ
    2. WHIRL: คล้ายกับสตริงอะตอม แต่ WHIRL ยังกำหนดน้ำหนักให้กับแต่ละคำด้วย
  3. เมตริกความคล้ายคลึงกันของการออกเสียง เป็นการดีที่สุดที่จะเปรียบเทียบคำที่ฟังดูคล้ายกัน แต่มีองค์ประกอบที่แตกต่างกันโดยสิ้นเชิง เหล่านี้รวมถึง:
    1. Soundex: ดีที่สุดในการเปรียบเทียบนามสกุลที่สะกดต่างกันแต่ฟังดูคล้ายกัน
    2. NYSIIS: คล้ายกับ Soundex แต่ยังคงรายละเอียดเกี่ยวกับตำแหน่งเสียงสระ
    3. Metaphone: เปรียบเทียบคำที่มีเสียงคล้ายกันซึ่งมีอยู่ในภาษาอังกฤษ คำอื่นๆ ที่ชาวอเมริกันคุ้นเคย และชื่อและนามสกุลที่ใช้กันทั่วไปในสหรัฐอเมริกา
  4. เมตริกความคล้ายคลึงกันที่เป็นตัวเลข การเปรียบเทียบตัวเลข ระยะห่างระหว่างกัน การกระจายของข้อมูลตัวเลข เป็นต้น

ความท้าทายของการจับคู่แบบคลุมเครือ

กระบวนการจับคู่แบบคลุมเครือ – แม้จะมี ผลประโยชน์ที่น่าอัศจรรย์ มันให้ - ค่อนข้างยากที่จะนำไปใช้ นี่คือความท้าทายทั่วไปที่ธุรกิจต้องเผชิญ:

1.     อัตราที่สูงขึ้นของผลบวกปลอมและลบ

โซลูชันการจับคู่แบบคลุมเครือจำนวนมากมีอัตราของผลบวกปลอมและผลลบสูงกว่า สิ่งนี้เกิดขึ้นเมื่ออัลกอริทึมจำแนกประเภทที่ตรงกันและไม่ตรงกันอย่างไม่ถูกต้อง หรือในทางกลับกัน คำจำกัดความการจับคู่ที่กำหนดค่าได้และพารามิเตอร์คลุมเครือสามารถช่วยลดลิงก์ที่ไม่ถูกต้องได้มากที่สุด

2.     ความซับซ้อนในการคำนวณ

ในระหว่างกระบวนการจับคู่ ทุกเรกคอร์ดจะถูกเปรียบเทียบกับเรกคอร์ดอื่นๆ ทั้งหมดในชุดข้อมูลเดียวกัน และหากคุณจัดการกับชุดข้อมูลหลายชุด จำนวนการเปรียบเทียบก็จะเพิ่มมากขึ้น สังเกตว่าการเปรียบเทียบเพิ่มขึ้นเป็นกำลังสองเมื่อขนาดฐานข้อมูลใหญ่ขึ้น ด้วยเหตุผลนี้ คุณต้องใช้ระบบที่สามารถจัดการกับการคำนวณที่ใช้ทรัพยากรมาก

3.     การตรวจสอบความถูกต้องของการทดสอบ

เรกคอร์ดที่ตรงกันจะถูกรวมเข้าด้วยกันเพื่อแสดงมุมมอง 360 องศาที่สมบูรณ์ของเอนทิตี ข้อผิดพลาดใดๆ ที่เกิดขึ้นระหว่างขั้นตอนนี้อาจเพิ่มความเสี่ยงให้กับการดำเนินธุรกิจของคุณ นี่คือเหตุผลที่ต้องมีการทดสอบการตรวจสอบโดยละเอียดเพื่อให้แน่ใจว่าอัลกอริทึมที่ปรับแต่งแล้วนั้นให้ผลลัพธ์ที่สม่ำเสมอด้วยอัตราความแม่นยำสูง

ห่อ

ธุรกิจต่างๆ มักคิดว่าโซลูชันการจับคู่แบบคลุมเครือเป็นโครงการที่ซับซ้อน ใช้ทรัพยากรมาก และใช้เงินมาก ซึ่งใช้เวลานานเกินไป ความจริงก็คือการลงทุนในโซลูชันที่เหมาะสมซึ่งให้ผลลัพธ์ที่รวดเร็วและแม่นยำคือกุญแจสำคัญ องค์กรจำเป็นต้องพิจารณา ปัจจัยหลายประการในขณะที่เลือกใช้เครื่องมือจับคู่แบบคลุมเครือเช่น เวลาและเงินที่พวกเขายินดีลงทุน การออกแบบความสามารถในการปรับขนาดที่พวกเขามีอยู่ในใจ และธรรมชาติของชุดข้อมูลของพวกเขา สิ่งนี้จะช่วยให้พวกเขาเลือกโซลูชันที่ช่วยให้พวกเขาได้รับประโยชน์สูงสุดจากข้อมูลของพวกเขา

ฉันเป็นนักวิเคราะห์การตลาดผลิตภัณฑ์ที่ บันไดข้อมูล ที่มีพื้นฐานด้านไอที ฉันเขียนอย่างจริงจังเกี่ยวกับปัญหาด้านสุขอนามัยของข้อมูลในโลกแห่งความจริงที่หลายองค์กรเผชิญอยู่ในปัจจุบัน ฉันชอบที่จะสื่อสารโซลูชัน เคล็ดลับ และแนวทางปฏิบัติที่สามารถช่วยธุรกิจในการบรรลุคุณภาพของข้อมูลโดยธรรมชาติในกระบวนการข่าวกรองธุรกิจของตน ฉันมุ่งมั่นที่จะสร้างเนื้อหาที่กำหนดเป้าหมายไปยังผู้ชมที่หลากหลาย ตั้งแต่บุคลากรด้านเทคนิคไปจนถึงผู้ใช้ปลายทาง ตลอดจนทำการตลาดบนแพลตฟอร์มดิจิทัลต่างๆ