בדל התאמה מטושטשת - הגדרה, תהליך וטכניקות - Unite.AI
צור קשר

מנהיגי מחשבה

התאמה מטושטשת - הגדרה, תהליך וטכניקות

mm

יצא לאור

 on

An סקר מבטאים הראה כי 75% מהצרכנים מעדיפים לקנות מקמעונאים שיודעים את שמם ואת התנהגות הרכישה שלהם, ו-52% מהם נוטים יותר להחליף מותג אם הם לא מציעים חוויות מותאמות אישית. עם מיליוני נקודות נתונים שנלכדות על ידי מותגים כמעט מדי יום, זיהוי לקוחות ייחודיים ובניית הפרופילים שלהם הוא אחד האתגרים הגדולים ביותר איתם מתמודדות רוב החברות.

כאשר ארגון משתמש במספר כלים ללכידת נתונים, נפוץ מאוד לאיית שם לקוח בצורה שגויה או לקבל כתובת אימייל עם דפוס שגוי. יתרה מכך, כאשר ליישומי נתונים שונים יש מידע משתנה על אותו לקוח, זה בלתי אפשרי לקבל תובנות לגבי התנהגות הלקוח והעדפותיך.

לאחר מכן, נלמד מהי התאמה מטושטשת, כיצד היא מיושמת, הטכניקות הנפוצות בשימוש והאתגרים העומדים בפניהם. בואו נתחיל.

מהי התאמה מטושטשת?

התאמה מטושטשת היא טכניקת התאמת נתונים המשווה בין שתי רשומות או יותר ומחשבת את הסבירות שהן שייכות לאותה ישות. במקום לסווג באופן נרחב רשומות כהתאמה וכאי התאמה, התאמה מטושטשת מפיקה מספר (בדרך כלל בין 0-100%) המזהה את הסבירות שרשומות אלו שייכות לאותו לקוח, מוצר, עובד וכו'.

אלגוריתם יעיל של התאמה מטושטשת דואג למגוון של אי בהירות נתונים, כגון היפוך שם פרטי/משפחה, ראשי תיבות, שמות מקוצרים, שגיאות כתיב פונטיות ומכוונות, קיצורים, סימני פיסוק שנוספו/הוסרו וכו'.

תהליך התאמה מעורפל

תהליך ההתאמה המטושטשת מתבצע באופן הבא:

  1. רשומות פרופיל עבור שגיאות סטנדרטיזציה בסיסיות. שגיאות אלו מתוקנות כך שתושג תצוגה אחידה וסטנדרטית בין הרשומות.
  2. בחר ומפה תכונות על סמך איזה התאמה מטושטשת תתקיים. מכיוון שמאפיינים אלה עשויים לקבל כותרת אחרת, יש למפות אותם על פני מקורות.
  3. בחר טכניקת התאמה מטושטשת עבור כל תכונה. לדוגמה, ניתן להתאים שמות על סמך מרחק מקלדת או גרסאות שמות, בעוד מספרי טלפון ניתן להתאים על סמך מדדי דמיון מספריים.
  4. בחר משקל עבור כל תכונה, כך שלמאפיינים שהוקצו משקלים גבוהים יותר (או עדיפות גבוהה יותר) תהיה השפעה רבה יותר על רמת האמון הכוללת בהתאמה בהשוואה לשדות בעלי משקל נמוך יותר.
  5. הגדר את רמת הסף - שיאים עם ציון התאמה מטושטש גבוה מהרמה נחשבים להתאמה ואלו שחסרים הם אי התאמה.
  6. הפעל אלגוריתמי התאמה מטושטשת ולנתח את תוצאות המשחק.
  7. תעקוף כל חיובי כוזב ושליליים שעלולים לעלות.
  8. למזג, ביטול כפילות או פשוט הסר הרשומות הכפולות.

פרמטרים תואמים מטושטשים

מהתהליך שהוגדר לעיל, ניתן לראות שלאלגוריתם התאמה מטושטשת יש מספר פרמטרים המהווים את הבסיס לטכניקה זו. אלה כוללים את משקלי התכונות, טכניקת התאמה מטושטשת ורמת סף הניקוד.

כדי לקבל תוצאות מיטביות, עליך לבצע טכניקות התאמה מטושטשות עם פרמטרים משתנים ולמצוא את הערכים המתאימים ביותר לנתונים שלך. ספקים רבים אורזים יכולות כאלה בתוך פתרון ההתאמה המעורפל שלהם, כאשר הפרמטרים הללו מכוונים אוטומטית אך ניתן להתאים אותם בהתאם לצרכים שלך.

מהן טכניקות התאמה מטושטשת?

ישנן טכניקות התאמה מטושטשות רבות המשמשות כיום, השונות על סמך האלגוריתם המדויק של הנוסחה המשמשת להשוואה והתאמת שדות. בהתאם לאופי הנתונים שלך, אתה יכול לבחור את הטכניקה המתאימה לדרישות שלך. להלן רשימה של טכניקות התאמה מטושטשת נפוצות:

  1. דמיון מבוסס אופי מדדים שהכי טובים להתאים למחרוזות. אלו כוללים:
    1. ערוך מרחק: מחשב את המרחק בין שתי מחרוזות, מחושב תו אחר תו.
    2. מרחק מרווח קשור: מחשב את המרחק בין שתי מחרוזות על ידי התחשבות גם בפער או ברווחים בין המחרוזות.
    3. מרחק סמית'-ווטרמן: מחשב את המרחק בין שתי מחרוזות על ידי התחשבות גם בנוכחות או היעדר של קידומות וסיומות.
    4. מרחק Jaro: הכי טוב להתאים על שם פרטי ושמות משפחה.
  2. דמיון מבוסס אסימון מדדים שהכי טובים להתאים למילים שלמות במחרוזות. אלו כוללים:
    1. מחרוזות אטומיות: מחלק מחרוזות ארוכות למילים המתוחמות בפיסוק ומשווה על מילים בודדות.
    2. WHIRL: בדומה למחרוזות אטומיות אבל WHIRL גם מקצה משקלים לכל מילה.
  3. מדדי דמיון פונטי שעדיף להשוות בין מילים שנשמעות דומות אך בעלות הרכב אופי שונה לחלוטין. אלו כוללים:
    1. Soundex: הכי טוב להשוות שמות משפחה שונים באיות אך נשמעים דומים.
    2. NYSIIS: דומה ל-Soundex, אבל הוא שומר גם פרטים על מיקום התנועה.
    3. מטאפון: משווה בין מילים שנשמעות דומות הקיימות בשפה האנגלית, מילים אחרות המוכרות לאמריקאים, ושמות פרטיים ושמות משפחה הנפוצים בשימוש בארה"ב.
  4. מדדי דמיון מספריים שמשווים מספרים, כמה הם רחוקים זה מזה, התפלגות נתונים מספריים וכו'.

אתגרים של התאמה מטושטשת

תהליך ההתאמה המעורפל - למרות ה יתרונות מדהימים זה מציע - יכול להיות די קשה ליישום. להלן כמה אתגרים נפוצים עימם מתמודדים עסקים:

1.     שיעור גבוה יותר של חיוביות ושליליות שגויות

לפתרונות התאמה מטושטשים רבים יש שיעור גבוה יותר של חיוביות ושליליות שגויות. זה קורה כאשר האלגוריתם מסווג באופן שגוי התאמות ולא התאמות או להיפך. הגדרות התאמה ניתנות להגדרה ופרמטרים מטושטשים יכולים לעזור להפחית קישורים שגויים ככל האפשר.

2.     מורכבות חישובית

במהלך תהליך ההתאמה, כל רשומה מושווה לכל רשומה אחרת באותו מערך נתונים. ואם אתה מתמודד עם מערכי נתונים מרובים, אז מספר ההשוואות גדל יותר. ניתן לשים לב שההשוואות גדלות באופן ריבועי ככל שגודל מסד הנתונים גדל. מסיבה זו, עליך להשתמש במערכת המסוגלת לטפל בחישובים עתירי משאבים.

3.     אימות בדיקות

הרשומות המותאמות מתמזגות יחד כדי לייצג תצוגת 360 שלמה של ישויות. כל שגיאה שתתרחש במהלך תהליך זה יכולה להוסיף סיכון לפעילות העסקית שלך. זו הסיבה שחייבים לערוך בדיקות אימות מפורטות כדי להבטיח שהאלגוריתם המכוון מייצר באופן עקבי תוצאות בקצב דיוק גבוה.

לעטוף

עסקים חושבים לעתים קרובות על פתרונות התאמה מטושטשים כעל פרויקטים מורכבים, עתירי משאבים וגוזלים כסף, שנמשכים זמן רב מדי. האמת היא השקעה בפתרון הנכון שמפיק תוצאות מהירות ומדויקות היא המפתח. ארגונים צריכים להתחשב מספר גורמים תוך בחירה בכלי התאמה מטושטשת, כגון הזמן והכסף שהם מוכנים להשקיע, עיצוב המדרגיות שהם חושבים, ואופי מערכי הנתונים שלהם. זה יעזור להם לבחור פתרון שיאפשר להם להפיק את המרב מהנתונים שלהם.

אני אנליסט שיווק מוצר ב סולם נתונים עם רקע ב-IT. אני כותב בלהט על בעיות של היגיינת נתונים בעולם האמיתי איתם מתמודדים ארגונים רבים כיום. אני אוהב לתקשר פתרונות, טיפים ושיטות עבודה שיכולים לעזור לעסקים בהשגת איכות נתונים אינהרנטית בתהליכי הבינה העסקית שלהם. אני שואף ליצור תוכן שמכוון לקשת רחבה של קהלים, החל מאנשי טכני ועד למשתמש הקצה, כמו גם לשווק אותו בפלטפורמות דיגיטליות שונות.