اتصل بنا للحصول على مزيد من المعلومات

المطابقة الغامضة - التعريف والعملية والتقنيات

قاده التفكير

المطابقة الغامضة - التعريف والعملية والتقنيات

mm

An مسح اكسنتشر أظهر أن 75٪ من المستهلكين يفضلون الشراء من بائعي التجزئة الذين يعرفون أسمائهم وسلوكهم الشرائي ، وأن 52٪ منهم يميلون أكثر إلى تبديل العلامات التجارية إذا لم يقدموا تجارب مخصصة. مع وجود الملايين من نقاط البيانات التي يتم التقاطها بواسطة العلامات التجارية كل يوم تقريبًا ، يعد تحديد العملاء الفريدين وبناء ملفاتهم الشخصية أحد أكبر التحديات التي تواجهها معظم الشركات.

عندما تستخدم مؤسسة أدوات متعددة لالتقاط البيانات ، فمن الشائع جدًا أن تخطئ في كتابة اسم العميل أو تقبل عنوان بريد إلكتروني بنمط غير صحيح. علاوة على ذلك ، عندما تحتوي تطبيقات البيانات المختلفة على معلومات مختلفة عن العميل نفسه ، يصبح من المستحيل الحصول على رؤى حول سلوك العميل وتفضيلاته.

بعد ذلك ، سوف نتعلم ماهية المطابقة الغامضة ، وكيف يتم تنفيذها ، والتقنيات الشائعة المستخدمة ، والتحديات التي نواجهها. هيا بنا نبدأ.

ما هي المطابقة الغامضة؟

مطابقة غامضة هي تقنية لمطابقة البيانات تقارن بين سجلين أو أكثر وتحسب احتمالية انتمائهم إلى نفس الكيان. بدلاً من تصنيف السجلات على نطاق واسع على أنها مطابقة وغير متطابقة ، ينتج عن المطابقة الغامضة رقمًا (عادةً بين 0-100٪) يحدد مدى احتمالية أن تنتمي هذه السجلات إلى نفس العميل أو المنتج أو الموظف ، إلخ.

تهتم خوارزمية المطابقة الغامضة الفعالة بمجموعة من جوانب غموض البيانات ، مثل انعكاسات الاسم الأول / الأخير ، والاختصارات ، والأسماء المختصرة ، والأخطاء الإملائية الصوتية والمتعمدة ، والاختصارات ، وعلامات الترقيم المضافة / المحذوفة ، وما إلى ذلك.

عملية المطابقة الغامضة

تتم عملية المطابقة الغامضة على النحو التالي:

  1. سجلات الملف الشخصي لأخطاء التقييس الأساسية. تم إصلاح هذه الأخطاء بحيث يتم تحقيق عرض موحد وموحد عبر السجلات.
  2. تحديد السمات وتعيينها بناءً على المطابقة الغامضة التي ستحدث. نظرًا لأنه قد يتم تسمية هذه السمات بشكل مختلف ، يجب تعيينها عبر المصادر.
  3. اختر تقنية مطابقة غامضة لكل سمة. على سبيل المثال ، يمكن مطابقة الأسماء بناءً على مسافة لوحة المفاتيح أو متغيرات الاسم ، بينما يمكن مطابقة أرقام الهواتف بناءً على مقاييس التشابه الرقمية.
  4. اختر الوزن لكل سمة ، مثل أن السمات المعينة لأوزان أعلى (أو أولوية أعلى) سيكون لها تأثير أكبر على مستوى ثقة المطابقة الإجمالي مقارنة بالحقول ذات الأوزان المنخفضة.
  5. تحديد مستوى العتبة - تعتبر السجلات ذات درجة المطابقة الغامضة أعلى من المستوى متطابقة وتلك التي لا تكون متطابقة.
  6. قم بتشغيل خوارزميات المطابقة الغامضة وتحليل نتائج المباراة.
  7. تجاوز أي ايجابيات كاذبة والسلبيات التي قد تظهر.
  8. دمجأو إلغاء تكرار أو حذف السجلات المكررة.

معلمات مطابقة ضبابية

من العملية المحددة أعلاه ، يمكنك أن ترى أن خوارزمية المطابقة الغامضة لديها عدد من المعلمات التي تشكل أساس هذه التقنية. يتضمن ذلك أوزان السمة ، وتقنية المطابقة الغامضة ، ومستوى الحد الأدنى للنتيجة.

للحصول على أفضل النتائج ، يجب عليك تنفيذ تقنيات المطابقة غير الواضحة بمعلمات مختلفة والعثور على القيم التي تناسب بياناتك بشكل أفضل. يقوم العديد من البائعين بتجميع هذه الإمكانات في حل المطابقة الغامض الخاص بهم حيث يتم ضبط هذه المعلمات تلقائيًا ولكن يمكن تخصيصها وفقًا لاحتياجاتك.

ما هي تقنيات المطابقة الغامضة؟

هناك العديد من تقنيات المطابقة الغامضة المستخدمة اليوم والتي تختلف بناءً على الخوارزمية الدقيقة للصيغة المستخدمة لمقارنة الحقول ومطابقتها. اعتمادًا على طبيعة بياناتك ، يمكنك اختيار التقنية المناسبة لمتطلباتك. فيما يلي قائمة بأساليب المطابقة الغامضة الشائعة:

  1. التشابه القائم على الشخصية المقاييس الأفضل لمطابقة السلاسل. وتشمل هذه:
    1. تحرير المسافة: تحسب المسافة بين سلسلتين ، محسوبة حرفًا بحرف.
    2. مسافة فجوة أفيني: تحسب المسافة بين سلسلتين من خلال مراعاة الفجوة أو المسافات بين السلاسل.
    3. مسافة سميث ووترمان: لحساب المسافة بين سلسلتين من خلال النظر أيضًا في وجود أو عدم وجود البادئات واللواحق.
    4. مسافة جارو: الأفضل لمطابقة الأسماء الأولى والأخيرة.
  2. التشابه القائم على الرمز المقاييس الأفضل لمطابقة الكلمات الكاملة في السلاسل. وتشمل هذه:
    1. الأوتار الذرية: يقسم السلاسل الطويلة إلى كلمات محددة بعلامات ترقيم ويقارن على الكلمات الفردية.
    2. WHIRL: تشبه السلاسل الذرية ولكن WHIRL تقوم أيضًا بتعيين أوزان لكل كلمة.
  3. مقاييس التشابه الصوتي من الأفضل مقارنة الكلمات التي تبدو متشابهة ولكن لها تركيبة شخصية مختلفة تمامًا. وتشمل هذه:
    1. Soundex: الأفضل لمقارنة الألقاب المختلفة في التهجئة ولكنها تبدو متشابهة.
    2. NYSIIS: على غرار Soundex ، لكنه يحتفظ أيضًا بتفاصيل حول موضع حرف العلة.
    3. Metaphone: يقارن الكلمات الصوتية المتشابهة الموجودة في اللغة الإنجليزية ، والكلمات الأخرى المألوفة للأمريكيين ، والأسماء الأولى والأسماء الشائعة الاستخدام في الولايات المتحدة.
  4. مقاييس التشابه الرقمية تقارن الأرقام ، ومدى تباعدها عن بعضها البعض ، وتوزيع البيانات الرقمية ، وما إلى ذلك.

تحديات المطابقة الغامضة

عملية المطابقة الغامضة - على الرغم من فوائد مذهلة يقدم - قد يكون من الصعب جدًا تنفيذه. فيما يلي بعض التحديات الشائعة التي تواجهها الشركات:

1.     ارتفاع معدل الإيجابيات والسلبيات الخاطئة

العديد من حلول المطابقة الغامضة لديها معدل أعلى من الإيجابيات والسلبيات الخاطئة. يحدث هذا عندما تصنف الخوارزمية بشكل غير صحيح المطابقات وغير المطابقات أو العكس. يمكن أن تساعد تعريفات المطابقة القابلة للتكوين والمعلمات غير الواضحة في تقليل الروابط غير الصحيحة قدر الإمكان.

2.     التعقيد الحسابي

أثناء عملية المطابقة ، تتم مقارنة كل سجل بكل سجل آخر في نفس مجموعة البيانات. وإذا كنت تتعامل مع مجموعات بيانات متعددة ، فإن عدد المقارنات سيزداد أكثر. من الملاحظ أن المقارنات تنمو تربيعيًا مع نمو حجم قاعدة البيانات. لهذا السبب ، يجب عليك استخدام نظام قادر على التعامل مع الحسابات كثيفة الاستخدام للموارد.

3.     التحقق من صحة الاختبار

يتم دمج السجلات المتطابقة معًا لتمثيل عرض 360 كامل للكيانات. يمكن أن يؤدي أي خطأ يحدث أثناء هذه العملية إلى زيادة المخاطر على عمليات عملك. هذا هو السبب في ضرورة إجراء اختبار التحقق التفصيلي للتأكد من أن الخوارزمية المضبوطة تنتج باستمرار نتائج بمعدل دقة عالية.

لف

غالبًا ما تفكر الشركات في حلول المطابقة الغامضة على أنها مشاريع معقدة وكثيفة الموارد وتستنزف الأموال وتستمر لفترة طويلة جدًا. الحقيقة هي أن الاستثمار في الحل الصحيح الذي ينتج عنه نتائج سريعة ودقيقة هو المفتاح. تحتاج المنظمات إلى النظر عدد من العوامل أثناء اختيار أداة المطابقة الغامضة، مثل الوقت والمال الذي يرغبون في استثماره ، وتصميم قابلية التوسع الذي يدور في أذهانهم ، وطبيعة مجموعات البيانات الخاصة بهم. سيساعدهم ذلك على اختيار حل يمكنهم من تحقيق أقصى استفادة من بياناتهم.

أنا محلل تسويق منتجات في سلم البيانات مع خلفية في تكنولوجيا المعلومات. أكتب بشغف عن قضايا صحة البيانات في العالم الحقيقي التي تواجهها العديد من المنظمات اليوم. أحب توصيل الحلول والنصائح والممارسات التي يمكن أن تساعد الشركات في تحقيق جودة البيانات المتأصلة في عمليات ذكاء الأعمال الخاصة بهم. أسعى جاهدًا لإنشاء محتوى يستهدف مجموعة واسعة من الجماهير ، بدءًا من الموظفين التقنيين إلى المستخدم النهائي ، فضلاً عن تسويقه عبر مختلف المنصات الرقمية.