رطم ما هو K-Means Clustering؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

ما هو K-Means Clustering؟

mm
تحديث on

K- يعني العنقدة هو ملف تعليم غير مشرف عليه ومن بين جميع خوارزميات التعلم غير الخاضعة للرقابة، قد يكون تجميع الوسائل K هو الأكثر استخدامًا على نطاق واسع، وذلك بفضل قوته وبساطته. كيف يعمل التجميع يعني K بالضبط؟

الإجابة المختصرة هي أن K-mean clustering يعمل بواسطة إنشاء نقطة مرجعية (النقطه الوسطى) لعدد الفصول المطلوب ، وبعد ذلك تعيين نقاط البيانات لمجموعات الفئات بناءً على النقطة المرجعية الأقرب. في حين أن هذا تعريف سريع لتجميع K-mean ، فلنأخذ بعض الوقت للتعمق أكثر في K-mean clustering والحصول على حدس أفضل لكيفية عملها.

تحديد التجميع

قبل أن نفحص الخوارزميات الدقيقة المستخدمة لتنفيذ التجميع بوسائل K ، دعنا نأخذ بعض الوقت لتحديد التجميع بشكل عام.

المجموعات هي مجرد مجموعات من العناصر ، والتجميع هو مجرد وضع العناصر في تلك المجموعات. بمعنى علم البيانات ، خوارزميات التجميع تهدف إلى القيام بأمرين:

  • تأكد من أن جميع نقاط البيانات في مجموعة متشابهة مع بعضها البعض قدر الإمكان.
  • تأكد من أن جميع نقاط البيانات في مجموعات مختلفة تختلف عن بعضها البعض قدر الإمكان.

تجمع خوارزميات التجميع العناصر معًا بناءً على بعض مقاييس التشابه. يتم ذلك غالبًا عن طريق العثور على "النقطه الوسطى" للمجموعات المختلفة الممكنة في مجموعة البيانات ، وإن لم يكن ذلك حصريًا. هناك مجموعة متنوعة من خوارزميات التجميع المختلفة ولكن الهدف من كل خوارزميات التجميع هو نفسه ، لتحديد المجموعات الجوهرية لمجموعة البيانات.

K- يعني التكتل

يعد K-Means Clustering أحد أقدم أنواع خوارزميات التجميع وأكثرها استخدامًا ، ويعمل على أساس ناقلات تكميم. هناك نقطة في الفضاء تم اختيارها كأصل ، ثم يتم رسم المتجهات من الأصل إلى جميع نقاط البيانات في مجموعة البيانات.

بشكل عام ، يمكن تقسيم مجموعات K-mean إلى خمس خطوات مختلفة:

  • ضع كل الحالات في مجموعات فرعية ، حيث يكون عدد المجموعات الفرعية مساويًا لـ K.
  • ابحث عن النقطة المتوسطة / النقطه الوسطى لأقسام الكتلة المنشأة حديثًا.
  • بناءً على هذه النقط الوسطى ، قم بتعيين كل نقطة إلى مجموعة محددة.
  • احسب المسافات من كل نقطة إلى النقط الوسطى ، وقم بتعيين نقاط إلى المجموعات حيث تكون المسافة من النقطه الوسطى هي الحد الأدنى.
  • بعد تعيين النقاط إلى المجموعات ، ابحث عن النقطه الوسطى الجديدة من المجموعات.

تتكرر الخطوات المذكورة أعلاه حتى تنتهي عملية التدريب.

في المرحلة الأولية ، يتم وضع النقط الوسطى في مكان ما بين نقاط البيانات.
الصورة: Weston.pace عبر wikimedia commons ، رخصة التوثيق الحرة GNU (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg)

بدلاً من ذلك ، بعد وضع النقط الوسطى ، يمكننا أن نتصور مجموعة الوسائل K على أنها مبادلة ذهابًا وإيابًا بين مرحلتين مختلفتين: وضع العلامات على نقاط البيانات وتحديث النقط الوسطى.

في الخطوة الثانية ، يتم استخدام مقياس مسافة مثل المسافة الإقليدية لحساب النقطه الوسطى التي تكون نقطة معينة هي الأقرب إليها ، ثم يتم تعيين النقاط لفئة النقطه الوسطى. الصورة: Weston.pace عبر ويكيميديا ​​كومنز ، رخصة GNU Free Doc (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_2.svg)

في مرحلة وضع العلامات على نقاط البيانات ، يتم تعيين تسمية لكل نقطة بيانات تضعها في المجموعة التي تنتمي إلى أقرب نقطة مركزية. عادةً ما يتم تحديد أقرب النقطه الوسطى باستخدام مربع المسافة الإقليدية ، على الرغم من أنه يمكن استخدام مقاييس المسافة الأخرى مثل مسافة مانهاتن وجيب التمام وجاكارد اعتمادًا على نوع البيانات التي يتم إدخالها في خوارزمية التجميع.

في الخطوة الثالثة ، يتم نقل النقطه الوسطى إلى متوسط ​​جميع نقاط البيانات. ثم يتم إعادة تعيين الفصول. الصورة: Weston.pace عبر Wikiemedia Commons، CC SA 3.0 (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_3.svg)

في خطوة تحديث النقطه الوسطى ، يتم حساب النقطه الوسطى من خلال إيجاد متوسط ​​المسافة بين جميع نقاط البيانات الموجودة حاليا داخل الكتلة.

كيفية اختيار القيمة الصحيحة لـ "K"

بالنظر إلى أن K-mean clustering عبارة عن خوارزمية غير خاضعة للإشراف وأن عدد الفئات غير معروف مسبقًا ، كيف يمكنك تحديد العدد المناسب للفئات / القيمة الصحيحة لـ K؟

إحدى تقنيات اختيار قيمة K الصحيحة تسمى "تقنية الكوع". تتكون تقنية الكوع من تشغيل خوارزمية التجميع K-mean لمجموعة من قيم K المختلفة واستخدام مقياس الدقة ، عادةً مجموع الخطأ التربيعي ، لتحديد قيم K التي تعطي أفضل النتائج. يتم تحديد مجموع الخطأ التربيعي عن طريق حساب متوسط ​​المسافة بين النقطه الوسطى لمجموعة ونقاط البيانات في تلك المجموعة.

يأتي مصطلح "تقنية الكوع" من حقيقة أنه عندما تقوم برسم SSE فيما يتعلق بالقيم المختلفة لـ K ، فإن مخطط الخط الناتج غالبًا ما يكون له شكل "كوع" ، حيث يتناقص SSE بسرعة بالنسبة للقيم القليلة الأولى من K ، ولكن بعد ذلك المستويات. في مثل هذه الظروف ، تكون قيمة K الموجودة عند المرفق هي أفضل قيمة لـ K ، حيث توجد عوائد متناقصة بسرعة بعد هذه القيمة.

K-Means Clustering دفعة صغيرة

مع نمو مجموعات البيانات بشكل أكبر ، يزداد وقت الحساب أيضًا. يمكن أن يستغرق التجميع الأساسي للوسائل K وقتًا طويلاً حتى يكتمل عند تشغيله على مجموعات بيانات ضخمة ، ونتيجة لذلك ، تم إجراء تعديلات على مجموعة الوسائل K لتمكين تقليل التكاليف المكانية والزمانية للخوارزمية.

Mini-Batch K- يعني التجميع هو متغير في K-mean clustering حيث يتم تحديد حجم مجموعة البيانات قيد النظر. يعمل التجميع العادي لـ K على مجموعة البيانات / الدُفعة بأكملها في وقت واحد ، بينما يعني التجميع K- دفعة صغيرة يقسم مجموعة البيانات إلى مجموعات فرعية. يتم أخذ عينات من الدفعات الصغيرة بشكل عشوائي من مجموعة البيانات بأكملها ولكل تكرار جديد يتم اختيار عينة عشوائية جديدة واستخدامها لتحديث موضع النقط الوسطى.

في مجموعات Mini-Batch K-Means ، يتم تحديث المجموعات بمجموعة من قيم الدُفعات الصغيرة ومعدل التعلم. ينخفض ​​معدل التعلم عبر التكرارات ، وهو معكوس عدد نقاط البيانات الموضوعة في مجموعة معينة. يتمثل تأثير تقليل معدل التعلم في تقليل تأثير البيانات الجديدة وتحقيق التقارب عندما لا توجد تغييرات في المجموعات بعد عدة تكرارات.

تشير نتائج الدراسات حول فعالية التجميع المصغر للدفعة K إلى أنه يمكن أن يقلل بنجاح من وقت الحساب مع مفاضلة طفيفة في جودة الكتلة.

تطبيقات K-Means Clustering

يمكن استخدام المجموعات K- بأمان في أي موقف حيث يمكن تقسيم نقاط البيانات إلى مجموعات / فئات متميزة. فيما يلي بعض الأمثلة على حالات الاستخدام الشائعة لتجميع متوسط ​​K.

يمكن تطبيق تجميع الوسائل K على تصنيف المستندات وتجميع المستندات بناءً على ميزات مثل الموضوعات والعلامات واستخدام الكلمات والبيانات الوصفية وميزات المستند الأخرى. يمكن استخدامه أيضًا لتصنيف المستخدمين على أنهم روبوتات أو ليسوا روبوتات بناءً على أنماط النشاط مثل المنشورات والتعليقات. يمكن أيضًا استخدام مجموعة الوسائل K لوضع الأشخاص في مجموعات بناءً على مستويات القلق عند مراقبة صحتهم ، بناءً على ميزات مثل الأمراض المصاحبة والعمر وتاريخ المريض وما إلى ذلك.

يمكن أيضًا استخدام مجموعات K-mean لإجراء المزيد من المهام ذات النهايات المفتوحة مثل إنشاء أنظمة التوصية. يمكن تجميع مستخدمي نظام مثل Netflix معًا استنادًا إلى أنماط المشاهدة والمحتوى المشابه الموصى به. يمكن استخدام تجميع الوسائل K لمهام الكشف عن العيوب ، وتسليط الضوء على الحالات المحتملة للاحتيال أو العناصر المعيبة.