Connect with us

ما هي تقليل الأبعاد؟

الذكاء الاصطناعي 101

ما هي تقليل الأبعاد؟

mm

ما هي تقليل الأبعاد؟

تقليل الأبعاد هو عملية تستخدم لتقليل أبعاد مجموعة بيانات، حيث يتم أخذ العديد من الميزات وتمثيلها كعديد قليل من الميزات. على سبيل المثال، يمكن استخدام تقليل الأبعاد لتقليل مجموعة بيانات من二十 ميزة إلى بضع ميزات فقط. يتم استخدام تقليل الأبعاد بشكل شائع في مهام التعلم غير الموجه لإنشاء فئات تلقائيًا من العديد من الميزات. من أجل فهم أفضل لماذا وكيف يتم استخدام تقليل الأبعاد، سننظر إلى المشاكل المرتبطة بالبيانات عالية الأبعاد وأشهر طرق تقليل الأبعاد.

المزيد من الأبعاد يؤدي إلى التأثير الزائد

الأبعاد تشير إلى عدد الميزات / الأعمدة داخل مجموعة بيانات.

غالبًا ما يُفترض أن المزيد من الميزات أفضل في التعلم الآلي، حيث يُنشئ نموذجًا أكثر دقة. ومع ذلك، لا تعني المزيد من الميزات بالضرورة نموذجًا أفضل.

يمكن أن تختلف ميزات مجموعة البيانات بشكل كبير من حيث مدى فائدتها للنموذج، مع كون العديد من الميزات غير مهمة. بالإضافة إلى ذلك، كلما زادت عدد الميزات في مجموعة البيانات، زادت العينات المطلوبة لضمان تمثيل مجموعات الميزات بشكل جيد في البيانات. لذلك، تزداد عدد العينات مع زيادة عدد الميزات. المزيد من العينات والمزيد من الميزات يعني أن النموذج يحتاج إلى أن يكون أكثر تعقيدًا، وكلما أصبح النموذج أكثر تعقيدًا، أصبح أكثر حساسية للتأثير الزائد. يتعلم النموذج الأنماط في بيانات التدريب بشكل جيد جدًا ويفشل في التعميم على بيانات خارج العينة.

تقليل أبعاد مجموعة البيانات له عدة فوائد. كما ذكرنا، النماذج الأبسط أقل عرضة للتأثير الزائد، حيث لا يحتاج النموذج إلى افتراضات حول كيفية relacion بين الميزات. بالإضافة إلى ذلك، أقل أبعاد يعني أقل قدرة حسابية مطلوبة لتدريب الخوارزميات. بشكل مماثل، أقل مساحة تخزين مطلوبة لمجموعة بيانات ذات أبعاد أصغر. يمكن لتقليل أبعاد مجموعة البيانات أيضًا السماح لك باستخدام خوارزميات غير مناسبة لمجموعات البيانات ذات العديد من الميزات.

طرق تقليل الأبعاد الشائعة

يمكن أن يكون تقليل الأبعاد عن طريق اختيار الميزات أو هندسة الميزات. اختيار الميزات هو حيث يتم تحديد الميزات الأكثر صلة في مجموعة البيانات، بينما هندسة الميزات هي عملية إنشاء ميزات جديدة عن طريق الجمع بين الميزات أو تحويلها.

يمكن أن يتم اختيار الميزات وهندستها بشكل برمجي أو يدويا. عند اختيار الميزات وهندستها يدويا، يتم تحديد التصورات البيانية للبيانات لاكتشاف العلاقات بين الميزات والفئات. يمكن أن يكون تنفيذ تقليل الأبعاد بهذه الطريقة مكلفًا جدًا في الوقت، وبالتالي فإن بعض أكثر الطرق شيوعًا لتقليل الأبعاد تتضمن استخدام الخوارزميات المتاحة في المكتبات مثل Scikit-learn لPYTHON. تتضمن هذه الخوارزميات الشائعة لتقليل الأبعاد تحليل المكونات الرئيسية (PCA)، تحليل القيمة المنفردة (SVD)، و تحليل التمييز الخطي (LDA).

الخوارزميات المستخدمة في تقليل الأبعاد لمهام التعلم غير الموجه هي عادة PCA و SVD، بينما تلك المستخدمة في تقليل الأبعاد للتعلم الموجه هي عادة LDA و PCA. في حالة نماذج التعلم الموجه، يتم إطعام الميزات الجديدة المولدة إلى مصنف التعلم الآلي. لاحظ أن الاستخدامات الموصوفة هنا هي مجرد حالات استخدام عامة وليست الشروط الوحيدة التي يمكن استخدام هذه التقنيات فيها. الخوارزميات لتقليل الأبعاد الموصوفة أعلاه هي مجرد طرق إحصائية وتستخدم خارج نماذج التعلم الآلي.

تحليل المكونات الرئيسية

صورة: مصفوفة مع تحديد المكونات الرئيسية

تحليل المكونات الرئيسية (PCA) هو طريقة إحصائية تحلل سمات مجموعة البيانات وتمثل السمات الأكثر تأثيرًا. يتم دمج سمات مجموعة البيانات معًا في تمثيلات تحتفظ بالمعظم من سمات البيانات ولكنها موزعة على أبعاد أقل. يمكنك التفكير في هذا على أنه “ضغط” البيانات من تمثيل بأبعاد أعلى إلى تمثيل بأبعاد قليلًا.

على سبيل المثال، يمكن استخدام PCA لدمج ميزات أكثر تحديداً وإنشاء ميزات أكثر عمومية وفائدة وأقل عرضة للتأثير الزائد. يمكن أن يكون هذا مفيدًا في تطبيق مثل وصف النبيذ، حيث يمكن وصف النبيذ باستخدام العديد من الميزات المحددة مثل مستويات ثاني أكسيد الكربون ومستويات التهوية، ولكن هذه الميزات قد تكون غير مفيدة عند محاولة تحديد نوع النبيذ.

يتم تنفيذ PCA عن طريق تحديد كيف تختلف الميزات الإدخالية عن المتوسط بالنسبة إلى بعضها البعض، وتحديد ما إذا كانت هناك أي علاقات بين الميزات. يتم إنشاء مصفوفة التباين لتحقيق ذلك، مما يؤدي إلى إنشاء مصفوفة تتكون من التباين بالنسبة إلى أزواج الميزات المحتملة في مجموعة البيانات. يتم استخدام هذا لتحديد العلاقات بين المتغيرات، مع تباين سالب يُظهر علاقة عكسية وتباين إيجابي يُظهر علاقة إيجابية.

تتم إنشاء المكونات الرئيسية (الأكثر تأثيرًا) لمجموعة البيانات عن طريق إنشاء مجموعات خطية من المتغيرات الأولية، باستخدام مفاهيم الجبر الخطي تسمى القيم الذاتية والمتجهات الذاتية. يتم إنشاء هذه المجموعات بحيث تكون المكونات الرئيسية غير مترابطة. يتم ضغط معظم المعلومات الموجودة في المتغيرات الأولية في أولى المكونات الرئيسية، مما يعني أن الميزات الجديدة (المكونات الرئيسية) تم إنشاؤها وتحتوي على المعلومات من مجموعة البيانات الأصلية في مساحة أبعاد أصغر.

تحليل القيمة المنفردة

صورة: بواسطة Cmglee – عمل خاص، CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=67853297

تحليل القيمة المنفردة (SVD) هو طريقة تستخدم لتبسيط القيم داخل مصفوفة، وتقليل المصفوفة إلى مكوناتها الأساسية، مما يجعل الحسابات مع المصفوفة أسهل. يمكن استخدام SVD لتمثيل البيانات بشكل أكثر كفاءة.

يمكن تمثيل مصفوفة A كثلاث مصفوفات أخرى تسمى U و D و V. يتم تقليل أبعاد المصفوفة عن طريق الاحتفاظ بالعديد من الميزات الأكثر أهمية.

تحليل التمييز الخطي

 

اليسار: المصفوفة قبل LDA، اليمين: المحور بعد LDA، الآن منفصل

تحليل التمييز الخطي (LDA) هو عملية تأخذ بيانات من مخطط متعدد الأبعاد وتعيد تمثيله على مخطط خطي. يمكنك تصور ذلك بالتفكير في مخطط ثنائي الأبعاد يحتوي على نقاط بيانات تنتمي إلى فئتين مختلفتين. افترض أن النقاط موزعة حولها بحيث لا يمكن رسم خط يفصل بين الفئتين بسهولة. في هذه الحالة، يمكن تقليل نقاط المخطط ثنائي الأبعاد إلى مخطط أحادي البعد (خط). هذا الخط سيكون جميع نقاط البيانات موزعة عليه ويمكن أن يتم تقسيمه إلى قسمين ي представان أفضل فصل ممكن للبيانات.

عند تنفيذ LDA، هناك两个 أهداف رئيسية. الهدف الأول هو تقليل التباين للفئات، بينما الهدف الثاني هو تعظيم المسافة بين متوسطات الفئتين. يتم تحقيق هذه الأهداف عن طريق إنشاء محور جديد في المخطط ثنائي الأبعاد. يعمل المحور الجديد على فصل الفئتين بناءً على الأهداف المذكورة أعلاه. بعد إنشاء المحور، يتم وضع النقاط الموجودة في المخطط ثنائي الأبعاد على المحور.

تتطلب عملية LDA ثلاث خطوات لتحريك النقاط الأصلية إلى موقع جديد على المحور الجديد. في الخطوة الأولى، يتم حساب المسافة بين متوسطات الفئات (التباين بين الفئات) لتحديد قابلية الفصل بين الفئات. في الخطوة الثانية، يتم حساب التباين داخل الفئات، عن طريق تحديد المسافة بين العينة ومتوسط الفئة. في الخطوة الأخيرة، يتم إنشاء مساحة أقل أبعاد تزيد من التباين بين الفئات.

مدون وبرمجي متخصص في مواضيع Machine Learning و Deep Learning. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الخير الاجتماعي.