رطم كيف يعمل تصنيف الصور؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

كيف يعمل تصنيف الصور؟

mm
تحديث on

كيف يمكن لهاتفك تحديد ما هو الشيء فقط من خلال التقاط صورة له؟ كيف تقوم مواقع التواصل الاجتماعي تلقائيًا بتمييز الأشخاص في الصور؟ يتم تحقيق ذلك من خلال التعرف على الصور المدعومة بالذكاء الاصطناعي وتصنيفها.

إن التعرف على الصور وتصنيفها هو ما يمكّن العديد من الإنجازات الأكثر إثارة للإعجاب للذكاء الاصطناعي. ومع ذلك ، كيف تتعلم أجهزة الكمبيوتر اكتشاف الصور وتصنيفها؟ في هذه المقالة ، سنغطي الطرق العامة التي تستخدمها أجهزة الكمبيوتر لتفسير الصور واكتشافها ، ثم نلقي نظرة على بعض أكثر الطرق شيوعًا لتصنيف تلك الصور.

مستوى البكسل مقابل التصنيف المستند إلى الكائن

يمكن تقسيم تقنيات تصنيف الصور بشكل أساسي إلى فئتين مختلفتين: التصنيف المستند إلى البكسل والتصنيف على أساس الكائن.

وحدات البكسل هي الوحدات الأساسية للصورة ، وتحليل البكسل هو الطريقة الأساسية التي يتم بها تصنيف الصورة. ومع ذلك ، يمكن لخوارزميات التصنيف إما استخدام المعلومات الطيفية فقط داخل وحدات البكسل الفردية لتصنيف صورة أو فحص المعلومات المكانية (وحدات البكسل القريبة) جنبًا إلى جنب مع المعلومات الطيفية. تستخدم طرق التصنيف القائمة على البكسل المعلومات الطيفية فقط (شدة البكسل) ، بينما تأخذ طرق التصنيف القائمة على الكائن في الاعتبار المعلومات الطيفية للبكسل والمعلومات المكانية.

هناك تقنيات تصنيف مختلفة مستخدمة في التصنيف المستند إلى البكسل. وتشمل هذه الحد الأدنى من المسافة إلى المتوسط ​​، والاحتمالية القصوى ، والحد الأدنى من مسافة Mahalanobis. تتطلب هذه الأساليب أن تكون وسائل وتنوعات الفئات معروفة ، وتعمل جميعها من خلال فحص "المسافة" بين وسائل الفئة والبكسل المستهدف.

طرق التصنيف القائمة على البكسل محدودة بحقيقة أنها لا تستطيع استخدام المعلومات من وحدات البكسل الأخرى القريبة. في المقابل ، يمكن أن تتضمن طرق التصنيف القائمة على الكائنات وحدات بكسل أخرى ، وبالتالي فهي تستخدم أيضًا المعلومات المكانية لتصنيف العناصر. لاحظ أن "الكائن" يشير فقط إلى المناطق المتجاورة من وحدات البكسل وليس ما إذا كان هناك كائن مستهدف داخل تلك المنطقة من البكسل أم لا.

المعالجة المسبقة لبيانات الصورة لاكتشاف الكائنات

تستخدم أنظمة تصنيف الصور الأحدث والأكثر موثوقية في المقام الأول مخططات التصنيف على مستوى الكائن ، ولهذه الأساليب يجب إعداد بيانات الصور بطرق محددة. يجب تحديد الأشياء / المناطق ومعالجتها مسبقًا.

قبل أن يتم تصنيف الصورة والأشياء/المناطق الموجودة داخل تلك الصورة، يجب تفسير البيانات التي تتكون منها تلك الصورة بواسطة الكمبيوتر. يجب معالجة الصور مسبقًا وتجهيزها لإدخالها في خوارزمية التصنيف، ويتم ذلك من خلال اكتشاف الكائنات. يعد هذا جزءًا مهمًا من تجهيز البيانات وإعداد الصور لتدريب مصنف التعلم الآلي.

يتم الكشف عن الكائن باستخدام مجموعة متنوعة من الأساليب والتقنيات. بادئ ذي بدء ، ما إذا كانت هناك أشياء متعددة ذات أهمية أم لا أو كائن واحد مثير للاهتمام يؤثر على كيفية معالجة الصورة المسبقة. إذا كان هناك شيء واحد فقط موضع اهتمام ، فإن الصورة تخضع لتوطين الصورة. تحتوي وحدات البكسل التي تتكون منها الصورة على قيم عددية يتم تفسيرها بواسطة الكمبيوتر ويتم استخدامها لعرض الألوان وتدرجات الألوان المناسبة. يتم رسم كائن يعرف باسم الصندوق المحيط حول الكائن محل الاهتمام ، مما يساعد الكمبيوتر على معرفة أي جزء من الصورة مهم وما هي قيم البكسل التي تحدد الكائن. في حالة وجود كائنات متعددة ذات أهمية في الصورة ، يتم استخدام تقنية تسمى اكتشاف الكائن لتطبيق هذه المربعات المحيطة على جميع الكائنات داخل الصورة.

الصورة: Adrian Rosebrock عبر Wikimedia Commons، CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

طريقة أخرى للمعالجة المسبقة هي تجزئة الصورة. يعمل تجزئة الصورة عن طريق تقسيم الصورة بأكملها إلى أجزاء بناءً على ميزات مماثلة. سيكون للمناطق المختلفة من الصورة قيم بكسل متشابهة مقارنة بالمناطق الأخرى من الصورة ، لذلك يتم تجميع وحدات البكسل هذه معًا في أقنعة صورة تتوافق مع شكل وحدود الكائنات ذات الصلة داخل الصورة. يساعد تجزئة الصورة الكمبيوتر على عزل ميزات الصورة التي ستساعده في تصنيف كائن ، كما تفعل المربعات المحيطة ، ولكنها توفر تسميات أكثر دقة على مستوى البكسل.

بعد اكتمال اكتشاف الكائن أو تجزئة الصورة ، يتم تطبيق الملصقات على المناطق المعنية. يتم تغذية هذه الملصقات ، جنبًا إلى جنب مع قيم وحدات البكسل المكونة للكائن ، في خوارزميات التعلم الآلي التي ستتعلم الأنماط المرتبطة بالتسميات المختلفة.

خوارزميات التعلم الآلي

بمجرد إعداد البيانات وتصنيفها ، يتم إدخال البيانات في خوارزمية التعلم الآلي ، والتي تتدرب على البيانات. سنغطي بعض أكثر أنواع التعلم الآلي شيوعًا خوارزميات تصنيف الصور أدناه.

K- أقرب الجيران

K-Nearest Neighbours هي خوارزمية تصنيف تفحص أقرب أمثلة التدريب وتنظر في تسمياتها للتأكد من التسمية الأكثر احتمالية لمثال اختبار معين. عندما يتعلق الأمر بتصنيف الصور باستخدام KNN ، يتم تخزين ناقلات الميزات والتسميات الخاصة بصور التدريب ويتم تمرير ناقل الميزة فقط إلى الخوارزمية أثناء الاختبار. ثم تتم مقارنة ناقلات ميزات التدريب والاختبار مع بعضها البعض من أجل التشابه.

تعد خوارزميات التصنيف القائمة على KNN بسيطة للغاية وتتعامل مع فئات متعددة بسهولة تامة. ومع ذلك ، تحسب KNN التشابه بناءً على جميع الميزات بالتساوي. هذا يعني أنه يمكن أن يكون عرضة لسوء التصنيف عند تزويده بالصور حيث تكون مجموعة فرعية فقط من الميزات مهمة لتصنيف الصورة.

دعم آلات مكافحة ناقلات

آلات المتجهات الداعمة هي طريقة تصنيف تضع النقاط في الفراغ ثم ترسم خطوطًا فاصلة بين النقاط ، وتضع الكائنات في فئات مختلفة اعتمادًا على أي جانب من مستوى التقسيم تقع عليه النقاط. آلات المتجهات الداعمة قادرة على القيام بالتصنيف غير الخطي من خلال استخدام تقنية تعرف باسم خدعة النواة. في حين أن مصنفات SVM غالبًا ما تكون دقيقة للغاية ، إلا أن العيب الكبير لمصنفات SVM هو أنها تميل إلى أن تكون محدودة من حيث الحجم والسرعة ، مع معاناة السرعة مع زيادة الحجم.

الإدراك متعدد الطبقات (الشبكات العصبية)

إن الإدراك متعدد الطبقات ، الذي يُطلق عليه أيضًا نماذج الشبكة العصبية ، عبارة عن خوارزميات تعلم آلي مستوحاة من الدماغ البشري. تتكون الإدراكات متعددة الطبقات من طبقات مختلفة مرتبطة ببعضها البعض ، تمامًا مثل الخلايا العصبية في الدماغ البشري مرتبطة ببعضها البعض. تضع الشبكات العصبية افتراضات حول كيفية ارتباط ميزات الإدخال بفئات البيانات ويتم تعديل هذه الافتراضات على مدار التدريب. نماذج الشبكة العصبية البسيطة مثل المدرك متعدد الطبقات قادرة على تعلم العلاقات غير الخطية ، ونتيجة لذلك ، يمكن أن تكون أكثر دقة من النماذج الأخرى. ومع ذلك ، فإن نماذج MLP تعاني من بعض المشكلات البارزة مثل وجود وظائف فقدان غير محدبة.

خوارزميات التعلم العميق (CNNs)

الصورة: APhex34 عبر ويكيميديا ​​كومنز ، CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

خوارزمية تصنيف الصور الأكثر استخدامًا في الآونة الأخيرة هي الشبكة العصبية التلافيفية (CNNs). تعد شبكات CNN عبارة عن إصدارات مخصصة من الشبكات العصبية التي تجمع بين الشبكات العصبية متعددة الطبقات والطبقات المتخصصة القادرة على استخراج الميزات الأكثر أهمية وذات الصلة بتصنيف الكائن. يمكن لشبكات CNN اكتشاف ميزات الصور وإنشاءها والتعرف عليها تلقائيًا. وهذا يقلل بشكل كبير من الحاجة إلى تصنيف الصور وتقسيمها يدويًا لإعدادها لخوارزميات التعلم الآلي. لديهم أيضًا ميزة على شبكات MLP لأنها تستطيع التعامل مع وظائف الخسارة غير المحدبة.

تحصل الشبكات العصبية التلافيفية على اسمها من حقيقة أنها تخلق "تلافيفات". تعمل شبكات CNN عن طريق أخذ مرشح وتحريكه فوق الصورة. يمكنك التفكير في هذا على أنه عرض أقسام من منظر طبيعي من خلال نافذة متحركة ، مع التركيز فقط على الميزات التي يمكن رؤيتها من خلال النافذة في أي وقت. يحتوي المرشح على قيم عددية يتم ضربها بقيم وحدات البكسل نفسها. والنتيجة هي إطار جديد ، أو مصفوفة ، مليئة بالأرقام التي تمثل الصورة الأصلية. تتكرر هذه العملية لعدد مختار من المرشحات ، ثم يتم ضم الإطارات معًا في صورة جديدة أصغر قليلاً وأقل تعقيدًا من الصورة الأصلية. يتم استخدام تقنية تسمى التجميع لتحديد أهم القيم فقط داخل الصورة ، والهدف هو أن تقوم الطبقات التلافيفية في النهاية باستخراج الأجزاء الأكثر بروزًا من الصورة التي ستساعد الشبكة العصبية على التعرف على الكائنات الموجودة في الصورة.

الشبكات العصبية التلافيفية تتكون من جزأين مختلفين. الطبقات التلافيفية هي التي تستخرج ميزات الصورة وتحولها إلى تنسيق يمكن لطبقات الشبكة العصبية تفسيره والتعلم منه. الطبقات التلافيفية المبكرة هي المسؤولة عن استخراج العناصر الأساسية للصورة ، مثل الخطوط والحدود البسيطة. تبدأ الطبقات التلافيفية الوسطى في التقاط أشكال أكثر تعقيدًا ، مثل المنحنيات والزوايا البسيطة. تستخرج الطبقات التلافيفية الأعمق الأعمق الميزات عالية المستوى للصورة ، والتي هي ما يتم تمريره إلى جزء الشبكة العصبية لشبكة CNN ، وهو ما يتعلمه المصنف.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.