الذكاء الاصطناعي 101

كيف تعمل تصنيف الصور؟

Published September 5, 2020

Updated April 28, 2026

Daniel Nelson

كيف يمكن للهاتف تحديد ما هي الكائنات فقط من خلال تصويرها؟ كيف تقوم مواقع التواصل الاجتماعي بالتعرف على الأشخاص في الصور تلقائيًا؟ يتم ذلك من خلال التعرف على الصور المدعوم بالذكاء الاصطناعي وتصنيفها.

التعرف والتصنيف على الصور هو ما يمكّن العديد من الإنجازات الأكثر إثارة للإعجاب للذكاء الاصطناعي. ومع ذلك ، كيف يتعلم الأجهزة الكمبيوتر كيفية الكشف عن الصور وتصنيفها؟ في هذه المقالة ، سنغطي الطرق العامة التي تستخدمها الأجهزة الكمبيوتر لتحليل الصور والكشف عنها ، ثم نلقي نظرة على بعض الطرق الأكثر شعبية لتصنيف تلك الصور.

التصنيف على مستوى البكسل مقابل التصنيف المبني على الكائن

يمكن تقسيم تقنيات تصنيف الصور بشكل رئيسي إلى فئتين مختلفتين: التصنيف المبني على البكسل والتصنيف المبني على الكائن.

البكسل هي الوحدات الأساسية للصورة ، وتحليل البكسل هو الطريقة الأساسية التي يتم من خلالها تصنيف الصور. ومع ذلك ، يمكن للخوارزميات التصنيفية استخدام المعلومات الطيفية داخل البكسل الفردية لتصنيف الصورة أو فحص المعلومات المكانية (البكسل القريبة) بالإضافة إلى المعلومات الطيفية. تستخدم طرق التصنيف المبني على البكسل معلومات طيفية فقط (شدة البكسل) ، بينما تأخذ طرق التصنيف المبني على الكائن في الاعتبار كل من المعلومات الطيفية للبكسل والمعلومات المكانية.

توجد تقنيات تصنيف مختلفة تستخدم للتصنيف المبني على البكسل. وتشمل هذه الطرق أقرب مسافة إلى الوسط ، والاحتمالية القصوى ، وأقرب مسافة Mahalanobis. تتطلب هذه الطرق أن تكون الوسطاء والانحرافات المعيارية للفئات معروفة ، وتعمل جميعها من خلال فحص “المسافة” بين الوسطاء للفئات والبكسل المستهدف.

التصنيف المبني على البكسل محدود بسبب عدم khảية استخدام المعلومات من البكسل القريبة. في المقابل ، يمكن للتصنيف المبني على الكائن أن يشمل بكسل أخرى وبالتالي يستخدم أيضًا المعلومات المكانية لتصنيف العناصر. لاحظ أن “الكائن” يشير فقط إلى المناطق المتجاورة من البكسل وليس إلى ما إذا كان هناك كائن مستهدف داخل تلك المنطقة من البكسل.

معالجة بيانات الصور للكشف عن الكائنات

النظم الأكثر حداثة وموثوقية لتصنيف الصور تستخدم في الغالب مخططات تصنيف على مستوى الكائن ، وللمواقف هذه ، يجب إعداد بيانات الصور بطرق معينة. يجب اختيار الكائنات / المناطق ومعالجتها.

قبل أن يتمكن الكمبيوتر من تفسير الصورة وتصنيفها ، يجب تفسير البيانات التي تتكون منها الصورة بواسطة الكمبيوتر. تحتاج الصور إلى معالجة وتحضيرها لل入口 إلى خوارزمية التصنيف ، ويتم ذلك من خلال الكشف عن الكائنات. هذا هو جزء حاسم من تحضير البيانات وإعداد الصور لتدريب مصنف التعلم الآلي.

يتم الكشف عن الكائنات بطرق وتقنيات متعددة. للمزيد من المعلومات.まず، سواء كان هناك كائن واحد أو عدة كائنات محل الاهتمام ، يؤثر ذلك على كيفية معالجة الصورة. إذا كان هناك كائن واحد فقط محل الاهتمام ، فإن الصورة تخضع لعملية تحديد الموقع. يتم تفسير القيم العددية للبكسل التي تتكون منها الصورة بواسطة الكمبيوتر واستخدامها لعرض الألوان والألوان بشكل صحيح. يتم رسم كائن يسمى صندوق التحديد حول الكائن محل الاهتمام ، مما يساعد الكمبيوتر على معرفة جزء الصورة المهم وما هي قيم البكسل التي تعرف الكائن. إذا كان هناك عدة كائنات محل الاهتمام في الصورة ، يتم استخدام تقنية تسمى الكشف عن الكائنات لتطبيق هذه الصناديق التحديدية على جميع الكائنات داخل الصورة.

صورة: Adrian Rosebrock via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

طريقة أخرى لمعالجة الصور هي تقنية التجزئة. تعمل التجزئة عن طريق تقسيم الصورة بأكملها إلى مقاطع بناءً على الميزات المماثلة. سيكون للمناطق المختلفة من الصورة قيم بكسل مماثلة مقارنة بمناطق أخرى من الصورة ، لذلك يتم تجميع هذه البكسل معًا في أقنعة صورة تتوافق مع شكل وحدود الكائنات ذات الصلة داخل الصورة. تساعد التجزئة الكمبيوتر على عزل الميزات من الصورة التي ستساعد في تصنيف الكائن ، تمامًا مثل صناديق التحديد ، ولكنها توفر علامات أكثر دقة على مستوى البكسل.

بعد اكتمال الكشف عن الكائنات أو التجزئة ، يتم تطبيق العلامات على المناطق المعنية. يتم تغذية هذه العلامات ، جنبًا إلى جنب مع قيم البكسل التي تتكون منها الكائن ، إلى خوارزميات التعلم الآلي التي ستتعلم الأنماط المرتبطة بالعلامات المختلفة.

خوارزميات التعلم الآلي

مرة واحدة يتم إعداد البيانات وتحميلها ، يتم تغذية البيانات إلى خوارزمية تعلم آلي ، والتي يتم تدريبها على البيانات. سنغطي بعض أنواع خوارزميات تصنيف الصور الأكثر شيوعًا الخوارزميات أدناه.

جيران أقرب K

جيران أقرب K هو خوارزمية تصنيف يفحص الأمثلة التدريبية الأقرب وينظر إلى علاماتها لتحديد العلامة الأكثر احتمالاً لمثال اختبار معين. عند استخدام KNN لتصنيف الصور ، يتم تخزين متجهات الميزات و العلامات من الصور التدريبية ومجرد تمرير متجه الميزة إلى الخوارزمية أثناء الاختبار. ثم يتم مقارنة متجهات الميزات التدريبية والاختبارية لتحديد التشابه.

خوارزميات التصنيف التي تعتمد على KNN بسيطة جدًا وتتعامل مع عدة فئات بسهولة. ومع ذلك ، KNN يحسب التشابه بناءً على جميع الميزات بالتساوي. هذا يعني أنه قد يكون عرضة للخلط عند توفير صور حيث فقط جزء فرعي من الميزات مهم للتصنيف.

آلات الدعم النوعي

آلات الدعم النوعي هي طريقة تصنيف توضع النقاط في الفضاء ثم ترسم خطوطًا تفصلية بين النقاط ، وتوضع الكائنات في فئات مختلفة بناءً على جانب من خطوط الفصل التي تقع عليه النقاط. يمكن لآلات الدعم النوعي القيام بالتصنيف غير الخطي من خلال استخدام تقنية تسمى خدعة النواة. بينما تكون مصنفات SVM دقيقة غالبًا ، فإن عيبًا كبيرًا لمصنفات SVM هو أنها تميل إلى أن تكون مقيدة بالحجم والسرعة ، مع تأثر السرعة بزيادة الحجم.

الشبكات العصبية متعددة الطبقات (الشبكات العصبية)

الشبكات العصبية متعددة الطبقات ، والمعروفة أيضًا باسم نماذج الشبكات العصبية ، هي خوارزميات تعلم آلي مستوحاة من الدماغ البشري. تتكون الشبكات العصبية متعددة الطبقات من طبقات متعددة متصلة ببعضها البعض ، تمامًا كما يتم ربط الخلايا العصبية في الدماغ البشري ببعضها البعض. تفترض الشبكات العصبية افتراضات حول كيفية علاقات الميزات الإدخالية بالفئات للبيانات وتتم تعديل هذه الافتراضات خلال التدريب. يمكن للنماذج البسيطة من الشبكات العصبية مثل الشبكة متعددة الطبقات التعلم العلاقات غير الخطية ، وبالتالي يمكن أن تكون أكثر دقة من النماذج الأخرى. ومع ذلك ، تعاني نماذج MLP من بعض المشاكل الملحوظة مثل وجود دوال خسارة غير محدبة.

خوارزميات التعلم العميق (CNNs)

صورة: APhex34 via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

أكثر خوارزمية تصنيف صور شائعة في الآونة الأخيرة هي الشبكة العصبية التجميعية (CNNs). الشبكات العصبية التجميعية هي نسخ مخصصة من الشبكات العصبية التي تجمع بين الشبكات العصبية متعددة الطبقات مع طبقات متخصصة قادرة على استخراج الميزات الأكثر أهمية والأكثر صلة بتصنيف الكائن. يمكن للشبكات العصبية التجميعية اكتشاف وتوليد وتعلم ميزات الصور تلقائيًا. هذا يقلل بشكل كبير من الحاجة إلى تحديد وتجزئة الصور يدويًا لتحضيرها لخوارزميات التعلم الآلي. كما أنها تمتلك ميزة على شبكات MLP لأنها يمكنها التعامل مع دوال الخسارة غير المحدبة.

تسمى الشبكات العصبية التجميعية بهذا الاسم لأنها تخلق “تجميعات”. تعمل الشبكات العصبية التجميعية عن طريق أخذ مرشح وتجسيدُه على الصورة. يمكنك التفكير في ذلك على أنه النظر إلى أجزاء من المناظر الطبيعية من خلال نافذة قابلة للنقل ، مع التركيز على الميزات التي يمكن رؤيتها من خلال النافذة في أي وقت. يحتوي المرشح على قيم رقمية يتم ضربها بقيم البكسل نفسها. النتيجة هي إطار جديد ، أو مصفوفة ، ممتلئة بأرقام تمثل الصورة الأصلية. يُكرر هذا العملية لعدد معين من المرشحات ، ثم يتم ربط الإطارات معًا في صورة جديدة تكون أصغر وأقل تعقيدًا من الصورة الأصلية. يتم استخدام تقنية تسمى التجميع لاختيار القيم الأكثر أهمية فقط داخل الصورة ، والهدف هو أن تقوم الطبقات التجميعية في النهاية باستخراج فقط الأجزاء الأكثر أهمية من الصورة التي ستساعد الشبكة العصبية على التعرف على الكائنات في الصورة.

تتكون الشبكات العصبية التجميعية من جزئين مختلفين. الطبقات التجميعية هي ما يستخرج ميزات الصورة ويتحولها إلى صيغة يمكن للطبقات العصبية تفسيرها وتعلمها. تكون الطبقات التجميعية المبكرة مسؤولة عن استخراج العناصر الأساسية للصورة ، مثل الخطوط البسيطة والحدود. تبدأ الطبقات التجميعية الوسطى في التقاط أشكال أكثر تعقيدًا ، مثل المنحنيات البسيطة والزوايا. تستخرج الطبقات التجميعية الأعمق ميزات الصورة عالية المستوى ، والتي يتم تمريرها إلى جزء الشبكة العصبية من CNN ، وهي ما يتعلمه المصنف.