الذكاء الاصطناعي 101
ما هي الرؤية الحاسوبية؟

ما هي الرؤية الحاسوبية؟
خوارزميات الرؤية الحاسوبية هي واحدة من أكثر الأنظمة المتحولة والقوية في العالم، في الوقت الحالي. نظم الرؤية الحاسوبية تستخدم في المركبات المستقلة، وتوجيه الروبوتات، ونظم التعرف على الوجه، وغيرها. ومع ذلك، ما هي خوارزميات الرؤية الحاسوبية بالضبط؟ كيف تعمل؟ من أجل الإجابة على هذه الأسئلة، سنغوص في النظرية وراء الرؤية الحاسوبية، وخوارزميات الرؤية الحاسوبية، وتطبيقات أنظمة الرؤية الحاسوبية.
كيف تعمل أنظمة الرؤية الحاسوبية؟
من أجل تقدير كيفية عمل أنظمة الرؤية الحاسوبية، دعونا نأخذ لحظة لمناقشة كيف يعرف البشر الأشياء. أفضل تفسير للعلم العصبي للتعرف على الأشياء هو نموذج يصف المرحلة الأولية من تعرف الكائنات كمرحلة حيث يتم تفسير المكونات الأساسية للكائنات، مثل الشكل واللون والعمق، بواسطة الدماغ أولاً. يتم تحليل الإشارات من العين التي تدخل الدماغ لاستخراج حواف الكائن أولاً، وتتم إضافة هذه الحواف معًا إلى تمثيل أكثر تعقيدًا يكمّل شكل الكائن.
تعمل أنظمة الرؤية الحاسوبية بطريقة مشابهة جدًا لنظام الرؤية البشرية، من خلال تحديد حواف الكائن أولاً ثم ربط هذه الحواف معًا في شكل الكائن. الفرق الرئيسي هو أن الحواسيب تفسر الصور على أنها أرقام، لذلك نظام الرؤية الحاسوبية يحتاج إلى طريقة لتحليل البكسل الفردية التي تتكون منها الصورة. سيعين نظام الرؤية الحاسوبية قيمًا للبكسل في الصورة، ومن خلال فحص الفرق في القيم بين منطقة من البكسل وآخر، يمكن للحاسوب تحديد الحواف. على سبيل المثال، إذا كانت الصورة هي صورة بالأبيض والأسود، فإن القيم ستتراوح من الأسود (تمثله بالرقم 0) إلى الأبيض (تمثله بالرقم 255). التغيير المفاجئ في نطاق قيم البكسل القريبة من بعضها البعض سيشير إلى حافة.
يمكن تطبيق هذا المبدأ الأساسي لمقارنة قيم البكسل أيضًا على الصور الملونة، حيث يقارن الحاسوب الفرق بين قنوات الألوان المختلفة RGB. الآن بعد أن نعرف كيف يفحص نظام الرؤية الحاسوبية قيم البكسل لفهم الصورة، دعونا نلقي نظرة على هيكل نظام الرؤية الحاسوبية.
شبكات العصبية التلافيفية (CNNs)
النوع الرئيسي من الذكاء الاصطناعي المستخدم في مهام الرؤية الحاسوبية هو الذي يعتمد على شبكات العصبية التلافيفية. ما هو التلافيف بالضبط؟
التلافيف هي عمليات رياضية تستخدمها الشبكة لتحديد الفرق في القيم بين البكسل. إذا تصورنا شبكة من قيم البكسل، فكر في شبكة صغيرة يتم نقلها فوق هذه الشبكة الرئيسية. يتم تحليل القيم تحت الشبكة الثانية بواسطة الشبكة، لذلك الشبكة تحليل فقط عددًا قليلاً من البكسل في وقت واحد. هذا يُسمى أحيانًا بتقنية “النوافذ المنزلقة”. يتم تلخيص القيم التي يتم تحليلها بواسطة النافذة المنزلقة بواسطة الشبكة، مما يساعد على تقليل تعقيد الصورة وجعلها أسهل للشبكة لاستخراج الأنماط.
تنقسم شبكات العصبية التلافيفية إلى قسمين مختلفين، قسم التلافيف وقسم الاتصال الكامل. طبقات التلافيف في الشبكة هي مستخلصات الميزات، مهمتها تحليل البكسل داخل الصورة وتكوين تمثيلات لها يمكن للطبقات المتصلة كثيفًا أن تتعلم منها. تبدأ طبقات التلافيف بفحص البكسل فقط واستخراج الميزات الأساسية للصورة مثل الحواف. فيما بعد، تجمع طبقات التلافيف الحواف معًا في أشكال أكثر تعقيدًا. في النهاية، من المفترض أن يكون للشبكة تمثيلًا للحواف والتفاصيل في الصورة يمكنها تمريره إلى الطبقات المتصلة كثيفًا.
تعليق الصور
في حين يمكن لشبكة عصبية تلافيفية استخراج الأنماط من الصور بمفردها، يمكن تحسين دقة نظام الرؤية الحاسوبية بشكل كبير عن طريق تعليق الصور. تعليق الصور هو عملية إضافة البيانات الوصفية إلى الصورة التي تساعد المصنف في تحديد الكائنات المهمة في الصورة. استخدام تعليق الصور مهم في أي وقت يتطلب نظام الرؤية الحاسوبية دقة عالية، مثل عندما يتم التحكم في مركبة مستقلة أو روبوت.
هناك طرق مختلفة يمكن أن يتم بها تعليق الصور لتحسين أداء مصنف الرؤية الحاسوبية. يتم تعليق الصور عادةً بصناديق محددة، صندوق يحيط بحواف الكائن المستهدف وي告诉 الحاسوب التركيز على الصندوق. التجزئة الدلالية هي نوع آخر من تعليق الصور، والذي يعمل عن طريق تعيين فئة صورة إلى كل بكسل في الصورة. بمعنى آخر، كل بكسل يمكن اعتباره “عشب” أو “أشجار” سوف يتم تعليمه على أنه ينتمي إلى هذه الفئات. تقدم التقنية دقة على مستوى البكسل، ولكن إنشاء تعليقات التجزئة الدلالية أكثر تعقيدًا وأكثر وقتًا من إنشاء صناديق محددة بسيطة. هناك طرق تعليق أخرى، مثل الخطوط والنقاط، موجودة أيضًا.












