الذكاء الاصطناعي

YOLOv7: خوارزمية اكتشاف الأشياء الأكثر تقدمًا؟

تم النشر 24 يوليو، 2023

كونال كيجريوال

سيتم وضع علامة على يوم 6 يوليو 2022 باعتباره علامة بارزة في تاريخ الذكاء الاصطناعي لأنه كان في هذا اليوم الذي تم فيه إصدار YOLOv7. منذ إطلاقه، كان YOLOv7 هو الموضوع الأكثر سخونة في مجتمع مطوري Computer Vision، وذلك للأسباب الصحيحة. يُنظر إلى YOLOv7 بالفعل على أنه علامة فارقة في صناعة اكتشاف الكائنات.

بعد وقت قصير من تم نشر ورقة YOLOv7 ، تبين أنه أسرع وأدق نموذج للكشف عن الاعتراضات في الوقت الفعلي. ولكن كيف تتفوق YOLOv7 على سابقاتها؟ ما الذي يجعل YOLOv7 فعالاً للغاية في أداء مهام رؤية الكمبيوتر؟

سنحاول في هذه المقالة تحليل نموذج YOLOv7 ، ونحاول العثور على إجابة لماذا أصبح YOLOv7 الآن معيارًا صناعيًا؟ ولكن قبل أن نتمكن من الإجابة على ذلك ، سيتعين علينا إلقاء نظرة على التاريخ المختصر لاكتشاف الأشياء.

ما هو اكتشاف الأجسام؟

اكتشاف الكائن هو فرع في رؤية الكمبيوتر يحدد موقع الأشياء في صورة أو ملف فيديو. يعد اكتشاف الأشياء هو اللبنة الأساسية للعديد من التطبيقات بما في ذلك السيارات ذاتية القيادة والمراقبة الخاضعة للمراقبة وحتى الروبوتات.

يمكن تصنيف نموذج اكتشاف الكائن إلى فئتين مختلفتين ، كاشفات أحادية الطلقة ، و كاشفات متعددة الطلقات.

اكتشاف الأشياء في الوقت الحقيقي

لفهم كيفية عمل YOLOv7 حقًا ، من الضروري أن نفهم الهدف الرئيسي لـ YOLOv7 ، "اكتشاف الأشياء في الوقت الحقيقي ". يعد اكتشاف الأشياء في الوقت الفعلي مكونًا رئيسيًا في رؤية الكمبيوتر الحديثة. تحاول نماذج Real Time Object Detection التعرف على الأشياء المهمة وتحديد موقعها في الوقت الفعلي. جعلت نماذج Real Time Object Detection من الفعالية حقًا للمطورين تتبع الكائنات ذات الأهمية في إطار متحرك مثل مقطع فيديو أو إدخال مراقبة حية.

تعد نماذج اكتشاف الأشياء في الوقت الفعلي بشكل أساسي خطوة للأمام من نماذج اكتشاف الصور التقليدية. بينما يتم استخدام الأول لتتبع الكائنات في ملفات الفيديو ، يقوم الأخير بتحديد موقع الكائنات وتحديدها داخل إطار ثابت مثل الصورة.

نتيجة لذلك ، تعد نماذج Real Time Object Detection فعالة حقًا لتحليلات الفيديو ، والمركبات المستقلة ، وعد الكائنات ، وتتبع الكائنات المتعددة ، وأكثر من ذلك بكثير.

ما هو YOLO؟

YOLO أو "أنت تنظر مرة واحدة فقط"هي عائلة من نماذج اكتشاف الكائنات في الوقت الفعلي. تم تقديم مفهوم YOLO لأول مرة في عام 2016 بواسطة جوزيف ريدمون ، وكان حديث المدينة على الفور تقريبًا لأنه كان أسرع بكثير وأكثر دقة من خوارزميات اكتشاف الكائنات الموجودة. لم يمض وقت طويل قبل أن تصبح خوارزمية YOLO معيارًا في صناعة رؤية الكمبيوتر.

المفهوم الأساسي الذي تقترحه خوارزمية YOLO هو استخدام شبكة عصبية شاملة باستخدام المربعات المحيطة واحتمالات الفئة لعمل تنبؤات في الوقت الفعلي. كان YOLO مختلفًا عن نموذج اكتشاف الكائن السابق بمعنى أنه اقترح طريقة مختلفة لإجراء اكتشاف الكائن عن طريق إعادة تعيين المصنفات.

نجح التغيير في النهج حيث أصبح YOLO قريبًا معيار الصناعة حيث كانت فجوة الأداء بينها ، وخوارزميات اكتشاف الكائنات الأخرى في الوقت الفعلي كبيرة. ولكن ما هو سبب كفاءة YOLO؟

عند مقارنتها بـ YOLO ، استخدمت خوارزميات اكتشاف الكائنات في ذلك الوقت شبكات اقتراح المنطقة لاكتشاف مناطق الاهتمام المحتملة. ثم تم إجراء عملية التعرف على كل منطقة على حدة. نتيجةً لذلك ، غالبًا ما أجرت هذه النماذج تكرارات متعددة على نفس الصورة ، وبالتالي نقص الدقة ووقت تنفيذ أعلى. من ناحية أخرى ، تستخدم خوارزمية YOLO طبقة واحدة متصلة بالكامل لإجراء التنبؤ مرة واحدة.

كيف تعمل YOLO؟

هناك ثلاث خطوات تشرح كيفية عمل خوارزمية YOLO.

إعادة تأطير اكتشاف الكائن باعتباره مشكلة انحدار واحدة

استخدم تحاول خوارزمية YOLO إعادة صياغة اكتشاف الكائن كمشكلة انحدار واحدة، بما في ذلك بكسل الصورة ، لفئة الاحتمالات وإحداثيات المربع المحيط. ومن ثم ، يجب أن تنظر الخوارزمية إلى الصورة مرة واحدة فقط للتنبؤ وتحديد موقع الكائنات المستهدفة في الصور.

أسباب الصورة عالميا

وعلاوة على ذلك، عندما تقوم خوارزمية YOLO بعمل تنبؤات ، فإنها تتسبب في الصورة بشكل عام. إنها تختلف عن التقنيات القائمة على اقتراح المنطقة ، والتقنيات المنزلقة حيث ترى خوارزمية YOLO الصورة الكاملة أثناء التدريب والاختبار على مجموعة البيانات ، وهي قادرة على ترميز المعلومات السياقية حول الفئات وكيفية ظهورها.

قبل YOLO ، كانت Fast R-CNN واحدة من أكثر خوارزميات اكتشاف الكائنات شيوعًا والتي لم تستطع رؤية السياق الأكبر في الصورة لأنها كانت تُخطئ في تصحيحات الخلفية في صورة ما. عند مقارنتها بخوارزمية Fast R-CNN ، فإن YOLO أكثر دقة بنسبة 50٪ عندما يتعلق الأمر بأخطاء الخلفية.

يعمم تمثيل الكائنات

أخيرًا ، تهدف خوارزمية YOLO أيضًا إلى تعميم تمثيلات الكائنات في صورة ما. نتيجة لذلك ، عندما تم تشغيل خوارزمية YOLO على مجموعة بيانات مع صور طبيعية ، واختبارها من أجل النتائج ، تفوقت YOLO على نماذج R-CNN الحالية بهامش واسع. ذلك لأن YOLO قابل للتعميم بشكل كبير ، فإن فرص تعطله عند تنفيذه على مدخلات غير متوقعة أو مجالات جديدة كانت ضئيلة.

YOLOv7: ما الجديد؟

الآن بعد أن أصبح لدينا فهم أساسي لماهية نماذج اكتشاف الكائنات في الوقت الفعلي ، وما هي خوارزمية YOLO ، فقد حان الوقت لمناقشة خوارزمية YOLOv7.

تحسين عملية التدريب

لا تحاول خوارزمية YOLOv7 تحسين بنية النموذج فحسب ، بل تهدف أيضًا إلى تحسين عملية التدريب. يهدف إلى استخدام وحدات وأساليب التحسين لتحسين دقة اكتشاف الأشياء ، وتعزيز تكلفة التدريب ، مع الحفاظ على تكلفة التداخل. يمكن الإشارة إلى وحدات التحسين هذه باسم a حقيبة مجانية قابلة للتدريب.

تعيين الملصقات الإرشادية من الخشنة إلى الدقيقة

تخطط خوارزمية YOLOv7 لاستخدام تعيين جديد من Coarse to Fine Lead Label بدلاً من التقليدي تعيين التسمية الديناميكي. يرجع السبب في ذلك إلى أنه مع تعيين الملصق الديناميكي ، يؤدي تدريب نموذج بطبقات إخراج متعددة إلى حدوث بعض المشكلات ، وأكثرها شيوعًا هو كيفية تعيين أهداف ديناميكية للفروع المختلفة ومخرجاتها.

نموذج إعادة المعلمة

تعد إعادة صياغة النموذج مفهومًا مهمًا في اكتشاف الكائن ، ويتبع استخدامه بشكل عام مع بعض المشكلات أثناء التدريب. تخطط خوارزمية YOLOv7 لاستخدام مفهوم مسار انتشار التدرج لتحليل سياسات إعادة النموذج تنطبق على طبقات مختلفة في الشبكة.

التمديد والتحجيم المركب

تقدم خوارزمية YOLOv7 أيضًا ملف طرق التحجيم الموسعة والمركبة للاستفادة من المعلمات والحسابات واستخدامها بشكل فعال لاكتشاف الكائنات في الوقت الفعلي.

YOLOv7: الأعمال ذات الصلة

اكتشاف الأشياء في الوقت الحقيقي

يعد YOLO حاليًا معيار الصناعة ، وتنشر معظم أجهزة الكشف عن الكائنات في الوقت الفعلي خوارزميات YOLO و FCOS (اكتشاف الكائنات ذات المرحلة الواحدة التلافيفية بالكامل). عادة ما يكون لأحدث أجهزة الكشف عن الأشياء في الوقت الحقيقي الخصائص التالية

بنية شبكة أقوى وأسرع.
طريقة فعالة لتكامل الميزات.
طريقة دقيقة للكشف عن الأشياء.
وظيفة خسارة قوية.
طريقة فعالة لتخصيص التسمية.
طريقة تدريب فعالة.

لا تستخدم خوارزمية YOLOv7 التعلم الذاتي وطرق التقطير التي تتطلب غالبًا كميات كبيرة من البيانات. على العكس من ذلك ، تستخدم خوارزمية YOLOv7 طريقة حقيبة مجانية قابلة للتدريب.

نموذج إعادة المعلمة

تُعتبر تقنيات إعادة تحديد المعلمات النموذجية بمثابة تقنية تجميعية تدمج وحدات حسابية متعددة في مرحلة التداخل. يمكن تقسيم التقنية كذلك إلى فئتين ، فرقة على مستوى النموذج و فرقة على مستوى الوحدة.

الآن ، للحصول على نموذج التداخل النهائي ، تستخدم تقنية إعادة المعاملات على مستوى النموذج عمليتين. تستخدم الممارسة الأولى بيانات تدريبية مختلفة لتدريب العديد من النماذج المتطابقة ، ثم حساب متوسطات أوزان النماذج المدربة. بدلاً من ذلك ، تقوم الممارسة الأخرى بعمل متوسطات أوزان النماذج أثناء التكرارات المختلفة.

تكتسب إعادة تحديد مستوى الوحدة النمطية شعبية هائلة مؤخرًا لأنها تقسم الوحدة إلى فروع وحدة مختلفة ، أو فروع متماثلة مختلفة أثناء مرحلة التدريب ، ثم تشرع في دمج هذه الفروع المختلفة في وحدة نمطية مكافئة أثناء التداخل.

ومع ذلك ، لا يمكن تطبيق تقنيات إعادة تحديد المعايير على جميع أنواع العمارة. هذا هو السبب في أن تستخدم خوارزمية YOLOv7 تقنيات جديدة لإعادة تحديد المعايير لتصميم الاستراتيجيات ذات الصلة مناسبة لأبنية مختلفة.

تحجيم النموذج

مقياس النموذج هو عملية توسيع نطاق النموذج الحالي أو تصغيره بحيث يتناسب مع أجهزة الحوسبة المختلفة. يستخدم مقياس النموذج عمومًا مجموعة متنوعة من العوامل مثل عدد الطبقات (عمق) ، حجم الصور المدخلة (قرار) ، عدد الأهرامات المميزة (مرحلة) وعدد القنوات (عرض). تلعب هذه العوامل دورًا حاسمًا في ضمان المقايضة المتوازنة لمعلمات الشبكة وسرعة التداخل والحساب ودقة النموذج.

واحدة من أكثر طرق القياس شيوعًا هي NAS أو بحث معمارية الشبكة يبحث تلقائيًا عن عوامل القياس المناسبة من محركات البحث دون أي قواعد معقدة. الجانب السلبي الرئيسي لاستخدام NAS هو أنه نهج مكلف للبحث عن عوامل القياس المناسبة.

يحلل كل نموذج لإعادة تحديد المعايير تقريبًا عوامل القياس الفردية والفريدة بشكل مستقل ، علاوة على ذلك ، يعمل على تحسين هذه العوامل بشكل مستقل. ذلك لأن بنية NAS تعمل مع عوامل تحجيم غير مرتبطة.

تجدر الإشارة إلى أن النماذج القائمة على التسلسل مثل VoVNet or دينسينت قم بتغيير عرض الإدخال لبضع طبقات عند قياس عمق النماذج. يعمل YOLOv7 على بنية مقترحة قائمة على التسلسل ، وبالتالي يستخدم طريقة قياس مركبة.

الرقم المذكور أعلاه يقارن تمديد شبكات تجميع الطبقات الفعالة (ايلان) من نماذج مختلفة. تحافظ طريقة E-ELAN المقترحة على مسار انتقال التدرج للمعمارية الأصلية ، ولكنها تهدف إلى زيادة عدد العناصر الأساسية للسمات المضافة باستخدام الالتواء الجماعي. يمكن أن تعزز العملية الميزات التي تعلمتها الخرائط المختلفة ، ويمكن أن تجعل استخدام الحسابات والمعلمات أكثر كفاءة.

YOLOv7 العمارة

يستخدم نموذج YOLOv7 نماذج YOLOv4 و YOLO-R و Scaled YOLOv4 كقاعدة لها. YOLOv7 هو نتيجة التجارب التي أجريت على هذه النماذج لتحسين النتائج ، وجعل النموذج أكثر دقة.

شبكة تجميع طبقة فعالة موسعة أو E-ELAN

E-ELAN هي لبنة البناء الأساسية لنموذج YOLOv7 ، وهي مشتقة من النماذج الموجودة بالفعل على كفاءة الشبكة ، وبشكل أساسي إيلان.

تتمثل الاعتبارات الرئيسية عند تصميم بنية فعالة في عدد المعلمات وكثافة الحساب ومقدار الحساب. تأخذ النماذج الأخرى في الاعتبار أيضًا عوامل مثل تأثير نسبة قناة الإدخال / الإخراج ، والفروع في شبكة الهندسة المعمارية ، وسرعة تداخل الشبكة ، وعدد العناصر في موترات الشبكة التلافيفية ، والمزيد.

استخدم CSPVoNet لا يأخذ النموذج في الاعتبار المعلمات المذكورة أعلاه فحسب ، بل يحلل أيضًا مسار التدرج لمعرفة المزيد من الميزات المتنوعة من خلال تمكين أوزان الطبقات المختلفة. هذا النهج يسمح للتدخلات أن تكون أسرع وأكثر دقة. ال ELAN تهدف الهندسة المعمارية إلى تصميم شبكة فعالة للتحكم في أقصر مسار تدرج بحيث يمكن أن تكون الشبكة أكثر فعالية في التعلم والتقارب.

وصلت ELAN بالفعل إلى مرحلة مستقرة بغض النظر عن عدد التراص للكتل الحسابية وطول مسار التدرج. قد يتم تدمير الحالة المستقرة إذا تم تكديس الكتل الحسابية بشكل غير محدود ، وسيقل معدل استخدام المعلمات. ال يمكن لمعمارية E-ELAN المقترحة أن تحل المشكلة لأنها تستخدم التوسع والخلط ودمج العناصر الأساسية لتعزيز قدرة الشبكة على التعلم بشكل مستمر مع الاحتفاظ بمسار التدرج الأصلي.

علاوة على ذلك ، عند مقارنة بنية E-ELAN مع ELAN ، الاختلاف الوحيد في الكتلة الحسابية ، بينما بنية الطبقة الانتقالية لم تتغير.

تقترح E-ELAN توسيع العلاقة الأساسية للكتل الحسابية ، وتوسيع القناة باستخدام التفاف المجموعة. سيتم بعد ذلك حساب خريطة المعالم ، وتبديلها إلى مجموعات وفقًا لمعلمة المجموعة ، ثم يتم تجميعها معًا. سيظل عدد القنوات في كل مجموعة كما هو في التصميم الأصلي. أخيرًا ، ستتم إضافة مجموعات خرائط المعالم لأداء العلاقة الأساسية.

تحجيم النموذج للنماذج القائمة على التسلسل

تحجيم النموذج يساعد في ضبط سمات النماذج يساعد في توليد النماذج حسب المتطلبات وبمقاييس مختلفة لتلبية سرعات التداخل المختلفة.

يتحدث الشكل عن تحجيم النموذج لنماذج مختلفة قائمة على التسلسل. كما يمكنك في الشكل (أ) و (ب) ، يزداد عرض خرج الكتلة الحسابية مع زيادة قياس عمق النماذج. ونتيجة لذلك ، يتم زيادة عرض الإدخال لطبقات النقل. إذا تم تنفيذ هذه الطرق على بنية قائمة على التسلسل ، يتم إجراء عملية القياس بعمق ، ويتم توضيحها في الشكل (ج).

وبالتالي يمكن استنتاج أنه لا يمكن تحليل عوامل القياس بشكل مستقل للنماذج القائمة على التسلسل ، بل يجب النظر فيها أو تحليلها معًا. لذلك ، بالنسبة لنموذج قائم على التسلسل ، من المناسب استخدام طريقة القياس للنموذج المركب المقابل. بالإضافة إلى ذلك ، عندما يتم قياس عامل العمق ، يجب قياس قناة الإخراج للكتلة أيضًا.

حقيبة مجانية للتدريب

كيس الهدايا المجانية هو مصطلح يستخدمه المطورون لوصفه مجموعة من الأساليب أو التقنيات التي يمكن أن تغير استراتيجية التدريب أو التكلفة في محاولة لتعزيز دقة النموذج. إذن ما هي هذه الحقائب المجانية القابلة للتدريب في YOLOv7؟ لنلقي نظرة.

التواء مخطط معاد بارامترات

تستخدم خوارزمية YOLOv7 مسارات انتشار تدفق التدرج لتحديد كيفية دمج شبكة بشكل مثالي مع الالتفاف المعاد تحديد معلماته. هذا النهج من قبل YOLov7 هو محاولة للتصدي خوارزمية RepConv أنه على الرغم من الأداء الهادئ على نموذج VGG ، إلا أنه يعمل بشكل ضعيف عند تطبيقه مباشرة على طرازي DenseNet و ResNet.

لتحديد الوصلات في طبقة تلافيفية ، فإن تجمع خوارزمية RepConv بين الالتواء 3 × 3 و 1 × 1 الالتفاف. إذا قمنا بتحليل الخوارزمية وأدائها والبنية ، فسنلاحظ أن RepConv يدمر التسلسل في DenseNet ، والمتبقي في ResNet.

تُظهر الصورة أعلاه نموذجًا مُخططًا مُعادًا ضبط معلماته. يتضح من خوارزمية YOLov7 أن طبقة الشبكة ذات الترابط أو الترابطات المتبقية لا ينبغي أن يكون لها اتصال هوية في خوارزمية RepConv. وبالتالي، يُمكن التبديل باستخدام RepConvN بدون اتصالات هوية.

خشن للمساعد وغرامة لفقد الرصاص

إشراف عميق هو فرع في علوم الكمبيوتر غالبًا ما يستخدم في عملية تدريب الشبكات العميقة. المبدأ الأساسي للإشراف العميق هو ذلك يضيف رأسًا إضافيًا إضافيًا في الطبقات الوسطى للشبكة جنبًا إلى جنب مع أوزان الشبكة الضحلة مع فقدان المساعد كدليل لها. تشير خوارزمية YOLOv7 إلى الرأس المسؤول عن الإخراج النهائي كرئيس القائد ، والرئيس المساعد هو الرأس الذي يساعد في التدريب.

المضي قدمًا ، يستخدم YOLOv7 طريقة مختلفة لتخصيص التسمية. تقليديًا ، تم استخدام تعيين التسمية لإنشاء ملصقات من خلال الإشارة مباشرة إلى الحقيقة الأساسية ، وعلى أساس مجموعة معينة من القواعد. ومع ذلك ، في السنوات الأخيرة ، يلعب توزيع وجودة مُدخلات التنبؤ دورًا مهمًا في إنشاء بطاقة موثوقة. ينشئ YOLOv7 تسمية ناعمة للكائن باستخدام تنبؤات المربع المحيط والحقيقة الأساسية.

علاوة على ذلك ، تستخدم طريقة تعيين الملصق الجديدة لخوارزمية YOLOv7 تنبؤات رئيس الرصاص لتوجيه كل من العميل المتوقع والرئيس المساعد. طريقة تعيين التسمية لها استراتيجيتان مقترحتان.

جهة تعيين الملصقات الموجهة من الرأس الرئيسي

تقوم الإستراتيجية بإجراء عمليات حسابية على أساس نتائج تنبؤات رئيس العميل المحتمل ، والحقيقة الأساسية ، ثم تستخدم التحسين لإنشاء ملصقات ناعمة. ثم يتم استخدام هذه الملصقات الناعمة كنموذج تدريب لكل من الرأس الرئيسي والرأس المساعد.

تعمل الإستراتيجية على افتراض أنه نظرًا لأن رئيس العميل المتوقع لديه قدرة تعليمية أكبر ، يجب أن تكون الملصقات التي ينشئها أكثر تمثيلا ، وأن ترتبط بين المصدر والهدف.

محدد الملصقات الموجّه برأس الرصاص من الخشنة إلى الدقيقة

تقوم هذه الإستراتيجية أيضًا بإجراء عمليات حسابية على أساس نتائج توقع رئيس العميل المتوقع ، والحقيقة الأساسية ، ثم تستخدم التحسين لإنشاء تسميات ناعمة. ومع ذلك ، هناك فرق رئيسي. في هذه الإستراتيجية ، هناك مجموعتان من الملصقات اللينة ، المستوى الخشن ، و تسمية جيدة.

يتم إنشاء التسمية الخشنة عن طريق تخفيف قيود العينة الإيجابية

عملية التخصيص التي تتعامل مع المزيد من الشبكات كأهداف إيجابية. يتم القيام به لتجنب خطر فقدان المعلومات بسبب ضعف قوة التعلم للرأس المساعد.

يوضح الشكل أعلاه استخدام حقيبة مجانية قابلة للتدريب في خوارزمية YOLOv7. يصور خشنًا للرأس المساعد ، وغرامة للرأس الرصاص. عندما نقارن نموذجًا بالرأس المساعد (ب) بالنموذج العادي (أ) ، سنلاحظ أن المخطط في (ب) له رأس مساعد ، بينما ليس في (أ).

يوضح الشكل (ج) مُعيِّن الملصق المستقل المشترك بينما يمثل الشكل (د) والشكل (هـ) على التوالي مُعيِّن التوجيه الرئيسي ، والمعين الموجه من الدرجة الأولى إلى الدقيقة الذي يستخدمه YOLOv7.

حقيبة مجانية أخرى قابلة للتدريب

بالإضافة إلى تلك المذكورة أعلاه ، تستخدم خوارزمية YOLOv7 أكياسًا إضافية من الهدايا المجانية ، على الرغم من أنها لم تقترحها في الأصل. هم

تطبيع الدُفعات في تقنية تنشيط Conv-Bn: تُستخدم هذه الإستراتيجية لتوصيل طبقة تلافيفية مباشرةً بطبقة تسوية الدفعات.
المعرفة الضمنية في YOLOR: يجمع YOLOv7 بين الإستراتيجية وخريطة الميزات التلافيفية.
نموذج EMA: يتم استخدام نموذج EMA كنموذج مرجعي نهائي في YOLOv7 على الرغم من أن استخدامه الأساسي يجب استخدامه في أسلوب المعلم المتوسط.

YOLOv7: التجارب

الإعداد التجريبية

تستخدم خوارزمية YOLOv7 امتداد مجموعة بيانات Microsoft COCO للتدريب والتحقق من الصحة نموذج اكتشاف الكائن الخاص بهم ، ولا تستخدم كل هذه التجارب نموذجًا مدربًا مسبقًا. استخدم المطورون مجموعة بيانات القطار لعام 2017 للتدريب ، واستخدموا مجموعة بيانات التحقق من الصحة لعام 2017 لاختيار المعلمات الفائقة. أخيرًا ، تتم مقارنة أداء نتائج اكتشاف الكائنات YOLOv7 بأحدث الخوارزميات للكشف عن الكائنات.

صمم المطورون نموذجًا أساسيًا لـ حافة GPU (YOLOv7-tiny) ، GPU عادي (YOLOv7) ، GPU السحابية (YOLOv7-W6). علاوة على ذلك ، تستخدم خوارزمية YOLOv7 أيضًا نموذجًا أساسيًا لقياس النموذج وفقًا لمتطلبات الخدمة المختلفة ، وتحصل على نماذج مختلفة. بالنسبة لخوارزمية YOLOv7 ، يتم قياس المكدس على الرقبة ، ويتم استخدام المركبات المقترحة لزيادة عمق النموذج وعرضه.

خطوط الأساس

تستخدم خوارزمية YOLOv7 نماذج YOLO السابقة ، وخوارزمية اكتشاف كائن YOLOR كخط أساس لها.

يقارن الشكل أعلاه خط الأساس لنموذج YOLOv7 مع نماذج اكتشاف الكائنات الأخرى ، والنتائج واضحة تمامًا. عند مقارنتها بـ خوارزمية YOLOv4 ، لا تستخدم YOLOv7 معلمات أقل بنسبة 75٪ فحسب ، بل تستخدم أيضًا حسابات أقل بنسبة 15٪ ، وتتميز بدقة أعلى بنسبة 0.4٪.

مقارنة مع أحدث نماذج أجهزة الكشف عن الأشياء

يوضح الشكل أعلاه النتائج عند مقارنة YOLOv7 بأحدث نماذج اكتشاف الكائنات لوحدات معالجة الرسومات المحمولة والعامة. يمكن ملاحظة أن الطريقة التي اقترحتها خوارزمية YOLOv7 لديها أفضل نتيجة لمقايضة السرعة والدقة.

دراسة الاجتثاث: طريقة التحجيم المركب المقترحة

يقارن الشكل الموضح أعلاه نتائج استخدام استراتيجيات مختلفة لتوسيع نطاق النموذج. تعمل إستراتيجية القياس في نموذج YOLOv7 على زيادة عمق الكتلة الحسابية بمقدار 1.5 مرة ، وقياس العرض بمقدار 1.25 مرة.

عند مقارنته بنموذج يرفع مستوى العمق فقط ، يعمل نموذج YOLOv7 بشكل أفضل بنسبة 0.5٪ أثناء استخدام معلمات أقل وقوة حسابية. من ناحية أخرى ، عند مقارنتها بالنماذج التي تعمل على زيادة العمق فقط ، تم تحسين دقة YOLOv7 بنسبة 0.2٪ ، لكن عدد المعلمات يجب أن يتم تحجيمه بنسبة 2.9٪ ، والحساب بنسبة 1.2٪.

نموذج مُخطط مُعاد ضبطه مُقترح

للتحقق من عمومية النموذج المعاد تحديد معلماته المقترح ، فإن تستخدمه خوارزمية YOLOv7 على النماذج القائمة على المخلفات والتسلسل للتحقق. لعملية التحقق ، تستخدم خوارزمية YOLOv7 3 مكدسة ELAN للنموذج القائم على التسلسل ، و CSPDarknet للنموذج المتبقي.

بالنسبة للنموذج القائم على التسلسل ، تستبدل الخوارزمية الطبقات التلافيفية 3 × 3 في ELAN ثلاثي المكدس بـ RepConv. يوضح الشكل أدناه التكوين التفصيلي لـ Planned RepConv و 3 مكدس ELAN.

علاوة على ذلك ، عند التعامل مع النموذج المعتمد على المخلفات ، تستخدم خوارزمية YOLOv7 كتلة مظلمة معكوسة لأن الكتلة المظلمة الأصلية لا تحتوي على كتلة التفاف 3 × 3. يوضح الشكل أدناه بنية CSPDarknet المعكوسة التي تعكس أوضاع الطبقة التلافيفية 3 × 3 و 1 × 1.

الخسارة المساعدة المقترحة لرئيس مساعد

بالنسبة للخسارة المساعدة للرأس الإضافي ، يقارن نموذج YOLOv7 تعيين الملصق المستقل لطرق الرأس والرأس المساعدة.

يحتوي الشكل أعلاه على نتائج الدراسة على الرأس المساعد المقترح. يمكن ملاحظة أن الأداء العام للنموذج يزداد بزيادة خسارة المساعد. علاوة على ذلك ، فإن تعيين الملصق الإرشادي الذي اقترحه نموذج YOLOv7 يؤدي بشكل أفضل من استراتيجيات تعيين العميل المحتمل المستقل.

نتائج YOLOv7

بناءً على التجارب المذكورة أعلاه ، إليك نتيجة أداء YOLov7 عند مقارنته بخوارزميات اكتشاف الكائنات الأخرى.

يقارن الشكل أعلاه نموذج YOLOv7 مع خوارزميات أخرى لاكتشاف الكائنات ، ويمكن ملاحظة أن YOLOv7 يتفوق على نماذج اكتشاف الاعتراض الأخرى من حيث متوسط الدقة (AP) مقابل تداخل دفعة / ثانية.

علاوة على ذلك ، يقارن الشكل أدناه أداء خوارزميات YOLOv7 v / s الأخرى للكشف عن الاعتراضات في الوقت الفعلي. مرة أخرى ، نجح YOLOv7 في نماذج أخرى من حيث الأداء العام والدقة والكفاءة.

فيما يلي بعض الملاحظات الإضافية من نتائج وأداء YOLOv7.

YOLOv7-Tiny هو أصغر طراز في عائلة YOLO ، مع أكثر من 6 ملايين معلمة. تتميز YOLOv7-Tiny بدقة متوسطة تبلغ 35.2٪ ، وتتفوق على نماذج YOLOv4-Tiny ذات المعلمات المماثلة.
يحتوي نموذج YOLOv7 على أكثر من 37 مليون معلمة ، ويتفوق على النماذج ذات المعلمات الأعلى مثل YOLov4.
يحتوي طراز YOLOv7 على أعلى معدل MAP و FPS في النطاق من 5 إلى 160 إطارًا في الثانية.

الخاتمة

YOLO أو You Only Look Once هو أحدث طراز للكشف عن الأشياء في رؤية الكمبيوتر الحديثة. تُعرف خوارزمية YOLO بدقتها العالية وكفاءتها ، ونتيجة لذلك ، تجد تطبيقًا واسعًا في صناعة اكتشاف الكائنات في الوقت الفعلي. منذ أن تم تقديم خوارزمية YOLO الأولى في عام 2016 ، سمحت التجارب للمطورين بتحسين النموذج باستمرار.

نموذج YOLOv7 هو أحدث إضافة في عائلة YOLO ، وهو أقوى خوارزمية YOLo حتى الآن. في هذه المقالة ، تحدثنا عن أساسيات YOLOv7 ، وحاولنا شرح ما الذي يجعل YOLOv7 فعالاً للغاية.

كونال كيجريوال

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.