الذكاء الاصطناعي

برنامج ترميز فيديو مصمم لتحليل الذكاء الاصطناعي

تم النشر 1 أيار 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

على الرغم من الإثارة التقنية الدائرة في حين أن فيلم "SeeChange" (2017) هو تعليق على التأثيرات الأخلاقية لشبكات التواصل الاجتماعي أكثر من الجوانب العملية لتحليلات الفيديو الخارجية، فإن الكاميرا الصغيرة غير المحتملة "SeeChange" في وسط القصة هي ما يدفع الفيلم حقًا إلى فئة "الخيال العلمي".

كاميرا / جهاز مراقبة "SeeChange" من فيلم The Circle (2017).

جهاز الكاميرا/المراقبة "SeeChange" من فيلم الإثارة التكنولوجي "The Circle" (2017).

جهاز لاسلكي يتجول بحرية بحجم كرة زجاجية كبيرة، ولا يتعلق الأمر بعدم وجود ألواح شمسية أو عدم كفاءة سحب الطاقة من مصادر محيطة أخرى (مثل موجات الراديو) مما يجعل SeeChange احتمالًا غير محتمل، ولكن الحقيقة هي أنه سيتعين عليه ضغط الفيديو على مدار الساعة طوال أيام الأسبوع، بأي تكلفة ضئيلة يمكنه الحفاظ عليها.

يعد تشغيل أجهزة الاستشعار الرخيصة من هذا النوع مجالًا أساسيًا للبحث في رؤية الكمبيوتر (CV) وتحليلات الفيديو، خاصة في البيئات غير الحضرية حيث يتعين على المستشعر الحصول على أقصى قدر من الأداء من موارد طاقة محدودة للغاية (البطاريات والطاقة الشمسية وما إلى ذلك). .).

في الحالات التي يجب أن يرسل فيها جهاز IoT / CV من هذا النوع محتوى صورة إلى خادم مركزي (غالبًا من خلال شبكات تغطية خلوية تقليدية) ، تكون الخيارات صعبة: إما أن يحتاج الجهاز إلى تشغيل نوع من الشبكة العصبية خفيفة الوزن محليًا بالترتيب للإرسال فقط الأمثل أجزاء من البيانات ذات الصلة للمعالجة من جانب الخادم؛ أو يتعين عليها إرسال مقطع فيديو "غبي" لتقييمه من قبل موارد السحابة المتصلة.

على الرغم من أن تنشيط الحركة من خلال مستشعرات الرؤية الذكية القائمة على الأحداث (SVS) يمكن ذلك قطع هذا النفقات العامة، فإن مراقبة التنشيط تكلف أيضًا الطاقة.

التشبث بالسلطة

وعلاوة على ذلك، حتى مع التنشيط غير المتكرر (على سبيل المثال، تظهر خروف بين الحين والآخر)، فإن الجهاز لا يملك الطاقة الكافية لإرسال غيغابايت من الفيديو غير المضغوط؛ كما أنه لا يملك الطاقة الكافية لتشغيل برامج ترميز ضغط الفيديو الشائعة مثل H.264/5 باستمرار، والتي تتوقع أجهزة متصلة بالكهرباء أو ليست بعيدة عن جلسة الشحن التالية.

خطوط أنابيب تحليل الفيديو لثلاث مهام نموذجية لرؤية الكمبيوتر. تحتاج بنية ترميز الفيديو إلى التدريب على المهمة المطروحة ، وعادةً للشبكة العصبية التي ستتلقى البيانات. المصدر: https://arxiv.org/pdf/2204.12534.pdf

على الرغم من أن برنامج الترميز H.264 المنتشر على نطاق واسع له استهلاك أقل للطاقة من خليفته H.265 ، إلا أنه يمتلك ضعف كفاءة الضغطيتميز خليفته، H.265، بكفاءة ضغط أفضل، ولكنه يستهلك طاقة أعلى. في حين أن نظام جوجل مفتوح المصدر برنامج ترميز VP9 يتفوق عليهم في كل منطقة ، يتطلب موارد حسابية محلية أعلى ، والتي تقدم مشاكل إضافية في جهاز استشعار إنترنت الأشياء من المفترض أن يكون رخيصًا.

أما بالنسبة لتحليل البث محليًا: بحلول الوقت الذي تقوم فيه بتشغيل حتى أخف شبكة عصبية محلية من أجل تحديد الإطارات (أو مناطق الإطار) التي تستحق الإرسال إلى الخادم، فإنك غالبًا ما تنفق الطاقة التي كان من الممكن أن توفرها من خلال إرسال جميع الإطارات فقط.

استخراج تمثيلات مقنعة للماشية بجهاز استشعار من غير المحتمل أن يكون متصلًا بالشبكة. هل ينفق قدرته المحدودة على التجزئة الدلالية المحلية بشبكة عصبية خفيفة الوزن ؛ عن طريق إرسال معلومات محدودة إلى الخادم لمزيد من التعليمات (إدخال زمن الوصول) ؛ أو عن طريق إرسال بيانات "غبية" (إهدار للطاقة على عرض النطاق الترددي)؟ المصدر: https://arxiv.org/pdf/1807.01972.pdf

استخراج تمثيلات مُقنّعة للماشية باستخدام مستشعر من غير المُرجّح أن يكون مُتصلاً بالشبكة. هل يُوظّف هذا المُستشعر طاقته المحدودة في التجزئة الدلالية المحلية باستخدام شبكة عصبية خفيفة الوزن؛ أم بإرسال معلومات محدودة إلى خادم للحصول على تعليمات إضافية (مما يُسبّب تأخيرًا في الاستجابة)؛ أم بإرسال بيانات "غبية" (مُهدرًا للطاقة على عرض النطاق الترددي)؟ المصدر: https://arxiv.org/pdf/1807.01972.pdf

من الواضح أن مشاريع رؤية الكمبيوتر "في البرية" تحتاج إلى برامج ترميز ضغط فيديو مخصصة ومُحسّنة لتلبية متطلبات الشبكات العصبية المحددة عبر مهام محددة ومتنوعة مثل التجزئة الدلالية، واكتشاف النقاط الرئيسية (تحليل حركة الإنسان)، واكتشاف الكائنات، من بين الاستخدامات النهائية المحتملة الأخرى.

إذا تمكنت من تحقيق التوازن المثالي بين كفاءة ضغط الفيديو ونقل البيانات إلى الحد الأدنى، فأنت أقرب خطوة إلى SeeChange، والقدرة على نشر شبكات استشعار بأسعار معقولة في بيئات غير ودية.

أككمبيغ

ربما يكون بحث جديد من جامعة شيكاغو قد اتخذ خطوة أقرب إلى مثل هذا الترميز ، في شكل أككمبيغ - إطار عمل جديد لتشفير وتدفق الفيديو يعمل بزمن انتقال منخفض ودقة عالية للشبكات العصبية العميقة (DNN) من جانب الخادم والتي تتطلب متطلبات حسابية محلية منخفضة بشكل ملحوظ.

هندسة AccMPEG. المصدر: https://arxiv.org/pdf/2204.12534.pdf

النظام قادر على تحقيق وفورات على الطرق السابقة من خلال تقييم مدى كل 16x16 بكسل com.macroblock من المحتمل أن تؤثر على دقة DNN من جانب الخادم. بدلاً من ذلك ، كان على الطرق السابقة بشكل عام تقييم هذا النوع من الدقة استنادًا إلى كل بكسل في الصورة أو إجراء عمليات محلية باهظة الثمن كهربائيًا لتقييم مناطق الصورة التي قد تكون ذات أهمية قصوى.

في AccMPEG، يتم تقدير هذه الدقة في وحدة مخصصة تسمى AccGrad، والتي تقيس الطرق التي من المحتمل أن تكون بها جودة ترميز كتلة الماكرو ذات صلة بحالة الاستخدام النهائية، مثل DNN على جانب الخادم الذي يحاول حساب عدد الأشخاص، أو إجراء تقدير هيكلي على الحركة البشرية، أو مهام الرؤية الحاسوبية الشائعة الأخرى.

عندما يصل إطار الفيديو إلى النظام ، يقوم AccMPEG بمعالجته في البداية من خلال نموذج محدد الجودة الرخيص ، بعنوان AccModel. أي مناطق لا يحتمل أن تساهم في الحسابات المفيدة لـ DNN من جانب الخادم هي في الأساس ثقل ، ويجب تمييزها للتشفير بأقل جودة ممكنة ، على عكس المناطق البارزة ، والتي يجب إرسالها بجودة أفضل.

تقدم هذه العملية ثلاثة تحديات: هل يمكن تنفيذ العملية بسرعة كافية لتحقيق زمن انتقال مقبول دون استخدام موارد الحوسبة المحلية التي تستنزف الطاقة؟ هل يمكن إقامة علاقة مثلى بين معدل الإطارات والجودة؟ وهل يمكن تدريب النموذج بسرعة على DNN الفردي من جانب الخادم؟

تدريب اللوجيستيات

من الناحية المثالية ، سيتم تدريب برنامج ترميز رؤية الكمبيوتر مسبقًا على الأنظمة المتصلة وفقًا للمتطلبات الدقيقة لشبكة عصبية معينة. ومع ذلك ، يمكن اشتقاق وحدة AccGrad مباشرة من DNN مع انتشارين أماميين فقط ، مع توفير عشرة أضعاف النفقات العامة القياسية.

يقوم AccMPEG بتدريب AccGrad لمدة 15 عصرًا فقط من ثلاث عمليات انتشار لكل منها عبر DNN النهائي، ومن الممكن إعادة تدريبه "مباشرة" باستخدام حالة النموذج الحالية كقالب، على الأقل بالنسبة لمهام CV ذات المواصفات المماثلة.

يستخدم AccModel ملف موبايل نت-SSD ميزة استخراج ، شائعة في الأجهزة الحافة بأسعار معقولة. عند معدل دوران يبلغ 12 GFLOPS ، يستخدم النموذج فقط ثلث نهج ResNet18 النموذجية. إلى جانب تطبيع الدُفعات وتنشيطها ، تتكون البنية فقط من طبقات تلافيفية ، ويتناسب حملها الحسابي مع حجم الإطار.

يزيل AccGrad الحاجة إلى الاستدلال النهائي لـ DNN ، مما يحسن لوجستيات النشر.

معدل الاطار

تعمل البنية على النحو الأمثل عند 10 إطارات في الثانية ، مما يجعلها مناسبة لأغراض مثل المراقبة الزراعية ، ومراقبة تدهور المباني ، وتحليل حركة المرور عالية الرؤية ، واستنتاج الهيكل العظمي التمثيلي في حركة الإنسان ؛ ومع ذلك ، فإن السيناريوهات سريعة الحركة للغاية ، مثل حركة المرور منخفضة الرؤية (للسيارات أو الأشخاص) ، وغيرها من المواقف التي تكون فيها معدلات الإطارات المرتفعة مفيدة ، غير مناسبة لهذا النهج.

يكمن جزء من كفاءة هذه الطريقة في افتراض أن الكتل الكبيرة المتجاورة غالبًا ما تكون ذات قيمة متشابهة، حتى النقطة التي تنخفض فيها دقة الكتلة الكبيرة عن الدقة المقدرة. تُحدد المساحات الناتجة عن هذه الطريقة بوضوح أكبر، ويمكن حسابها بسرعة أكبر.

تحسين الأداء

اختبر الباحثون النظام على لوحة Jetson Nano بقيمة 60 دولارًا باستخدام وحدة معالجة الرسومات Maxwell أحادية النواة 128 نواة ، والعديد من المعادلات الرخيصة الأخرى. تم استخدام OpenVINO لتعويض بعض متطلبات الطاقة لشبكات DNN المحلية المتناثرة جدًا إلى وحدات المعالجة المركزية (CPU).

تم تدريب AccModel في الأصل دون اتصال بالإنترنت على خادم مزود بـ 8 وحدات معالجة رسومات GeForce RTX 2080S. على الرغم من أن هذه مجموعة هائلة من قوة الحوسبة لبناء نموذج أولي ، فإن إعادة التدريب خفيفة الوزن التي يتيحها النظام ، والطريقة التي يمكن بها تعديل النموذج لمعايير تحمل معينة عبر DNNs المختلفة التي تهاجم مهام مماثلة ، تعني أن AccMPEG يمكنه تشكل جزءًا من نظام يحتاج إلى الحد الأدنى من الحضور في البرية.

نُشر لأول مرة في 1 مايو 2022.

مواضيع ذات صلة:رؤية الكمبيوتر بحث

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai