الذكاء الاصطناعي
استعادة مقاطع فيديو الوسائط الاجتماعية المضغوطة بشكل مفرط باستخدام التعلم الآلي
يقدم بحث جديد من الصين طريقة فعالة وجديدة لاستعادة التفاصيل والدقة لمقاطع الفيديو المحملة بواسطة المستخدم مضغوط تلقائيًا على منصات مثل WeChat و YouTube من أجل توفير النطاق الترددي ومساحة التخزين.
على عكس الأساليب السابقة التي يمكن أن ترفع من مستوى مقاطع الفيديو وتختصرها بناءً على بيانات التدريب العامة ، فإن النهج الجديد يستمد بدلاً من ذلك خريطة ميزة التدهور (DFM) لكل إطار من إطارات الفيديو المضغوط - نظرة عامة فعالة على المناطق الأكثر تضررًا أو تدهورًا في الإطار والتي نتجت عن الضغط.
العملية التصالحية ، التي تستفيد من الشبكات العصبية التلافيفية (CNNs) ، من بين تقنيات أخرى ، تسترشد وتركز على المعلومات الموجودة في سوق دبي المالي ، مما يسمح للطريقة الجديدة بتجاوز الأداء ودقة الأساليب السابقة.
تم الحصول على الحقيقة الأساسية لهذه العملية من خلال قيام الباحثين بتحميل فيديو عالي الجودة على أربع منصات مشاركة شائعة، وتنزيل النتائج المضغوطة، وتطوير خط أنابيب رؤية حاسوبية قادر على التعلم بشكل تجريدي لتأثيرات الضغط وفقدان التفاصيل، بحيث يمكن تطبيقها عبر عدد من المنصات لاستعادة مقاطع الفيديو إلى جودة شبه أصلية، بناءً على بيانات مناسبة تمامًا.
تم تجميع المواد المستخدمة في البحث في مجموعة بيانات HQ / LQ بعنوان مشاركة مقاطع فيديو المستخدم على وسائل التواصل الاجتماعي (UVSSM) ، وقد تم تصنيعها نأمل أن تستمتع هذا المعرض (كلمه السر: rsqw) في Baidu ، لصالح المشاريع البحثية اللاحقة التي تسعى إلى تطوير طرق جديدة لاستعادة الفيديو المضغوط على النظام الأساسي.
رمز النظام ، والذي يُعرف باسم استعادة الفيديو من خلال استشعار التدرج التكيفي (VOTES) ، كما تم صدر في جيثب، على الرغم من أن تنفيذه يستلزم عددًا من التبعيات القائمة على السحب.
• ورقة بعنوان استعادة مقاطع فيديو المستخدم التي تمت مشاركتها على مواقع التواصل الاجتماعي، ويأتي من ثلاثة باحثين في جامعة Shenzhen ، وواحد من قسم الهندسة الإلكترونية وهندسة المعلومات في جامعة هونغ كونغ للفنون التطبيقية.
من القطع الأثرية إلى الحقائق
القدرة على استعادة جودة مقاطع الفيديو المسحوبة من الويب دون العامة ، في بعض الأحيان مفرط قد يكون لـ "الهلوسة" بالتفاصيل التي توفرها برامج مثل Gigapixel (ومعظم حزم المصادر المفتوحة الشائعة ذات النطاق المماثل) آثار على قطاع أبحاث رؤية الكمبيوتر.
يعتمد البحث في تقنيات السيرة الذاتية المستندة إلى الفيديو في كثير من الأحيان على لقطات تم الحصول عليها من منصات مثل YouTube و Twitter ، حيث يتم حماية طرق الضغط وبرامج الترميز المستخدمة عن كثب ، ولا يمكن استخلاصها بسهولة بناءً على أنماط القطع الأثرية أو المؤشرات المرئية الأخرى ، وقد تتغير بشكل دوري.
معظم المشاريع التي تستفيد من الفيديو الموجود على الويب ليست كذلك البحث ضغط، ويجب أن تقديم علاوات للجودة المتاحة للفيديو المضغوط الذي توفره المنصات ، حيث لا يمكنهم الوصول إلى النسخ الأصلية عالية الجودة التي قام المستخدمون بتحميلها.
لذلك ، فإن القدرة على استعادة جودة ودقة أكبر لمثل هذه مقاطع الفيديو بأمانة ، دون التأثير على المصب من مجموعات بيانات الرؤية الحاسوبية غير ذات الصلة ، يمكن أن تساعد في تجنب الحلول البديلة ووسائل الراحة التي يجب أن تقدمها مشاريع السيرة الذاتية حاليًا لمصادر الفيديو المتدهورة.
على الرغم من أن المنصات مثل YouTube ستنشر أحيانًا تغييرات كبيرة في الطريقة التي تضغط بها على مقاطع الفيديو الخاصة بالمستخدمين (مثل VP9) ، لم يكشف أي منها صراحةً عن العملية بأكملها أو برامج الترميز والإعدادات الدقيقة المستخدمة لتقليل الملفات عالية الجودة التي يقوم المستخدمون بتحميلها.
أصبح تحقيق جودة مخرجات محسنة من عمليات تحميل المستخدم شيئًا من نوع درويديك فن في السنوات العشر الماضية أو نحو ذلك ، مع مختلف (غير مؤكد في الغالب) "الحلول" الدخول والخروج من الموضة.
خدمة التوصيل
تضمنت الأساليب السابقة لاستعادة الفيديو القائمة على التعلم العميق استخراج الميزات العامة ، إما كنهج لاستعادة إطار واحد أو في بنية متعددة الإطارات تستفيد تدفق البصر (أي يأخذ في الاعتبار الإطارات المجاورة واللاحقة عند استعادة إطار حالي).
كل هذه الأساليب يجب أن تتعامل مع تأثير "الصندوق الأسود" - حقيقة أنهم لا يستطيعون فحص تأثيرات الضغط في التقنيات الأساسية ، لأنه ليس من المؤكد ما هي التقنيات الأساسية ، أو كيف تم تكوينها لأي مستخدم معين فيديو محمّل.
بدلاً من ذلك ، تسعى VOTES إلى استخراج الميزات البارزة مباشرةً من الفيديو الأصلي والمضغوط ، وتحديد أنماط التحول التي ستعمم على معايير عدد من المنصات.
يستخدم VOTES وحدة استشعار تدهور مطورة خصيصًا (DSM ، انظر الصورة أعلاه) لاستخراج الميزات في الكتل التلافيفية. يتم بعد ذلك تمرير إطارات متعددة إلى وحدة استخلاص ومحاذاة ميزة (FEAM) ، ثم يتم تحويلها إلى وحدة تعديل تدهور (DMM). أخيرًا ، تقوم وحدة إعادة الإعمار بإخراج الفيديو المستعاد.
البيانات والتجارب
في العمل الجديد ، ركز الباحثون جهودهم على استعادة الفيديو الذي تم تحميله وإعادة تنزيله من منصة WeChat ، لكنهم كانوا قلقين بشأن ضمان إمكانية تكييف الخوارزمية الناتجة مع الأنظمة الأساسية الأخرى.
اتضح أنه بمجرد حصولهم على نموذج استعادة فعال لمقاطع فيديو WeChat ، فإن تكييفه مع Bilibili و Twitter و YouTube استغرق 90 ثانية فقط لحقبة واحدة لكل نموذج مخصص لكل منصة (على جهاز يشغل 4 وحدات معالجة رسومات NVIDIA Tesla P40 مع إجمالي 96 جيجابايت من VRAM).
لتعبئة مجموعة بيانات UVSSM ، جمع الباحثون 264 مقطع فيديو تتراوح ما بين 5-30 ثانية ، كل منها بمعدل إطارات 30 إطارًا في الثانية ، مصدرها إما كاميرات الهاتف المحمول أو من الإنترنت. كانت جميع مقاطع الفيديو إما بدقة 1920 × 1080 أو 1280 × 270.
تضمن المحتوى (انظر الصورة السابقة) مناظر المدينة والمناظر الطبيعية والأشخاص والحيوانات ، من بين مجموعة متنوعة من الموضوعات الأخرى ، ويمكن استخدامها في مجموعة البيانات العامة عبر ترخيص Creative Commons Attribution ، مما يسمح بإعادة الاستخدام.
حمّل المؤلفون 214 مقطع فيديو إلى WeChat باستخدام خمس علامات تجارية مختلفة للهاتف المحمول ، وحصلوا على دقة فيديو WeChat الافتراضية البالغة 960 × 540 (ما لم يكن الفيديو المصدر أصغر بالفعل من هذه الأبعاد) ، من بين أكثر التحويلات "عقابية" عبر الأنظمة الأساسية الشائعة.
للمقارنات اللاحقة مع إجراءات التحويل الخاصة بالمنصات الأخرى ، قام الباحثون بتحميل 50 مقطع فيديو ليس مدرج في 214 الأصلي إلى Bilibili و YouTube و Twitter. كانت الدقة الأصلية لمقاطع الفيديو 1280 × 270 ، وكانت الإصدارات التي تم تنزيلها تبلغ 640 × 360.
وبذلك يصل مجموع بيانات UVSSM إلى إجمالي 364 مقطع فيديو (HQ) ومقاطع فيديو مشتركة (LQ) ، مع 214 إلى WeChat ، و 50 لكل من Bilibili و YouTube و Twitter.
بالنسبة للتجارب ، تم اختيار 10 مقاطع فيديو عشوائية كمجموعة اختبار ، وأربعة كمجموعة للتحقق ، والبقية 200 كمجموعة تدريب أساسية. أجريت التجارب خمس مرات مع K- أضعاف عبر التحقق من الصحة، مع متوسط النتائج عبر هذه الحالات.
في اختبارات استعادة الفيديو ، تمت مقارنة VOTES مع اندماج Spatio-Temporal Deformable Fusion (STDF). لتحسين الدقة ، تم اختباره ضد التلافيف القابلة للتشوه المحسّنة (إدفر), RSDN، دقة فيديو فائقة مع انتباه المجموعة المؤقتة (VSR_TGA)، و أساسي. جوجل عزباءطريقة المرحلة كوميزر تم تضمينه أيضًا ، على الرغم من أنه لا يتناسب مع نوع الهندسة المعمارية للأعمال السابقة الأخرى.
تم اختبار الطرق ضد كل من UVSS و الأحمر مجموعة البيانات ، مع حصول VOTES على أعلى الدرجات:
يؤكد المؤلفون أن النتائج النوعية تشير أيضًا إلى تفوق VOTES على الأنظمة السابقة:
نُشر لأول مرة في 19 أغسطس 2022.