رطم استعادة مقاطع فيديو الوسائط الاجتماعية المضغوطة بشكل مفرط باستخدام التعلم الآلي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

استعادة مقاطع فيديو الوسائط الاجتماعية المضغوطة بشكل مفرط باستخدام التعلم الآلي

mm
تحديث on
مصدر الصورة الرئيسي: DALL-E 2

يقدم بحث جديد من الصين طريقة فعالة وجديدة لاستعادة التفاصيل والدقة لمقاطع الفيديو المحملة بواسطة المستخدم مضغوط تلقائيًا على منصات مثل WeChat و YouTube من أجل توفير النطاق الترددي ومساحة التخزين.

مقارنة الطريقة الجديدة بالنُهج السابقة ، من حيث قدرتها على إعادة حل التفاصيل الدقيقة التي تم التخلص منها أثناء التحسين التلقائي لمنصة الوسائط الاجتماعية. المصدر: https://arxiv.org/pdf/2208.08597.pdf

مقارنة الطريقة الجديدة بالنُهج السابقة ، من حيث قدرتها على إعادة حل التفاصيل الدقيقة التي تم التخلص منها أثناء التحسين التلقائي لمنصة الوسائط الاجتماعية. المصدر: https://arxiv.org/pdf/2208.08597.pdf

على عكس الأساليب السابقة التي يمكن أن ترفع من مستوى مقاطع الفيديو وتختصرها بناءً على بيانات التدريب العامة ، فإن النهج الجديد يستمد بدلاً من ذلك خريطة ميزة التدهور (DFM) لكل إطار من إطارات الفيديو المضغوط - نظرة عامة فعالة على المناطق الأكثر تضررًا أو تدهورًا في الإطار والتي نتجت عن الضغط.

من دراسات الاستئصال للورقة الجديدة: الثانية من اليمين ، الحقيقة الأساسية لخريطة خاصية التدهور "الخالص" (DFM) ؛ الثالث من اليمين ، تقدير للضرر دون استخدام سوق دبي المالي. على اليسار ، خريطة أكثر دقة للضرر في سوق دبي المالي.

من دراسات الاستئصال للورقة الجديدة: الثانية من اليمين ، الحقيقة الأساسية لخريطة خاصية التدهور "الخالص" (DFM) ؛ الثالث من اليمين ، تقدير للضرر دون استخدام سوق دبي المالي. على اليسار ، خريطة أكثر دقة للضرر في سوق دبي المالي.

العملية التصالحية ، التي تستفيد من الشبكات العصبية التلافيفية (CNNs) ، من بين تقنيات أخرى ، تسترشد وتركز على المعلومات الموجودة في سوق دبي المالي ، مما يسمح للطريقة الجديدة بتجاوز الأداء ودقة الأساليب السابقة.

تم الحصول على الحقيقة الأساسية لهذه العملية من خلال قيام الباحثين بتحميل فيديو عالي الجودة على أربع منصات مشاركة شائعة، وتنزيل النتائج المضغوطة، وتطوير خط أنابيب رؤية حاسوبية قادر على التعلم بشكل تجريدي لتأثيرات الضغط وفقدان التفاصيل، بحيث يمكن تطبيقها عبر عدد من المنصات لاستعادة مقاطع الفيديو إلى جودة شبه أصلية، بناءً على بيانات مناسبة تمامًا.

أمثلة من مجموعة بيانات UVSSM الجديدة للباحثين.

أمثلة من مجموعة بيانات UVSSM الجديدة للباحثين.

تم تجميع المواد المستخدمة في البحث في مجموعة بيانات HQ / LQ بعنوان مشاركة مقاطع فيديو المستخدم على وسائل التواصل الاجتماعي (UVSSM) ، وقد تم تصنيعها نأمل أن تستمتع هذا المعرض (كلمه السر: rsqw) في Baidu ، لصالح المشاريع البحثية اللاحقة التي تسعى إلى تطوير طرق جديدة لاستعادة الفيديو المضغوط على النظام الأساسي.

مقارنة بين عينتي HQ / LQ مكافئتين من مجموعة بيانات UVSSM القابلة للتنزيل (انظر الروابط أعلاه للحصول على عناوين URL المصدر). نظرًا لأن هذا المثال قد يخضع لعدة جولات من الضغط (تطبيق الصور ، CMS ، CDN ، إلخ) ، يرجى الرجوع إلى بيانات المصدر الأصلية للحصول على مقارنة أكثر دقة.

مقارنة بين عينتي HQ / LQ مكافئتين من مجموعة بيانات UVSSM القابلة للتنزيل (انظر الروابط أعلاه للحصول على عناوين URL المصدر). نظرًا لأن هذا المثال قد يخضع لعدة جولات من الضغط (تطبيق الصور ، CMS ، CDN ، إلخ) ، يرجى الرجوع إلى بيانات المصدر الأصلية للحصول على مقارنة أكثر دقة.

رمز النظام ، والذي يُعرف باسم استعادة الفيديو من خلال استشعار التدرج التكيفي (VOTES) ، كما تم صدر في جيثب، على الرغم من أن تنفيذه يستلزم عددًا من التبعيات القائمة على السحب.

ورقة بعنوان استعادة مقاطع فيديو المستخدم التي تمت مشاركتها على مواقع التواصل الاجتماعي، ويأتي من ثلاثة باحثين في جامعة Shenzhen ، وواحد من قسم الهندسة الإلكترونية وهندسة المعلومات في جامعة هونغ كونغ للفنون التطبيقية.

من القطع الأثرية إلى الحقائق

القدرة على استعادة جودة مقاطع الفيديو المسحوبة من الويب دون العامة ، في بعض الأحيان مفرط قد يكون لـ "الهلوسة" بالتفاصيل التي توفرها برامج مثل Gigapixel (ومعظم حزم المصادر المفتوحة الشائعة ذات النطاق المماثل) آثار على قطاع أبحاث رؤية الكمبيوتر.

يعتمد البحث في تقنيات السيرة الذاتية المستندة إلى الفيديو في كثير من الأحيان على لقطات تم الحصول عليها من منصات مثل YouTube و Twitter ، حيث يتم حماية طرق الضغط وبرامج الترميز المستخدمة عن كثب ، ولا يمكن استخلاصها بسهولة بناءً على أنماط القطع الأثرية أو المؤشرات المرئية الأخرى ، وقد تتغير بشكل دوري.

معظم المشاريع التي تستفيد من الفيديو الموجود على الويب ليست كذلك البحث ضغط، ويجب أن تقديم علاوات للجودة المتاحة للفيديو المضغوط الذي توفره المنصات ، حيث لا يمكنهم الوصول إلى النسخ الأصلية عالية الجودة التي قام المستخدمون بتحميلها.

لذلك ، فإن القدرة على استعادة جودة ودقة أكبر لمثل هذه مقاطع الفيديو بأمانة ، دون التأثير على المصب من مجموعات بيانات الرؤية الحاسوبية غير ذات الصلة ، يمكن أن تساعد في تجنب الحلول البديلة ووسائل الراحة التي يجب أن تقدمها مشاريع السيرة الذاتية حاليًا لمصادر الفيديو المتدهورة.

على الرغم من أن المنصات مثل YouTube ستنشر أحيانًا تغييرات كبيرة في الطريقة التي تضغط بها على مقاطع الفيديو الخاصة بالمستخدمين (مثل VP9) ، لم يكشف أي منها صراحةً عن العملية بأكملها أو برامج الترميز والإعدادات الدقيقة المستخدمة لتقليل الملفات عالية الجودة التي يقوم المستخدمون بتحميلها.

أصبح تحقيق جودة مخرجات محسنة من عمليات تحميل المستخدم شيئًا من نوع درويديك فن في السنوات العشر الماضية أو نحو ذلك ، مع مختلف (غير مؤكد في الغالب) "الحلول" الدخول والخروج من الموضة.

خدمة التوصيل

تضمنت الأساليب السابقة لاستعادة الفيديو القائمة على التعلم العميق استخراج الميزات العامة ، إما كنهج لاستعادة إطار واحد أو في بنية متعددة الإطارات تستفيد تدفق البصر (أي يأخذ في الاعتبار الإطارات المجاورة واللاحقة عند استعادة إطار حالي).

كل هذه الأساليب يجب أن تتعامل مع تأثير "الصندوق الأسود" - حقيقة أنهم لا يستطيعون فحص تأثيرات الضغط في التقنيات الأساسية ، لأنه ليس من المؤكد ما هي التقنيات الأساسية ، أو كيف تم تكوينها لأي مستخدم معين فيديو محمّل.

بدلاً من ذلك ، تسعى VOTES إلى استخراج الميزات البارزة مباشرةً من الفيديو الأصلي والمضغوط ، وتحديد أنماط التحول التي ستعمم على معايير عدد من المنصات.

بنية مفاهيمية مبسطة لـ VOTES.

بنية مفاهيمية مبسطة لـ VOTES.

يستخدم VOTES وحدة استشعار تدهور مطورة خصيصًا (DSM ، انظر الصورة أعلاه) لاستخراج الميزات في الكتل التلافيفية. يتم بعد ذلك تمرير إطارات متعددة إلى وحدة استخلاص ومحاذاة ميزة (FEAM) ، ثم يتم تحويلها إلى وحدة تعديل تدهور (DMM). أخيرًا ، تقوم وحدة إعادة الإعمار بإخراج الفيديو المستعاد.

البيانات والتجارب

في العمل الجديد ، ركز الباحثون جهودهم على استعادة الفيديو الذي تم تحميله وإعادة تنزيله من منصة WeChat ، لكنهم كانوا قلقين بشأن ضمان إمكانية تكييف الخوارزمية الناتجة مع الأنظمة الأساسية الأخرى.

اتضح أنه بمجرد حصولهم على نموذج استعادة فعال لمقاطع فيديو WeChat ، فإن تكييفه مع Bilibili و Twitter و YouTube استغرق 90 ثانية فقط لحقبة واحدة لكل نموذج مخصص لكل منصة (على جهاز يشغل 4 وحدات معالجة رسومات NVIDIA Tesla P40 مع إجمالي 96 جيجابايت من VRAM).

ثبت أن تكييف نموذج WeChat الناجح مع منصات مشاركة الفيديو الأخرى أمر تافه إلى حد ما. هنا نرى VOTES تحقق تكافؤًا فوريًا تقريبًا في الأداء عبر الأنظمة الأساسية المختلفة ، باستخدام مجموعة بيانات UVSSM الخاصة بالمؤلفين ومجموعة بيانات REDS (انظر أدناه).

ثبت أن تكييف نموذج WeChat الناجح مع منصات مشاركة الفيديو الأخرى أمر تافه إلى حد ما. هنا نرى VOTES تحقق تكافؤًا فوريًا تقريبًا في الأداء عبر الأنظمة الأساسية المختلفة ، باستخدام مجموعة بيانات UVSSM الخاصة بالمؤلفين ومجموعة بيانات REDS (انظر أدناه).

لتعبئة مجموعة بيانات UVSSM ، جمع الباحثون 264 مقطع فيديو تتراوح ما بين 5-30 ثانية ، كل منها بمعدل إطارات 30 إطارًا في الثانية ، مصدرها إما كاميرات الهاتف المحمول أو من الإنترنت. كانت جميع مقاطع الفيديو إما بدقة 1920 × 1080 أو 1280 × 270.

تضمن المحتوى (انظر الصورة السابقة) مناظر المدينة والمناظر الطبيعية والأشخاص والحيوانات ، من بين مجموعة متنوعة من الموضوعات الأخرى ، ويمكن استخدامها في مجموعة البيانات العامة عبر ترخيص Creative Commons Attribution ، مما يسمح بإعادة الاستخدام.

حمّل المؤلفون 214 مقطع فيديو إلى WeChat باستخدام خمس علامات تجارية مختلفة للهاتف المحمول ، وحصلوا على دقة فيديو WeChat الافتراضية البالغة 960 × 540 (ما لم يكن الفيديو المصدر أصغر بالفعل من هذه الأبعاد) ، من بين أكثر التحويلات "عقابية" عبر الأنظمة الأساسية الشائعة.

أعلى اليسار ، إطار HQ الأصلي بثلاثة أقسام مكبرة ؛ أعلى اليمين ، نفس الإطار من نسخة مضغوطة متدنية بالنظام الأساسي من نفس الفيديو ؛ أسفل اليسار ، التدهور المحسوب للإطار المضغوط ؛ وأسفل اليمين ، "منطقة العمل" اللاحقة لـ VOTES لتركيز اهتمامها عليها. من الواضح أن حجم الصورة منخفضة الجودة هو نصف حجم المقر الرئيسي ، ولكن تم تغيير حجمها هنا لتوضيح المقارنة.

أعلى اليسار ، إطار HQ الأصلي بثلاثة أقسام مكبرة ؛ أعلى اليمين ، نفس الإطار من نسخة مضغوطة متدنية بالنظام الأساسي من نفس الفيديو ؛ أسفل اليسار ، التدهور المحسوب للإطار المضغوط ؛ وأسفل اليمين ، "منطقة العمل" اللاحقة لـ VOTES لتركيز اهتمامها عليها. من الواضح أن حجم الصورة منخفضة الجودة هو نصف حجم المقر الرئيسي ، ولكن تم تغيير حجمها هنا لتوضيح المقارنة.

للمقارنات اللاحقة مع إجراءات التحويل الخاصة بالمنصات الأخرى ، قام الباحثون بتحميل 50 مقطع فيديو ليس مدرج في 214 الأصلي إلى Bilibili و YouTube و Twitter. كانت الدقة الأصلية لمقاطع الفيديو 1280 × 270 ، وكانت الإصدارات التي تم تنزيلها تبلغ 640 × 360.

وبذلك يصل مجموع بيانات UVSSM إلى إجمالي 364 مقطع فيديو (HQ) ومقاطع فيديو مشتركة (LQ) ، مع 214 إلى WeChat ، و 50 لكل من Bilibili و YouTube و Twitter.

بالنسبة للتجارب ، تم اختيار 10 مقاطع فيديو عشوائية كمجموعة اختبار ، وأربعة كمجموعة للتحقق ، والبقية 200 كمجموعة تدريب أساسية. أجريت التجارب خمس مرات مع K- أضعاف عبر التحقق من الصحة، مع متوسط ​​النتائج عبر هذه الحالات.

في اختبارات استعادة الفيديو ، تمت مقارنة VOTES مع اندماج Spatio-Temporal Deformable Fusion (STDF). لتحسين الدقة ، تم اختباره ضد التلافيف القابلة للتشوه المحسّنة (إدفر), RSDN، دقة فيديو فائقة مع انتباه المجموعة المؤقتة (VSR_TGA)، و أساسي. جوجل عزباءطريقة المرحلة كوميزر تم تضمينه أيضًا ، على الرغم من أنه لا يتناسب مع نوع الهندسة المعمارية للأعمال السابقة الأخرى.

تم اختبار الطرق ضد كل من UVSS و الأحمر مجموعة البيانات ، مع حصول VOTES على أعلى الدرجات:

يؤكد المؤلفون أن النتائج النوعية تشير أيضًا إلى تفوق VOTES على الأنظمة السابقة:

تمت استعادة إطارات الفيديو من REDS من خلال الأساليب المتنافسة. دقة إرشادية فقط - راجع الورقة للحصول على حل نهائي.

تمت استعادة إطارات الفيديو من REDS من خلال الأساليب المتنافسة. دقة إرشادية فقط - راجع الورقة للحصول على حل نهائي.

 

نُشر لأول مرة في 19 أغسطس 2022.