الذكاء الاصطناعي

استخدام الذكاء الاصطناعي لتلخيص مقاطع الفيديو "كيف" المطولة

تحديث on 9 كانون الأول، 2022

الصورة الرئيسية: DALL-E 2

إذا كنت من النوع الذي يزيد من سرعة مقطع فيديو تعليمي على YouTube من أجل الوصول إلى المعلومات التي تريدها بالفعل ؛ راجع نص الفيديو للحصول على المعلومات الأساسية المخفية في أوقات التشغيل الطويلة والتي غالبًا ما تكون محملة بالرعاة ؛ أو تأمل أن تكون WikiHow قد انتقلت إلى إنشاء نسخة أقل استهلاكا للوقت من المعلومات في الفيديو التعليمي ؛ ثم قد يكون مشروعًا جديدًا من جامعة كاليفورنيا في بيركلي وأبحاث Google وجامعة براون موضع اهتمامك.

بعنوان TL ؛ DW؟ تلخيص مقاطع الفيديو التعليمية ذات الصلة بالمهمة وإبرازها عبر الوسائطأطلقت حملة ورقة جديدة يشرح بالتفصيل إنشاء نظام تلخيص فيديو بمساعدة الذكاء الاصطناعي يمكنه تحديد الخطوات ذات الصلة من الفيديو وتجاهل كل شيء آخر ، مما يؤدي إلى ملخصات موجزة تختصر بسرعة في المطاردة.

يستخدم مشروع IV-Sum استغلال WikiHow لمقاطع الفيديو الطويلة الحالية لكل من معلومات النص والفيديو لتوليد ملخصات زائفة توفر الحقيقة الأساسية لتدريب النظام. المصدر: https://arxiv.org/pdf/2208.06773.pdf

تحتوي الملخصات الناتجة على جزء بسيط من وقت تشغيل الفيديو الأصلي ، بينما يتم أيضًا تسجيل المعلومات متعددة الوسائط (أي المستندة إلى النص) أثناء العملية حتى تتمكن الأنظمة المستقبلية من أتمتة إنشاء منشورات مدونة بأسلوب WikiHow والتي يمكنها التحليل تلقائيًا إطالة مقطع فيديو تعليمي في مقالة قصيرة موجزة وقابلة للبحث ، كاملة مع الرسوم التوضيحية ، مما قد يوفر الوقت والإحباط.

النظام الجديد يسمى رابعا-مجموع ("ملخص الفيديو التعليمي") ، ويستخدم المصدر المفتوح ريسنيت 50 خوارزمية التعرف على الرؤية الحاسوبية، من بين العديد من التقنيات الأخرى، لتمييز الإطارات والأجزاء ذات الصلة من مقطع فيديو مصدر طويل.

تدفق العمل المفاهيمي لـ IV-Sum.

يتم تدريب النظام على الملخصات الزائفة التي تم إنشاؤها من بنية محتوى موقع WikiHow ، حيث غالبًا ما يستفيد الأشخاص الحقيقيون من مقاطع الفيديو التعليمية الشائعة في نموذج وسائط متعددة مبني على النص ، وغالبًا ما يستخدمون المقاطع القصيرة وصور GIF المتحركة المأخوذة من مقاطع الفيديو التعليمية المصدر.

عند مناقشة استخدام المشروع لملخصات WikiHow كمصدر لبيانات الحقيقة الأساسية للنظام ، ذكر المؤلفون:

كل مقال عن مقاطع فيديو WikiHow يتكون موقع الويب من مقطع فيديو تعليمي رئيسي يوضح مهمة تتضمن غالبًا محتوى ترويجيًا ومقاطع للمدرس يتحدث إلى الكاميرا بدون معلومات مرئية عن المهمة وخطوات ليست حاسمة لأداء المهمة.

يفضل المشاهدون الذين يرغبون في إلقاء نظرة عامة على المهمة مقطع فيديو أقصر بدون كل المعلومات غير ذات الصلة المذكورة أعلاه. مقالات WikiHow (على سبيل المثال ، انظر كيفية صنع أرز السوشي) تحتوي على هذا بالضبط: النص المقابل الذي يحتوي على جميع الخطوات المهمة في الفيديو المدرجة مع الصور / المقاطع المصاحبة التي توضح الخطوات المختلفة في المهمة.

يتم استدعاء قاعدة البيانات الناتجة من هذا الويب كشط ملخصات WikiHow. تتكون قاعدة البيانات من 2,106 مدخلات فيديو وملخصاتهم. هذا هو حجم مجموعة البيانات أكبر بشكل ملحوظ مما هو متاح عادة لمشاريع تلخيص الفيديو ، والتي تتطلب عادة وضع العلامات والتعليقات التوضيحية اليدوية باهظة الثمن وتتطلب عمالة كثيفة - وهي عملية تمت آليتها إلى حد كبير في العمل الجديد ، وذلك بفضل النطاق الأكثر تقييدًا للتلخيص مقاطع فيديو تعليمية (وليست عامة).

يستفيد IV-Sum من تمثيلات الشبكة العصبية التلافيفية المؤقتة ثلاثية الأبعاد، بدلاً من التمثيلات القائمة على الإطار التي تميز الأعمال المماثلة السابقة، وتؤكد دراسة الاجتثاث المفصلة في الورقة أن جميع مكونات هذا النهج ضرورية لوظائف النظام.

تم اختبار IV-Sum بشكل إيجابي مقابل مختلف الأطر المقارنة ، بما في ذلك كليب إت (الذي عمل عليه أيضًا العديد من مؤلفي الورقة).

يسجل IV-Sum نتائج جيدة مقابل الأساليب المماثلة ، ربما بسبب نطاق التطبيق الأكثر تقييدًا ، مقارنة بالتشغيل العام لمبادرات تلخيص الفيديو. تفاصيل المقاييس وطرق التسجيل أسفل هذه المقالة.

خدمة التوصيل

تتضمن المرحلة الأولى في عملية التلخيص استخدام خوارزمية منخفضة الجهد نسبيًا وخاضعة للإشراف الضعيف لإنشاء ملخصات زائفة و درجات الأهمية من حيث الإطار لعدد كبير من مقاطع الفيديو التعليمية المقتبسة من الويب ، مع تسمية مهمة واحدة فقط في كل مقطع فيديو.

بعد ذلك ، يتم تدريب شبكة التلخيص التعليمي على هذه البيانات. يأخذ النظام الكلام المكتوب تلقائيًا (على سبيل المثال ، ترجمات YouTube التي تم إنشاؤها بواسطة AI للفيديو) والفيديو المصدر كمدخلات.

تتكون الشبكة من مشفر فيديو ومحول تسجيل مقطع (SST) ، ويتم توجيه التدريب من خلال درجات الأهمية المحددة في الملخصات الزائفة. يتم إنشاء الملخص النهائي من خلال تسلسل المقاطع التي حققت درجة أهمية عالية.

من الورقة:

يتمثل الحدس الرئيسي وراء خط إنتاج الملخص الزائف لدينا في أنه نظرًا للعديد من مقاطع الفيديو الخاصة بالمهمة ، فمن المحتمل أن تظهر الخطوات الحاسمة للمهمة عبر مقاطع فيديو متعددة (صلة المهمة).

بالإضافة إلى ذلك ، إذا كانت الخطوة مهمة ، فمن المعتاد أن يتحدث المتظاهر عن هذه الخطوة إما قبل أو أثناء أو بعد تنفيذها. لذلك ، من المحتمل أن تشير ترجمات الفيديو التي تم الحصول عليها باستخدام التعرف التلقائي على الكلام (ASR) إلى هذه الخطوات الرئيسية (بروز الوسائط المتعددة).

لإنشاء ملخص زائف ، يتم أولاً تقسيم الفيديو بشكل موحد إلى مقاطع ، ويتم تجميع المقاطع بناءً على تشابهها المرئي في "خطوات" (ألوان مختلفة في الصورة أعلاه). يتم بعد ذلك تعيين درجات الأهمية لهذه الخطوات بناءً على "صلة المهمة" و "الملاءمة عبر الوسائط" (أي الارتباط بين نصوص وصور ASR). ثم يتم اختيار الخطوات عالية الدرجات لتمثيل المراحل في الملخص الزائف.

يستخدم النظام بروز عبر الوسائط للمساعدة في إثبات ملاءمة كل خطوة ، من خلال مقارنة الكلام المفسر بالصور والإجراءات في الفيديو. يتم تحقيق ذلك من خلال استخدام نموذج نص فيديو مدرب مسبقًا حيث يتم تدريب كل عنصر بشكل مشترك في ظل فقدان MIL-NCE ، باستخدام برنامج ترميز فيديو سي ان ان ثلاثي الابعاد تم تطويره بواسطة DeepMind ، من بين آخرين.

ثم يتم الحصول على درجة الأهمية العامة من المتوسط المحسوب لمراحل أهمية هذه المهمة والتحليل متعدد الوسائط.

البيانات

تم إنشاء مجموعة بيانات أولية من الملخصات الزائفة للعملية ، والتي تشتمل على معظم محتويات مجموعتي بيانات سابقتين - COIN، مجموعة 2019 تحتوي على 11,000 مقطع فيديو تتعلق بـ 180 مهمة ؛ و عبر المهام، والتي تحتوي على 4,700 مقطع فيديو تعليمي ، تم استخدام 3,675 منها في البحث. تشمل المهام المتقاطعة 83 مهمة مختلفة.

أعلاه ، أمثلة من مكافحة التمرد ؛ أدناه ، من Cross-Task. المصادر ، على التوالي: https://arxiv.org/pdf/1903.02874.pdf و https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

باستخدام مقاطع الفيديو التي ظهرت في مجموعتي البيانات مرة واحدة فقط ، تمكن الباحثون من الحصول على 12,160،263 مقطع فيديو تغطي 628.53 مهمة مختلفة ، و XNUMX ساعة من المحتوى لمجموعة البيانات الخاصة بهم.

لملء مجموعة البيانات المستندة إلى WikiHow ، ولتوفير الحقيقة الأساسية للنظام ، قام المؤلفون بكشط مقاطع فيديو WikiHow لجميع مقاطع الفيديو التعليمية الطويلة ، جنبًا إلى جنب مع الصور ومقاطع الفيديو (مثل ملفات GIF) المرتبطة بكل خطوة. وبالتالي فإن هيكل المحتوى المشتق من WikiHow كان بمثابة نموذج لتمييز الخطوات في النظام الجديد.

تم استخدام الميزات المستخرجة عبر ResNet50 لمطابقة مقاطع الفيديو المختارة بالكرز في صور WikiHow ، وتنفيذ توطين الخطوات. تم استخدام الصورة الأكثر تشابهًا التي تم الحصول عليها ضمن نافذة فيديو مدتها 5 ثوانٍ كنقطة ربط.

تم بعد ذلك تجميع هذه المقاطع القصيرة معًا في مقاطع فيديو من شأنها أن تشكل الحقيقة الأساسية لتدريب النموذج.

تم تعيين التسميات لكل إطار في فيديو الإدخال ، للإعلان عما إذا كانت تنتمي إلى ملخص الإدخال أم لا ، مع تلقي كل مقطع فيديو من الباحثين تسمية ثنائية على مستوى الإطار ، ومتوسط درجة ملخص تم الحصول عليها عبر درجات الأهمية لكل الإطارات في المقطع.

في هذه المرحلة ، تم الآن ربط "الخطوات" في كل فيديو تعليمي بالبيانات المستندة إلى النص ، وتم تصنيفها.

التدريب والاختبارات والمقاييس

تم تقسيم مجموعة بيانات WikiHow النهائية إلى 1,339 مقطع فيديو تجريبي و 768 مقطع فيديو للتحقق - وهي زيادة ملحوظة في متوسط حجم مجموعات البيانات غير الأولية المخصصة لتحليل الفيديو.

تم تدريب مشفرات الفيديو والنصوص في الشبكة الجديدة بشكل مشترك على S3D شبكة بأوزان محملة من قبل التدريب كيفية100M نموذج تحت MIL-NCE الخسارة.

تم تدريب النموذج باستخدام مُحسِّن Adam بمعدل تعلم 0.01 بحجم دفعة 24 ، مع ربط البيانات الموزعة المتوازية التي تنشر التدريب عبر ثماني وحدات معالجة رسومات NVIDIA RTX 2080 ، ليصبح المجموع 24 جيجا بايت من VRAM الموزعة.

ثم تمت مقارنة IV-Sum مع سيناريوهات مختلفة لـ CLIP-It وفقًا لـ مماثل قبل يعمل ، بما في ذلك دراسة عن CLIP-It. كانت المقاييس المستخدمة هي قيم الدقة والاستدعاء و F ، عبر ثلاثة خطوط أساسية غير خاضعة للإشراف (انظر الورقة للحصول على التفاصيل).

تم سرد النتائج في الصورة السابقة ، لكن الباحثين لاحظوا بالإضافة إلى ذلك أن CLIP-It يفتقد عددًا من الخطوات المحتملة في مراحل مختلفة في الاختبارات التي لم يفعلها IV-Sum. يعزون هذا إلى CLIP-It بعد أن تم تدريبه وتطويره باستخدام مجموعات بيانات أصغر بشكل ملحوظ من مجموعة WikiHow الجديدة.

الآثار

يمكن أن تكون القيمة طويلة المدى القابلة للجدل لهذا النوع من البحث (والتي تشاركها IV-Sum مع التحدي الأوسع لتحليل الفيديو) هي جعل مقاطع الفيديو التعليمية أكثر سهولة في فهرسة محركات البحث التقليدية ، وتمكين هذا النوع من الاختزالية. في النتائج "مقتطف" لمقاطع الفيديو التي غالبًا ما تستخرجها Google من مقالة تقليدية أطول.

من الواضح أن تطوير أي وقت يمكن أن يكون للعملية المدعومة بالذكاء الاصطناعي التي تقلل من التزامنا بتطبيق الاهتمام الخطي والحصري لمحتوى الفيديو تداعيات على جاذبية الوسيلة لجيل من المسوقين الذين ربما كانت عتامة الفيديو هي الطريقة الوحيدة التي شعروا فيها بأنهم يستطيعون إشراكنا حصريًا.

نظرًا لصعوبة تحديد موقع المحتوى "القيّم" ، فقد حظي الفيديو الذي يساهم به المستخدم بتسامح واسع (إذا كان مترددًا) من مستهلكي الوسائط فيما يتعلق بوضع المنتج ، وفتحات الراعي ، والتعظيم الذاتي العام الذي يتم فيه عرض قيمة الفيديو غالبًا ما يتم صياغته. تعد مشاريع مثل IV-Sum بأن الجوانب الفرعية لمحتوى الفيديو ستصبح في النهاية حبيبية وقابلة للفصل عما يعتبره الكثيرون "ثقل" للإعلان داخل المحتوى والارتجاع غير المحتوي.

نُشر لأول مرة في 16 أغسطس 2022. تم التحديث في الساعة 2.52 مساءً في 16 أغسطس ، تمت إزالة العبارة المكررة.