الذكاء الاصطناعي

استخدام الذكاء الاصطناعي لتلخيص مقاطع الفيديو "كيف" المطولة

تم النشر 16 أغسطس 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

الصورة الرئيسية: DALL-E 2

إذا كنت من النوع الذي يزيد من سرعة فيديو تعليمي على YouTube من أجل الوصول إلى المعلومات التي تريدها بالفعل؛ راجع نص الفيديو لاستخلاص المعلومات الأساسية المخفية في أوقات التشغيل الطويلة والمحملة غالبًا بالرعاة؛ أو تأمل أن يكون WikiHow قد نجح في إنشاء نسخة أقل استهلاكًا للوقت من المعلومات الموجودة في الفيديو التعليمي؛ فقد يثير اهتمامك مشروع جديد من جامعة كاليفورنيا في بيركلي وجوجل للأبحاث وجامعة براون.

بعنوان TL ؛ DW؟ تلخيص مقاطع الفيديو التعليمية ذات الصلة بالمهمة وإبرازها عبر الوسائطأطلقت حملة ورقة جديدة يشرح بالتفصيل إنشاء نظام تلخيص فيديو بمساعدة الذكاء الاصطناعي يمكنه تحديد الخطوات ذات الصلة من الفيديو وتجاهل كل شيء آخر ، مما يؤدي إلى ملخصات موجزة تختصر بسرعة في المطاردة.

يستخدم مشروع IV-Sum استغلال WikiHow لمقاطع الفيديو الطويلة الحالية لكل من معلومات النص والفيديو لتوليد ملخصات زائفة توفر الحقيقة الأساسية لتدريب النظام. المصدر: https://arxiv.org/pdf/2208.06773.pdf

يستخدم مشروع IV-Sum استغلال WikiHow لمقاطع الفيديو الطويلة الموجودة لكل من المعلومات النصية والفيديو لإنشاء ملخصات وهمية توفر الحقيقة الأساسية لتدريب النظام. المصدر: https://arxiv.org/pdf/2208.06773.pdf

تتضمن الملخصات الناتجة جزءًا بسيطًا من وقت تشغيل الفيديو الأصلي، في حين يتم أيضًا تسجيل المعلومات متعددة الوسائط (أي المستندة إلى النص) أثناء العملية حتى تتمكن الأنظمة المستقبلية من أتمتة إنشاء منشورات المدونة على غرار WikiHow والتي تكون قادرة على تحليل مقطع فيديو تعليمي طويل تلقائيًا إلى مقالة قصيرة موجزة وقابلة للبحث، كاملة مع الرسوم التوضيحية، مما قد يوفر الوقت والإحباط.

النظام الجديد يسمى رابعا-مجموع ('ملخص الفيديو التعليمي')، ويستخدم المصدر المفتوح ريسنيت 50 خوارزمية التعرف على الرؤية الحاسوبية، من بين العديد من التقنيات الأخرى، لتمييز الإطارات والأجزاء ذات الصلة من مقطع فيديو مصدر طويل.

تدفق العمل المفاهيمي لـ IV-Sum.

يتم تدريب النظام على الملخصات الزائفة التي تم إنشاؤها من بنية محتوى موقع WikiHow ، حيث غالبًا ما يستفيد الأشخاص الحقيقيون من مقاطع الفيديو التعليمية الشائعة في نموذج وسائط متعددة مبني على النص ، وغالبًا ما يستخدمون المقاطع القصيرة وصور GIF المتحركة المأخوذة من مقاطع الفيديو التعليمية المصدر.

عند مناقشة استخدام المشروع لملخصات WikiHow كمصدر للبيانات الحقيقية للنظام، ذكر المؤلفون:

كل مقال عن مقاطع فيديو WikiHow يتكون موقع الويب من مقطع فيديو تعليمي رئيسي يوضح مهمة تتضمن غالبًا محتوى ترويجيًا ومقاطع للمدرس يتحدث إلى الكاميرا بدون معلومات مرئية عن المهمة وخطوات ليست حاسمة لأداء المهمة.

يفضل المشاهدون الذين يرغبون في إلقاء نظرة عامة على المهمة مقطع فيديو أقصر بدون كل المعلومات غير ذات الصلة المذكورة أعلاه. مقالات WikiHow (على سبيل المثال ، انظر كيفية صنع أرز السوشي) تحتوي بالضبط على هذا: النص المقابل الذي يحتوي على جميع الخطوات المهمة في الفيديو المدرج مع الصور/المقاطع المصاحبة التي توضح الخطوات المختلفة في المهمة.

يتم استدعاء قاعدة البيانات الناتجة من هذا الويب كشط ملخصات WikiHow. تتكون قاعدة البيانات من 2,106 مدخلات فيديو وملخصاتهم. هذا هو حجم مجموعة البيانات أكبر بشكل ملحوظ مما هو متاح عادة لمشاريع تلخيص الفيديو ، والتي تتطلب عادة وضع العلامات والتعليقات التوضيحية اليدوية باهظة الثمن وتتطلب عمالة كثيفة - وهي عملية تمت آليتها إلى حد كبير في العمل الجديد ، وذلك بفضل النطاق الأكثر تقييدًا للتلخيص مقاطع فيديو تعليمية (وليست عامة).

ويستفيد IV-Sum من تمثيلات الشبكة العصبية التلافيفية الزمنية ثلاثية الأبعاد، بدلاً من التمثيلات القائمة على الإطار التي تميز الأعمال المماثلة السابقة، وتؤكد دراسة الاستئصال المفصلة في الورقة أن جميع مكونات هذا النهج ضرورية لوظائف النظام.

تم اختبار IV-Sum بشكل إيجابي مقابل مختلف الأطر المقارنة ، بما في ذلك كليب إت (التي عمل عليها أيضًا العديد من مؤلفي الورقة).

يسجل IV-Sum نتائج جيدة مقابل الأساليب المماثلة ، ربما بسبب نطاق التطبيق الأكثر تقييدًا ، مقارنة بالتشغيل العام لمبادرات تلخيص الفيديو. تفاصيل المقاييس وطرق التسجيل أسفل هذه المقالة.

الأسلوب

تتضمن المرحلة الأولى في عملية التلخيص استخدام خوارزمية منخفضة الجهد نسبيًا وخاضعة للإشراف الضعيف لإنشاء ملخصات زائفة و درجات الأهمية من حيث الإطار لعدد كبير من مقاطع الفيديو التعليمية المقتبسة من الويب ، مع تسمية مهمة واحدة فقط في كل مقطع فيديو.

بعد ذلك، تُدرَّب شبكة تلخيص تعليمي على هذه البيانات. يأخذ النظام الكلام المنقول تلقائيًا (مثل ترجمات الفيديو المُولَّدة بالذكاء الاصطناعي من يوتيوب) والفيديو المصدر كمدخلات.

تتكون الشبكة من مشفر فيديو ومحول تسجيل مقطع (SST) ، ويتم توجيه التدريب من خلال درجات الأهمية المحددة في الملخصات الزائفة. يتم إنشاء الملخص النهائي من خلال تسلسل المقاطع التي حققت درجة أهمية عالية.

من الورقة:

يتمثل الحدس الرئيسي وراء خط إنتاج الملخص الزائف لدينا في أنه نظرًا للعديد من مقاطع الفيديو الخاصة بالمهمة ، فمن المحتمل أن تظهر الخطوات الحاسمة للمهمة عبر مقاطع فيديو متعددة (صلة المهمة).

بالإضافة إلى ذلك، إذا كانت الخطوة مهمة، فمن المعتاد أن يتحدث المُعلِّم عنها قبل تنفيذها أو أثناءها أو بعدها. لذلك، من المرجح أن تُشير ترجمات الفيديو المُستخدَمة بتقنية التعرّف التلقائي على الكلام (ASR) إلى هذه الخطوات الرئيسية (الأهمية عبر الوسائط).

لإنشاء ملخص زائف ، يتم أولاً تقسيم الفيديو بشكل موحد إلى مقاطع ، ويتم تجميع المقاطع بناءً على تشابهها المرئي في "خطوات" (ألوان مختلفة في الصورة أعلاه). يتم بعد ذلك تعيين درجات الأهمية لهذه الخطوات بناءً على "صلة المهمة" و "الملاءمة عبر الوسائط" (أي الارتباط بين نصوص وصور ASR). ثم يتم اختيار الخطوات عالية الدرجات لتمثيل المراحل في الملخص الزائف.

لإنشاء الملخص الزائف، يُقسّم الفيديو أولًا إلى مقاطع متساوية، وتُجمّع المقاطع بناءً على تشابهها البصري في "خطوات" (ألوان مختلفة في الصورة أعلاه). تُمنح هذه الخطوات درجات أهمية بناءً على "صلة المهمة" و"الأهمية عبر الوسائط" (أي الارتباط بين نص التعرف التلقائي على الكلام والصور). ثم تُختار الخطوات ذات الدرجات العالية لتمثيل المراحل في الملخص الزائف.

يستخدم النظام بروز عبر الوسائط للمساعدة في إثبات ملاءمة كل خطوة ، من خلال مقارنة الكلام المفسر بالصور والإجراءات في الفيديو. يتم تحقيق ذلك من خلال استخدام نموذج نص فيديو مدرب مسبقًا حيث يتم تدريب كل عنصر بشكل مشترك في ظل فقدان MIL-NCE ، باستخدام برنامج ترميز فيديو سي ان ان ثلاثي الابعاد تم تطويره بواسطة DeepMind ، من بين آخرين.

ثم يتم الحصول على درجة الأهمية العامة من المتوسط المحسوب لمراحل أهمية هذه المهمة والتحليل متعدد الوسائط.

البيانات

تم إنشاء مجموعة بيانات أولية من الملخصات الزائفة للعملية ، والتي تشتمل على معظم محتويات مجموعتي بيانات سابقتين - COIN، مجموعة 2019 تحتوي على 11,000 مقطع فيديو تتعلق بـ 180 مهمة ؛ و عبر المهام، والتي تحتوي على 4,700 مقطع فيديو تعليمي ، تم استخدام 3,675 منها في البحث. تشمل المهام المتقاطعة 83 مهمة مختلفة.

أعلاه ، أمثلة من مكافحة التمرد ؛ أدناه ، من Cross-Task. المصادر ، على التوالي: https://arxiv.org/pdf/1903.02874.pdf و https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

باستخدام مقاطع الفيديو التي ظهرت في مجموعتي البيانات مرة واحدة فقط ، تمكن الباحثون من الحصول على 12,160،263 مقطع فيديو تغطي 628.53 مهمة مختلفة ، و XNUMX ساعة من المحتوى لمجموعة البيانات الخاصة بهم.

لتعبئة مجموعة بيانات ويكي هاو، ولتوفير المعلومات الأساسية للنظام، جمع المؤلفون مقاطع فيديو ويكي هاو لجميع الفيديوهات التعليمية الطويلة، بالإضافة إلى صورها ومقاطع الفيديو (مثل ملفات GIF) المرتبطة بكل خطوة. وهكذا، كان هيكل المحتوى المشتق من ويكي هاو بمثابة نموذج لتمييز الخطوات في النظام الجديد.

تم استخدام الميزات المستخرجة عبر ResNet50 لمطابقة مقاطع الفيديو المختارة بالكرز في صور WikiHow ، وتنفيذ توطين الخطوات. تم استخدام الصورة الأكثر تشابهًا التي تم الحصول عليها ضمن نافذة فيديو مدتها 5 ثوانٍ كنقطة ربط.

تم بعد ذلك تجميع هذه المقاطع القصيرة معًا في مقاطع فيديو من شأنها أن تشكل الحقيقة الأساسية لتدريب النموذج.

تم تعيين التسميات لكل إطار في فيديو الإدخال ، للإعلان عما إذا كانت تنتمي إلى ملخص الإدخال أم لا ، مع تلقي كل مقطع فيديو من الباحثين تسمية ثنائية على مستوى الإطار ، ومتوسط درجة ملخص تم الحصول عليها عبر درجات الأهمية لكل الإطارات في المقطع.

في هذه المرحلة، أصبحت "الخطوات" في كل مقطع فيديو تعليمي مرتبطة الآن ببيانات نصية، وتم تصنيفها.

التدريب والاختبارات والمقاييس

تم تقسيم مجموعة بيانات WikiHow النهائية إلى 1,339 مقطع فيديو تجريبي و 768 مقطع فيديو للتحقق - وهي زيادة ملحوظة في متوسط حجم مجموعات البيانات غير الأولية المخصصة لتحليل الفيديو.

تم تدريب مشفرات الفيديو والنصوص في الشبكة الجديدة بشكل مشترك على S3D شبكة بأوزان محملة من قبل التدريب كيفية100M نموذج تحت MIL-NCE الخسارة.

تم تدريب النموذج باستخدام مُحسِّن Adam بمعدل تعلم 0.01 بحجم دفعة 24 ، مع ربط البيانات الموزعة المتوازية التي تنشر التدريب عبر ثماني وحدات معالجة رسومات NVIDIA RTX 2080 ، ليصبح المجموع 24 جيجا بايت من VRAM الموزعة.

ثم تمت مقارنة IV-Sum مع سيناريوهات مختلفة لـ CLIP-It وفقًا لـ مماثل قبل يعمل ، بما في ذلك دراسة عن CLIP-It. كانت المقاييس المستخدمة هي قيم الدقة والاستدعاء و F ، عبر ثلاثة خطوط أساسية غير خاضعة للإشراف (انظر الورقة للحصول على التفاصيل).

تم سرد النتائج في الصورة السابقة ، لكن الباحثين لاحظوا بالإضافة إلى ذلك أن CLIP-It يفتقد عددًا من الخطوات المحتملة في مراحل مختلفة في الاختبارات التي لم يفعلها IV-Sum. يعزون هذا إلى CLIP-It بعد أن تم تدريبه وتطويره باستخدام مجموعات بيانات أصغر بشكل ملحوظ من مجموعة WikiHow الجديدة.

الآثار

يمكن أن تكون القيمة طويلة المدى القابلة للجدل لهذا النوع من البحث (والتي تشاركها IV-Sum مع التحدي الأوسع لتحليل الفيديو) هي جعل مقاطع الفيديو التعليمية أكثر سهولة في فهرسة محركات البحث التقليدية ، وتمكين هذا النوع من الاختزالية. مقتطف من النتائج لمقاطع الفيديو التي غالبًا ما تستخرجها Google من مقالة تقليدية أطول.

من الواضح أن تطوير أي وقت يمكن أن يكون للعملية المدعومة بالذكاء الاصطناعي التي تقلل من التزامنا بتطبيق الاهتمام الخطي والحصري لمحتوى الفيديو تداعيات على جاذبية الوسيلة لجيل من المسوقين الذين ربما كانت عتامة الفيديو هي الطريقة الوحيدة التي شعروا فيها بأنهم يستطيعون إشراكنا حصريًا.

نظرًا لصعوبة تحديد موقع المحتوى "القيّم"، حظيت الفيديوهات التي يُساهم بها المستخدمون بإقبال واسع (وإن كان متردداً) من قِبل مستهلكي الوسائط الإعلامية فيما يتعلق بترويج المنتجات، وفرص الرعاية، والتضخيم الذاتي العام الذي يُعبَّر عنه غالبًا في سياق قيمة الفيديو. وتبشر مشاريع مثل IV-Sum بأن الجوانب الفرعية لمحتوى الفيديو ستصبح في نهاية المطاف أكثر دقةً ووضوحًا، ويمكن فصلها عما يعتبره الكثيرون "ثقلًا" للإعلانات داخل المحتوى والارتجال غير المرتبط به.

نُشر لأول مرة في 16 أغسطس 2022. تم التحديث في الساعة 2.52 مساءً في 16 أغسطس ، تمت إزالة العبارة المكررة.

مواضيع ذات صلة:رؤية الكمبيوتر بحث الفيديو

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai