ต้นขั้ว การใช้ AI เพื่อสรุปวิดีโอ 'How To' ที่มีความยาว - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

การใช้ AI เพื่อสรุปวิดีโอ 'How To' ที่มีความยาว

mm
วันที่อัพเดท on
ภาพหลัก: DALL-E 2

หากคุณเป็นคนประเภทที่จะเร่งความเร็วของวิดีโอสอนการใช้งาน YouTube เพื่อให้ได้ข้อมูลที่คุณต้องการจริงๆ ศึกษาการถอดเสียงของวิดีโอเพื่อรวบรวมข้อมูลสำคัญที่ซ่อนอยู่ในรันไทม์ที่ยาวและบ่อยครั้งที่มีสปอนเซอร์รับภาระ หรือหวังว่า WikiHow จะสร้างข้อมูลเวอร์ชันที่ใช้เวลาน้อยลงในวิดีโอแนะนำ โครงการใหม่จาก UC Berkeley, Google Research และ Brown University อาจเป็นที่สนใจของคุณ

บรรดาศักดิ์ TL;DW? การสรุปวิดีโอการสอนที่มีความเกี่ยวข้องของงานและ Cross-Modal Saliencyที่ กระดาษใหม่ ให้รายละเอียดเกี่ยวกับการสร้างระบบการสรุปวิดีโอโดยใช้ AI ช่วย ซึ่งสามารถระบุขั้นตอนที่เกี่ยวข้องจากวิดีโอและละทิ้งสิ่งอื่นทั้งหมด ทำให้ได้บทสรุปสั้นๆ ที่ตัดไปที่การไล่ล่าอย่างรวดเร็ว

โครงการ IV-Sum ใช้ประโยชน์จากคลิปวิดีโอขนาดยาวที่มีอยู่ของวิกิฮาวเพื่อสร้างข้อมูลสรุปเท็จที่ให้ความจริงพื้นฐานในการฝึกอบรมระบบ ที่มา: https://arxiv.org/pdf/2208.06773.pdf

โครงการ IV-Sum ใช้ประโยชน์จากคลิปวิดีโอขนาดยาวที่มีอยู่ของวิกิฮาวเพื่อสร้างข้อมูลสรุปเท็จที่ให้ความจริงพื้นฐานในการฝึกอบรมระบบ ที่มา: https://arxiv.org/pdf/2208.06773.pdf

ข้อมูลสรุปที่ได้จะมีเศษเสี้ยวของเวลารันไทม์ของวิดีโอต้นฉบับ ในขณะที่ข้อมูลหลายโมดอล (เช่น ข้อความ) จะถูกบันทึกในระหว่างกระบวนการด้วย เพื่อให้ระบบในอนาคตสามารถสร้างบล็อกโพสต์สไตล์วิกิฮาวโดยอัตโนมัติซึ่งสามารถแยกวิเคราะห์ได้โดยอัตโนมัติ วิดีโอแสดงวิธีการแบบ prolix ในบทความสั้นที่รวบรัดและค้นหาได้ พร้อมภาพประกอบ ซึ่งอาจช่วยประหยัดเวลาและความยุ่งยาก

ระบบใหม่นี้เรียกว่า IV-ผลรวม ('Instructional Video Summarizer') และใช้โอเพ่นซอร์ส เรสเน็ต-50 อัลกอริธึมการจดจำการมองเห็นของคอมพิวเตอร์ ท่ามกลางเทคนิคอื่นๆ มากมาย เพื่อแยกแยะเฟรมและเซ็กเมนต์ที่เกี่ยวข้องของวิดีโอต้นฉบับที่มีความยาว

เวิร์กโฟลว์แนวคิดสำหรับ IV-Sum

เวิร์กโฟลว์แนวคิดสำหรับ IV-Sum

ระบบได้รับการฝึกอบรมเกี่ยวกับการสรุปหลอกที่สร้างขึ้นจากโครงสร้างเนื้อหาของเว็บไซต์ WikiHow ซึ่งคนจริงๆ มักจะใช้ประโยชน์จากวิดีโอการสอนที่เป็นที่นิยมในรูปแบบมัลติมีเดียแบบข้อความที่ประจบประแจง มักใช้คลิปสั้นและ GIF แบบเคลื่อนไหวที่นำมาจากวิดีโอแนะนำแหล่งที่มา

กล่าวถึงการใช้บทสรุป WikiHow ของโครงการเป็นแหล่งข้อมูลความจริงพื้นฐานสำหรับระบบ ผู้เขียนระบุว่า:

'แต่ละบทความเกี่ยวกับ วิดีโอวิกิฮาว เว็บไซต์ประกอบด้วยวิดีโอแนะนำหลักที่สาธิตงานที่มักมีเนื้อหาส่งเสริมการขาย คลิปของผู้สอนพูดกับกล้องโดยไม่มีข้อมูลภาพของงาน และขั้นตอนที่ไม่สำคัญสำหรับการปฏิบัติงาน

'ผู้ชมที่ต้องการภาพรวมของงานจะชอบวิดีโอที่สั้นกว่าโดยไม่มีข้อมูลที่ไม่เกี่ยวข้องทั้งหมดที่กล่าวมา บทความ WikiHow (เช่น ดู วิธีทำข้าวซูชิ) มีสิ่งนี้ทุกประการ: ข้อความที่เกี่ยวข้องซึ่งมีขั้นตอนสำคัญทั้งหมดในวิดีโอที่แสดงรายการพร้อมรูปภาพ/คลิปประกอบที่แสดงขั้นตอนต่างๆ ในงาน'

ฐานข้อมูลผลลัพธ์จากการขูดเว็บนี้เรียกว่า สรุปวิกิฮาว. ฐานข้อมูลประกอบด้วยวิดีโออินพุต 2,106 รายการและบทสรุปที่เกี่ยวข้อง นี่เป็นชุดข้อมูลขนาดใหญ่กว่าที่มีอยู่ทั่วไปสำหรับโปรเจ็กต์การสรุปวิดีโอ ซึ่งปกติแล้วต้องใช้การติดฉลากและคำอธิบายประกอบแบบแมนนวลที่มีราคาแพงและใช้แรงงานมาก ซึ่งเป็นกระบวนการที่ทำงานอัตโนมัติเป็นส่วนใหญ่ในงานใหม่ ต้องขอบคุณขอบเขตการสรุปที่จำกัดมากขึ้น วิดีโอแนะนำ (ไม่ใช่วิดีโอทั่วไป)

IV-Sum ใช้ประโยชน์จากการนำเสนอโครงข่ายประสาทเทียมแบบหมุนวน 3 มิติ แทนที่จะใช้การนำเสนอแบบเฟรมซึ่งแสดงลักษณะงานที่คล้ายกันก่อนหน้านี้ และการศึกษาการผ่าตัดทำลายที่มีรายละเอียดในรายงานนี้ยืนยันว่าส่วนประกอบทั้งหมดของแนวทางนี้มีความสำคัญต่อการทำงานของระบบ

IV-Sum ได้รับการทดสอบในเกณฑ์ดีเมื่อเทียบกับเฟรมเวิร์กที่เทียบเคียงได้หลากหลาย รวมถึง คลิปมัน (ซึ่งผู้เขียนกระดาษหลายคนทำงานอยู่ด้วย)

IV-Sum ทำคะแนนได้ดีเมื่อเทียบกับวิธีการเปรียบเทียบ อาจเป็นเพราะขอบเขตการใช้งานที่จำกัดมากกว่า เมื่อเปรียบเทียบกับการริเริ่มการสรุปวิดีโอโดยทั่วไป รายละเอียดของเมตริกและวิธีการให้คะแนนเพิ่มเติมในบทความนี้

IV-Sum ทำคะแนนได้ดีเมื่อเทียบกับวิธีการเปรียบเทียบ อาจเป็นเพราะขอบเขตการใช้งานที่จำกัดมากกว่า เมื่อเปรียบเทียบกับการริเริ่มการสรุปวิดีโอโดยทั่วไป รายละเอียดของเมตริกและวิธีการให้คะแนนเพิ่มเติมในบทความนี้

วิธี

ขั้นตอนแรกในกระบวนการสรุปเกี่ยวข้องกับการใช้ความพยายามค่อนข้างต่ำและอัลกอริธึมที่มีการควบคุมดูแลอย่างอ่อนเพื่อสร้างการสรุปหลอกและ คะแนนความสำคัญของเฟรม สำหรับวิดีโอแนะนำการใช้งานเว็บจำนวนมาก โดยแต่ละวิดีโอจะมีป้ายกำกับงานเดียว

ถัดไป เครือข่ายการสรุปการเรียนการสอนได้รับการฝึกอบรมเกี่ยวกับข้อมูลนี้ ระบบจะใช้คำพูดที่ถอดเสียงอัตโนมัติ (เช่น คำบรรยายวิดีโอที่สร้างโดย AI ของ YouTube) และวิดีโอต้นฉบับเป็นอินพุต

เครือข่ายประกอบด้วยตัวเข้ารหัสวิดีโอและตัวแปลงคะแนนส่วน (SST) และการฝึกอบรมจะได้รับคำแนะนำจากคะแนนความสำคัญที่กำหนดในบทสรุปหลอก บทสรุปขั้นสุดท้ายถูกสร้างขึ้นโดยการเชื่อมส่วนที่ได้คะแนนความสำคัญสูงเข้าด้วยกัน

จากกระดาษ:

'สัญชาตญาณหลักที่อยู่เบื้องหลังขั้นตอนการสร้างสรุปหลอกของเราคือการที่มีวิดีโอจำนวนมากเกี่ยวกับงานหนึ่งๆ ขั้นตอนที่สำคัญต่องานนั้นมีแนวโน้มที่จะปรากฏในวิดีโอหลายรายการ (ความเกี่ยวข้องของงาน)

'นอกจากนี้ หากขั้นตอนหนึ่งมีความสำคัญ ผู้สาธิตมักจะพูดถึงขั้นตอนนี้ก่อน ระหว่าง หรือหลังการแสดง ดังนั้น คำบรรยายสำหรับวิดีโอที่ได้รับโดยใช้การรู้จำเสียงอัตโนมัติ (ASR) มักจะอ้างอิงถึงขั้นตอนสำคัญเหล่านี้ (ความเด่นข้ามโมดอล)'

ในการสร้างการสรุปหลอก ขั้นแรก วิดีโอจะถูกแบ่งพาร์ติชันออกเป็นส่วนๆ อย่างสม่ำเสมอ และกลุ่มต่างๆ จะจัดกลุ่มตามความคล้ายคลึงกันของภาพเป็น 'ขั้นตอน' (สีต่างๆ ในภาพด้านบน) ขั้นตอนเหล่านี้จะได้รับคะแนนความสำคัญตาม 'ความเกี่ยวข้องของงาน' และ 'ความเด่นข้ามโมดอล' (เช่น ความสัมพันธ์ระหว่างข้อความ ASR และรูปภาพ) ขั้นตอนที่ให้คะแนนสูงจะถูกเลือกเพื่อแสดงขั้นตอนในการสรุปหลอก

ในการสร้างการสรุปหลอก ขั้นแรก วิดีโอจะถูกแบ่งพาร์ติชันออกเป็นส่วนๆ อย่างสม่ำเสมอ และกลุ่มต่างๆ จะจัดกลุ่มตามความคล้ายคลึงกันของภาพเป็น 'ขั้นตอน' (สีต่างๆ ในภาพด้านบน) ขั้นตอนเหล่านี้จะได้รับคะแนนความสำคัญตาม 'ความเกี่ยวข้องของงาน' และ 'ความเด่นข้ามโมดอล' (เช่น ความสัมพันธ์ระหว่างข้อความ ASR และรูปภาพ) ขั้นตอนที่ให้คะแนนสูงจะถูกเลือกเพื่อแสดงขั้นตอนในการสรุปหลอก

ใช้ระบบ ความโดดเด่นข้ามโมดัล เพื่อช่วยสร้างความเกี่ยวข้องของแต่ละขั้นตอน โดยการเปรียบเทียบคำพูดที่แปลแล้วกับภาพและการกระทำในวิดีโอ สิ่งนี้ทำได้โดยการใช้โมเดลข้อความวิดีโอที่ผ่านการฝึกอบรมล่วงหน้า ซึ่งแต่ละองค์ประกอบได้รับการฝึกฝนร่วมกันภายใต้การสูญเสีย MIL-NCE โดยใช้ โปรแกรมเข้ารหัสวิดีโอ 3D CNN พัฒนาโดย DeepMind

คะแนนความสำคัญทั่วไปจะได้รับจากค่าเฉลี่ยที่คำนวณได้ของความเกี่ยวข้องของงานเหล่านี้และขั้นตอนการวิเคราะห์ข้ามโมดอล

ข้อมูล

ชุดข้อมูลสรุปหลอกเริ่มต้นถูกสร้างขึ้นสำหรับกระบวนการ ซึ่งประกอบด้วยเนื้อหาส่วนใหญ่ของชุดข้อมูลก่อนหน้าสองชุด – COINชุดปี 2019 ประกอบด้วยวิดีโอ 11,000 รายการที่เกี่ยวข้องกับ 180 งาน และ งานข้ามซึ่งมีวิดีโอแนะนำ 4,700 วิดีโอ ซึ่งใช้ในงานวิจัย 3,675 รายการ Cross-Task มี 83 งานที่แตกต่างกัน

ด้านบน ตัวอย่างจาก COIN; ด้านล่างจาก Cross-Task แหล่งที่มาตามลำดับ: https://arxiv.org/pdf/1903.02874.pdf และ https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

ด้านบน ตัวอย่างจาก COIN; ด้านล่างจาก Cross-Task แหล่งที่มาตามลำดับ: https://arxiv.org/pdf/1903.02874.pdf และ https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

การใช้วิดีโอที่แสดงในชุดข้อมูลทั้งสองเพียงครั้งเดียว นักวิจัยจึงสามารถรับวิดีโอ 12,160 รายการที่ครอบคลุมงานที่แตกต่างกัน 263 งาน และเนื้อหา 628.53 ชั่วโมงสำหรับชุดข้อมูลของพวกเขา

ในการเติมชุดข้อมูลตาม WikiHow และเพื่อให้ข้อมูลพื้นฐานสำหรับระบบ ผู้เขียนคัดลอกวิดีโอ WikiHow สำหรับวิดีโอแนะนำขนาดยาวทั้งหมด รวมทั้งรูปภาพและคลิปวิดีโอ (เช่น GIF) ที่เกี่ยวข้องกับแต่ละขั้นตอน ดังนั้น โครงสร้างของเนื้อหาที่ได้รับมาของวิกิฮาวจึงเป็นแม่แบบสำหรับการแยกแยะขั้นตอนในระบบใหม่

ฟีเจอร์ที่แยกผ่าน ResNet50 ถูกนำมาใช้เพื่อจับคู่ส่วนที่เลือกเชอร์รี่ของวิดีโอในภาพ WikiHow และทำการแปลขั้นตอนต่างๆ ภาพที่ได้รับที่คล้ายกันมากที่สุดภายในหน้าต่างวิดีโอ 5 วินาทีถูกใช้เป็นจุดยึด

จากนั้นคลิปสั้นๆ เหล่านี้จะถูกต่อเข้าด้วยกันเป็นวิดีโอที่จะประกอบด้วยความจริงพื้นฐานสำหรับการฝึกนางแบบ

ป้ายกำกับถูกกำหนดให้กับแต่ละเฟรมในวิดีโออินพุต เพื่อประกาศว่าพวกเขาอยู่ในข้อมูลสรุปอินพุตหรือไม่ โดยวิดีโอแต่ละรายการจะได้รับป้ายกำกับไบนารีระดับเฟรมจากนักวิจัย และคะแนนสรุปเฉลี่ยที่ได้รับจากคะแนนความสำคัญสำหรับทุกเฟรม ในส่วน

ในขั้นตอนนี้ 'ขั้นตอน' ในวิดีโอแนะนำแต่ละรายการจะเชื่อมโยงกับข้อมูลที่เป็นข้อความและมีป้ายกำกับ

การฝึกอบรม การทดสอบ และเมตริก

ชุดข้อมูล WikiHow สุดท้ายถูกแบ่งออกเป็นวิดีโอทดสอบ 1,339 รายการและวิดีโอตรวจสอบความถูกต้อง 768 รายการ ซึ่งเป็นการเพิ่มขนาดเฉลี่ยของชุดข้อมูลที่ไม่ใช่ข้อมูลดิบสำหรับการวิเคราะห์วิดีโอโดยเฉพาะ

ตัวเข้ารหัสวิดีโอและข้อความในเครือข่ายใหม่ได้รับการฝึกอบรมร่วมกันเกี่ยวกับ S3D เครือข่ายที่มีการโหลดน้ำหนักจากแบบฝึกหัด ฮาวทู100M รุ่นภายใต้การสูญเสีย MIL-NCE

โมเดลได้รับการฝึกฝนด้วย Adam Optimizer ที่อัตราการเรียนรู้ 0.01 ที่ขนาดแบทช์ 24 พร้อม Distributed Data Parallel ที่เชื่อมโยงการกระจายการฝึกอบรมไปยัง GPU NVIDIA RTX 2080 แปดตัว รวมเป็น 24GB ของ VRAM แบบกระจาย

IV-Sum ถูกนำไปเปรียบเทียบกับสถานการณ์ต่างๆ สำหรับ CLIP-It ตาม คล้ายคลึงกัน ก่อน รวมถึงการศึกษาเกี่ยวกับ CLIP-It เมตริกที่ใช้คือค่าความแม่นยำ ค่าการเรียกคืน และค่า F-Score ในบรรทัดฐานที่ไม่มีการตรวจสอบสามรายการ (ดูรายละเอียดในกระดาษ)

ผลลัพธ์แสดงอยู่ในภาพก่อนหน้านี้ แต่นักวิจัยยังทราบเพิ่มเติมว่า CLIP-It พลาดขั้นตอนที่เป็นไปได้หลายขั้นตอนในการทดสอบซึ่ง IV-Sum ทำไม่ได้ พวกเขาให้เหตุผลว่า CLIP-It ได้รับการฝึกอบรมและพัฒนาโดยใช้ชุดข้อมูลที่มีขนาดเล็กกว่าคลังข้อมูลใหม่ของ WikiHow

ผลกระทบ

คุณค่าระยะยาวที่พิสูจน์ได้ของการวิจัยกลุ่มนี้ (ซึ่ง IV-Sum แบ่งปันกับความท้าทายที่กว้างขึ้นของการวิเคราะห์วิดีโอ) อาจทำให้สามารถเข้าถึงวิดีโอคลิปการสอนได้มากขึ้นสำหรับการทำดัชนีเครื่องมือค้นหาทั่วไป และเพื่อเปิดใช้งานประเภทของการลดลง 'ตัวอย่างข้อมูล' ในผลลัพธ์ สำหรับวิดีโอที่ Google มักจะดึงมาจากบทความทั่วไปที่ยาวกว่า

เห็นได้ชัดว่าการพัฒนาของ ใด กระบวนการที่ช่วยเหลือโดย AI ซึ่งลดภาระหน้าที่ของเราในการใช้ความสนใจเชิงเส้นตรงและพิเศษเฉพาะกับเนื้อหาวิดีโออาจมีการแตกสาขาเพื่อดึงดูดความสนใจของสื่อไปยังนักการตลาดรุ่นต่างๆ ซึ่งความทึบของวิดีโออาจเป็นวิธีเดียวที่พวกเขารู้สึกว่าสามารถดึงดูดเราได้โดยเฉพาะ

ด้วยตำแหน่งที่ตั้งของเนื้อหาที่ 'มีค่า' ซึ่งยากต่อการปักหมุด วิดีโอที่ผู้ใช้เป็นผู้จัดทำจึงได้รับความเพลิดเพลินจากผู้บริโภคสื่ออย่างกว้างขวาง (หากไม่เต็มใจ) ในเรื่องตำแหน่งผลิตภัณฑ์ ช่องสปอนเซอร์ และการต่อว่าตนเองโดยทั่วไป ซึ่งนำเสนอคุณค่าของวิดีโอ ที่นอนบ่อยมาก โครงการต่างๆ เช่น IV-Sum ให้คำมั่นสัญญาว่าท้ายที่สุดแล้ว แง่มุมย่อยของเนื้อหาวิดีโอจะกลายเป็นแบบละเอียดและแยกออกจากสิ่งที่หลายคนคิดว่าเป็น 'ความอับเฉา' ของการโฆษณาในเนื้อหาและการเหยียดหยามที่ไม่ใช่เนื้อหา

 

เผยแพร่ครั้งแรก 16 สิงหาคม 2022 อัปเดต 2.52 น. 16 สิงหาคม ลบวลีที่ซ้ำกัน

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai