มุมมองของ Anderson

ความท้าทายในการใส่คำบรรยายวิดีโอที่มากกว่า 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

ความสามารถของระบบการเรียนรู้ของเครื่องจักรในการรับรู้เหตุการณ์ที่เกิดขึ้นภายในวิดีโอนั้นเป็นสิ่งสำคัญต่ออนาคตของการสร้างวิดีโอโดยใช้ AI – ไม่ใช่แค่เพราะว่าชุดข้อมูลวิดีโอต้องการคำบรรยายที่แม่นยำเพื่อสร้างแบบจำลองที่ปฏิบัติตามคำขอของผู้ใช้และไม่ทำให้เกิดการ hallucinate มากเกินไป

ตัวอย่างของสเคมาการใส่คำบรรยายจากโครงการ VidReCap ของ Google Source: https://sites.google.com/view/vidrecap

การใส่คำบรรยายวิดีโอในขนาดที่ต้องการสำหรับชุดข้อมูลการฝึกที่มีประสิทธิภาพนั้นเป็นเรื่องที่ไม่สามารถทำได้ แม้ว่าจะสามารถฝึกอบรมระบบ AI ให้ใส่คำบรรยายวิดีโอได้ แต่ก็ยังต้องการตัวอย่างที่สร้างโดยมนุษย์เป็นจำนวนมากเพื่อใช้เป็นข้อมูลอ้างอิงสำหรับความหลากหลายและคवरเรจ

สิ่งสำคัญกว่านั้น คือเกือบทุกแบบจำลองการใส่คำบรรยายวิดีโอที่ใช้ AI ในปัจจุบัน ทำงานที่ 1fps ซึ่งเป็นอัตราการบันทึกที่ไม่หนาแน่นพอที่จะแยกแยะความแตกต่างในหลายๆ สถานการณ์: การเปลี่ยนแปลงของน้ำเสียงที่เกิดขึ้นอย่างรวดเร็วสำหรับระบบการรับรู้อารมณ์; เหตุการณ์ที่เกิดขึ้นอย่างรวดเร็วในกีฬาที่มีความเร็วสูง เช่น บาสเก็ตบอล; การเคลื่อนไหวที่รุนแรง; การตัดต่อที่รวดเร็วในภาพยนตร์แนวดราม่า ซึ่งระบบ เช่น PySceneDetect อาจไม่สามารถระบุได้ (หรือไม่ได้ใช้); และหลายๆ สถานการณ์อื่นๆ ที่ช่องเวลาแห่งความสนใจชัดเจนต้องมีความเข้มข้นมากกว่า

คลิกเพื่อเล่น การกระทำที่รวดเร็วแต่เปลี่ยนแปลงชีวิตในกีฬาที่อาจเป็นหนึ่งในกีฬาที่ช้าที่สุดในโลก เมื่อ Alex Higgins ชนะการแข่งขันชิงแชมป์โลกกับ Ray Reardon ในปี 1982 Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

เคลื่อนที่เร็วและทำลายตรรกะ

อัตราที่ต่ำนี้เป็นมาตรฐานสำหรับเหตุผลเชิงลอจิสติกส์หลายประการ สำหรับหนึ่ง การใส่คำบรรยายวิดีโอนั้นเป็นกิจกรรมที่ใช้ทรัพยากรมาก ไม่ว่าระบบจะศึกษเฟรมต่อเนื่องกันหรือใช้วิธีการต่างๆ เพื่อสร้างความสอดคล้องทางภาษาให้กับลำดับของเฟรมเพื่อให้ได้คำบรรยายที่สามารถตีความได้ ในทั้งสองกรณี หน้าต่างบริบท ถูกจำกัดโดยข้อจำกัดของฮาร์ดแวร์

อีกเหตุผลหนึ่งที่ 1fps เป็นมาตรฐานในปัจจุบัน คือวิดีโอทั่วไปไม่ได้เต็มไปด้วยเหตุการณ์ที่เกิดขึ้นอย่างรวดเร็ว ดังนั้นจึงไม่จำเป็นต้องให้เฟรม 300 เฟรมของโต๊ะสนุ๊กเกอร์ที่ไม่มีการเคลื่อนไหวเหมือนกับการให้ความสนใจกับช่วงเวลาที่ลูกดำถูกปotted และชนะการแข่งขันชิงแชมป์ (ดูตัวอย่างข้างบน)

สามารถใช้คำใบ้ทางอ้อมเพื่อระบุเหตุการณ์สำคัญในวิดีโอกีฬา เช่น การตอบสนองของฝูงชนต่อการ dunk ที่รวดเร็วในเกมบาสเก็ตบอล อย่างไรก็ตาม สิ่งเหล่านี้อาจเกิดขึ้นจากสาเหตุอื่นๆ (เช่น การบาดเจ็บของผู้เล่นที่ไม่คาดคิด) และไม่สามารถพึ่งพาได้ สิ่งนี้เป็นตัวอย่างหนึ่งของวิธีการที่ชุดข้อมูลวิดีโอที่มีฉลากที่ไม่ถูกต้องสามารถนำไปสู่แบบจำลองการสร้างวิดีโอที่ hallucinate หรือตีความคำสั่งอย่างไม่ถูกต้อง เช่น เมื่อแบบจำลองแสดงให้เห็นการบาดเจ็บของผู้เล่นเมื่อมีการขอให้สร้างการ dunk (เนื่องจาก ‘คำใบ้ทางอ้อม’ ของการก่อความโกลกกกไม่เฉพาะเจาะจงกับเหตุการณ์ใดเหตุการณ์หนึ่ง)

สิ่งนี้เป็นปัญหา ‘งบประมาณ’ ในหลายๆ ด้าน และเป็นปัญหากระบวนการในหลายๆ ด้าน ฟレームเวิร์กจนถึงปัจจุบันทำงานบนหลักการที่เฟรมคีย์ที่กระจายสามารถจับข้อมูลที่สำคัญได้อย่างมีประสิทธิภาพ แต่นี่มีประสิทธิภาพมากกว่าในการกำหนดประเภทและด้านอื่นๆ ของเนื้อหาของวิดีโอ เนื่องจากหลักฐานในกรณีนี้คงอยู่ตลอดหลายเฟรม

F-16

วิจัยใหม่จากจีนกำลังเสนอคำตอบในรูปแบบของแบบจำลองภาษาขนาดใหญ่หลายโหมด (MLLM หรือ LLM) ที่สามารถวิเคราะห์วิดีโอ ที่ 16fps แทนที่จะเป็นมาตรฐาน 1fps โดยหลีกเลี่ยงข้อผิดพลาดที่สำคัญของการเพิ่มอัตราการวิเคราะห์

ในการทดสอบ ผู้เขียนอ้างว่าระบบใหม่ซึ่งมีชื่อว่า F-16 มีประสิทธิภาพเหนือกว่าแบบจำลองที่เป็นกรรมสิทธิ์ เช่น GPT-4o และ Google’s Gemini-1.5 pro แม้ว่าแบบจำลองอื่นๆ ในปัจจุบันจะสามารถเทียบหรือเกินผลลัพธ์ของ F-16 ในการทดสอบ แต่แบบจำลองที่แข่งขันกันนั้นใหญ่และยุ่งยากกว่า

แม้ว่า F-16 จะถูกฝึกอบรมบนฮาร์ดแวร์ที่รุนแรง (ตามที่เราจะตรวจสอบในไม่ช้า) การอนุมานมักจะน้อยกว่าการฝึกอบรม ดังนั้นเราจึงหวังว่ารหัส (ที่สัญญาว่าจะปล่อยออกมาในอนาคตอันใกล้) จะสามารถทำงานบน GPU ระดับกลางหรือสูงได้

ข้อสรุป

F-16 ขยายแบบจำลอง LLaVA-OneVision ที่ฝึกอบรมไว้แล้วเพื่อประมวลผลวิดีโอโดยการเปลี่ยนแปลงไปป์ไลน์ข้อมูลภาพที่มีอยู่ ในขณะที่แบบจำลองภาพ LLM มาตรฐานจัดการเฟรมแยกกัน F-16 ของ high-frame-rate aligner รูปแบบหลายเฟรมให้อยู่ในรูปแบบที่แบบจำลองสามารถประมวลผลได้อย่างมีประสิทธิภาพมากขึ้น; สิ่งนี้ช่วยหลีกเลี่ยงการให้ข้อมูลที่ซ้ำซ้อนกับระบบในขณะที่ยังคงรักษาคลื่นไหวที่สำคัญที่จำเป็นสำหรับการทำความเข้าใจวิดีโอที่แม่นยำ

เพื่อให้แน่ใจว่าเข้ากันได้กับฐานรากที่เป็นภาพ Aligner ของ F-16 ถูกโครงสร้างใหม่ให้เป็น เมทริกซ์ย่อย วิธีนี้ช่วยให้สามารถรวมความรู้จากแบบจำลองเฟรมเดียวในขณะที่ปรับตัวให้เข้ากับการรับเข้าแบบวิดีโอแบบลำดับ

การปรับแต่ง Aligner ก่อนอื่นจะบีบอัดและเข้ารหัสลำดับเฟรมให้อยู่ในรูปแบบที่เหมาะสมสำหรับ LLM ในขณะที่ยังคงรักษาคุณลักษณะที่ให้ข้อมูลมากที่สุดและทิ้งรายละเอียดที่ไม่จำเป็นไป การออกแบบสถาปัตยกรรมนี้ช่วยให้ระบบสามารถประมวลผลวิดีโอที่มีอัตราเฟรมสูงได้ ในขณะที่ยังคงควบคุมค่าใช้จ่ายในการคำนวณ

ข้อมูลและทดสอบ

F-16 ถูกสร้างขึ้นบน Qwen2-7B โดยใช้ SigLIP เป็นตัวเข้ารหัสภาพ สำหรับการฝึกอบรม เฟรมวิดีโอมีการตัวอย่างที่ 16fps ซึ่งสามารถรับเฟรมได้มากถึง 1,760 เฟรมจากวิดีโอแต่ละคลิป สำหรับคลิปวิดีโอที่ยาวขึ้น เฟรมจะถูกตัวอย่างในลักษณะที่สม่ำเสมอ (หรือไม่หนาแน่น)

สำหรับการฝึกอบรม F-16 ใช้ชุดข้อมูลวิดีโอทั่วไปเช่นเดียวกับ LLaVA-Video รวมถึง LLaVA-Video-178K, NExT-QA, ActivityNet-QA และ PerceptionTest

F-16 ยังถูกปรับให้เหมาะสมบนชุดข้อมูลกีฬาที่มีความเร็วสูง เช่น FineGym, Diving48 และ SoccerNet ผู้เขียนยังรวบรวมคลิปวิดีโอ NBA 276 คลิปที่เล่นระหว่างวันที่ 13 ถึง 25 พฤศจิกายน 2024 โดยมุ่งเน้นไปที่การตรวจสอบว่าลูกบอลถูกยิงสำเร็จหรือไม่ (งานที่ต้องการการประมวลผลเฟรมสูง)

แบบจำลองถูกประเมินโดยใช้ชุดทดสอบ NSVA โดยวัดผลการทำงานด้วย F1 score

แบบจำลองยิมนาสติกและดำน้ำถูกประเมินตามความแม่นยำในการรับรู้เหตุการณ์ ในขณะที่แบบจำลองฟุตบอลและบาสเก็ตบอลติดตามการผ่านและการยิงลูกบอล

แบบจำลองถูกฝึกอบรมเป็นเวลา 1 epoch โดยใช้ 128 NVIDIA H100 GPUs (และที่ 80GB ของ VRAM ต่อ GPU ซึ่งหมายถึงการใช้ 10,240 terabytes ของหน่วยความจำ GPU; แม้กระทั่งตามมาตรฐานล่าสุด นี่คือคลัสเตอร์ GPU ที่มีประสิทธิภาพสูงสุดที่ฉันพบในการติดตามวรรณกรรมการวิจัยการมองเห็นของเครื่องจักร) อัตราการเรียนรู้ของ 2×10⁻⁵ ถูกใชระหว่างการฝึกอบรม

นอกจากนี้ LoRA ถูกปรับให้เหมาะสมบนข้อมูลกีฬาที่ใช้ LoRA adapters โดยใช้ 64 GPUs เป็นเวลา 5 epochs ในที่นี้ เฉพาะ LLM เท่านั้นที่ถูกฝึกอบรม โดยที่ตัวเข้ารหัสภาพถูก แช่แข็ง ไว้

เฟรมเวิร์กที่แข่งขันกันถูกทดสอบในรอบแรกสำหรับการทำความเข้าใจวิดีโอทั่วไป ได้แก่ GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; และ NVILA-7B;

แบบจำลองถูกประเมินบน Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; และ LongVideoBench

การเปรียบเทียบผลลัพธ์ของการถาม-ตอบวิดีโอระหว่างแบบจำลองต่างๆ โดยแสดงขีดจำกัดของ FPS และประสิทธิภาพบนหลายๆ บンチมาร์ก F-16 บรรลุประสิทธิภาพที่ดีที่สุดในหมู่แบบจำลอง 7B บน Video-MME, NQA, TPB และ MB โดยแข่งขันกับแบบจำลองที่เป็นกรรมสิทธิ์ เช่น GPT-4o และ Gemini-1.5-Pro

จากผลลัพธ์เหล่านี้ ผู้เขียนระบุ:

‘บนชุดข้อมูล Video-MME Short, Medium และ NeXT-QA—ซึ่งแต่ละชุดได้รับการออกแบบสำหรับการทำความเข้าใจวิดีโอสั้น—แบบจำลองของเราสามารถเอาชนะแบบจำลอง SOTA ที่มีขนาด 7B ก่อนหน้านี้ได้ 3.2%, 1.0% และ 0.9% ในด้านความแม่นยำ ซึ่งเน้นย้ำถึงประสิทธิภาพที่แข็งแกร่งของมันในวิดีโอสั้น’

‘สำหรับบンチมาร์กที่ประเมินความเข้าใจวิดีโอยาว เช่น Video-MME Long, LongVideoBench และ MLVU ความท้าทายมีมากขึ้นเนื่องจากการ采樣เฟรมที่ไม่หนาแน่น ซึ่งทำให้เฟรมภายในหน้าต่างการประมวลผลมีความแปรผันมากขึ้น’

‘สิ่งนี้เพิ่มความยากสำหรับ Aligner ในการเข้ารหัสการเปลี่ยนแปลงทางเวลาภายในตัวแทนโทเค็นที่จำกัด ดังนั้น F-16 จึงมีการสูญเสียประสิทธิภาพเล็กน้อยเมื่อเทียบกับ [LLaVA-Video-7B] ซึ่งถูกฝึกอบรมบนชุดข้อมูลวิดีโอที่เหมือนกัน’

F-16 ที่มีการประมวลผลเฟรมสูงยังนำไปสู่การปรับปรุง 13.5% บน TemporalBench และ 2.5% บน MotionBench เมื่อเทียบกับแบบจำลอง 7B ที่มีอยู่ และมีประสิทธิภาพที่คล้ายกับแบบจำลองที่เป็นกรรมสิทธิ์ เช่น GPT-4o และ Gemini-1.5-Pro

การทำความเข้าใจวิดีโอกีฬาที่มีความเร็วสูง

F-16 ถูกทดสอบบน FineGym, Diving48, SoccerNet และ NBA เพื่อประเมินความสามารถในการทำความเข้าใจการกระทำกีฬาที่มีความเร็วสูง

โดยใช้คลิปวิดีโอ NBA ที่มีการบันทึกย่อ 10,000 คลิป การฝึกอบรมมุ่งเน้นไปที่การเคลื่อนไหวของลูกบอลและการกระทำของผู้เล่น และแบบจำลองสามารถกำหนดได้ว่าการยิงลูกบอลสำเร็จหรือไม่ โดยใช้ชุดทดสอบ NSVA ที่ประเมินโดย F1 score

ผลลัพธ์ของการวิเคราะห์วิดีโอกีฬาที่มีความเร็วสูง F-16 ที่มี Aligner ที่มีเฟรมสูงมีประสิทธิภาพดีกว่าแบบจำลองที่มีเฟรมต่ำกว่าในทุกงานกีฬา

บน FineGym ซึ่งวัดการรับรู้การกระทำยิมนาสติก F-16 มีประสิทธิภาพดีกว่าแบบจำลอง SOTA ที่มีขนาด 7B ก่อนหน้านี้ 13.8% ซึ่งแสดงให้เห็นถึงความเข้าใจที่ดีขึ้นเกี่ยวกับการเคลื่อนไหวที่มีรายละเอียด

Diving48 ต้องการการระบุลำดับการเคลื่อนไหวที่ซับซ้อน เช่น การกระโดด, การกลับหัว, การหมุน และการบิน และ F-16 มีความแม่นยำสูงในการรับรู้การเปลี่ยนแปลงเหล่านี้

สำหรับ SoccerNet แบบจำลองวิเคราะห์คลิป 10 วินาที โดยระบุการผ่านบอล และผลลัพธ์แสดงให้เห็นว่ามีการปรับปรุงเมื่อเทียบกับแบบจำลอง 7B ที่มีอยู่ ซึ่งบ่งชี้ว่าการเพิ่มเฟรมสูงช่วยในการติดตามการเคลื่อนไหวที่รวดเร็ว

ในคลิปวิดีโอ NBA ความสามารถของ F-16 ในการกำหนดผลลัพธ์ของการยิงลูกบอลเข้าใกล้ความแม่นยำของแบบจำลองที่เป็นกรรมสิทธิ์ เช่น GPT-4o และ Gemini-1.5-Pro ซึ่งยิ่งแสดงให้เห็นว่าการเพิ่มเฟรมสูงช่วยให้สามารถประมวลผลการเคลื่อนไหวที่มีความเร็วสูงได้

เฟรมเรตที่ปรับเปลี่ยนได้

F-16 ถูกทดสอบที่เฟรมเรตต่างๆ เพื่อวัดความสามารถในการปรับตัว แทนที่จะฝึกอบรมใหม่ มันจัดการเฟรมเรตที่ต่ำกว่าโดยการทำซ้ำเฟรมเพื่อให้ตรงกับโครงสร้างการเข้าของ Aligner วิธีนี้ช่วยรักษาความสามารถในการประมวลผลวิดีโอที่มีประสิทธิภาพมากกว่าการลบเฟรมอย่างง่ายๆ (ซึ่งมีความเสี่ยงต่อการเสียความแม่นยำ)

ผลลัพธ์แสดงให้เห็นว่าแม้ว่าการลดเฟรมเรตจะมีผลกระทบต่อการรับรู้การเคลื่อนไหว แต่ F-16 ก็ยังคงเอาชนะแบบจำลองที่มีเฟรมเรตต่ำและรักษาความสามารถที่แข็งแกร่งแม้กระทั่งเมื่อเฟรมเรตต่ำกว่า 16

ซ้าย, การใช้เวลาของโมดูล F-16 ที่แตกต่างกันระหว่างการอนุมาน บน 300 วิดีโอจากชุด Video-MME Long ที่มีเฟรมเรตทดสอบและความยาวลำดับที่แตกต่างกัน ขวา, การเปรียบเทียบระหว่างประสิทธิภาพของ Video-MME สำหรับแบบจำลองที่ฝึกอบรมและทดสอบที่เฟรมเรตที่แตกต่างกัน

การประมวลผลเฟรมสูงที่เพิ่มขึ้นของ F-16 เพิ่มความต้องการในการคำนวณ แม้ว่าการ Aligner จะช่วยจัดการค่าใช้จ่ายเหล่านี้โดยการบีบอัดโทเค็นภาพที่ซ้ำกัน

แบบจำลองต้องการ FLOPs มากขึ้นต่อวิดีโอมากกว่าแบบจำลองที่มีเฟรมเรตต่ำกว่า แต่ก็มีความแม่นยำที่ดีกว่าต่อโทเค็น ซึ่งบ่งชี้ว่ากลยุทธ์การเลือกเฟรมและการบีบอัดโทเค็นของมันช่วยชดเชยการคำนวณที่เพิ่มขึ้น

สรุป

เป็นเรื่องที่ยากที่จะเน้นย้ำถึงความสำคัญหรือความท้าทายของเส้นทางการวิจัยนี้—โดยเฉพาะในปีนี้ ซึ่งจะเป็น ปีที่突破 สำหรับการสร้างวิดีโอโดยใช้ AI ซึ่งจะทำให้ข้อบกพร่องของการทำวิดีโอและคุณภาพการใส่คำบรรยาย ชัดเจนขึ้น

ยังต้องเน้นย้ำด้วยว่าความท้าทายในการได้รับการอธิบายที่แม่นยำเกี่ยวกับรายละเอียดภายในของวิดีโอนั้นไม่สามารถแก้ไขได้โดยการโยน VRAM, เวลา หรือพื้นที่ดิสก์เข้าไปในประเด็นนี้ การวิธีการที่เหตุการณ์ถูกแยกออกหรือ抽出จากวิดีโอที่ยาวและน่าเบื่อ (เช่น คลิปวิดีโอกอล์ฟหรือสนุ๊กเกอร์) จะต้องได้รับการคิดใหม่เกี่ยวกับแนวทางเชิงความหมายและกลไกที่ครอบงำโซลูชันที่ดีที่สุดในปัจจุบัน—เนื่องจากบางข้อจำกัดเหล่านี้ถูกกำหนดไว้ในยุคที่มีทรัพยากรที่จำกัดกว่า

(โดยtheway, แม้ว่า 16fps จะดูเหมือนเฟรมเรตที่ต่ำมากสำหรับปี 2025 แต่ก็เป็นเรื่องที่น่าสนใจที่จะทราบว่านี่คือความเร็วในการฝึกอบรมของคลิปวิดีโอที่ใช้ในแบบจำลองการสร้างวิดีโอที่ได้รับความนิยมอย่างมาก Wan 2.1 และความเร็วที่มันทำงานด้วยปัญหาเล็กน้อย หวังว่าฉากการวิจัยจะยังคงจับตาดู ‘เอนโทรปีมาตรฐาน’ ที่นี่; บางครั้งข้อจำกัดที่ล้าสมัยสามารถส่งผลต่อมาตรฐานในอนาคต)

เผยแพร่ครั้งแรกวันพุธที่ 19 มีนาคม 2025