Góc nhìn Anderson

Thử thách của việc thêm phụ đề video với hơn 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Khả năng của các hệ thống học máy để nhận biết các sự kiện xảy ra trong một video là rất quan trọng đối với tương lai của việc tạo video dựa trên AI – không chỉ vì các tập dữ liệu video yêu cầu phụ đề chính xác để tạo ra các mô hình tuân theo yêu cầu của người dùng và không quá mức hallucinate.

Một ví dụ về lược đồ phụ đề từ dự án VidReCap của Google. Source: https://sites.google.com/view/vidrecap

Việc thêm phụ đề thủ công cho quy mô video cần thiết cho các tập dữ liệu đào tạo hiệu quả là một triển vọng không thể tưởng tượng được. Mặc dù có thể đào tạo các hệ thống AI để tự động thêm phụ đề video, nhưng vẫn cần nhiều ví dụ được tạo bởi con người như sự thật, để có sự đa dạng và phạm vi.

Quan trọng hơn, hầu như mọi mô hình thêm phụ đề video dựa trên AI hiện tại hoạt động ở 1fps, điều này không phải là tốc độ chụp đủ dày để phân biệt các biến thể trong nhiều kịch bản: thay đổi biểu cảm vi mô đột ngột cho các hệ thống nhận dạng cảm xúc; sự kiện nhanh trong các môn thể thao tốc độ cao như bóng rổ; chuyển động bạo lực; cắt nhanh trong các bộ phim điện ảnh, nơi các hệ thống như PySceneDetect có thể không thể xác định chúng (hoặc không được sử dụng); và nhiều kịch bản khác nơi cửa sổ chú ý rõ ràng cần phải được tập trung hơn.

Click để phát.Hành động nhanh nhưng thay đổi cuộc sống trong những gì có thể là một trong những môn thể thao chậm nhất trên thế giới, khi Alex Higgins giành chức vô địch thế giới trước Ray Reardon vào năm 1982. Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

Di chuyển Nhanh và Break Logic

Tốc độ thấp này là tiêu chuẩn cho các lý do hậu cần khác nhau. Một mặt, việc thêm phụ đề video là một hoạt động tốn nhiều tài nguyên, cho dù hệ thống đang nghiên cứu một khung hình tuần tự tại một thời điểm hoặc sử dụng các phương pháp khác để gắn kết một chuỗi khung hình thành một chuỗi phụ đề có thể giải thích được. Trong cả hai trường hợp, cửa sổ ngữ cảnh đều bị giới hạn bởi các hạn chế về phần cứng.

Một lý do khác cho việc 1fps là tiêu chuẩn hiện tại là vì các video thường không chứa đầy các sự kiện nhanh; do đó, việc dành 300 khung hình của bàn bi-a tĩnh cho sự chú ý giống như giây phút mà một quả bóng bi-a đen được đánh thắng chức vô địch (xem ví dụ trên).

Có thể sử dụng các gợi ý thứ cấp rộng hơn để xác định các khoảnh khắc quan trọng trong một video thể thao, chẳng hạn như phản ứng của đám đông đối với một cú dunk nhanh trong một trận bóng rổ. Tuy nhiên, những gợi ý như vậy có thể xảy ra vì các lý do khác (chẳng hạn như chấn thương của người chơi không mong muốn), và không thể dựa vào chúng. Đây là một ví dụ về cách một tập dữ liệu video bị nhãn mác sai có thể dẫn đến một mô hình video tạo ra mà hallucinate hoặc hiểu sai các hướng dẫn, tức là vì mô hình có thể hiển thị một chấn thương của người chơi khi nó được yêu cầu tạo ra một cú dunk (vì ‘gợi ý thứ cấp’ của sự phấn khích của đám đông không độc quyền cho một loại sự kiện cụ thể).

Điều này theo nhiều cách là một vấn đề ‘ngân sách’, và theo các cách khác, đó là một vấn đề thủ tục. Các khung khổ cho đến nay đã hoạt động trên nguyên tắc rằng các khung hình chính thưa thớt có thể hiệu quả nắm bắt thông tin thiết yếu, nhưng điều này hiệu quả hơn trong việc thiết lập thể loại và các khía cạnh khác của chủ đề video, vì bằng chứng, trong trường hợp đó, tồn tại trên nhiều khung hình.

F-16

Một bài báo mới từ Trung Quốc đang cung cấp một giải pháp, dưới dạng mô hình ngôn ngữ lớn đa phương thức (MLLM, hoặc đơn giản là LLM) đầu tiên có thể phân tích video ở 16fps thay vì tiêu chuẩn 1fps, đồng thời tránh được những hạn chế chính của việc tăng tốc độ phân tích.

Trong các thử nghiệm, các tác giả tuyên bố rằng hệ thống mới, có tên F-16, vượt trội so với các mô hình độc quyền hiện tại như GPT-4o và Gemini-1.5 pro. Mặc dù các mô hình khác hiện tại có thể匹 với kết quả của F-16 trong các thử nghiệm, nhưng các mô hình cạnh tranh đều lớn hơn và cồng kềnh hơn.

Mặc dù F-16 được đào tạo trên một số phần cứng nghiêm trọng (như chúng tôi sẽ xem xét ngắn gọn), nhưng việc suy luận thường ít đòi hỏi hơn so với đào tạo. Do đó, chúng tôi có thể hy vọng rằng mã (được hứa hẹn sẽ phát hành trong tương lai gần) sẽ có thể chạy trên các GPU cấp trung hoặc cao cấp.

Điều cần thiết cho sự sống còn của cảnh hội giải trí (và điều đó bao gồm cả cảnh VFX chuyên nghiệp, hầu hết thời gian) là một mô hình thêm phụ đề video như vậy có thể hoạt động, có thể quantized, trên các hệ thống tiêu dùng, để toàn bộ cảnh video tạo ra không di chuyển đến các hệ thống thương mại dựa trên API, hoặc buộc người tiêu dùng phải kết nối các khung khổ cục bộ với các dịch vụ GPU trực tuyến thương mại.

Beyond Scaling Up

Các tác giả quan sát rằng loại tiếp cận này là một giải pháp thay thế thực tế để tăng quy mô dữ liệu. Một người cũng có thể suy luận rằng nếu bạn muốn ném nhiều dữ liệu hơn vào vấn đề, đây vẫn là loại tiếp cận có thể được ưu tiên, vì hệ thống mới phân biệt các sự kiện theo cách tinh tế hơn.

Họ tuyên bố:

‘Việc lấy mẫu tốc độ khung hình thấp có thể dẫn đến mất thông tin hình ảnh quan trọng, đặc biệt là trong các video có cảnh thay đổi nhanh, chi tiết phức tạp hoặc chuyển động nhanh. Ngoài ra, nếu các khung hình chính bị bỏ lỡ, nhưng mô hình được đào tạo trên các nhãn phụ thuộc vào thông tin khung hình chính, nó có thể gặp khó khăn trong việc căn chỉnh các dự đoán của mình với nội dung dự kiến, có thể dẫn đến hallucinate và hiệu suất giảm…’

‘… F-16 đạt được hiệu suất SOTA trong việc hỏi và trả lời video chung chung trong số các mô hình có kích thước tương tự và thể hiện lợi thế rõ ràng trong việc hiểu video tốc độ cao, vượt trội so với các mô hình thương mại như GPT-4o. Công việc này mở ra các hướng đi mới cho việc cải thiện việc hiểu video tốc độ cao trong nghiên cứu MLLM đa phương thức.’

Bài báo mới mới có tiêu đề Cải thiện LLM hiểu video với 16 khung hình mỗi giây, và đến từ tám tác giả trên toàn Tsinghua University và ByteDance.

Phương pháp

Vì các khung hình liên tiếp thường chứa thông tin冗余, F-16 áp dụng một bộ căn chỉnh tốc độ khung hình cao để nén và mã hóa các chi tiết chuyển động chính while giữ lại các ngữ nghĩa hình ảnh. Mỗi khung hình đầu tiên được xử lý bởi một bộ mã hóa hình ảnh đã được đào tạo trước, trích xuất các biểu diễn tính năng trước khi được chuyển đến một bộ căn chỉnh dựa trên Gaussian Error Linear Units (GELUs).

Kiến trúc của F-16 xử lý video ở 16 FPS, nắm bắt nhiều khung hình hơn so với các mô hình tốc độ khung hình thấp truyền thống, và bộ căn chỉnh tốc độ khung hình cao của nó bảo tồn các ngữ nghĩa hình ảnh trong khi mã hóa hiệu quả các động lực học chuyển động mà không thêm các token hình ảnh bổ sung. Source: https://arxiv.org/pdf/2503.13956

Để xử lý số lượng khung hình tăng lên một cách hiệu quả, F-16 nhóm các khung hình thành các cửa sổ xử lý nhỏ, hợp nhất các tính năng hình ảnh bằng cách sử dụng một mạng nơ-ron đa lớp ba lớp Multi-Layer Perceptron (MLP), giúp giữ lại chỉ các chi tiết chuyển động quan trọng nhất, và giảm sự trùng lặp không cần thiết, trong khi vẫn bảo tồn dòng thời gian của các hành động. Một lớp max-pooling không gian进一步 nén số lượng token, giữ cho chi phí tính toán trong giới hạn.

Các token video đã được xử lý sau đó được đưa vào Qwen2-7B LLM, tạo ra các phản hồi văn bản dựa trên các tính năng hình ảnh được trích xuất và một lời nhắc người dùng đã cho.

Bằng cách cấu trúc đầu vào video theo cách này, F-16 cho phép, theo các tác giả, việc nhận biết sự kiện chính xác hơn trong các cảnh động, trong khi vẫn duy trì hiệu quả.

Phiên bản Ngắn

F-16 mở rộng một mô hình LLM hình ảnh đã được đào tạo trước, LLaVA-OneVision, để xử lý video bằng cách chuyển đổi đường ống đầu vào hình ảnh của nó. Trong khi các mô hình LLM hình ảnh tiêu chuẩn xử lý các khung hình riêng lẻ, bộ căn chỉnh tốc độ khung hình cao của F-16 định dạng lại nhiều khung hình thành một dạng mà mô hình có thể xử lý hiệu quả hơn; điều này tránh làm cho hệ thống bị quá tải với thông tin冗余 trong khi vẫn bảo tồn các gợi ý chuyển động chính cần thiết cho việc hiểu video chính xác.

Để đảm bảo tính tương thích với nền tảng dựa trên hình ảnh của nó, F-16 tái sử dụng các tham số đã được đào tạo trước bằng cách cấu trúc lại bộ căn chỉnh của nó thành sub-matrices. Cách tiếp cận này cho phép nó tích hợp kiến thức từ các mô hình khung hình đơn vào việc thích nghi với đầu vào video tuần tự.

Bộ căn chỉnh trước tiên nén các chuỗi khung hình thành một định dạng được tối ưu hóa cho LLM, bảo tồn các tính năng thông tin nhất trong khi loại bỏ các chi tiết không cần thiết. Thiết kế kiến trúc cho phép hệ thống xử lý video tốc độ cao trong khi vẫn kiểm soát được nhu cầu tính toán, mà các tác giả cho là bằng chứng rằng việc mở rộng quy mô không phải là cách duy nhất (hoặc tốt nhất) để tiến về phía trước cho việc thêm phụ đề video.

Thay đổi Tốc độ

Vì việc xử lý video ở 16 FPS cải thiện việc hiểu chuyển động nhưng tăng nhu cầu tính toán, đặc biệt là trong quá trình suy luận, F-16 giới thiệu một phương pháp giải mã tốc độ khung hình biến đổi, cho phép nó điều chỉnh tốc độ khung hình động mà không cần đào tạo lại.

Các bộ căn chỉnh khung hình đơn và tốc độ khung hình cao có sẵn cho F-16.

Sự linh hoạt này cho phép mô hình hoạt động hiệu quả ở tốc độ khung hình thấp hơn khi độ chính xác cao không được yêu cầu, và giảm nhu cầu tính toán.

Tại thời điểm thử nghiệm, khi một tốc độ khung hình thấp hơn được chọn, F-16 tái sử dụng các tham số bộ căn chỉnh đã được đào tạo trước bằng cách lặp lại các khung hình đầu vào để phù hợp với các kích thước dự kiến. Điều này đảm bảo rằng mô hình vẫn có thể xử lý video hiệu quả mà không cần thay đổi kiến trúc của nó.

Không giống như việc lấy mẫu xuống đơn giản (tức là chỉ loại bỏ các khung hình), điều này có nguy cơ mất các chi tiết chuyển động quan trọng, phương pháp này bảo tồn các biểu diễn chuyển động đã được học của bộ căn chỉnh, duy trì độ chính xác ngay cả ở tốc độ khung hình giảm.

Dữ liệu và Thử nghiệm

Được xây dựng trên Qwen2-7B, FP-16 mở rộng LLaVA-OneVision bằng cách sử dụng SigLIP làm bộ mã hóa hình ảnh. Với các khung hình video được lấy mẫu ở 16 FPS, lên đến 1.760 khung hình có thể được thu thập từ mỗi video. Đối với các đoạn video dài hơn, các khung hình được lấy mẫu đồng đều (tức là thưa hơn).

Để đào tạo, F-16 sử dụng cùng các tập dữ liệu video chung như LLaVA-Video, bao gồm LLaVA-Video-178K, NExT-QA, ActivityNet-QA, và PerceptionTest.

F-16 cũng được tinh chỉnh trên các tập dữ liệu thể thao tốc độ cao FineGym, Diving48, và SoccerNet. Các tác giả cũng đã tạo một bộ sưu tập 276 trận đấu NBA được chơi giữa ngày 13 và ngày 25 tháng 11 năm 2024, tập trung vào việc liệu một cú sút có thành công hay không (một nhiệm vụ đòi hỏi xử lý tốc độ cao).

Mô hình được đánh giá bằng cách sử dụng bộ thử nghiệm NSVA, với hiệu suất được đo bằng F1 score.

Các mô hình thể thao được đánh giá dựa trên độ chính xác của việc nhận dạng sự kiện, trong khi các mô hình bóng rổ theo dõi các đường chuyền và kết quả sút bóng.

Mô hình được đào tạo trong 1 epoch bằng cách sử dụng 128 GPU NVIDIA H100 (và ở mức 80GB VRAM mỗi GPU, điều này đòi hỏi sử dụng 10,24 terabyte bộ nhớ GPU; ngay cả theo tiêu chuẩn gần đây, đây là cụm GPU có thông số kỹ thuật cao nhất mà tôi đã từng gặp trong việc theo dõi tài liệu nghiên cứu về tầm nhìn máy tính). Một tốc độ học của 2×10⁻⁵ đã được sử dụng trong quá trình đào tạo.

Ngoài ra, một LoRA đã được tinh chỉnh trên dữ liệu thể thao sử dụng các bộ điều chỉnh LoRA với 64 GPU trong 5 epoch. Tại đây, chỉ có LLM được đào tạo, để lại bộ mã hóa hình ảnh đông lạnh.

Các khung khổ đối lập được thử nghiệm trong vòng đầu tiên cho ‘hiểu video chung’ là GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; và NVILA-7B;

Các mô hình được đánh giá trên Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; và LongVideoBench.

So sánh kết quả hỏi và trả lời video trên các mô hình, hiển thị giới hạn FPS và hiệu suất trên nhiều tiêu chuẩn. F-16 đạt được SOTA trong số các mô hình 7B trên Video-MME, NQA, TPB và MB, ngang bằng với các mô hình độc quyền như GPT-4o và Gemini-1.5-Pro.

Trong số những kết quả này, các tác giả tuyên bố:

‘Trên các tập dữ liệu Video-MME Short, Medium và NeXT-QA – mỗi tập được thiết kế cho việc hiểu video ngắn – mô hình của chúng tôi vượt trội so với mô hình SOTA 7B trước đó với 3,2%, 1,0% và 0,9% về độ chính xác, nhấn mạnh hiệu suất mạnh mẽ của nó trên các video ngắn. ‘

‘Đối với các tiêu chuẩn đánh giá việc hiểu video dài, chẳng hạn như Video-MME Long, LongVideoBench và MLVU, thách thức lớn hơn do việc lấy mẫu khung hình thưa hơn, khiến các khung hình trong cửa sổ xử lý hiển thị sự thay đổi lớn hơn. ‘

‘Điều này làm tăng khó khăn cho bộ căn chỉnh modality để mã hóa hiệu quả các thay đổi thời gian trong đại diện token bị giới hạn. Do đó, F-16 trải qua sự sụt giảm hiệu suất so với [LLaVA-Video-7B], được đào tạo trên cùng một tập dữ liệu video.’

F-16’s xử lý tốc độ khung hình cao, các tác giả tiếp tục, cũng dẫn đến sự cải thiện 13,5% trên TemporalBench và 2,5% trên MotionBench, so với các mô hình 7B hiện có, và đạt hiệu suất tương tự như các mô hình độc quyền như GPT-4o và Gemini-1.5-Pro.

Hiểu biết Thể thao Tốc độ cao

F-16 được thử nghiệm trên FineGym, Diving48, SoccerNet và các tập dữ liệu NBA để đánh giá khả năng hiểu các hành động thể thao tốc độ cao của nó.

Sử dụng 10.000 đoạn phim NBA được chú thích thủ công, quá trình đào tạo tập trung vào chuyển động bóng và hành động của người chơi, và liệu các mô hình có thể xác định chính xác liệu một cú sút có thành công hay không, sử dụng bộ thử nghiệm NSVA được đánh giá bằng F1 score.

Kết quả phân tích video thể thao tốc độ cao. F-16 với bộ căn chỉnh tốc độ khung hình cao hoạt động tốt hơn so với mô hình tốc độ khung hình thấp tương tự trên tất cả các nhiệm vụ thể thao. GPT-4o và Gemini-1.5-Pro cũng được đánh giá trên NBA và SoccerNet QA, nơi kiến thức đào tạo trong lĩnh vực không được yêu cầu.

Trên FineGym, đo lường việc nhận dạng hành động thể dục, F-16 hoạt động tốt hơn 13,8% so với mô hình SOTA 7B trước đó, thể hiện sự hiểu biết chuyển động tinh tế hơn.

Diving48 yêu cầu xác định các chuỗi chuyển động phức tạp như giai đoạn cất cánh, somersault, twist và flight, và F-16 cho thấy độ chính xác cao hơn trong việc nhận dạng các chuyển tiếp này.

Đối với SoccerNet, mô hình phân tích các đoạn clip 10 giây, xác định các đường chuyền bóng, và kết quả cho thấy sự cải thiện so với các mô hình 7B hiện có, chỉ ra rằng tốc độ khung hình cao hơn đóng góp vào việc theo dõi các chuyển động nhỏ và nhanh.

Trong tập dữ liệu NBA, khả năng của F-16 trong việc xác định kết quả sút bóng gần với độ chính xác của các mô hình độc quyền lớn hơn như GPT-4o và Gemini-1.5-Pro, gợi ý thêm rằng tốc độ khung hình cao hơn cải thiện khả năng xử lý chuyển động động của nó.

Tốc độ Khung hình Biến đổi

F-16 được thử nghiệm ở các tốc độ khung hình khác nhau để đo khả năng thích ứng của nó. Thay vì đào tạo lại, nó xử lý tốc độ khung hình thấp hơn bằng cách lặp lại các khung hình để phù hợp với cấu trúc đầu vào của bộ căn chỉnh. Cách tiếp cận này giữ lại nhiều hiệu suất hơn so với việc đơn giản loại bỏ khung hình (mà có thể dẫn đến mất độ chính xác).

Kết quả chỉ ra rằng mặc dù việc giảm tốc độ khung hình có một số tác động đến việc nhận dạng chuyển động, F-16 vẫn vượt trội so với các mô hình tốc độ khung hình thấp và duy trì kết quả mạnh mẽ ngay cả dưới 16 FPS.

Trái, thời gian tiêu thụ của các mô块 khác nhau của F-16 trong quá trình suy luận, đo trên 300 video từ tập Video-MME Long ở các tốc độ khung hình thử nghiệm và chiều dài chuỗi khác nhau. Phải, so sánh giữa hiệu suất Video-MME cho các mô hình được đào tạo và thử nghiệm ở các tốc độ khung hình khác nhau. Đường thẳng thể hiện các mô hình được đào tạo và thử nghiệm ở cùng một tốc độ khung hình, trong khi đường đứt nét cho thấy hiệu suất khi một mô hình được đào tạo ở 16 FPS được thử nghiệm ở tốc độ khung hình thấp hơn.

Xử lý tốc độ khung hình cao của F-16 làm tăng nhu cầu tính toán, mặc dù bộ căn chỉnh của nó giúp quản lý các chi phí này bằng cách nén các token hình ảnh冗余.

Mô hình yêu cầu nhiều FLOPs hơn cho mỗi video so với các mô hình tốc độ khung hình thấp, nhưng cũng đạt được độ chính xác tốt hơn cho mỗi token, gợi ý rằng chiến lược chọn khung hình và nén token của nó giúp bù đắp cho việc tính toán thêm.

Kết luận

Điều này rất khó để nhấn mạnh cả tầm quan trọng và thách thức của dòng nghiên cứu này – đặc biệt là năm nay, được coi là năm đột phá cho video tạo ra, làm nổi bật những hạn chế của việc tạo và chất lượng phụ đề video vào tầm nhìn rõ ràng.

Nó cũng nên được nhấn mạnh rằng các thách thức liên quan đến việc có được các mô tả chính xác về chi tiết nội bộ của video không thể được giải quyết độc quyền bằng cách ném VRAM, thời gian hoặc không gian đĩa vào vấn đề. Phương pháp mà các sự kiện được cách ly / trích xuất từ các đoạn video dài và nhàm chán (như các đoạn video golf hoặc snooker, chẳng hạn) sẽ được hưởng lợi từ việc suy nghĩ lại các phương pháp và cơ chế ngữ nghĩa hiện đang chiếm ưu thế trong các giải pháp SOTA – vì một số hạn chế này đã được thiết lập trong những thời gian tài nguyên nghèo hơn.

(ngẫu nhiên, ngay cả khi 16fps dường như là một tốc độ khung hình rất thấp cho năm 2025, điều thú vị là lưu ý rằng đây cũng là tốc độ đào tạo bản địa của các đoạn video được sử dụng trong mô hình video tạo ra phổ biến Wan 2.1, và tốc độ mà nó hoạt động với ít vấn đề nhất. Hy vọng rằng cảnh nghiên cứu sẽ giữ mắt đến sự ‘entropy tiêu chuẩn’ có thể xảy ra; đôi khi các hạn chế lỗi thời có thể duy trì các tiêu chuẩn trong tương lai)

Được xuất bản lần đầu vào thứ Tư, ngày 19 tháng 3 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]