Góc nhìn Anderson

Tìm kiếm Trí tuệ nhân tạo có thể theo dõi toàn bộ bộ phim

Published February 27, 2026

Updated April 25, 2026

Martin Anderson

AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

Các mô hình AI vẫn mất dấu về ai là ai và những gì đang xảy ra trong một bộ phim. Một hệ thống mới sắp xếp nhận dạng khuôn mặt và tóm tắt được dàn dựng, giữ cho các nhân vật thẳng thắn, và các tình tiết hợp lý trên toàn bộ phim.

Làm cho trí tuệ nhân tạo xem và hiểu các bộ phim theo phong cách Hollywood có thể giống như một nhiệm vụ hẹp hoặc biên; nhưng một hệ thống có thể xem một bộ phim đầy đủ từ đầu đến cuối, theo dõi tiến trình của tất cả các nhân vật, và giữ trên đỉnh của tình tiết, đã không chỉ làm cho có thể một số ứng dụng trực tiếp có thể được hưởng lợi từ các khả năng này, mà còn một số thách thức ngoại vi hoặc không liên quan, trên các lĩnh vực khác nhau.

Quả thấp treo cho các mô hình AI xem phim là hệ thống khuyến nghị, trên các nền tảng phát trực tuyến như Netflix, Amazon Prime, và HBO Max. Một sự hiểu biết tinh tế về sự phát triển của tình tiết và hành động của nhân vật cho phép một sự kết hợp gần hơn với các sở thích và niềm đam mê của người xem (thường là không chính xác).

Hơn nữa, một sự hiểu biết sâu sắc hơn về một bộ phim cho phép tạo ra từ khóa và phân loại chính xác hơn, thay vì duy trì các mô tả phim đã được sao chép nhiều lần, có thể đã được viết cách đây nhiều thập kỷ. Những thông tin này cũng có thể tiết lộ sự hiện diện của các chủ đề “người lớn” trong một bộ phim, điều mà có thể không rõ ràng từ đối thoại hoặc hình ảnh.

Ngoài ra, các bộ phim cũ trong danh mục có thể giữ các xếp hạng và tóm tắt đã lỗi thời; ví dụ, ngôn ngữ và thành ngữ được chuẩn hóa trong một bộ phim của những năm 1950 có thể đòi hỏi sự chú ý nhiều hơn bây giờ. Nhưng không có sự hiểu biết về ngữ cảnh, thu được từ việc thực sự theo dõi một câu chuyện phim dài, những sự việc như vậy có thể được nhấn mạnh quá mức hoặc không đủ.

Nói rộng hơn, các phương pháp phân tích phim cải tiến có thể đóng góp rất nhiều vào vấn đề rộng lớn hơn của nhận dạng sự kiện, điều này rất cần thiết cho các đổi mới trong giám sát an ninh, bình luận thể thao tự động, và tóm tắt của tất cả các loại, trên một loạt các phương tiện truyền thông.

Do đó, ‘xem phim dựa trên AI’ là một thể loại khá phổ biến trong văn học về Thị giác Máy tính.

Nhìn thấy bức tranh lớn

Người mới tham gia nhất là MovieTeller – một sự hợp tác giữa học thuật và công nghiệp từ Trung Quốc, tạo ra tiến bộ mới bằng cách chia nhỏ các nhiệm vụ con trong thách thức trên các ứng dụng AI khác nhau phù hợp với những thách thức này, thay vì – như thường là trường hợp – cố gắng đào tạo các mô hình riêng biệt và đóng gói có thể thực hiện tất cả các nhiệm vụ cần thiết từ một không gian潜在.

Các tác giả quan sát rằng các mô hình Trí tuệ nhân tạo – Ngôn ngữ trước đây (VLMs) đối mặt với cùng một nhiệm vụ đã không thể tiến bộ quá xa khỏi phân tích khung hình đơn; và rằng sự thiếu ngữ cảnh khiến cho các mô hình như vậy khó khăn để xác định liên tục các nhân vật – có lẽ là đặc điểm quan trọng nhất của một hệ thống như vậy:

Hệ thống mới, MovieTeller, có thể xác định liên tục người trong các cảnh, nhờ vào việc sử dụng một hệ thống nhận dạng khuôn mặt chuyên dụng; nhưng chính sự cam kết dành cho ngữ cảnh cho phép khuôn khổ này giữ trên đỉnh của sự phát triển của tình tiết. Nguồn

Các tác giả tuyên bố:

‘Các mô hình VLM chung thường gặp khó khăn trong việc nhận dạng và theo dõi liên tục các nhân vật cụ thể trong suốt một câu chuyện dài. Họ có thể mô tả một nhân vật chính là “một người đàn ông” trong một cảnh và “một người” trong một cảnh khác, không thể ràng buộc biểu diễn trực quan với một bản sắc nhất quán.’

Các tác giả lưu ý rằng vì cơ chế tự chú ý của Transformer sử dụng phức tạp tính toán bậc hai, việc xử lý mọi khung hình của một bộ phim đầy đủ tại một thời điểm trở nên quá tốn kém về tính toán. Do đó, các phương pháp dựa trên việc lấy mẫu khung hình đồng đều hoặc kết hợp đơn giản có xu hướng phá vỡ dòng chảy của câu chuyện, tạo ra các tóm tắt bị phân mảnh thay vì một câu chuyện hợp lý.

Thay vào đó, hệ thống mới bao gồm một đường ống đào tạo không cần thiết, với các công cụ chuyên dụng để giải quyết nhận dạng khuôn mặt và sự nhất quán của bộ nhớ (khi các nhân vật rời khỏi và tái nhập vào câu chuyện của một bộ phim).

MovieTeller đã được thử nghiệm chống lại các phương pháp trước đó bằng cách sử dụng 60 bộ phim đầy đủ, tương đương với 10.000 phút phim. Trong các thử nghiệm ablation định lượng và nghiên cứu của con người, các tác giả báo cáo, phương pháp của họ đã có thể cải thiện đáng kể trên các môi trường và giả định được sử dụng bởi các hệ thống trước đó.

Bài báo mới mới có tiêu đề MovieTeller: Tool-augmented Movie Synopsis với ID Consistent Progressive Abstraction, và đến từ năm tác giả trên Zhejiang University tại Hàng Châu, nhóm truyền thông nhà nước Trung Quốc, và Watch AI Group* (hai nhóm sau dựa tại Bắc Kinh).

Phương pháp

Khuôn khổ MovieTeller bao gồm ba giai đoạn: phân đoạn cảnh và trích xuất khung hình chính, được xử lý thông qua PySceneDetect dự án; Factual-Grounded Scene Description Generation thông qua việc tùy chỉnh Qwen2.5-VL-7B-Instruct VLM; và tiến bộ trừu tượng, condenses mô tả chi tiết cảnh thành tóm tắt chương và sau đó thành một tóm tắt hợp lý cuối cùng – và điều này cũng được thực hiện bởi mô hình Qwen2.5:

Tổng quan về khuôn khổ MovieTeller: một bộ phim đầy đủ được chia thành các cảnh và cô đặc thành các khung hình chính chất lượng cao; sau đó, một công cụ nhận dạng khuôn mặt bên ngoài tiêm các cơ sở thực tế, liên kết tên nhân vật với các hộp giới hạn, hướng dẫn một mô hình Ngôn ngữ-Trực quan trong việc tạo ra mô tả cảnh nhất quán với ID.

Giai đoạn đầu tiên sử dụng PySceneDetect để chia bộ phim thành các cảnh riêng biệt, dựa trên các thay đổi trực quan rõ ràng, với mỗi cảnh được đại diện bởi một khung hình chính.

Tuy nhiên, không mọi khung hình đều tạo ra một hình ảnh tóm tắt tốt, vì các khoảnh khắc chuyển tiếp, mờ dần và khung hình tối có thể làm混 lẫn các phân tích sau. Do đó, một kiểm tra chất lượng đơn giản thực hiện một bộ lọc trên các khung hình ứng viên, bằng cách đo độ sáng và sự thay đổi trực quan, đảm bảo rằng chỉ các hình ảnh giàu thông tin được chọn để mô tả.

Đặt khuôn mặt

Một cơ sở dữ liệu khuôn mặt được xây dựng từ thông tin dàn diễn viên công khai^†, lưu trữ tên của mỗi nhân vật chính cùng với một mã hóa khuôn mặt số^†. Khi một khuôn mặt xuất hiện trong một khung hình chính, mã hóa khuôn mặt của nó được so sánh với cơ sở dữ liệu, và kết quả gần nhất được chấp nhận nếu nó vượt qua ngưỡng tin cậy. Điều này tạo ra ‘cơ sở thực tế’, liên kết tên với các hộp giới hạn cụ thể.

Để thực hiện việc này, InsightFace được sử dụng, tận dụng một đầu nhận dạng dựa trên mất mát ArcFace:

Hai khuôn mặt quen thuộc được nhớ lại bởi Additive Angular Margin Loss (ArcFace) initiative, được sử dụng theo một cách rất giống cho dự án MovieTeller. Nguồn

Các khung hình chính được chú thích sau đó được truyền đến mô hình Qwen với một lời nhắc bao gồm danh sách các nhân vật được phát hiện và vị trí của chúng:

Vì các mô hình Ngôn ngữ-Trực quan không thể hấp thụ toàn bộ một bộ phim tại một lần, MovieTeller ban đầu chia nhỏ vật liệu thành mô tả cảnh. Những mô tả này được nhóm thành các khối liên tiếp, giống như chương, và sau đó được truyền đến Qwen2.5, mô hình này tóm tắt mỗi chương, nén các sự phát triển của tình tiết, động lực của nhân vật và các điểm quay, trong khi vẫn giữ các tên nhân vật đã được xác minh trước đó.

Những tóm tắt chương bị nén này sau đó được kết hợp và trả lại cho mô hình với một lời nhắc mới yêu cầu một tóm tắt phim hoàn chỉnh:

Một mẫu lời nhắc được sử dụng để tạo ra mô tả cảnh, tiêm rõ ràng tên nhân vật và hộp giới hạn để ràng buộc mô hình Ngôn ngữ-Trực quan và thực thi việc kể chuyện nhất quán với ID.

Giống như lời nhắc yêu cầu một tóm tắt hoàn chỉnh, mẫu này được sử dụng để tạo ra mô tả cảnh, tiêm rõ ràng tên nhân vật và hộp giới hạn để ràng buộc mô hình Ngôn ngữ-Trực quan và thực thi việc kể chuyện nhất quán với ID.

Giả sử quá trình đã thành công, đầu ra cuối cùng nên phản ánh một cách hợp lý câu chuyện của bộ phim. Đây là một nhiệm vụ đặc biệt khó khăn trong học máy, vì sự đa dạng của các tóm tắt tình tiết có thể và phong cách chúng có thể được trình bày, cùng với chiều dài cần thiết của những điểm dữ liệu này, làm cho nó gần như không thể áp dụng các phương pháp dựa trên sự thật cơ bản thông thường.

Dữ liệu và Thử nghiệm

Để thử nghiệm hệ thống, các tác giả đã tạo ra một tập dữ liệu tùy chỉnh (và không được chỉ định nguồn) gồm 100 bộ phim đầy đủ, tương đương với khoảng 166 giờ phát. Các bộ phim bao gồm Iron Man 3, Farewell My Concubine, Eat Drink Man Woman, và The Chronicles of Narnia. Các nhà nghiên cứu yêu cầu tất cả các bộ phim phải có xếp hạng trên 5.0 trên IMDB:

Cấu trúc tập dữ liệu trên 100 phim, cho thấy sự bao phủ thời gian cân bằng từ 1992 đến 2025, một đa số nhỏ của các tựa đề không phải tiếng Anh, và một sự phân bố rộng rãi về thể loại dẫn đầu là Drama và Action, với sự đại diện trên Sci-Fi, Horror, Comedy, Romance, và History.

Sự phân bố rộng rãi về thể loại được thiết kế để ngăn chặn sự thiên vị đối với bất kỳ thể loại nào.

Cơ sở dữ liệu khuôn mặt cho mỗi bộ phim bao gồm hai bức ảnh của các diễn viên chính – một từ một bức ảnh trong phim và một từ một bức ảnh quảng cáo liên quan.

Được thực hiện trong Python, các thử nghiệm được chạy trên bốn card đồ họa NVIDIA A40, mỗi card có 48GB VRAM, và với biến thể Qwen2.5 đã đề cập làm mô hình VLM trung tâm. Các nghiên cứu ablation^†† cũng được thực hiện với các mô hình tiên tiến khác InternVL3-8B và WeThink-Qwen2.5VL-7B.

Khung khổ mới này đã được thử nghiệm chống lại hai biến thể ablation^††: một No-Hint baseline, trong đó mô hình Ngôn ngữ-Trực quan tạo ra mô tả cảnh từ khung hình chính alone, không có bất kỳ gợi ý nào về danh tính nhân vật; và một Name-Only Hint setting, nơi mô hình được cung cấp tên của các nhân vật được phát hiện, nhưng không có hộp giới hạn, cho phép các tác giả phân lập sự đóng góp cụ thể của việc gắn không gian vào tính nhất quán của ID và tính hợp lý của câu chuyện

Về các chỉ số, xem xét khó khăn khi áp dụng các phương pháp dựa trên sự thật cơ bản cho các tóm tắt tình tiết dài, các chỉ số chồng lấp n-gram tiêu chuẩn như ROUGE và BLEU đã được thay thế bằng BERTScore với F1 score, để đo sự tương đồng ngữ nghĩa so với một tóm tắt tham chiếu được rút ra từ ‘một bách khoa toàn thư công cộng’.

Ngoài ra, Gemini 2.5 Flash được sử dụng để chấm điểm mỗi tóm tắt cho sự trung thực về mặt事实; sự nhất quán và đầy đủ của ID; tính hợp lý và dòng chảy của câu chuyện; và conciseness, với điểm được tính trung bình trên các chiều.

Cuối cùng, một đánh giá của con người về 50 tóm tắt được lấy mẫu ngẫu nhiên đã được thực hiện bằng cách sử dụng so sánh đôi, cung cấp một kiểm tra thực tế về các đánh giá tự động.

Dưới đây, chúng ta thấy kết quả BERTScore (F1) cho ba mô hình xương sống: Qwen2.5-VL, InternVL3, và WeThink. Mỗi mô hình được thử nghiệm trong ba cấu hình: No-Hint, Name-Only, và hệ thống MovieTeller đầy đủ:

So sánh BERTScore (F1) trên ba mô hình Ngôn ngữ-Trực quan cơ bản và ba thiết lập thử nghiệm, cho thấy sự cải thiện nhất quán khi thêm tên nhân vật và cải thiện thêm khi gắn không gian được bao gồm, với MovieTeller đạt được điểm số cao nhất trong tất cả các trường hợp.

Các tác giả lưu ý rằng mẫu này nhất quán trên tất cả ba mô hình xương sống: sử dụng chỉ khung hình thô cho kết quả yếu nhất; thêm tên nhân vật tạo ra sự cải thiện khiêm tốn; và kết hợp tên với hộp giới hạn mang lại kết quả mạnh nhất. Mặc dù những cải thiện này là dần dần chứ không phải là戏剧, cấu hình gắn không gian đầy đủ đạt được sự sắp xếp ngữ nghĩa cao nhất với tóm tắt tham chiếu, trong mọi thiết lập.

Về đánh giá chất lượng câu chuyện dựa trên LLM: như chúng ta thấy trong kết quả dưới đây, No-Hint baseline gặp khó khăn nhất với sự nhất quán của ID, điều này kéo điểm tổng thể của nó xuống; nhưng cung cấp tên alone tạo ra một sự cải thiện đáng chú ý, đặc biệt là trên các chiều liên quan đến ID. Tuy nhiên, cấu hình MovieTeller đầy đủ lại xếp hạng cao nhất trên tất cả ba mô hình xương sống:

Đánh giá LLM-as-a-Judge (1–5 scale) trên ba mô hình cơ bản, cho thấy việc thêm tên nhân vật cải thiện sự nhất quán của ID và chất lượng tổng thể, trong khi khuôn khổ MovieTeller đầy đủ đạt được điểm số cao nhất trên sự trung thực về mặt事实, tính hợp lý, và điểm cuối cùng.

Sự cải thiện mạnh nhất xuất hiện trong sự nhất quán của ID, và trong điểm cuối cùng được tính trung bình, gợi ý rằng việc gắn không gian giúp mô hình giữ rõ về ai đang làm gì khi cốt truyện phát triển.

Trong đánh giá của con người về 50 tóm tắt được lấy mẫu ngẫu nhiên, người tham gia được hiển thị ba tóm tắt cùng một lúc và được yêu cầu chọn tóm tắt tốt nhất:

Tỷ lệ lựa chọn của con người trong một đánh giá so sánh đôi, cho thấy tóm tắt của MovieTeller được chọn thường xuyên nhất trên tất cả ba mô hình xương sống, vượt trội so với cả hai biến thể No-Hint và Name-Only.

Cuối cùng, một thử nghiệm định tính đã được chạy trên bộ phim The Bullet Vanishes (2012):

Chúng tôi không thể tái tạo toàn bộ hình này từ bài báo gốc, vì nó rất cao và dày đặc văn bản. Vui lòng tham khảo bài báo gốc thay thế.

Tại đây, No-Hint baseline tạo ra một tóm tắt mơ hồ mà đề cập đến các nhân vật theo cách chung chung, và làm mờ vai trò của họ, khiến cho chuỗi sự kiện trở nên khó theo dõi hơn. Cung cấp tên alone cải thiện khả năng nhớ lại bề mặt, nhưng câu chuyện vẫn bị phân tán, với mối quan hệ và động lực của nhân vật được mô tả theo cách ‘phẳng’ hơn.

Ngược lại, phiên bản MovieTeller đầy đủ giữ cho các ID ổn định trong suốt tóm tắt và gắn các hành động với các nhân vật chính xác, cho phép cuộc điều tra cốt truyện phát triển với cấu trúc nguyên nhân – kết quả rõ ràng hơn. Các căng thẳng và động lực cụ thể được bảo tồn thay vì bị trừu tượng hóa, dẫn đến một tóm tắt đọc ít giống như một đề cương không kết nối và nhiều hơn như một kể lại hợp lý về cung bậc trung tâm của bộ phim:

Phần của so sánh cuối cùng, mà chúng tôi không thể tái tạo đầy đủ ở đây, cho thấy một tóm tắt bị cắt giảm và một tóm tắt MovieTeller đầy đủ. Vui lòng tham khảo bài báo gốc thay thế.

Kết luận

Mặc dù hầu hết các dự án mới thuộc loại này đều kết thúc trong văn học về Thị giác Máy tính, nhưng việc tóm tắt phim dựa trên AI bao gồm nhiều lĩnh vực và miền khác nhau trong nghiên cứu học máy – và rất khó để nói trước được đâu sẽ là mảnh ghép còn thiếu của câu đố; mặc dù MovieTeller tiến một bước đúng hướng bằng cách chia nhỏ các nhiệm vụ trên các mô hình phù hợp, nó vẫn giữ cảm giác ‘lắp ghép’ thường đi trước một giải pháp sau này tinh tế hơn.

* Tôi không thể xác định được cơ quan này, ngay cả sau khi tìm kiếm.

^†Người ta sẽ giả định một thứ gì đó như IMDB hoặc OMDB, nhưng nguồn không được chỉ định.

^††Vui lòng tham khảo bài báo gốc để có thông tin đầy đủ về ablation, vì chúng tôi chỉ bao gồm ablation đầy đủ trong các trường hợp đặc biệt. Tôi sẽ lưu ý rằng các nghiên cứu ablation không được xử lý ở đây không làm suy yếu các phát hiện chung của bài báo.

Được xuất bản lần đầu vào Thứ Sáu, 27 tháng 2, 2026

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]