Kết nối với chúng tôi

Video AI tạo ra tốt hơn bằng cách xáo trộn các khung hình trong quá trình đào tạo

Góc của Anderson

Video AI tạo ra tốt hơn bằng cách xáo trộn các khung hình trong quá trình đào tạo

mm
Adobe Firefly, nhiều lời nhắc và chỉnh sửa khác nhau.

Một bài báo mới ra mắt tuần này tại Arxiv đề cập đến một vấn đề mà bất kỳ ai đã áp dụng Video Hồn Nguyên or Vạn 2.1 Các trình tạo video AI hiện nay sẽ gặp phải: sự sai lệch thời gian, trong đó quá trình tạo ra có xu hướng đột ngột tăng tốc, gộp lại, bỏ sót hoặc làm hỏng những khoảnh khắc quan trọng trong video được tạo ra:

Bấm để chơi. Một số lỗi thời gian đang trở nên quen thuộc với người dùng của làn sóng hệ thống video tạo mới, được nêu bật trong bài báo mới. Bên phải là hiệu ứng cải thiện của phương pháp FluxFlow mới.  Nguồn: https://haroldchen19.github.io/FluxFlow/

Video ở trên có các đoạn trích từ các video thử nghiệm mẫu tại (cảnh báo: khá hỗn loạn) địa điểm dự án cho bài báo. Chúng ta có thể thấy một số vấn đề ngày càng quen thuộc đang được khắc phục bằng phương pháp của tác giả (hình bên phải trong video), về cơ bản là tiền xử lý tập dữ liệu kỹ thuật áp dụng cho bất kỳ kiến ​​trúc video tạo ra nào.

Trong ví dụ đầu tiên, có 'hai đứa trẻ đang chơi với một quả bóng', được tạo ra bởi CogVideoX, chúng ta thấy (bên trái trong video tổng hợp ở trên và trong ví dụ cụ thể bên dưới) rằng thế hệ bản địa nhanh chóng nhảy qua một số chuyển động nhỏ thiết yếu, đẩy nhanh hoạt động của trẻ em lên đến một cao độ 'hoạt hình'. Ngược lại, cùng một tập dữ liệu và phương pháp mang lại kết quả tốt hơn với kỹ thuật tiền xử lý mới, được gọi là Dòng chảy (bên phải hình ảnh trong video bên dưới):

Bấm để chơi.

Trong ví dụ thứ hai (sử dụng NOVA-0.6B) chúng ta thấy rằng chuyển động trung tâm liên quan đến một con mèo đã bị hỏng theo một cách nào đó hoặc bị lấy mẫu quá ít ở giai đoạn đào tạo, đến mức hệ thống sinh sản trở nên "tê liệt" và không thể khiến đối tượng di chuyển:

Bấm để chơi.

Hội chứng này, trong đó chuyển động hoặc chủ thể bị "kẹt", là một trong những vấn đề thường gặp nhất của HV và Wan trong nhiều nhóm tổng hợp hình ảnh và video.

Một số vấn đề này liên quan đến các vấn đề về phụ đề video trong tập dữ liệu nguồn mà chúng tôi đã xem xét tuần này; nhưng các tác giả của công trình mới tập trung nỗ lực vào chất lượng thời gian của dữ liệu đào tạo và đưa ra lập luận thuyết phục rằng việc giải quyết các thách thức theo góc độ đó có thể mang lại kết quả hữu ích.

Như đã đề cập trong bài viết trước về phụ đề video, một số thể thao đặc biệt khó để cô đọng thành những khoảnh khắc quan trọng, nghĩa là các sự kiện quan trọng (như một cú úp rổ) không nhận được sự chú ý cần thiết vào thời điểm đào tạo:

Bấm để chơi.

Trong ví dụ trên, hệ thống sinh sản không biết cách chuyển sang giai đoạn chuyển động tiếp theo và di chuyển một cách phi logic từ tư thế này sang tư thế khác, làm thay đổi thái độ và hình dạng của người chơi trong quá trình này.

Đây là những chuyển động lớn bị bỏ qua trong quá trình luyện tập – nhưng cũng dễ bị tổn thương không kém là những chuyển động nhỏ hơn nhưng quan trọng, chẳng hạn như động tác vỗ cánh của một con bướm:

Bấm để chơi.  

Không giống như slam-dunk, việc vỗ cánh không phải là một sự kiện 'hiếm hoi' mà là một sự kiện dai dẳng và đơn điệu. Tuy nhiên, tính nhất quán của nó bị mất trong quá trình lấy mẫu, vì chuyển động quá nhanh đến mức rất khó để xác định về mặt thời gian.

Đây không phải là những vấn đề mới, nhưng chúng đang nhận được nhiều sự chú ý hơn khi các mô hình video tạo hình mạnh mẽ hiện có sẵn cho những người đam mê để cài đặt tại chỗ và tạo miễn phí.

Các cộng đồng tại Reddit và Discord ban đầu đã coi những vấn đề này là 'liên quan đến người dùng'. Đây là một giả định dễ hiểu, vì các hệ thống đang được đề cập là rất mới và ít được ghi chép. Do đó, nhiều chuyên gia đã đề xuất các biện pháp khắc phục đa dạng (và không phải lúc nào cũng hiệu quả) cho một số trục trặc được ghi chép ở đây, chẳng hạn như thay đổi cài đặt trong nhiều thành phần của nhiều loại quy trình làm việc ComfyUI khác nhau cho Hunyuan Video (HV) và Wan 2.1.

Trong một số trường hợp, thay vì tạo ra chuyển động nhanh, cả HV và Wan sẽ tạo ra chậm chuyển động. Gợi ý từ Reddit và ChatGPT (chủ yếu tận dụng Reddit) bao gồm thay đổi số lượng khung hình trong thế hệ được yêu cầu hoặc giảm đáng kể tốc độ khung hình*.

Đây là những điều tuyệt vọng; sự thật đang nổi lên là chúng ta vẫn chưa biết nguyên nhân chính xác hoặc cách khắc phục chính xác cho những vấn đề này; rõ ràng, việc hành hạ các thiết lập tạo ra để giải quyết chúng (đặc biệt là khi điều này làm giảm chất lượng đầu ra, chẳng hạn như với tốc độ fps quá thấp) chỉ là giải pháp tạm thời, và thật tốt khi thấy rằng bối cảnh nghiên cứu đang giải quyết các vấn đề mới nổi này một cách nhanh chóng.

Vì vậy, bên cạnh bài viết tuần này về cách chú thích ảnh hưởng đến quá trình đào tạo, chúng ta hãy cùng xem bài báo mới về quy tắc hóa thời gian và những cải tiến mà nó có thể mang lại cho bối cảnh video tạo hình hiện tại.

Ý tưởng chính khá đơn giản và nhẹ nhàng, và không hề tệ chút nào; tuy nhiên, bài viết được thêm thắt đôi chút để đạt được tám trang theo quy định, và chúng ta sẽ bỏ qua phần thêm thắt này nếu cần.

Con cá trong thế hệ gốc của khung VideoCrafter là tĩnh, trong khi phiên bản được FluxFlow thay đổi sẽ nắm bắt được những thay đổi cần thiết. Nguồn: https://arxiv.org/pdf/2503.15417

Con cá trong thế hệ gốc của khung VideoCrafter là cá tĩnh, trong khi phiên bản được FluxFlow thay đổi sẽ nắm bắt được những thay đổi cần thiết. Nguồn: https://arxiv.org/pdf/2503.15417

công việc mới có tiêu đề Chính quy hóa thời gian làm cho trình tạo video của bạn mạnh mẽ hơnvà đến từ tám nhà nghiên cứu tại Everlyn AI, Đại học Khoa học và Công nghệ Hồng Kông (HKUST), Đại học Trung Florida (UCF) và Đại học Hồng Kông (HKU).

(tại thời điểm viết bài, có một số vấn đề với các tài liệu đi kèm của bài báo địa điểm dự án)

Dòng chảy

Ý tưởng trung tâm đằng sau Dòng chảy, lược đồ đào tạo trước mới của tác giả, là để khắc phục các vấn đề phổ biến leo létsự không nhất quán về mặt thời gian bằng cách xáo trộn các khối và nhóm khối theo thứ tự khung thời gian khi dữ liệu nguồn được đưa vào quá trình đào tạo:

Ý tưởng cốt lõi đằng sau FluxFlow là di chuyển các khối và nhóm khối vào các vị trí bất ngờ và không theo thời gian, như một hình thức tăng cường dữ liệu.

Ý tưởng cốt lõi đằng sau FluxFlow là di chuyển các khối và nhóm khối vào các vị trí bất ngờ và không theo thời gian, như một hình thức tăng cường dữ liệu.

Bài báo giải thích:

'[Các hiện vật] xuất phát từ một hạn chế cơ bản: mặc dù tận dụng các tập dữ liệu quy mô lớn, các mô hình hiện tại thường dựa vào các mẫu thời gian đơn giản hóa trong dữ liệu đào tạo (ví dụ: hướng đi cố định hoặc chuyển đổi khung hình lặp đi lặp lại) thay vì học các động lực thời gian đa dạng và hợp lý.

'Vấn đề này càng trầm trọng hơn do thiếu sự tăng cường thời gian rõ ràng trong quá trình đào tạo, khiến các mô hình dễ bị quá khớp với các tương quan thời gian không chính xác (ví dụ: "khung số 5 phải theo sau khung số 4") thay vì khái quát hóa trên nhiều kịch bản chuyển động khác nhau.'

Hầu hết các mô hình tạo video, các tác giả giải thích, vẫn vay mượn quá nhiều từ hình ảnh tổng hợp, tập trung vào độ trung thực không gian trong khi phần lớn bỏ qua trục thời gian. Mặc dù các kỹ thuật như cắt xén, lật và làm nhiễu màu đã giúp cải thiện chất lượng hình ảnh tĩnh, nhưng chúng không phải là giải pháp phù hợp khi áp dụng cho video, nơi ảo giác chuyển động phụ thuộc vào các chuyển tiếp nhất quán giữa các khung hình.

Các vấn đề phát sinh bao gồm kết cấu nhấp nháy, các đường cắt không đồng đều giữa các khung hình và các kiểu chuyển động lặp đi lặp lại hoặc quá đơn giản.

Bấm để chơi.

Bài báo lập luận rằng mặc dù một số mô hình – bao gồm Khuếch tán video ổn địnhLlamaGen – bù đắp bằng các kiến ​​trúc ngày càng phức tạp hoặc các hạn chế được thiết kế, những điều này phải trả giá bằng khả năng tính toán và tính linh hoạt.

Vì việc tăng cường dữ liệu thời gian đã được chứng minh là hữu ích trong video sự hiểu biết nhiệm vụ (trong các khuôn khổ như FineCliper, SeFARSVFormer) các tác giả khẳng định rằng điều đáng ngạc nhiên là chiến thuật này hiếm khi được áp dụng trong bối cảnh sáng tạo.

Hành vi gây rối

Các nhà nghiên cứu cho rằng sự gián đoạn đơn giản, có cấu trúc theo thứ tự thời gian trong quá trình đào tạo giúp các mô hình khái quát hóa tốt hơn thành chuyển động thực tế, đa dạng:

'Bằng cách đào tạo trên các chuỗi không theo trật tự, trình tạo học cách khôi phục các quỹ đạo hợp lý, hiệu quả là điều chỉnh entropy thời gian. FLUXFLOW thu hẹp khoảng cách giữa tăng cường thời gian phân biệt và tăng cường thời gian tạo ra, cung cấp giải pháp tăng cường plug-and-play để tạo video hợp lý về mặt thời gian trong khi cải thiện [chất lượng] tổng thể.

'Không giống như các phương pháp hiện có đưa ra những thay đổi về kiến ​​trúc hoặc dựa vào xử lý hậu kỳ, FLUXFLOW hoạt động trực tiếp ở cấp độ dữ liệu, đưa ra những nhiễu loạn thời gian được kiểm soát trong quá trình đào tạo.'

Bấm để chơi.

Các nhiễu loạn ở cấp độ khung hình, các tác giả nêu, đưa ra các gián đoạn chi tiết trong một chuỗi. Loại gián đoạn này không khác gì tăng cường che giấu, trong đó các phần dữ liệu bị chặn ngẫu nhiên, để ngăn chặn hệ thống quá mức về các điểm dữ liệu và khuyến khích tốt hơn sự khái quát.

Kiểm tra

Mặc dù ý tưởng chính ở đây không phải là một bài viết đầy đủ do tính đơn giản của nó, tuy nhiên vẫn có một phần thử nghiệm mà chúng ta có thể xem qua.

Các tác giả đã thử nghiệm bốn truy vấn liên quan đến việc cải thiện chất lượng thời gian trong khi vẫn duy trì độ trung thực về mặt không gian; khả năng học chuyển động/động lực dòng quang học; duy trì chất lượng thời gian trong quá trình tạo ra các thuật ngữ phụ; và độ nhạy với các siêu tham số chính.

Các nhà nghiên cứu đã áp dụng FluxFlow cho ba kiến ​​trúc tạo sinh: dựa trên U-Net, dưới dạng VideoCrafter2; DiT-dựa trên, dưới dạng CogVideoX-2B; và AR-dựa trên, dưới dạng NOVA-0.6B.

Để so sánh công bằng, họ đã tinh chỉnh các mô hình cơ sở của kiến ​​trúc với FluxFlow như một giai đoạn đào tạo bổ sung, ví dụ như kỷ nguyên, Trên MởVidHD-0.4M tập dữ liệu.

Các mô hình được đánh giá dựa trên hai tiêu chuẩn phổ biến: UCF-101; Và VBench.

Đối với UCF, Khoảng cách video Fréchet (FVD) và Điểm khởi đầu Các số liệu (IS) đã được sử dụng. Đối với VBench, các nhà nghiên cứu tập trung vào chất lượng thời gian, chất lượng từng khung và chất lượng tổng thể.

Đánh giá ban đầu về mặt định lượng của FluxFlow-Frame.

Đánh giá ban đầu định lượng của FluxFlow-Frame. “+ Original” biểu thị quá trình đào tạo không có FLUXFLOW, trong khi “+ Num × 1” biểu thị các cấu hình FluxFlow-Frame khác nhau. Kết quả tốt nhất được tô bóng; kết quả tốt thứ hai được gạch chân cho từng mô hình.

Bình luận về những kết quả này, các tác giả tuyên bố:

'Cả FLUXFLOW-FRAME và FLUXFLOW-BLOCK đều cải thiện đáng kể chất lượng thời gian, bằng chứng là các số liệu trong Tab 1, 2 (tức là FVD, Chủ thể, Nhấp nháy, Chuyển động và Động) và kết quả định tính trong [hình ảnh bên dưới].

'Ví dụ, chuyển động của chiếc xe trôi dạt trong VC2, con mèo đuổi theo đuôi của nó trong NOVA và người lướt sóng cưỡi sóng trong CVX trở nên mượt mà hơn đáng kể với FLUXFLOW. Quan trọng là những cải tiến về mặt thời gian này đạt được mà không làm mất đi độ trung thực về không gian, bằng chứng là các chi tiết sắc nét của nước bắn tung tóe, vệt khói và kết cấu sóng, cùng với các số liệu về độ trung thực tổng thể và không gian.'

Dưới đây là một số kết quả định tính mà tác giả tham khảo (vui lòng xem bài báo gốc để biết kết quả đầy đủ và độ phân giải tốt hơn):

Lựa chọn từ kết quả định tính.

Lựa chọn từ kết quả định tính.

Bài báo cho rằng trong khi cả nhiễu loạn cấp khung và cấp khối đều cải thiện chất lượng thời gian, thì các phương pháp cấp khung có xu hướng hoạt động tốt hơn. Điều này là do độ chi tiết của chúng tốt hơn, cho phép điều chỉnh thời gian chính xác hơn. Ngược lại, nhiễu loạn cấp khối có thể gây ra nhiễu do các mẫu không gian và thời gian được kết hợp chặt chẽ trong các khối, làm giảm hiệu quả của chúng.

Kết luận

Bài báo này, cùng với Bytedance-Tsinghua cộng tác chú thích được công bố trong tuần này đã giúp tôi hiểu rõ rằng những thiếu sót rõ ràng trong thế hệ mô hình video tạo hình mới có thể không phải do lỗi của người dùng, sai lầm của tổ chức hoặc hạn chế về tài trợ, mà là do trọng tâm nghiên cứu đã ưu tiên những thách thức cấp bách hơn, chẳng hạn như tính nhất quán và tính nhất quán về mặt thời gian, hơn là những mối quan tâm ít quan trọng hơn này.

Cho đến gần đây, kết quả từ các hệ thống video tạo ra có thể tải xuống và miễn phí vẫn còn nhiều hạn chế đến mức không có nỗ lực lớn nào từ cộng đồng những người đam mê để giải quyết các vấn đề (một phần là do các vấn đề này mang tính cơ bản và không thể giải quyết một cách dễ dàng).

Giờ đây, khi chúng ta đã tiến rất gần đến thời đại được dự đoán từ lâu về đầu ra video chân thực hoàn toàn do AI tạo ra, rõ ràng là cả cộng đồng nghiên cứu và cộng đồng bình thường đều đang quan tâm sâu sắc và hiệu quả hơn đến việc giải quyết các vấn đề còn tồn tại; nếu may mắn, đây không phải là những trở ngại khó giải quyết.

 

* Tốc độ khung hình gốc của Wan chỉ là 16fps, và để giải quyết các vấn đề của riêng tôi, tôi lưu ý rằng các diễn đàn đã đề xuất giảm tốc độ khung hình xuống mức thấp nhất là 12fps, sau đó sử dụng Khung lưu lượng hoặc các hệ thống tái tạo dựa trên AI khác để nội suy các khoảng cách giữa số lượng khung hình thưa thớt như vậy.

Lần đầu tiên xuất bản Thứ sáu, ngày 21 tháng 2025 năm XNUMX

Người viết về máy học, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Cựu giám đốc nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên Hệ: [email được bảo vệ]
Twitter: @manders_ai