Góc nhìn Anderson

Trí tuệ nhân tạo hoàn hảo hóa ảnh tự chụp của mèo

mm
A still from a demo video for the paper 'Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models', depicting a POV of a 'cat selfie', while a dog skateboards in the background. Source: https://vita-epfl.github.io/FVG/

Trí tuệ nhân tạo video thường đưa ra kết quả gần giống nhưng không chính xác hoàn toàn về những gì người dùng muốn. Nhưng một giải pháp mới giúp cải thiện đáng kể.

 

Hệ thống video tạo sinh thường gặp khó khăn trong việc tạo ra video thực sự sáng tạo hoặc kỳ lạ và thường không đáp ứng được kỳ vọng của người dùng về văn bản.

Một phần nguyên nhân là do sự giao kết – thực tế là các mô hình tầm nhìn/ngôn ngữ phải thỏa hiệp về thời gian đào tạo trên dữ liệu nguồn. Đào tạo quá ít, và các khái niệm sẽ linh hoạt nhưng không đầy đủ – đào tạo quá nhiều, và các khái niệm sẽ chính xác nhưng không còn linh hoạt enough để kết hợp vào các tổ hợp mới.

Bạn có thể hình dung từ video được nhúng dưới đây. Ở bên trái là loại thỏa hiệp trung gian mà nhiều hệ thống AI đưa ra để đáp ứng một yêu cầu khó khăn (yêu cầu ở đầu video trong tất cả bốn ví dụ) yêu cầu sự kết hợp của các yếu tố không thể xảy ra trong thực tế. Ở bên phải, là đầu ra AI tuân thủ yêu cầu tốt hơn:

Click để phát (không có âm thanh). Ở bên phải, chúng ta thấy ‘factorized’ WAN 2.2 thực sự thực hiện theo yêu cầu, so với cách giải thích mơ hồ của ‘vanilla’ Wan 2.2., ở bên trái. Vui lòng tham khảo các tệp video nguồn để có độ phân giải tốt hơn và nhiều ví dụ hơn, mặc dù các phiên bản được biên tập ở đây không tồn tại trên trang web dự án và được biên tập cho bài viết này. Nguồn

Tuy nhiên, mặc dù chúng ta phải tha thứ cho bàn tay con người của vịt clapping (!), rõ ràng là các ví dụ ở bên phải tuân thủ yêu cầu ban đầu tốt hơn so với các ví dụ ở bên trái.

Đáng chú ý, cả hai kiến trúc được giới thiệu đều cơ bản là giống nhau – kiến trúc Wan 2.2 phổ biến và rất có khả năng, Wan 2.2, một phiên bản Trung Quốc đã đạt được tiến bộ đáng kể trong cộng đồng mã nguồn mở và sở thích này năm.

Sự khác biệt là đường ống tạo sinh thứ hai được factorized, trong trường hợp này có nghĩa là một mô hình ngôn ngữ lớn (LLM) đã được sử dụng để giải thích lại khung hình đầu tiên của video, để nó sẽ dễ dàng hơn cho hệ thống thực hiện theo yêu cầu của người dùng.

Quá trình này liên quan đến việc tiêm một hình ảnh được tạo từ yêu cầu LLM được cải tiến vào đường ống tạo sinh như một ‘khung hình bắt đầu’, và sử dụng mô hình LoRA để giúp tích hợp ‘khung hình xâm nhập’ vào quá trình tạo video:

Kết quả, về mặt trung thực của yêu cầu, khá đáng chú ý, đặc biệt là đối với một giải pháp dường như khá đơn giản:

Click để phát (không có âm thanh). Các ví dụ khác về ‘factorized’ video thực sự tuân thủ kịch bản. Vui lòng tham khảo các tệp video nguồn để có độ phân giải tốt hơn và nhiều ví dụ hơn, mặc dù các phiên bản được biên tập ở đây không tồn tại trên trang web dự án và được biên tập cho bài viết này.

Giải pháp này đến từ bài báo mới Sự tạo sinh video được factorized: Ngắt kết nối xây dựng cảnh và tổng hợp thời gian trong các mô hình khuếch tán văn bản-sang-video, và trang web dự án đi kèm đầy video.

Mặc dù nhiều hệ thống hiện tại cố gắng tăng độ chính xác của yêu cầu bằng cách sử dụng mô hình ngôn ngữ để viết lại yêu cầu mơ hồ hoặc không đầy đủ, công việc mới cho rằng chiến lược này vẫn dẫn đến thất bại khi đại diện cảnh nội bộ của mô hình bị lỗi.

Ngay cả với yêu cầu được viết lại chi tiết, các mô hình văn bản-sang-video thường xuyên tạo ra các yếu tố chính hoặc tạo ra các trạng thái ban đầu không tương thích mà phá vỡ logic của hoạt hình.只要 khung hình đầu tiên không phản ánh yêu cầu, video kết quả không thể phục hồi, bất kể mô hình chuyển động tốt như thế nào.

Bài báo cho biết*:

‘[Mô hình] văn bản-sang-video thường tạo ra các khung hình bị dịch chuyển về phân phối nhưng vẫn đạt được [điểm đánh giá] tương đương với mô hình I2V, cho thấy rằng mô hình chuyển động của chúng vẫn còn tự nhiên ngay cả khi độ trung thực của cảnh tương đối kém.

‘[Mô hình] hình ảnh-sang-video thể hiện hành vi bổ sung, điểm đánh giá mạnh từ các cảnh ban đầu chính xác và sự nhất quán thời gian yếu hơn, trong khi I2V+text cân bằng cả hai khía cạnh.

‘Sự tương phản này cho thấy một sự không phù hợp cấu trúc trong các mô hình T2V hiện tại: sự gắn kết cảnh và tổng hợp thời gian có lợi từ các thiên vị cảm ứng khác nhau, nhưng các kiến trúc hiện có cố gắng học cả hai đồng thời trong một mô hình duy nhất.’

Một so sánh chẩn đoán về các chế độ tạo sinh cho thấy rằng các mô hình không có neo cảnh rõ ràng đạt điểm cao về chuyển động, nhưng thường thỏa hiệp về bố cục cảnh, trong khi các phương pháp có điều kiện hình ảnh cho thấy mô hình ngược lại:

So sánh các chế độ tạo sinh video trên hai tập dữ liệu, cho thấy I2V+text đạt được chất lượng khung hình tốt nhất (FID) và sự nhất quán thời gian (FVD), nhấn mạnh lợi ích của việc tách xây dựng cảnh khỏi chuyển động. Nguồn - https://arxiv.org/pdf/2512.16371

So sánh các chế độ tạo sinh video trên hai tập dữ liệu, cho thấy I2V+text đạt được chất lượng khung hình tốt nhất (FID) và sự nhất quán thời gian (FVD), nhấn mạnh lợi ích của việc tách xây dựng cảnh khỏi chuyển động. Nguồn

Các phát hiện này cho thấy một khiếm khuyết cấu trúc mà các mô hình hiện tại cố gắng học cả bố cục cảnh và hoạt hình trong một lần, mặc dù hai nhiệm vụ này yêu cầu các thiên vị cảm ứng khác nhau và được xử lý riêng biệt.

Có lẽ điều thú vị nhất là ‘mánh lới’ này có thể được áp dụng cho các cài đặt cục bộ của các mô hình như Wan 2.1 và 2.2, và các mô hình khuếch tán video tương tự như Hunyuan Video. Theo kinh nghiệm, việc so sánh chất lượng đầu ra của người dùng sở thích với các cổng tạo sinh thương mại như Kling và Runway, hầu hết các nhà cung cấp API lớn đang cải thiện các dịch vụ mã nguồn mở như WAN với LoRAs, và – có vẻ như – với các ‘mánh lới’ như trong bài báo mới. Do đó, cách tiếp cận này có thể đại diện cho một sự bắt kịp cho phe FOSS.

Thử nghiệm được thực hiện cho phương pháp cho thấy rằng cách tiếp cận đơn giản và mô-đun này cung cấp một trạng thái mới của nghệ thuật trên bảng đánh giá T2V-CompBench, cải thiện đáng kể tất cả các mô hình được thử nghiệm. Các tác giả lưu ý trong kết luận rằng mặc dù hệ thống của họ cải thiện đáng kể độ trung thực, nhưng nó không giải quyết (hay không được thiết kế để giải quyết) sự trôi dạt danh tính, hiện là nỗi ám ảnh của nghiên cứu trí tuệ nhân tạo tạo sinh.

Bài báo mới đến từ bốn nhà nghiên cứu tại Ecole Polytechnique Fédérale de Lausanne (EPFL) ở Thụy Sĩ.

Phương pháp và Dữ liệu

Giả thuyết trung tâm của kỹ thuật mới là các mô hình khuếch tán văn bản-sang-video (T2V) cần được ‘neo’ vào các khung hình bắt đầu phù hợp với yêu cầu văn bản.

Để đảm bảo mô hình tôn trọng khung hình bắt đầu, phương pháp mới phá vỡ quá trình khuếch tán tiêu chuẩn bằng cách tiêm một latent sạch từ hình ảnh neo vào bước thời gian zero, thay thế một trong các đầu vào nhiễu thông thường. Đầu vào không quen thuộc này làm cho mô hình bị nhầm lẫn lúc đầu, nhưng với finetuning LoRA tối thiểu, nó học cách đối xử với khung hình được tiêm như một neo hình ảnh cố định chứ không phải là một phần của đường nhiễu:

Phương pháp hai giai đoạn để gắn kết tạo sinh video với một neo hình ảnh: Trái, mô hình được tinh chỉnh sử dụng LoRA nhẹ để đối xử với latent sạch được tiêm như một ràng buộc cảnh cố định. Phải, yêu cầu được chia thành một chú thích khung hình đầu tiên, được sử dụng để tạo ra hình ảnh neo hướng dẫn video.

Phương pháp hai giai đoạn để gắn kết tạo sinh video với một neo hình ảnh: Trái, mô hình được tinh chỉnh sử dụng LoRA nhẹ để đối xử với latent sạch được tiêm như một ràng buộc cảnh cố định. Phải, yêu cầu được chia thành một chú thích khung hình đầu tiên, được sử dụng để tạo ra hình ảnh neo hướng dẫn video.

Vào thời điểm suy luận, phương pháp viết lại yêu cầu để mô tả chỉ khung hình đầu tiên, sử dụng một LLM để trích xuất một trạng thái cảnh ban đầu hợp lý tập trung vào bố cục và ngoại hình.

Yêu cầu được viết lại này được truyền đến một máy tạo hình ảnh để tạo ra một khung hình neo ứng viên (có thể được tinh chỉnh bởi người dùng). Khung hình được chọn được mã hóa thành một latent và tiêm vào quá trình khuếch tán bằng cách thay thế bước thời gian đầu tiên, cho phép mô hình tạo ra phần còn lại của video trong khi vẫn neo vào cảnh ban đầu – một quá trình hoạt động mà không cần thay đổi kiến trúc cơ bản.

Quá trình này được thử nghiệm bằng cách tạo ra LoRAs cho Wan2.2-14B, Wan2.1-1B, và CogVideo1.5-5B. Việc đào tạo LoRA được thực hiện tại hạng 256, trên 5000 đoạn clip được lấy mẫu ngẫu nhiên từ bộ sưu tập UltraVideo.

Đào tạo kéo dài 6000 bước, và yêu cầu 48 giờ GPU cho Wan-1B và CogVideo-5B, và 96 giờ GPU cho Wan-14B. Các tác giả lưu ý rằng Wan-5B hỗ trợ bản địa cho điều kiện văn bản và hình ảnh (điều này đang được áp dụng cho các khung sườn cũ hơn), và do đó không yêu cầu bất kỳ tinh chỉnh nào.

Thử nghiệm

Trong các thử nghiệm được thực hiện cho quá trình, mỗi yêu cầu văn bản ban đầu được tinh chỉnh sử dụng Qwen2.5-7B-Instruct, được sử dụng để tạo ra một chú thích hình ảnh ‘hạt giống’ chi tiết chứa mô tả toàn bộ cảnh. Điều này sau đó được truyền đến QwenImage, được giao nhiệm vụ tạo ra ‘khung hình ma thuật’ để được đặt vào quá trình khuếch tán:

Các điểm chuẩn được sử dụng để đánh giá hệ thống bao gồm T2V-CompBench, để kiểm tra sự hiểu biết về thành phần bằng cách đánh giá cách tốt các mô hình bảo tồn các đối tượng, thuộc tính và hành động trong một cảnh nhất quán; và VBench 2.0, để đánh giá lý luận và sự nhất quán rộng hơn trên 18 chỉ số, được nhóm thành sáng tạo, lý luận thông thường, khả năng kiểm soát, trung thực con người, và vật lý:

Trên tất cả các danh mục đánh giá của T2V-CompBench, phương pháp T2V được factorized vượt trội so với cả baseline T2V tiêu chuẩn và baseline T2V được lấy mẫu lên cho mọi mô hình được thử nghiệm, với lợi ích đạt tới 53,25%. Các biến thể có điểm cao nhất thường khớp hoặc vượt quá điểm chuẩn PixVerse-V3 độc quyền.

Trên tất cả các danh mục đánh giá của T2V-CompBench, phương pháp T2V được factorized vượt trội so với cả baseline T2V tiêu chuẩn và baseline T2V được lấy mẫu lên cho mọi mô hình được thử nghiệm, với lợi ích đạt tới 53,25%. Các biến thể có điểm cao nhất thường khớp hoặc vượt quá điểm chuẩn PixVerse-V3 độc quyền.

Về vòng thử nghiệm ban đầu này, các tác giả cho biết*:

‘[Trên] tất cả các mô hình, việc thêm một hình ảnh neo nhất quán cải thiện hiệu suất thành phần. Tất cả các mô hình Factorized nhỏ hơn (CogVideo 5B, Wan 5B và Wan 1B) vượt trội so với mô hình T2V Wan 14B lớn hơn.

Phương pháp Factorized Wan 5B của chúng tôi cũng vượt trội so với baseline PixVerse-V3 thương mại, baseline được báo cáo tốt nhất trên bảng đánh giá. This chứng tỏ rằng sự gắn kết hình ảnh thực sự cải thiện sự hiểu biết về cảnh và hành động, thậm chí trong các mô hình có dung lượng nhỏ hơn.

‘Trong mỗi gia đình mô hình, phiên bản được factorized vượt trội so với mô hình ban đầu. Đáng chú ý, phiên bản LoRA neo nhẹ của chúng tôi trên WAN 14B đạt được hiệu suất tương đương với biến thể I2V 14B được đào tạo trước (0,661 so với 0,666), mặc dù không yêu cầu đào tạo lại toàn bộ.’

Tiếp theo là vòng VBench2.0:

Phương pháp T2V được factorized nhất quán cải thiện hiệu suất VBench 2.0 trên thành phần, lý luận thông thường, khả năng kiểm soát và vật lý, với một số lợi ích vượt quá 60% - mặc dù trung thực con người vẫn còn thấp hơn baseline Veo 3 độc quyền.

Phương pháp T2V được factorized nhất quán cải thiện hiệu suất VBench 2.0 trên thành phần, lý luận thông thường, khả năng kiểm soát và vật lý, với một số lợi ích vượt quá 60% – mặc dù trung thực con người vẫn còn thấp hơn baseline Veo 3 độc quyền.

Trên tất cả các kiến trúc, phương pháp được factorized tăng điểm trên mọi danh mục VBench, ngoại trừ trung thực con người, đã giảm nhẹ ngay cả với việc lấy mẫu yêu cầu lên. WAN 5B vượt trội so với WAN 14B lớn hơn, củng cố kết quả T2V-CompBench trước đó cho thấy sự gắn kết hình ảnh đóng góp nhiều hơn vào khả năng mở rộng.

Mặc dù lợi ích trên VBench nhất quán, chúng nhỏ hơn so với những lợi ích trên T2V-CompBench, và các tác giả cho rằng điều này là do chế độ đánh giá nhị phân nghiêm ngặt của VBench.

Đối với các thử nghiệm định tính, bài báo cung cấp hình ảnh tĩnh, nhưng chúng tôi đề nghị người đọc tham khảo các video tổng hợp được nhúng trong bài viết này, để có một ý tưởng rõ ràng hơn, với lưu ý rằng các video nguồn có nhiều hơn và đa dạng hơn, cũng như có độ phân giải và chi tiết cao hơn. Tìm chúng tại đây. Về kết quả định tính, bài báo cho biết:

‘Các video được neo nhất quán thể hiện thành phần cảnh chính xác hơn, gắn kết đối tượng-Thuộc tính mạnh hơn và tiến trình thời gian rõ ràng hơn.’

Phương pháp được factorized vẫn ổn định ngay cả khi số bước khuếch tán được cắt từ 50 xuống 15, cho thấy gần như không có tổn thất hiệu suất trên T2V-CompBench. Ngược lại, cả baseline văn bản và baseline được lấy mẫu lên đều suy giảm rõ rệt trong cùng điều kiện.

Mặc dù việc giảm bước có thể giúp tăng tốc gấp ba lần về mặt lý thuyết, nhưng toàn bộ đường ống tạo sinh chỉ trở nên nhanh hơn 2,1 lần trong thực tế, do các chi phí cố định từ việc tạo hình ảnh neo. Tuy nhiên, kết quả cho thấy rằng việc neo không chỉ cải thiện chất lượng mẫu mà còn giúp ổn định quá trình khuếch tán, hỗ trợ tạo sinh nhanh hơn và hiệu quả hơn mà không mất độ chính xác.

Trang web dự án cung cấp các ví dụ về việc tạo sinh được lấy mẫu lên so với phương pháp mới:

Click để phát (không có âm thanh). Nguồn lấy mẫu ban đầu so với phương pháp được factorized.

Các tác giả kết luận:

‘Kết quả của chúng tôi cho thấy rằng sự gắn kết cải thiện, chứ không chỉ tăng khả năng, có thể quan trọng như nhau. Các tiến bộ gần đây trong khuếch tán T2V đã phụ thuộc rất nhiều vào việc tăng kích thước mô hình và dữ liệu đào tạo, nhưng ngay cả các mô hình lớn cũng thường gặp khó khăn trong việc suy luận một cảnh ban đầu nhất quán từ văn bản alone.

‘Điều này trái ngược với khuếch tán hình ảnh, nơi việc mở rộng quy mô tương đối đơn giản; trong các mô hình video, mỗi cải tiến kiến trúc phải hoạt động trên một chiều thời gian bổ sung, khiến việc mở rộng quy mô trở nên tốn kém hơn nhiều về tài nguyên.

‘Các phát hiện của chúng tôi cho thấy rằng sự gắn kết cải thiện có thể bổ sung cho khả năng bằng cách giải quyết một nút thắt khác: thiết lập cảnh đúng trước khi tổng hợp thời gian bắt đầu.

‘Bằng cách phân chia tạo sinh video thành thành phần cảnh và mô hình thời gian, chúng tôi giảm thiểu một số chế độ thất bại phổ biến mà không cần các mô hình lớn hơn đáng kể. Chúng tôi xem đây là một nguyên tắc thiết kế bổ sung có thể hướng dẫn các kiến trúc tương lai toward tổng hợp video đáng tin cậy và có cấu trúc hơn.’

Kết luận

Mặc dù các vấn đề về sự giao kết rất thực tế và có thể yêu cầu các giải pháp chuyên dụng (như cải thiện việc kiểm tra và phân phối trước khi đào tạo), đã là một điều thú vị khi xem sự phân chia ‘giải phóng’ một số sự sắp xếp yêu cầu khái niệm ‘dính’ và ‘bất động’ thành các bản kết xuất chính xác hơn – với chỉ một lớp điều kiện LoRA vừa phải và sự can thiệp của một hình ảnh neo/begin đầu được cải thiện đáng kể.

Chênh lệch về tài nguyên giữa suy luận sở thích cục bộ và các giải pháp thương mại có thể không quá lớn như tưởng tượng, vì hầu hết các nhà cung cấp đều đang cố gắng hợp lý hóa chi phí tài nguyên GPU đáng kể của họ cho người tiêu dùng.

Theo kinh nghiệm, một số lượng lớn các nhà cung cấp video tạo sinh hiện tại dường như đang sử dụng các phiên bản được thương mại hóa và ‘nâng cấp’ của các mô hình mã nguồn mở Trung Quốc. ‘Hào môn’ chính mà các hệ thống ‘trung gian’ này dường như có là họ đã mất công đào tạo LoRAs, hoặc – với chi phí cao hơn và phần thưởng稍 cao hơn – thực sự tiến hành tinh chỉnh toàn bộ trọng số mô hình††.

Các hiểu biết như vậy có thể giúp thu hẹp khoảng cách này hơn nữa, trong bối cảnh một cảnh phát hành nơi người Trung Quốc dường như quyết tâm (không nhất thiết vì lý do vị tha hoặc lý tưởng) để dân chủ hóa AI tạo sinh, trong khi các lợi ích kinh doanh phương Tây có thể thích rằng việc tăng kích thước mô hình và quy định cuối cùng sẽ khiến các mô hình tốt thực sự bị ‘nhốt’ sau các API và nhiều lớp bộ lọc nội dung.

 

* Lưu ý của tác giả, không phải của tôi.

Bài báo không chỉ định GPU nào được chọn, hoặc bao nhiêu được sử dụng.

†† Mặc dù con đường LoRA có khả năng xảy ra hơn, cả về sự tiện lợi kinh tế và vì trọng số đầy đủ, chứ không phải là trọng số lượng hóa, không phải lúc nào cũng được cung cấp.

Được xuất bản lần đầu vào thứ Sáu, ngày 19 tháng 12 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]