Góc nhìn Anderson

Không Thể Thấy, Không Thể Nhớ: Xử Lý Vấn Đề Lớn Nhất Trong Video AI

mm
Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

Vấn đề lớn nhất với các hệ thống tạo video AI tốt nhất và hiện đại nhất là chúng đều có bệnh mất trí nhớ mãn tính: nếu máy quay quay đi từ đối tượng đang tập trung vào và sau đó quay lại, nó sẽ không bao giờ tìm thấy đối tượng đó tại điểm bắt đầu – các nhân vật sẽ biến mất, thay đổi hình dạng và/hoặc loại chuyển động, và nền cũng có thể đã thay đổi.

 

Vấn đề này là do hệ thống tạo video dựa trên sự khuếch tán có một cửa sổ chú ý lăn hạn chế, và vì nó luôn xử lý những gì nó có thể thấy trong khoảnh khắc đó; trong một sự thể hiện thực sự của chủ nghĩa vị kỷ, những gì ngoài khung hình là không tồn tại đối với trí tuệ tạo ra – nó trở thành буквально bị xóa khỏi bộ nhớ.

Điều này đã không bao giờ là vấn đề trong CGI truyền thống, có thể luôn tham khảo và tái tạo chính xác đối tượng, bao gồm cả hình dạng và chuyển động, tại bất kỳ điểm nào trong video được tạo ra nơi chúng có thể được cần lại:

Các lưới và kết cấu bitmap CGI truyền thống có thể luôn được vẽ lại vào một khung hình, cung cấp hình dạng nhất quán – một thủ thuật khó đạt được trong các phương pháp AI, vì không có tệp 'tham chiếu phẳng' tương đương.

Các lưới và kết cấu bitmap CGI truyền thống có thể luôn được vẽ lại vào một khung hình, cung cấp hình dạng nhất quán – một thủ thuật khó đạt được trong các phương pháp AI, vì không có tệp ‘tham chiếu phẳng’ tương đương.

Điều này là do các yếu tố thành phần của CGI, chẳng hạn như lưới và kết cấu (xem hình trên), cũng như các tệp chuyển động và các hành vi động khác, có thể tồn tại riêng biệt trên đĩa và được vẽ vào một thành phần bất kỳ lúc nào.

Không có ‘kho lưu trữ phẳng’ như vậy trong video trí tuệ tạo ra; điều gần nhất nó có thể đạt được là LoRAs – các tệp phụ trợ được đào tạo đặc biệt có thể được đào tạo trên thiết bị tiêu dùng, cho phép các nhân vật và trang phục cụ thể được ‘buộc’ vào video:

Click để phát. Vấn đề vị kỷ của video AI có thể được giảm thiểu đến một mức độ nhất định bằng cách sử dụng LoRAs – nhưng kết quả có thể quá tải.

Đây không phải là một giải pháp lý tưởng, tuy nhiên. Một mặt, LoRAs bị gắn với một phiên bản cụ thể của mô hình cơ sở (chẳng hạn như Wan2+ hoặc Hunyuan Video), và cần phải tạo lại mỗi khi mô hình cơ sở thay đổi. Mặt khác, LoRAs có xu hướng làm méo mó trọng số của mô hình cơ sở, để mà trọng số của LoRA được đào tạo được áp đặt lên tất cả các nhân vật trong một cảnh. Ngoài ra, các phương pháp tinh chỉnh loại này rất nhạy cảm với các tập dữ liệu được chăm sóc kém.

Nhớ Đúng

Bây giờ, một sự hợp tác học thuật/công nghiệp mới từ Trung Quốc đang cung cấp phương pháp chữa trị đầu tiên có ý nghĩa mà tôi đã biết trong hơn ba năm báo cáo về vấn đề này. Phương pháp này sử dụng bộ nhớ hỗn hợp để giữ cho nhân vật ngoài khung hình và môi trường trực tiếp của nó hoạt động và chính xác trong không gian tiềm ẩn của mô hình, để khi quan điểm của chúng ta quay lại, hiệu ứng là nhất quán:

Click để phát. Từ trang web dự án cho bài báo mới, hai ví dụ về nhân vật AI được tạo (WAN) rời khỏi khung hình và quay lại chính xác. Nguồn 

Nó nên được nhấn mạnh rằng đây không phải là điều tương tự như đạt được độ nhất quán của nhân vật trên các shot khác nhau – điều mà đã được tuyên bố là đã đạt được một năm trước trong phiên bản Gen 4 của Runway, và vẫn còn một sự theo đuổi trong văn học nghiên cứu.

Thay vào đó, điều được giải quyết ở đây là điều mà không có khuôn khổ thương mại hoặc thử nghiệm nào mà tôi đã thấy có thể đạt được – sự tái xuất hiện nhất quán về mặt hình ảnh của một nhân vật ngoài khung hình trước đó, với hình dạng, chuyển động và môi trường:

Click để phát. Hai ví dụ chính khác được đưa ra tại trang web dự án mới.

Đương nhiên, các nguyên tắc hoạt động ở đây có thể được áp dụng tương tự cho các lĩnh vực khác, chẳng hạn như khám phá đô thị, lái xe POV hoặc các loại kết xuất không phải nhân vật khác.

Nó cũng nên được nhấn mạnh rằng phương pháp mới này không giải quyết hoặc giải quyết vấn đề mà Runway Gen4 và các nền tảng đóng khác tuyên bố đã giải quyết, bằng cách tái tạo nhân vật trên các shot khác nhau; thay vào đó, nó làm những gì mà không ai trong số họ đã thành công – duy trì một nhân vật và môi trường trong bộ nhớ, không cần phải chúng luôn được nhìn thấy bởi người xem.

Công việc mới này bao gồm một tập dữ liệu chuyên dụng được tạo ra thông qua Unreal Engine, cũng như các chỉ số tùy chỉnh cho vấn đề vị kỷ*, và một khuôn khổ tạo ra tùy chỉnh được xây dựng trên WAN. Trong các thử nghiệm chống lại các hệ thống tương tự có sẵn, các tác giả tuyên bố đạt được kết quả tốt nhất trong lĩnh vực, và họ nhận xét:

‘[Bộ nhớ] cơ chế đã xuất hiện như một biên giới quan trọng trong việc phát triển các mô hình thế giới, vì khả năng bộ nhớ quyết định sự nhất quán không gian và thời gian của nội dung được tạo ra.

‘Cụ thể, nó là neo nhận thức cho phép mô hình giữ lại bối cảnh lịch sử trong khi quan điểm thay đổi hoặc khi ngoại suy dài hạn.

‘Không có bộ nhớ mạnh mẽ, một thế giới mô phỏng nhanh chóng tan rã thành các khung hình không kết nối, hỗn loạn.’

Bài báo mới mới có tiêu đề Không Thể Thấy, Không Thể Quên: Bộ Nhớ Hỗn Hợp Cho Các Mô Hình Thế Giới Video Động, và đến từ bảy nhà nghiên cứu trên khắp Đại học Khoa học và Công nghệ Huazhong và Đội Kling tại Công nghệ Kuaishou.

Phương Pháp

Cốt lõi của công việc mới này là bộ nhớ hỗn hợp, giúp cho ‘tái tạo ngoài tầm nhìn’ – việc giữ lại các nhân vật và ngữ cảnh của chúng trong khi người xem ‘nhìn đi’ (hoặc trong khi nhân vật đó rời khỏi tầm nhìn). Trong kịch bản này, khuôn khổ được yêu cầu thực hiện phân tách không gian-thời gian, trong đó nó tập trung đồng thời vào việc tạo ra có thể nhìn thấy và sự tồn tại ngoài tầm nhìn của nhân vật hiện không nhìn thấy.

Ví dụ về chuyển động máy quay vào/ra. Trong những trường hợp này, chính chuyển động của máy quay gây ra nhân vật rời khỏi khung hình, nhưng trong các mẫu đa dạng, chúng ta cũng có thể quan sát thấy nhân vật tự đẩy mình tạm thời ra khỏi màn hình. Nguồn - https://arxiv.org/pdf/2603.25716

Ví dụ về chuyển động máy quay vào/ra. Trong những trường hợp này, chính chuyển động của máy quay gây ra nhân vật rời khỏi khung hình, nhưng trong các mẫu đa dạng, chúng ta cũng có thể quan sát thấy nhân vật tự đẩy mình tạm thời ra khỏi màn hình. Nguồn

Các tác giả lưu ý rằng trong các bản nhúng tiềm ẩn dựa trên sự khuếch tán, các tính năng cần được trích xuất và sử dụng bị rối loạn nặng nề với các tính năng và thuộc tính khác; và việc cố gắng trích xuất chúng thường gây ra đối tượng ‘đóng băng’ vào nền. Do đó, họ đã tạo ra và chăm sóc HM-World dataset**, nhằm mục đích đào tạo bộ nhớ hỗn hợp:

Từ bài báo, mẫu từ bốn loại trong tập dữ liệu HM-World.

Từ bài báo, mẫu từ bốn loại trong tập dữ liệu HM-World.

Tập hợp này được xây dựng dọc theo bốn chiều: lộ trình đối tượng, lộ trình máy quay, cảnh, và đối tượng.

Dữ liệu tổng hợp trong HM-World bao gồm 17 cảnh và 49 đối tượng, bao gồm cả người với ngoại hình đa dạng, cũng như động vật của nhiều loài. Các tổ hợp của những thứ này được đặt thủ công vào một cảnh thông qua Unreal Engine, mỗi cảnh có một hoạt hình chuyển động độc đáo, và sau đó được đặt trên một lộ trình được chọn ngẫu nhiên.

Các tác giả tuyên bố rằng một tập hợp đa dạng của các sự kiện ra/vào được mô tả trong tập dữ liệu, với 28 lộ trình máy quay khác nhau được bao gồm, mỗi lộ trình có nhiều điểm xuất phát.

Tập hợp cuối cùng bao gồm 59.225 đoạn video, mỗi đoạn được chú thích bởi MiniCPM-V Mô hình Ngôn ngữ Lớn Đa phương tiện (MLLM).

Các nhà nghiên cứu chỉ ra rằng lợi thế thống kê của tập hợp của họ so với các tập dữ liệu trước đó WorldScore; Context-As-Memory; Multi-Cam Video; và 360° Motion:

So sánh giữa các tập dữ liệu hiện có và tập dữ liệu HM-World, nơi 'Đối tượng Động' chỉ sự hiện diện của các thực thể di chuyển, 'Ra/Vào của Đối tượng' chỉ các đoạn video chứa các đối tượng rời khỏi và quay lại khung hình, và 'Tư thế của Đối tượng' đề cập đến việc bao gồm các tư thế 3D được chú thích.

So sánh giữa các tập dữ liệu hiện có và tập dữ liệu HM-World, nơi ‘Đối tượng Động’ chỉ sự hiện diện của các thực thể di chuyển, ‘Ra/Vào của Đối tượng’ chỉ các đoạn video chứa các đối tượng rời khỏi và quay lại khung hình, và ‘Tư thế của Đối tượng’ đề cập đến việc bao gồm các tư thế 3D được chú thích.

Con Đường Ít Đi

Cho một số khung hình trước và một lộ trình máy quay đã biết, nhiệm vụ là dự đoán các khung hình tương lai khi quan điểm của người xem thay đổi, đồng thời tính đến các đối tượng di chuyển độc lập và có thể rời khỏi khung hình trước khi quay lại. Điều này đòi hỏi hơn là duy trì một nền ổn định, vì mô hình cũng phải giữ lại một bản ghi nội bộ nhất quán về cách mỗi đối tượng di chuyển nhìn như thế nào và hành xử, ngay cả trong những khoảng thời gian nó không nhìn thấy.

Phương pháp Hybrid Dynamic Retrieval Attention (HyDRA) của các tác giả giải quyết vấn đề này bằng cách giới thiệu một con đường bộ nhớ chuyên dụng tách các đối tượng động ra khỏi biểu diễn cảnh tĩnh, cho phép chúng tồn tại theo thời gian và tái xuất hiện với hình dạng và chuyển động nhất quán:

Sơ đồ khái niệm cho mô hình HyDRA.

Sơ đồ khái niệm cho mô hình HyDRA.

HyDRA được xây dựng trên Wan2.1-T2V-1.3B, với đường ống khuếch tán lõi được giữ gần như nguyên vẹn, trong khi giới thiệu một khối transformer được sửa đổi kết hợp chú ý truy xuất động. Điều này cho phép mô hình chọn lọc gọi lại các gợi ý về chuyển động và hình dạng từ các khung hình trước, thay vì dựa vào ngữ cảnh cố định hoặc địa phương.

Quá trình này sử dụng một mục tiêu đào tạo Flow Matching được thích nghi thay thế cho tổn thất khuếch tán tiêu chuẩn.

Để giữ cho các cảnh được căn chỉnh với chuyển động máy quay, các lộ trình máy quay được tiêm như một tín hiệu điều kiện rõ ràng, với mỗi khung hình được định nghĩa bởi旋转 và dịch chuyển, và sau đó được chuyển đổi thành một biểu diễn紧凑 nắm bắt cách quan điểm tiến hóa theo thời gian.

Theo ReCamMaster trước đó của Kling, kết quả được phân tích bởi bộ mã hóa máy quay, được thực hiện như một Perceptron đa lớp, sau đó được phát và thêm vào các tính năng Diffusion Transformer, cho phép mô hình duy trì việc đặt đối tượng nhất quán khi máy quay di chuyển.

TOKEN Hóa

Các bản nhúng tiềm ẩn thô trộn chuyển động của đối tượng, hình dạng và nền vào một biểu diễn rối loạn duy nhất, và việc cố gắng truy xuất trực tiếp từ không gian này có nguy cơ giới thiệu ngữ cảnh không liên quan, hoặc gây ra các đối tượng di chuyển ‘trộn vào’ bối cảnh.

HyDRA giải quyết vấn đề này bằng cách sử dụng 3D-convolution dựa trên bộ mã hóa bộ nhớ, xử lý không gian và thời gian cùng nhau – thay vì chuyển tiếp toàn bộ lịch sử tiềm ẩn, nó nén chúng thành các token bộ nhớ紧凑, nhận thức chuyển động, bảo tồn cách các đối tượng nhìn và di chuyển:

Tổng quan về HyDRA. Trái, bộ mã hóa bộ nhớ chuyển đổi các khung hình trước vào các token bộ nhớ紧凑, nhận thức chuyển động; phải, chú ý truy xuất động đánh giá truy vấn hiện tại chống lại các token này, truy xuất các token liên quan nhất và sử dụng chúng để khôi phục hình dạng và chuyển động nhất quán trong khung hình được tạo ra.

Tổng quan về HyDRA. Trái, bộ mã hóa bộ nhớ chuyển đổi các khung hình trước vào các token bộ nhớ紧凑, nhận thức chuyển động; phải, chú ý truy xuất động đánh giá truy vấn hiện tại chống lại các token này, truy xuất các token liên quan nhất và sử dụng chúng để khôi phục hình dạng và chuyển động nhất quán trong khung hình được tạo ra.

Những token này tạo thành một bộ nhớ hỗn hợp có cấu trúc lọc nhiễu trong khi giữ lại các động lực học dài hạn. Được chuyển đến mô-đun chú ý truy xuất động, những token này cho phép mô hình gọi lại các đối tượng ngoài tầm nhìn một cách chọn lọc, để chúng tái xuất hiện với hình dạng, chuyển động và ngữ cảnh nhất quán.

Chú Ý Truy Xuất Động

Cơ chế bộ nhớ kép của HyDRA cũng sử dụng chú ý truy xuất động trong một vai trò riêng biệt nhưng bổ sung trong khuôn khổ.

Mã hóa bộ nhớ nén các biểu diễn tiềm ẩn trước vào các token cấu trúc, nhận thức chuyển động, tách các đối tượng động ra khỏi nội dung cảnh tĩnh, giảm thiểu sự rối loạn thường gây ra các đối tượng trộn vào nền. Những token này tạo thành một ngân hàng bộ nhớ bền bỉ thay vì một lịch sử khung hình đầy đủ.

Chú ý truy xuất động sau đó hoạt động trên ngân hàng này trong quá trình tạo ra, đánh giá truy vấn hiện tại chống lại các token được lưu trữ và chọn lọc gọi lại những token liên quan nhất. Điều này cho phép các đối tượng ngoài tầm nhìn tiếp tục sự tiến hóa tiềm ẩn của chúng (tức là, tiếp tục đi bộ, chạy, khi bạn không thể nhìn thấy chúng), và tái xuất hiện với hình dạng và chuyển động nhất quán khi chúng quay lại vào tầm nhìn, thay vì đặt lại hoặc suy giảm.

Dữ Liệu và Kiểm Tra

Trong các thử nghiệm, hệ thống HyDRA dựa trên Wan đã mã hóa và giảm mẫu 77 khung hình ngữ cảnh trước khi phân tích chúng bằng một 3D Variational Autoencoder (VAE), trong khi bộ mã hóa bộ nhớ đã sử dụng 3D convolution với kích thước hạt nhân 2x4x4.

Mô hình được đào tạo trên HW-World trong 10.000 lần lặp lại trên 32 (không xác định) GPU, với kích thước batch 32.

Một số lượng chỉ số không thường xuyên được sử dụng trong các thử nghiệm: ngoài tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR) thông thường, chỉ số tương đồng cấu trúc (SSIM) và chỉ số tương đồng nhận thức học (LPIPS), các tác giả cũng sử dụng độ nhất quán của đối tượngđộ nhất quán của nền từ bộ VBench để đánh giá sự nhất quán của khung hình.

Ngoài ra, họ đã tạo ra một chỉ số tùy chỉnh có tên Độ Nhất Quán của Đối Tượng Động (DSC), sử dụng các hộp giới hạn từ YOLO V11, để tạo ra các vùng được cắt từ các đối tượng di chuyển, từ đó các tính năng ngữ nghĩa được trích xuất và sự tương đồng của chúng được tính toán.

HyDRA được so sánh với Diffusion Forcing Transformer (DFoT) và Context-As-Memory, trên một mô hình cơ sở Wan2.1-T2V-1.3B được trang bị một bộ mã hóa máy quay (để đại diện cho quan điểm chủ quan chung của tất cả các đoạn video). Tất cả các mô hình đều được đào tạo trên HW-World, và WorldPlay cũng được sử dụng như một tập dữ liệu kiểm tra thứ cấp:

Trong các so sánh định lượng ban đầu, HyDRA đã vượt qua tất cả các mô hình cơ sở, tăng PSNR từ 18,696 lên 20,357 và SSIM từ 0,517 lên 0,606. Nó cũng đạt được điểm Dice cao nhất trong ngữ cảnh và điểm thực, 0,827 và 0,849, với độ nhất quán của đối tượng và nền đạt 0,926 và 0,932:

Kết quả của so sánh định lượng ban đầu chống lại các phương pháp trước đó.

Kết quả của so sánh định lượng ban đầu chống lại các phương pháp trước đó.

DFoT đạt được 17,693 PSNR và Context as Memory 18,921, với lợi ích được cho là do mã hóa bộ nhớ kết hợp với chú ý truy xuất động:

So sánh định lượng so sánh HyDRA với hiện trạng.

So sánh định lượng so sánh HyDRA với hiện trạng.

Về các thử nghiệm chống lại WorldPlay, các tác giả tuyên bố:

‘Phương pháp của chúng tôi vượt qua WorldPlay trên tất cả các chỉ số, với một khoảng cách PSNR đáng chú ý là 5,502. Mặc dù WorldPlay thể hiện hiệu suất thấp hơn trên các chỉ số tham chiếu GT (ví dụ: PSNR của 14,855, DSCGT của 0,832) do khoảng cách phân phối miền và thiếu tinh chỉnh cụ thể, nó vẫn thể hiện sự mạnh mẽ đáng chú ý trên các chỉ số tham chiếu ngữ cảnh bằng cách đạt được DSCctx của 0,822.

‘Quan sát này không chỉ xác nhận rằng các mô hình được đào tạo rộng rãi có sự nhất quán hỗn hợp công bằng mà còn gián tiếp xác thực tính hợp lý của các chỉ số DSC mà chúng tôi đề xuất trong việc phản ánh sự nhất quán của đối tượng động.

‘Cuối cùng, những kết quả ấn tượng này nhấn mạnh khả năng đặc biệt của mô hình của chúng tôi, chứng tỏ sự vượt trội của nó ngay cả đối với các mô hình thương mại đã được thiết lập.’

Bài báo cung cấp một đại diện tĩnh của các so sánh định lượng được thực hiện cho các thử nghiệm:

So sánh định lượng về việc ra và vào dưới chuyển động máy quay. Các tác giả khẳng định rằng HyDRA bảo tồn danh tính, tư thế và tính liên tục của chuyển động sau khi rời khỏi và quay lại khung hình, khớp gần với thực tế, trong khi các phương pháp cạnh tranh thể hiện sự trôi dạt, chuyển động không nhất quán hoặc suy giảm đối tượng, được đánh dấu màu đỏ (các phục hồi nhất quán được đánh dấu màu xanh lá cây).

So sánh định lượng về việc ra và vào dưới chuyển động máy quay. Các tác giả khẳng định rằng HyDRA bảo tồn danh tính, tư thế và tính liên tục của chuyển động sau khi rời khỏi và quay lại khung hình, khớp gần với thực tế, trong khi các phương pháp cạnh tranh thể hiện sự trôi dạt, chuyển động không nhất quán hoặc suy giảm đối tượng, được đánh dấu màu đỏ (các phục hồi nhất quán được đánh dấu màu xanh lá cây).

Về những kết quả này, các tác giả nhận xét:

‘Trong trường hợp của các sự kiện ra/vào phức tạp, mô hình cơ sở và Context-as-Memory thể hiện sự biến dạng đối tượng nghiêm trọng và không nhất quán trong chuyển động. DFoT không thể duy trì tính toàn vẹn của đối tượng, dẫn đến việc đối tượng hoàn toàn biến mất. Trong khi WorldPlay quản lý để bảo tồn sự nhất quán về hình dạng của đối tượng, nó phải chịu đựng các chuyển động giật cục và các hành động không tự nhiên.

‘Ngược lại, phương pháp của chúng tôi thành công trong việc duy trì sự nhất quán hỗn hợp, bảo tồn cả danh tính và tính liên tục của chuyển động sau khi đối tượng quay lại khung hình.’

Các kết quả khác có thể được xem trong định dạng video tại trang web bổ sung, trong đó bốn ví dụ đầu tiên đã được chúng tôi tập hợp thành video dưới đây:

Click để phát. Bốn trong số sáu kết quả kiểm tra được giới thiệu tại trang web dự án. Nguồn 

Kết Luận

Mặc dù bất kỳ nỗ lực nào nhằm giải quyết một trong những vấn đề lớn nhất của việc tạo video AI đều được chào đón, nhưng dường như không thể tránh khỏi rằng giải pháp tối ưu cho các vấn đề ra/vào của loại này sẽ chứng minh là, như nó đã từng là với CGI, dưới dạng các tài liệu tham chiếu riêng biệt có thể được chỉnh sửa rời rạc và đưa vào một không gian tổng hợp.

Nỗ lực này nhằm giữ cho một bản nhúng sống trong một cách thức tùy tiện và tức thì dường như là một việc vất vả, và cũng không cung cấp một con đường rõ ràng phía trước để đạt được sự nhất quán trong shot như hiện đang có tại các cổng đen như Runway. Nếu nó kết thúc là trường hợp mà một shot theo dõi sẽ yêu cầu truy cập vào không gian tiềm ẩn của shot trước, tại sao không có cả hai thể hiện đặt một bản nhúng ký tự rời rạc và riêng biệt? * Không ai khác đã đặt tên cho nó, và thảo luận là khó khăn mà không có các thuật ngữ chung. ** Hiện đang được báo cáo là ‘sắp có’, tại trang dự án. Đầu tiên được xuất bản vào thứ Sáu, ngày 27 tháng 3 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]