Trí tuệ nhân tạo
Hệ Thống Mới cho Nhân Vật Video Stable Diffusion Consistent Theo Thời Gian

Một sáng kiến mới từ Tập đoàn Alibaba cung cấp một trong những phương pháp tốt nhất mà tôi đã thấy để tạo ra các hình đại diện người đầy đủ từ một mô hình nền Stable Diffusion.
Được đặt tên là MIMO (MIMicking với Object Interactions), hệ thống sử dụng một loạt các công nghệ và mô-đun phổ biến, bao gồm mô hình người CGI và AnimateDiff, để cho phép thay thế nhân vật nhất quán theo thời gian trong video – hoặc để điều khiển nhân vật với tư thế xương được định nghĩa bởi người dùng.
Tại đây, chúng ta thấy các nhân vật được nội suy từ một nguồn hình ảnh đơn独, và được điều khiển bởi một chuyển động được định nghĩa trước:
[Nhấp video dưới đây để phát]
Từ nguồn hình ảnh đơn độc, ba nhân vật đa dạng được điều khiển bởi một chuỗi tư thế 3D (phía xa trái) sử dụng hệ thống MIMO. Xem trang web dự án và video YouTube kèm theo (đính kèm ở cuối bài viết này) để có thêm ví dụ và độ phân giải cao hơn. Nguồn: https://menyifang.github.io/projects/MIMO/index.html
Các nhân vật được tạo ra, cũng có thể được lấy từ các khung hình trong video và theo nhiều cách khác, có thể được tích hợp vào cảnh quay thế giới thực.
MIMO cung cấp một hệ thống mới tạo ra ba mã hóa rời rạc, mỗi mã hóa cho nhân vật, cảnh và che khuất (tức là, tạo mặt nạ, khi một vật thể hoặc người nào đó đi qua trước nhân vật được mô tả). Các mã hóa này được tích hợp tại thời điểm suy luận.
[Nhấp video dưới đây để phát]
MIMO có thể thay thế nhân vật gốc bằng nhân vật photorealistic hoặc stylized theo chuyển động từ video mục tiêu. Xem trang web dự án và video YouTube kèm theo (đính kèm ở cuối bài viết này) để có thêm ví dụ và độ phân giải cao hơn.
Hệ thống được đào tạo trên mô hình Stable Diffusion V1.5, sử dụng một tập dữ liệu tùy chỉnh được tạo bởi các nhà nghiên cứu, và bao gồm cả video thế giới thực và mô phỏng.
Vấn đề lớn của video dựa trên sự khuếch tán là tính ổn định theo thời gian, nơi nội dung của video có thể bị nhấp nháy hoặc ‘phát triển’ theo những cách không mong muốn cho việc đại diện nhân vật nhất quán.
MIMO, thay vào đó, sử dụng hiệu quả một hình ảnh đơn độc như một bản đồ để hướng dẫn nhất quán, có thể được điều khiển và hạn chế bởi mô hình CGI SMPL.
Vì nguồn tham chiếu là nhất quán, và mô hình nền mà hệ thống được đào tạo đã được cải tiến với các ví dụ chuyển động đại diện đầy đủ, khả năng của hệ thống để tạo ra đầu ra nhất quán theo thời gian là cao hơn tiêu chuẩn chung cho các hình đại diện dựa trên sự khuếch tán.
[Nhấp video dưới đây để phát]
Các ví dụ thêm về nhân vật MIMO được điều khiển bởi tư thế. Xem trang web dự án và video YouTube kèm theo (đính kèm ở cuối bài viết này) để có thêm ví dụ và độ phân giải cao hơn.
Đang trở nên phổ biến hơn để sử dụng hình ảnh đơn độc như một nguồn cho các biểu diễn thần kinh hiệu quả, hoặc theo cách đa phương tiện, kết hợp với các lời nhắc văn bản. Ví dụ, hệ thống chuyển giao khuôn mặt LivePortrait phổ biến cũng có thể tạo ra khuôn mặt giả mạo rất thuyết phục từ hình ảnh khuôn mặt đơn độc.
Các nhà nghiên cứu tin rằng các nguyên tắc được sử dụng trong hệ thống MIMO có thể được mở rộng vào các hệ thống và khuôn khổ tạo ra mới.
Bài báo mới mới có tiêu đề MIMO: Tổng hợp Video Nhân Vật Có thể Kiểm Soát với Mô Hình Không Gian Phân Tích, và đến từ bốn nhà nghiên cứu tại Viện Máy tính Thông Minh của Tập đoàn Alibaba. Công việc này có một trang web dự án đầy video và một video YouTube kèm theo YouTube, cũng được đính kèm ở cuối bài viết này.
Phương Pháp
MIMO đạt được sự tách biệt tự động và không giám sát của ba thành phần không gian trên, trong một kiến trúc từ đầu đến cuối (tức là, tất cả các quá trình con được tích hợp vào hệ thống, và người dùng chỉ cần cung cấp vật liệu đầu vào).

Sơ đồ khái niệm cho MIMO. Nguồn: https://arxiv.org/pdf/2409.16160
Các vật thể trong video nguồn được dịch từ 2D sang 3D, ban đầu sử dụng bộ ước lượng độ sâu đơnocular Depth Anything. Phần nhân vật trong bất kỳ khung hình nào được trích xuất bằng các phương pháp được điều chỉnh từ dự án Tune-A-Video.
Những tính năng này sau đó được dịch thành các mặt thể tích dựa trên video thông qua kiến trúc Segment Anything 2 của Facebook Research.
Lớp cảnh được thu được bằng cách loại bỏ các vật thể được phát hiện trong hai lớp khác, cung cấp một mặt nạ kiểu rotoscope tự động.
Đối với chuyển động, một tập hợp các mã hóa ẩn được trích xuất cho phần nhân vật được neo vào mô hình SMPL CGI mặc định, mà các chuyển động của nó cung cấp ngữ cảnh cho nội dung nhân vật được kết xuất.
Một bản đồ tính năng 2D cho nội dung nhân vật được thu được bằng một differentiable rasterizer được dẫn xuất từ một sáng kiến năm 2020 từ NVIDIA. Kết hợp dữ liệu 3D thu được từ SMPL với dữ liệu 2D thu được bằng phương pháp NVIDIA, các mã hóa ẩn đại diện cho ‘người thần kinh’ có sự tương ứng vững chắc với ngữ cảnh của chúng.
Tại thời điểm này, cần thiết phải thiết lập một tư thế chuẩn thường cần thiết trong các kiến trúc sử dụng SMPL – một tư thế chuẩn. Điều này rộng lớn tương tự như ‘người Vitruvian’ của Da Vinci, ở chỗ nó đại diện cho một mẫu khuôn khổ không có nội dung có thể chấp nhận nội dung và sau đó bị biến dạng, mang nội dung (hiệu quả) được ánh xạ texture theo nó.
Những biến dạng này, hoặc ‘sự偏差 từ chuẩn’, đại diện cho chuyển động của con người, trong khi mô hình SMPL bảo tồn các mã hóa ẩn cấu thành nên bản dạng con người đã được trích xuất, và do đó đại diện cho hình đại diện kết quả một cách chính xác về tư thế và texture.

Một ví dụ về tư thế chuẩn trong hình SMPL. Nguồn: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
Về vấn đề entanglement (mức độ mà dữ liệu được đào tạo có thể trở nên không linh hoạt khi bạn kéo dài nó ngoài phạm vi đào tạo và các mối quan hệ của nó), các tác giả tuyên bố*:
‘Để tách biệt hoàn toàn sự xuất hiện từ các khung hình video được tư thế, một giải pháp lý tưởng là học đại diện con người động từ video đơnocular và biến đổi nó từ không gian được tư thế sang không gian chuẩn.
‘Xét về hiệu quả, chúng tôi sử dụng một phương pháp đơn giản hóa trực tiếp biến đổi hình ảnh con người được tư thế thành kết quả chuẩn trong tư thế A-chuẩn sử dụng một mô hình tái tư thế con người được đào tạo trước. Hình ảnh xuất hiện chuẩn được tổng hợp được cung cấp cho các bộ mã hóa ID để thu được mã [định danh].
‘Thiết kế đơn giản này cho phép tách biệt hoàn toàn các thuộc tính định danh và chuyển động. Theo [Animate Anyone], các bộ mã hóa ID bao gồm một CLIP bộ mã hóa hình ảnh và một kiến trúc mạng tham chiếu để nhúng cho tính năng toàn cầu và cục bộ, [tương ứng].’
Đối với các khía cạnh cảnh và che khuất, một bộ mã hóa tự động biến đổi được chia sẻ và cố định (VAE – trong trường hợp này được dẫn xuất từ một xuất bản năm 2013) được sử dụng để nhúng các yếu tố cảnh và che khuất vào không gian ẩn. Các không nhất quán được xử lý bằng một phương pháp inpainting từ dự án ProPainter năm 2023.
Một khi được lắp ráp và chỉnh sửa theo cách này, cả nền và bất kỳ vật thể che khuất nào trong video sẽ cung cấp một mặt nạ cho hình đại diện con người di chuyển.
Những thuộc tính này được phân tích sau đó được cung cấp vào một U-Net dựa trên kiến trúc Stable Diffusion V1.5. Mã cảnh hoàn chỉnh được nối với nhiễu ẩn bản địa của hệ thống chủ. Thành phần con người được tích hợp thông qua các lớp tự chú ý và chú ý chéo, tương ứng.
Sau đó, kết quả được làm sạch được xuất ra thông qua bộ giải mã VAE.
Dữ Liệu và Kiểm Tra
Để đào tạo, các nhà nghiên cứu đã tạo một tập dữ liệu video con người có tên HUD-7K, bao gồm 5.000 video nhân vật thực và 2.000 hoạt hình tổng hợp được tạo bởi hệ thống En3D. Các video thực không cần chú thích, do tính chất không ngữ nghĩa của các thủ tục trích xuất hình trong kiến trúc MIMO.
Mô hình được đào tạo trên tám GPU NVIDIA A100 (mặc dù bài báo không chỉ định liệu những GPU này là 40GB hoặc 80GB VRAM), trong 50 lần lặp, sử dụng 24 khung hình video và kích thước batch là bốn, cho đến khi hội tụ.
Mô-đun chuyển động cho hệ thống được đào tạo trên các trọng số của AnimateDiff. Trong quá trình đào tạo, các trọng số của bộ mã hóa/độ giải mã VAE và bộ mã hóa hình ảnh CLIP được đông lạnh (so với đào tạo tinh chỉnh đầy đủ, sẽ có tác động rộng hơn đến mô hình nền).
Mặc dù MIMO không được thử nghiệm với các hệ thống tương tự, các nhà nghiên cứu đã thử nghiệm nó trên các chuỗi chuyển động khó ngoài phân phối được lấy từ AMASS và Mixamo. Những chuyển động này bao gồm leo núi, chơi và nhảy.
Họ cũng thử nghiệm hệ thống trên các video con người trong thế giới thực. Trong cả hai trường hợp, bài báo báo cáo ‘khả năng chống chịu cao’ cho những chuyển động 3D không nhìn thấy này, từ các góc nhìn khác nhau.
Mặc dù bài báo cung cấp nhiều kết quả hình ảnh tĩnh chứng minh hiệu quả của hệ thống, hiệu suất thực sự của MIMO được đánh giá tốt nhất với các kết quả video rộng rãi được cung cấp tại trang web dự án, và trong video YouTube được nhúng dưới đây (từ đó các video ở đầu bài viết này đã được dẫn xuất).
Các tác giả kết luận:
‘Kết quả thử nghiệm [chứng minh] rằng phương pháp của chúng tôi cho phép không chỉ kiểm soát nhân vật, chuyển động và cảnh linh hoạt, mà còn khả năng mở rộng đến các nhân vật tùy ý, tính tổng quát đến các chuyển động 3D mới và khả năng áp dụng cho các cảnh tương tác.
‘Chúng tôi cũng [tin] rằng giải pháp của chúng tôi, xem xét bản chất 3D nội tại và tự động mã hóa video 2D thành các thành phần không gian phân cấp, có thể truyền cảm hứng cho các nghiên cứu tương lai về tổng hợp video 3D-aware.
‘Hơn nữa, khuôn khổ của chúng tôi không chỉ phù hợp để tạo ra video nhân vật mà còn có thể được điều chỉnh để thực hiện các nhiệm vụ tổng hợp video có thể kiểm soát khác.’
Kết Luận
Thật tuyệt khi thấy một hệ thống hình đại diện dựa trên Stable Diffusion dường như có khả năng ổn định theo thời gian như vậy – không chỉ vì Gaussian Avatars dường như đang đạt được lợi thế trong lĩnh vực nghiên cứu cụ thể này.
Các hình đại diện được stylized trong kết quả là hiệu quả, và mặc dù mức độ photorealism mà MIMO có thể tạo ra hiện không bằng với những gì Gaussian Splatting có thể làm được, nhưng những lợi thế đa dạng của việc tạo ra con người nhất quán theo thời gian trong một Mạng khuếch tán Latent (LDM) dựa trên ngữ nghĩa là đáng kể.
* Sự chuyển đổi của tôi từ các chú thích nội tuyến của tác giả thành các liên kết siêu văn bản, và khi cần, các liên kết siêu văn bản giải thích bên ngoài.
Được xuất bản lần đầu vào thứ Tư, ngày 25 tháng 9 năm 2024






