Connect with us

Góc nhìn Anderson

Một Tiến Bộ Đáng Kể Trong Video Trí Tuệ Nhân Tạo Được Lái Xe Bằng Con Người

mm
Examples from the DreamActor project page.

Lưu ý: Trang dự án cho công việc này bao gồm 33 video tự phát với độ phân giải cao, tổng cộng nửa gigabyte, điều này đã làm cho hệ thống của tôi không ổn định khi tải. Vì lý do này, tôi sẽ không liên kết trực tiếp đến nó. Người đọc có thể tìm thấy URL trong tóm tắt hoặc tệp PDF của bài báo nếu họ chọn.

Một trong những mục tiêu chính trong nghiên cứu tổng hợp video hiện nay là tạo ra hiệu suất video trí tuệ nhân tạo hoàn chỉnh từ một hình ảnh duy nhất. Tuần này, một bài báo mới từ Bytedance Intelligent Creation đã phác thảo ra có thể là hệ thống toàn diện nhất của loại này cho đến nay, có khả năng tạo ra các hoạt hình toàn thân và bán thân kết hợp chi tiết biểu cảm trên khuôn mặt với chuyển động lớn chính xác, đồng thời đạt được sự nhất quán về bản sắc được cải thiện – một lĩnh vực mà thậm chí các hệ thống thương mại hàng đầu thường không đạt được.

Trong ví dụ dưới đây, chúng ta thấy một hiệu suất được lái bởi một diễn viên (trên cùng bên trái) và được suy dẫn từ một hình ảnh duy nhất (trên cùng bên phải), cung cấp một kết xuất linh hoạt và khéo léo đáng chú ý, không có vấn đề thông thường xung quanh việc tạo ra các chuyển động lớn hoặc “đoán” về các khu vực bị che khuất (tức là các phần của quần áo và góc khuôn mặt phải được suy dẫn hoặc tạo ra vì chúng không nhìn thấy được trong ảnh duy nhất):

Nội Dung Âm Thanh. Nhấn để phát. Một hiệu suất được sinh ra từ hai nguồn, bao gồm cả đồng bộ hóa môi, thường là lĩnh vực của các hệ thống phụ trợ chuyên dụng. Đây là một phiên bản giảm từ trang nguồn (xem lưu ý ở đầu bài – áp dụng cho tất cả các video nhúng khác ở đây).

Mặc dù chúng ta có thể thấy một số thách thức còn lại về sự nhất quán của bản sắc khi mỗi đoạn clip tiến hành, đây là hệ thống đầu tiên tôi đã thấy vượt trội trong việc duy trì ID một cách chung (mặc dù không phải lúc nào) trong một khoảng thời gian dài mà không cần sử dụng LoRAs:

Nội Dung Âm Thanh. Nhấn để phát. Các ví dụ khác từ dự án DreamActor.

Hệ thống mới, có tên là DreamActor, sử dụng một hệ thống điều khiển lai ba phần cung cấp sự chú ý chuyên dụng cho biểu cảm khuôn mặt, xoay đầu và thiết kế khung xương cốt lõi, do đó cho phép các hiệu suất được lái bởi trí tuệ nhân tạo nơi cả khuôn mặt và cơ thể không bị ảnh hưởng bởi nhau – một khả năng hiếm, có thể chưa biết đến trong số các hệ thống tương tự.

Dưới đây, chúng ta thấy một trong những khía cạnh này, xoay đầu, trong hoạt động. Quả bóng màu ở góc phải của mỗi ảnh thu nhỏ cho thấy một loại gimbal ảo xác định hướng đầu độc lập với chuyển động khuôn mặt và biểu cảm, được điều khiển bởi một diễn viên (hàng dưới bên trái).

Nhấn để phát. Quả bóng nhiều màu được hình ảnh hóa ở đây đại diện cho trục quay của đầu của nhân vật, trong khi biểu cảm được cung cấp bởi một mô-đun riêng biệt và được thông báo bởi hiệu suất của diễn viên (được thấy ở đây hàng dưới bên trái).

Một trong những chức năng thú vị nhất của dự án, không được bao gồm đúng cách trong các thử nghiệm của bài báo, là khả năng suy dẫn chuyển động đồng bộ môi trực tiếp từ âm thanh – một khả năng hoạt động bất thường tốt ngay cả khi không có video diễn viên lái.

Các nhà nghiên cứu đã đối đầu với những người tiền nhiệm tốt nhất trong việc theo đuổi này, bao gồm cả Runway Act-One và LivePortrait, và báo cáo rằng DreamActor đã có thể đạt được kết quả định lượng tốt hơn.

Kể từ khi các nhà nghiên cứu có thể đặt tiêu chí của riêng họ, kết quả định lượng không nhất thiết là một tiêu chuẩn thực nghiệm; nhưng các thử nghiệm định tính đi kèm dường như hỗ trợ kết luận của các tác giả.

Thật không may, hệ thống này không được dự định cho việc phát hành công khai, và giá trị duy nhất mà cộng đồng có thể có được từ công việc này là trong việc tái tạo các phương pháp được phác thảo trong bài báo (như đã được thực hiện với hiệu ứng đáng kể cho Google Dreambooth năm 2022).

Bài báo tuyên bố*:

‘Hoạt hình ảnh người có thể có rủi ro xã hội, như bị lạm dụng để tạo video giả. Công nghệ được đề xuất có thể được sử dụng để tạo video giả của người, nhưng các công cụ phát hiện hiện có [Demamba, Dormant] có thể phát hiện những video giả này.

‘Để giảm thiểu những rủi ro này, cần có quy tắc đạo đức rõ ràng và hướng dẫn sử dụng có trách nhiệm. Chúng tôi sẽ hạn chế nghiêm ngặt việc truy cập vào các mô hình và mã cốt lõi của chúng để ngăn chặn lạm dụng.’

Tự nhiên, các xem xét đạo đức của loại này là tiện lợi từ góc độ thương mại, vì nó cung cấp một lý do để truy cập API vào mô hình, sau đó có thể được kiếm tiền. ByteDance đã làm điều này một lần vào năm 2025, bằng cách làm cho OmniHuman được ca ngợi rộng rãi có sẵn cho các tín dụng trả tiền trên trang web Dreamina. Do đó, vì DreamActor có thể là một sản phẩm thậm chí còn mạnh hơn, điều này dường như là kết quả có thể xảy ra. Điều còn lại để xem là mức độ mà các nguyên tắc của nó, trong phạm vi chúng được giải thích trong bài báo, có thể giúp cộng đồng mã nguồn mở.

Bài báo mới mới có tiêu đề DreamActor-M1: Hoàn chỉnh, Biểu cảm và Robust Hoạt hình Ảnh Người với Hướng dẫn Lai, và đến từ sáu nhà nghiên cứu Bytedance.

Phương Pháp

Hệ thống DreamActor được đề xuất trong bài báo nhằm mục đích tạo ra hoạt hình từ một hình ảnh tham chiếu và một video lái, sử dụng khuôn khổ Diffusion Transformer (DiT) được điều chỉnh cho không gian潜在 (dường như là một số hương vị của Stable Diffusion, mặc dù bài báo chỉ trích dẫn bản phát hành quan trọng năm 2022).

Thay vì dựa vào các mô-đun bên ngoài để xử lý điều kiện tham chiếu, các tác giả hợp nhất các tính năng ngoại hình và chuyển động trực tiếp trong xương sống DiT, cho phép tương tác trên không gian và thời gian thông qua sự chú ý:

Sơ đồ cho hệ thống mới: DreamActor mã hóa tư thế, chuyển động khuôn mặt và ngoại hình thành các latents riêng biệt, kết hợp chúng với các latents video bị nhiễu được tạo ra bởi một 3D VAE. Các tín hiệu này được hợp nhất trong Diffusion Transformer bằng cách sử dụng sự chú ý tự và chú ý chéo, với các trọng số được chia sẻ trên các nhánh. Mô hình được giám sát bằng cách so sánh các đầu ra được làm sạch với các latents video sạch. Nguồn: https://arxiv.org/pdf/2504.01724

Sơ đồ cho hệ thống mới: DreamActor mã hóa tư thế, chuyển động khuôn mặt và ngoại hình thành các latents riêng biệt, kết hợp chúng với các latents video bị nhiễu được tạo ra bởi một 3D VAE. Các tín hiệu này được hợp nhất trong Diffusion Transformer bằng cách sử dụng sự chú ý tự và chú ý chéo, với các trọng số được chia sẻ trên các nhánh. Mô hình được giám sát bằng cách so sánh các đầu ra được làm sạch với các latents video sạch. Nguồn: https://arxiv.org/pdf/2504.01724

Để làm điều này, mô hình sử dụng một 3D variational autoencoder được đào tạo trước để mã hóa cả video đầu vào và hình ảnh tham chiếu. Các latents này được patchified, nối tiếp và đưa vào DiT, sau đó xử lý chúng chung.

Kiến trúc này khác với thực tiễn chung của việc gắn một mạng thứ cấp cho tiêm tham chiếu, đó là cách tiếp cận cho các dự án Animate AnyoneAnimate Anyone 2 có ảnh hưởng.

Thay vào đó, DreamActor xây dựng sự hợp nhất vào chính mô hình, đơn giản hóa thiết kế trong khi tăng cường dòng chảy thông tin giữa các tín hiệu ngoại hình và chuyển động. Mô hình sau đó được đào tạo bằng cách sử dụng khớp dòng chảy thay vì mục tiêu khuếch tán tiêu chuẩn (Khớp dòng chảy đào tạo các mô hình khuếch tán bằng cách dự đoán trực tiếp các trường vectơ giữa dữ liệu và nhiễu, bỏ qua đánh giá điểm).

Hướng Dẫn Chuyển Động Lai

Phương pháp Hướng Dẫn Chuyển Động Lai mà thông báo cho các kết xuất thần kinh kết hợp các token tư thế được dẫn xuất từ các khung xương cơ thể 3D và các hình cầu đầu; các biểu diễn khuôn mặt ngầm được trích xuất bởi một bộ mã hóa khuôn mặt được đào tạo trước; và các token ngoại hình tham chiếu được lấy mẫu từ hình ảnh nguồn.

Những yếu tố này được tích hợp trong Diffusion Transformer bằng cách sử dụng các cơ chế chú ý riêng biệt, cho phép hệ thống phối hợp chuyển động toàn cầu, biểu cảm khuôn mặt và bản sắc hình ảnh trong suốt quá trình tạo ra.

Đối với cái đầu tiên, thay vì dựa vào các điểm mốc khuôn mặt, DreamActor sử dụng các biểu diễn khuôn mặt ngầm để hướng dẫn tạo ra biểu cảm, rõ ràng cho phép kiểm soát tốt hơn các động lực khuôn mặt trong khi tách biệt bản sắc và tư thế đầu khỏi biểu cảm.

Để tạo ra các biểu diễn này, đường ống dẫn đầu tiên phát hiện và cắt vùng khuôn mặt trong mỗi khung hình của video lái, thay đổi kích thước nó thành 224×224. Các khuôn mặt được cắt được xử lý bởi một bộ mã hóa chuyển động khuôn mặt được đào tạo trước trên PD-FGC dataset, sau đó được điều kiện bởi một MLP lớp.

PD-FGC, được sử dụng trong DreamActor, tạo ra một đầu nói từ một hình ảnh tham chiếu với kiểm soát tách biệt của đồng bộ hóa môi (từ âm thanh), tư thế đầu, chuyển động mắt và biểu cảm (từ các video riêng biệt), cho phép điều khiển chính xác và độc lập của mỗi yếu tố. Nguồn: https://arxiv.org/pdf/2211.14506

PD-FGC, được sử dụng trong DreamActor, tạo ra một đầu nói từ một hình ảnh tham chiếu với kiểm soát tách biệt của đồng bộ hóa môi (từ âm thanh), tư thế đầu, chuyển động mắt và biểu cảm (từ các video riêng biệt), cho phép điều khiển chính xác và độc lập của mỗi yếu tố. Nguồn: https://arxiv.org/pdf/2211.14506

Kết quả là một chuỗi các token chuyển động khuôn mặt, được tiêm vào Diffusion Transformer thông qua một chú ý chéo lớp.

Cùng một khuôn khổ cũng hỗ trợ một phiên bản được điều khiển bởi âm thanh, trong đó một bộ mã hóa riêng biệt được đào tạo để ánh xạ đầu vào âm thanh trực tiếp đến các token chuyển động khuôn mặt. Điều này cho phép tạo ra hoạt hình khuôn mặt đồng bộ – bao gồm cả chuyển động môi – mà không cần một video lái.

Nội Dung Âm Thanh. Nhấn để phát. Đồng bộ hóa môi được suy dẫn trực tiếp từ âm thanh, mà không cần một tham chiếu diễn viên. Đầu vào nhân vật duy nhất là ảnh tĩnh được thấy phía trên bên phải.

Thứ hai, để kiểm soát tư thế đầu độc lập với biểu cảm khuôn mặt, hệ thống giới thiệu một biểu diễn hình cầu đầu 3D (xem video nhúng trước trong bài viết này), tách biệt động lực khuôn mặt khỏi chuyển động đầu toàn cầu, cải thiện độ chính xác và linh hoạt trong quá trình hoạt hình.

Các hình cầu đầu được tạo ra bằng cách trích xuất các tham số khuôn mặt 3D – như quay và tư thế máy ảnh – từ video lái bằng cách sử dụng phương pháp theo dõi FaceVerse.

Sơ đồ cho dự án FaceVerse. Nguồn: https://www.liuyebin.com/faceverse/faceverse.html

Sơ đồ cho dự án FaceVerse. Nguồn: https://www.liuyebin.com/faceverse/faceverse.html

Những tham số này được sử dụng để kết xuất một hình cầu màu được chiếu lên mặt phẳng hình ảnh 2D, được căn chỉnh không gian với đầu lái. Kích thước của hình cầu khớp với đầu tham chiếu, và màu sắc của nó phản ánh hướng của đầu. Sự trừu tượng này giảm thiểu sự phức tạp của việc học chuyển động đầu 3D, giúp bảo tồn các hình dạng đầu được cách điệu hoặc phóng đại trong các nhân vật được vẽ từ hoạt hình.

Tư liệu hóa của hình cầu điều khiển ảnh hưởng đến hướng đầu.

Tư liệu hóa của hình cầu điều khiển ảnh hưởng đến hướng đầu.

Cuối cùng, để hướng dẫn chuyển động toàn thân, hệ thống sử dụng các khung xương cơ thể 3D với việc chuẩn hóa chiều dài xương thích ứng. Các tham số cơ thể và tay được ước tính bằng cách sử dụng 4DHumansHaMeR, cả hai đều hoạt động trên SMPL-X mô hình cơ thể.

SMPL-X áp dụng một lưới tham số trên toàn bộ cơ thể trong một hình ảnh, căn chỉnh với tư thế và biểu cảm được ước tính để cho phép thao tác tư thế bằng cách sử dụng lưới như một hướng dẫn thể tích. Nguồn: https://arxiv.org/pdf/1904.05866

SMPL-X áp dụng một lưới tham số trên toàn bộ cơ thể trong một hình ảnh, căn chỉnh với tư thế và biểu cảm được ước tính để cho phép thao tác tư thế bằng cách sử dụng lưới như một hướng dẫn thể tích. Nguồn: https://arxiv.org/pdf/1904.05866

Từ những đầu ra này, các khớp chính được chọn, được chiếu vào 2D và kết nối thành các bản đồ xương dựa trên đường thẳng. Không giống như các phương pháp như Champ, kết xuất các lưới toàn thân, cách tiếp cận này tránh áp đặt các giả định về hình dạng trước, và bằng cách dựa hoàn toàn vào cấu trúc xương, mô hình được khuyến khích để suy dẫn hình dạng và ngoại hình cơ thể trực tiếp từ các hình ảnh tham chiếu, giảm thiểu thiên vị về các loại cơ thể cố định và cải thiện tính tổng quát trên nhiều tư thế và xây dựng.

Trong quá trình đào tạo, các khung xương cơ thể 3D được nối tiếp với các hình cầu đầu và được truyền qua một bộ mã hóa tư thế, sau đó tạo ra các tính năng được kết hợp với các token nhiễu video để tạo ra các token nhiễu được sử dụng bởi Diffusion Transformer.

Tại thời điểm suy luận, hệ thống tính đến sự khác biệt về xương giữa các chủ thể bằng cách chuẩn hóa chiều dài xương. Mô hình SeedEdit được đào tạo trước biến đổi cả hình ảnh tham chiếu và hình ảnh lái thành một cấu hình tiêu chuẩn. RTMPose sau đó được sử dụng để trích xuất tỷ lệ xương, được sử dụng để điều chỉnh khung xương lái để phù hợp với giải phẫu của chủ thể tham chiếu.

Tổng quan về đường ống suy luận. Các tham chiếu giả có thể được tạo ra để làm giàu các tín hiệu ngoại hình, trong khi các tín hiệu điều khiển lai - chuyển động khuôn mặt ngầm và tư thế rõ ràng từ các hình cầu đầu và khung xương cơ thể - được trích xuất từ video lái. Những tín hiệu này sau đó được đưa vào một mô hình DiT để tạo ra đầu ra hoạt hình, với chuyển động khuôn mặt được tách biệt khỏi tư thế cơ thể, cho phép sử dụng âm thanh như một trình điều khiển.

Tổng quan về đường ống suy luận. Các tham chiếu giả có thể được tạo ra để làm giàu các tín hiệu ngoại hình, trong khi các tín hiệu điều khiển lai – chuyển động khuôn mặt ngầm và tư thế rõ ràng từ các hình cầu đầu và khung xương cơ thể – được trích xuất từ video lái. Những tín hiệu này sau đó được đưa vào một mô hình DiT để tạo ra đầu ra hoạt hình, với chuyển động khuôn mặt được tách biệt khỏi tư thế cơ thể, cho phép sử dụng âm thanh như một trình điều khiển.

Hướng Dẫn Ngoại Hình

Để tăng cường tính trung thực của ngoại hình, đặc biệt là trong các khu vực bị che khuất hoặc hiếm khi nhìn thấy, hệ thống bổ sung hình ảnh tham chiếu chính với các tham chiếu giả được lấy mẫu từ video đầu vào.

Nhấn để phát. Hệ thống dự đoán nhu cầu phải kết xuất chính xác và nhất quán các khu vực bị che khuất. Điều này là về việc tôi đã thấy, trong một dự án của loại này, đến một cách tiếp cận bitmap-văn bản giống như CGI.

Những khung hình bổ sung này được chọn cho sự đa dạng tư thế bằng cách sử dụng RTMPose, và được lọc bằng cách sử dụng sự tương tự dựa trên CLIP để đảm bảo chúng vẫn nhất quán với bản sắc của chủ thể.

Tất cả các khung hình tham chiếu (chính và giả) được mã hóa bởi cùng một bộ mã hóa hình ảnh và được hợp nhất thông qua một cơ chế chú ý tự, cho phép mô hình truy cập vào các tín hiệu ngoại hình bổ sung. Thiết lập này cải thiện phạm vi chi tiết như các góc nhìn phụ hoặc kết cấu tay.

Các tham chiếu giả luôn được sử dụng trong quá trình đào tạo và tùy chọn trong quá trình suy luận.

Đào Tạo

DreamActor được đào tạo trong ba giai đoạn để dần dần giới thiệu sự phức tạp và cải thiện sự ổn định.

Trong giai đoạn đầu, chỉ các khung xương cơ thể 3D và các hình cầu đầu 3D được sử dụng làm tín hiệu điều khiển, loại trừ các biểu diễn khuôn mặt. Điều này cho phép mô hình video cơ bản, được khởi tạo từ MMDiT, thích nghi với hoạt hình người mà không bị áp đảo bởi các điều khiển tinh vi.

Trong giai đoạn thứ hai, các biểu diễn khuôn mặt ngầm được thêm vào, nhưng tất cả các tham số khác đóng băng. Chỉ bộ mã hóa chuyển động khuôn mặt và các lớp chú ý khuôn mặt được đào tạo tại thời điểm này, cho phép mô hình học các chi tiết biểu cảm một cách cô lập.

Trong giai đoạn cuối cùng, tất cả các tham số được giải phóng cho tối ưu hóa chung trên ngoại hình, tư thế và động lực khuôn mặt.

Dữ Liệu và Thử Nghiệm

Để giai đoạn thử nghiệm, mô hình được khởi tạo từ một điểm kiểm tra Diffusion Transformer được đào tạo trước và được đào tạo trong ba giai đoạn: 20.000 bước cho mỗi hai giai đoạn đầu và 30.000 bước cho giai đoạn thứ ba.

Để cải thiện tổng quát hóa trên các độ dài và độ phân giải khác nhau, các đoạn video được lấy mẫu ngẫu nhiên với độ dài từ 25 đến 121 khung hình. Những đoạn này sau đó được thay đổi kích thước thành 960x640px, trong khi giữ nguyên tỷ lệ khung hình.

Đào tạo được thực hiện trên tám (NVIDIA H20 GPU của Trung Quốc) mỗi GPU có 96GB VRAM, sử dụng AdamW bộ tối ưu hóa với một (tốc độ học) 5e−6.

Tại thời điểm suy luận, mỗi đoạn video chứa 73 khung hình. Để duy trì sự nhất quán trên các đoạn, latent cuối cùng từ một đoạn được tái sử dụng làm latent ban đầu cho đoạn tiếp theo, điều này đặt ngữ cảnh cho nhiệm vụ như một quá trình tạo video từ hình ảnh tuần tự.

Hướng dẫn phân loại miễn phí được áp dụng với trọng số 2,5 cho cả hình ảnh tham chiếu và tín hiệu điều khiển chuyển động.

Các tác giả xây dựng một tập dữ liệu đào tạo (không có nguồn được nêu trong bài báo) bao gồm 500 giờ video từ các lĩnh vực đa dạng, bao gồm các ví dụ về (trong số các thứ khác) khiêu vũ, thể thao, phim và nói chuyện trước công chúng. Tập dữ liệu được thiết kế để bắt một phổ rộng của chuyển động và biểu cảm của con người, với sự phân bố đều giữa các cảnh quay toàn thân và bán thân.

Để tăng cường chất lượng tổng hợp khuôn mặt, Nersemble được kết hợp trong quá trình chuẩn bị dữ liệu.

Ví dụ từ tập dữ liệu Nersemble, được sử dụng để tăng cường dữ liệu cho DreamActor. Nguồn: https://www.youtube.com/watch?v=a-OAWqBzldU

Ví dụ từ tập dữ liệu Nersemble, được sử dụng để tăng cường dữ liệu cho DreamActor. Nguồn: https://www.youtube.com/watch?v=a-OAWqBzldU

Để đánh giá, các nhà nghiên cứu sử dụng tập dữ liệu của họ cũng như một điểm chuẩn để đánh giá tính tổng quát trên nhiều kịch bản.

Hiệu suất của mô hình được đo bằng các thước đo tiêu chuẩn từ các công việc trước: Fréchet Inception Distance (FID); Chỉ số Tương đồng Cấu trúc (SSIM); Tương đồng Hình ảnh Perceptual Học được (LPIPS); và Tỷ lệ Tín hiệu trên Nhiễu Đỉnh (PSNR) cho chất lượng khung hình. Fréchet Video Distance (FVD) được sử dụng để đánh giá sự nhất quán thời gian và trung thực tổng thể của video.

Các tác giả đã tiến hành các thí nghiệm trên cả nhiệm vụ hoạt hình cơ thể và hoạt hình chân dung, tất cả đều sử dụng một hình ảnh tham chiếu (mục tiêu) duy nhất.

Đối với hoạt hình cơ thể, DreamActor-M1 được so sánh với Animate Anyone; Champ; MimicMotion, và DisPose.

So sánh định lượng với các khuôn khổ đối thủ.

So sánh định lượng với các khuôn khổ đối thủ.

Mặc dù PDF cung cấp một hình ảnh tĩnh như một so sánh trực quan, một trong các video từ trang dự án có thể làm nổi bật sự khác biệt rõ ràng hơn:

Nội Dung Âm Thanh. Nhấn để phát. Một so sánh trực quan trên các khuôn khổ thách thức. Video lái được thấy ở phía trên bên trái, và kết luận của các tác giả rằng DreamActor tạo ra kết quả tốt nhất dường như hợp lý.

Đối với các thử nghiệm hoạt hình chân dung, mô hình được đánh giá chống lại LivePortrait; X-Portrait; SkyReels-A1; và Act-One.

So sánh định lượng cho hoạt hình chân dung.

So sánh định lượng cho hoạt hình chân dung.

Các tác giả lưu ý rằng phương pháp của họ thắng trong các thử nghiệm định lượng, và khẳng định rằng nó cũng vượt trội về mặt định tính.

Nội Dung Âm Thanh. Nhấn để phát. Ví dụ về so sánh hoạt hình chân dung.

Có thể tranh luận rằng đoạn clip thứ ba và cuối cùng trong video trên cho thấy một sự đồng bộ hóa môi ít thuyết phục hơn so với một số khuôn khổ đối thủ, mặc dù chất lượng tổng thể rất cao.

Kết Luận

Khi dự đoán nhu cầu phải tạo ra các kết cấu được ngụ ý nhưng không có mặt trong hình ảnh mục tiêu duy nhất, Bytedance đã giải quyết một trong những thách thức lớn nhất đối với việc tạo video dựa trên khuếch tán – kết cấu nhất quán và lâu dài. Bước tiếp theo logic sau khi hoàn thiện cách tiếp cận này sẽ là tạo một bản đồ tham chiếu từ đoạn clip được tạo ra ban đầu có thể được áp dụng cho các thế hệ khác nhau, để duy trì ngoại hình mà không cần LoRAs.

Mặc dù cách tiếp cận như vậy về cơ bản vẫn là một tham chiếu bên ngoài, nhưng điều này không khác gì việc ánh xạ kết cấu trong các kỹ thuật CGI truyền thống, và chất lượng của tính thực tế và thuyết phục cao hơn nhiều so với những phương pháp cũ có thể đạt được.

Được nói, khía cạnh ấn tượng nhất của DreamActor là hệ thống hướng dẫn ba phần kết hợp, kết nối ranh giới truyền thống giữa tổng hợp người tập trung vào khuôn mặt và tập trung vào cơ thể theo một cách thông minh.

Nó chỉ còn lại để xem liệu một số nguyên tắc cốt lõi của nó có thể được tận dụng trong các dịch vụ có sẵn hơn; như nó đứng, DreamActor dường như bị định sẵn để trở thành một dịch vụ tổng hợp khác, bị ràng buộc nghiêm ngặt bởi các hạn chế về sử dụng và sự không thực tế của việc thử nghiệm rộng rãi với một kiến trúc thương mại.

 

* Thay thế của tôi cho các liên kết của tác giả; trích dẫn nội tuyến

Like đã đề cập trước đó, không rõ hương vị Stable Diffusion nào được sử dụng trong dự án này.

Được xuất bản lần đầu vào thứ Sáu, ngày 4 tháng 4 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]