Trí tuệ nhân tạo

Sự trỗi dậy của Video Deepfakes Hunyuan

Published January 7, 2025

Updated April 26, 2026

Martin Anderson

An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Do tính chất của một số tài liệu được thảo luận ở đây, bài viết này sẽ chứa ít liên kết tham khảo và hình minh họa hơn bình thường.

Có điều gì đáng chú ý đang xảy ra trong cộng đồng tổng hợp AI, mặc dù tầm quan trọng của nó có thể mất một thời gian để trở nên rõ ràng. Những người đam mê đang đào tạo các mô hình video tổng hợp AI để tái tạo hình ảnh của con người, sử dụng video dựa trên LoRAs trên khuôn khổ Hunyuan Video mã nguồn mở mới được phát hành của Tencent.*

Click để phát.Kết quả đa dạng từ tùy chỉnh Hunyuan dựa trên LoRA miễn phí tại cộng đồng Civit. Bằng cách đào tạo các mô hình thích nghi thấp cấp (LoRAs), các vấn đề về độ ổn định thời gian, đã ảnh hưởng đến việc tạo video AI trong hai năm, đã được giảm đáng kể. Nguồn: civit.ai

Trong video trên, hình ảnh của các nữ diễn viên Natalie Portman, Christina Hendricks và Scarlett Johansson, cùng với nhà lãnh đạo công nghệ Elon Musk, đã được đào tạo thành các tệp bổ sung tương đối nhỏ cho hệ thống video tổng hợp Hunyuan, có thể được cài đặt không có bộ lọc nội dung (như bộ lọc NSFW) trên máy tính của người dùng.

Tạo ra LoRA Christina Hendricks trên cho biết chỉ cần 16 hình ảnh từ chương trình truyền hình Mad Men để phát triển mô hình (đó là tệp tải xuống chỉ 307mb); nhiều bài đăng từ cộng đồng Stable Diffusion trên Reddit và Discord xác nhận rằng LoRAs của loại này không yêu cầu số lượng lớn dữ liệu đào tạo, hoặc thời gian đào tạo dài, trong hầu hết các trường hợp.

Click để phát.Arnold Schwarzenegger được đưa đến cuộc sống trong một LoRA video Hunyuan có thể được tải xuống tại Civit. Xem https://www.youtube.com/watch?v=1D7B9g9rY68 để biết thêm các ví dụ về Arnie, từ người đam mê AI Bob Doyle.

LoRAs Hunyuan có thể được đào tạo trên cả hình ảnh tĩnh hoặc video, mặc dù đào tạo trên video yêu cầu nhiều tài nguyên phần cứng hơn và thời gian đào tạo tăng.

Mô hình video Hunyuan có 13 tỷ tham số, vượt quá 12 tỷ tham số của Sora, và vượt xa mô hình Hunyuan-DiT ít khả năng hơn được phát hành mã nguồn mở vào mùa hè năm 2024, có chỉ 1,5 tỷ tham số.

Như trường hợp hai năm rưỡi trước với Stable Diffusion và LoRA (xem các ví dụ về ‘người nổi tiếng’ bản địa của Stable Diffusion 1.5 tại đây), mô hình nền tảng trong câu hỏi có hiểu biết hạn chế hơn nhiều về tính cách của người nổi tiếng, so với mức độ trung thực có thể đạt được thông qua các thực hiện LoRA ‘tiêm ID’.

Hiệu quả, một LoRA tùy chỉnh, tập trung vào tính cách, nhận được ‘chuyến đi miễn phí’ trên khả năng tổng hợp đáng kể của mô hình Hunyuan cơ bản, cung cấp tổng hợp con người hiệu quả hơn nhiều so với có thể đạt được bằng cách sử dụng tự mã hóa deepfakes hoặc bằng cách thêm chuyển động vào hình ảnh tĩnh thông qua các hệ thống như LivePortrait được ca ngợi.

Tất cả LoRAs được hiển thị ở đây có thể được tải xuống miễn phí từ cộng đồng Civit rất phổ biến, trong khi số lượng lớn LoRAs ‘hình ảnh tĩnh’ cũ hơn cũng có thể tạo ra ‘hạt giống’ hình ảnh cho quá trình tạo video (tức là hình ảnh-sang-video, một phiên bản đang chờ cho Hunyuan Video, mặc dù các giải pháp thay thế là có thể, trong thời gian này).

Click để phát.Trên, mẫu từ một LoRA ‘tĩnh’ Flux; dưới, ví dụ từ một LoRA video Hunyuan với nhạc sĩ Taylor Swift. Cả hai LoRA này đều có sẵn miễn phí tại cộng đồng Civit.

Khi tôi viết, trang web Civit cung cấp 128 kết quả tìm kiếm cho ‘Hunyuan’*. Gần như tất cả đều liên quan một cách nào đó đến mô hình NSFW; 22 mô hình mô tả người nổi tiếng; 18 được thiết kế để tạo ra nội dung khiêu dâm cứng; và chỉ có bảy trong số chúng mô tả nam giới thay vì nữ giới.

Vậy điều gì mới?

Do bản chất phát triển của thuật ngữ deepfake, và sự hiểu biết hạn chế của công chúng về (rất nghiêm trọng) hạn chế của các khuôn khổ tổng hợp video con người AI đến nay, tầm quan trọng của LoRA Hunyuan không dễ hiểu đối với một người theo dõi cảnh generative AI một cách hời hợt. Hãy xem lại một số điểm khác biệt chính giữa LoRAs Hunyuan và các phương pháp trước đây về tạo video AI dựa trên danh tính.

1: Cài đặt cục bộ không bị cản trở

Khía cạnh quan trọng nhất của Hunyuan Video là nó có thể được tải xuống cục bộ và nó đặt một hệ thống tạo video AI rất mạnh và không bị kiểm duyệt trong tay người dùng thông thường, cũng như cộng đồng VFX (trong phạm vi các giấy phép có thể cho phép trên các khu vực địa lý).

Lần cuối cùng điều này xảy ra là sự ra đời của mô hình Stable Diffusion của Stability.ai vào mùa hè năm 2022. Vào thời điểm đó, DALL-E2 của OpenAI đã chiếm được trí tưởng tượng của công chúng, mặc dù DALLE-2 là một dịch vụ trả phí với các hạn chế đáng kể (đã tăng lên theo thời gian).

Khi Stable Diffusion trở nên có sẵn và Low-Rank Adaptation sau đó cho phép tạo ra hình ảnh của danh tính của bất kỳ người (người nổi tiếng hay không), sự quan tâm lớn của nhà phát triển và người dùng đã giúp Stable Diffusion vượt qua sự phổ biến của DALLE-2; mặc dù sau này là một hệ thống mạnh mẽ hơn khi xuất xưởng, các quy trình kiểm duyệt của nó được nhìn nhận là gò bó bởi nhiều người dùng của nó và không thể tùy chỉnh.

Có thể lập luận rằng kịch bản tương tự hiện đang áp dụng giữa Sora và Hunyuan – hoặc, chính xác hơn, giữa các hệ thống tạo video tổng hợp hạng Sora độc quyền và các đối thủ mã nguồn mở, trong đó Hunyuan là đầu tiên – nhưng có lẽ không phải là cuối cùng (ở đây, hãy xem xét rằng Flux sẽ cuối cùng đạt được tiến bộ đáng kể trên Stable Diffusion).

Người dùng muốn tạo đầu ra LoRA Hunyuan nhưng thiếu thiết bị hiệu suất cao, có thể, như mọi khi, chuyển quá trình đào tạo GPU sang các dịch vụ tính toán trực tuyến như RunPod. Điều này không giống như tạo video AI trên các nền tảng như Kaiber hoặc Kling, vì không có bộ lọc ngữ nghĩa hoặc dựa trên hình ảnh (kiểm duyệt) được bao gồm trong việc thuê GPU để hỗ trợ một quy trình công việc cục bộ.

2: Không cần ‘video chủ’ và nỗ lực cao

Khi deepfakes xuất hiện vào cuối năm 2017, mã được đăng ẩn danh sẽ phát triển thành các nhánh chính DeepFaceLab và FaceSwap (cũng như hệ thống DeepFaceLive để phát trực tiếp deepfaking).

Phương pháp này yêu cầu việc chăm sóc cẩn thận hàng nghìn hình ảnh khuôn mặt của mỗi danh tính để được trao đổi; nỗ lực ít hơn được đưa vào giai đoạn này, mô hình sẽ kém hiệu quả hơn. Ngoài ra, thời gian đào tạo thay đổi từ 2-14 ngày, tùy thuộc vào phần cứng có sẵn, gây căng thẳng ngay cả trên các hệ thống mạnh mẽ trong thời gian dài.

Khi mô hình cuối cùng đã sẵn sàng, nó chỉ có thể áp dụng khuôn mặt vào video hiện có và thường cần một ‘mục tiêu’ (tức là danh tính thực) gần giống với danh tính được áp dụng.

Gần đây, ROOP, LivePortrait và nhiều khuôn khổ tương tự đã cung cấp chức năng tương tự với nỗ lực ít hơn và thường với kết quả vượt trội – nhưng không có khả năng tạo deepfakes toàn thân chính xác – hoặc bất kỳ yếu tố nào khác ngoài khuôn mặt.

Ví dụ về ROOP Unleashed và LivePortrait (chèn dưới bên trái), từ luồng nội dung của Bob Doyle trên YouTube. Nguồn: https://www.youtube.com/watch?v=i39xeYPBAAM và https://www.youtube.com/watch?v=QGatEItg2Ns

Ngược lại, LoRAs Hunyuan (và các hệ thống tương tự sẽ không thể tránh khỏi) cho phép tạo ra toàn bộ thế giới, bao gồm cả mô phỏng toàn thân của danh tính LoRA được người dùng đào tạo.

3: Tính nhất quán thời gian được cải thiện đáng kể

Tính nhất quán thời gian đã là Đài Holy Grail của video khuếch tán trong vài năm nay. Việc sử dụng LoRA, cùng với các lời nhắc phù hợp, cung cấp cho việc tạo video Hunyuan một tham chiếu danh tính nhất quán để tuân theo. Về lý thuyết (đây là những ngày đầu), có thể đào tạo nhiều LoRAs của một danh tính nhất định, mỗi danh tính mặc quần áo cụ thể.

Dưới những điều kiện đó, quần áo cũng ít có khả năng ‘biến đổi’ trong suốt quá trình tạo video (vì hệ thống tạo ra dựa trên một cửa sổ hạn chế của các khung hình trước).

(Hoặc, như với các hệ thống LoRA dựa trên hình ảnh, có thể áp dụng nhiều LoRAs, chẳng hạn như danh tính + LoRAs trang phục, cho một lần tạo video)

4: Truy cập vào ‘Thử nghiệm con người’

Như tôi gần đây quan sát, lĩnh vực AI tạo ra độc quyền và cấp độ FAANG hiện có vẻ như rất thận trọng với khả năng tổng hợp con người của các dự án của họ, đến mức mà con người hiếm khi xuất hiện trong các trang dự án cho các thông báo và phát hành lớn. Thay vào đó, văn học công bố liên quan ngày càng có xu hướng hiển thị các chủ đề ‘dễ thương’ và ‘không đe dọa’ trong kết quả tổng hợp.

Với sự ra đời của LoRAs Hunyuan, lần đầu tiên, cộng đồng có cơ hội đẩy ranh giới của tổng hợp video con người dựa trên LDM trong một hệ thống mạnh mẽ (thay vì hệ thống biên) và để khám phá đầy đủ chủ đề mà hầu hết chúng ta quan tâm – con người.

Hậu quả

Vì tìm kiếm ‘Hunyuan’ tại cộng đồng Civit chủ yếu hiển thị LoRAs người nổi tiếng và ‘nghiêm túc’ LoRAs, ý nghĩa trung tâm của sự ra đời của LoRAs Hunyuan là chúng sẽ được sử dụng để tạo video khiêu dâm AI (hoặc bôi nhọ) của những người thực – người nổi tiếng và người không nổi tiếng.

Vì mục đích tuân thủ, những người đam mê tạo ra LoRAs Hunyuan và những người thử nghiệm chúng trên các máy chủ Discord khác nhau cẩn thận ngăn chặn các ví dụ về những người thực được đăng. Thực tế là ngay cả hình ảnh deepfakes hiện đã được vũ khí hóa nghiêm trọng; và việc thêm video thực sự vào hỗn hợp này có thể cuối cùng chứng minh những nỗi sợ hãi đã lặp lại trong truyền thông trong bảy năm qua và đã thúc đẩy quy định mới.

Động lực

Như mọi khi, khiêu dâm vẫn là động lực cho công nghệ. Bất kể quan điểm của chúng ta về việc sử dụng như vậy, động cơ thúc đẩy không ngừng nghỉ này thúc đẩy các tiến bộ trong công nghệ tiên tiến có thể cuối cùng mang lại lợi ích cho việc áp dụng chính thống.

Trong trường hợp này, có thể giá sẽ cao hơn bình thường, vì việc phát hành mã nguồn mở của việc tạo video siêu thực có ý nghĩa rõ ràng về việc lạm dụng tội phạm, chính trị và đạo đức.

Một nhóm Reddit (mà tôi sẽ không đặt tên ở đây) dành cho việc tạo video NSFW bằng AI có một máy chủ Discord mở nơi người dùng đang tinh chỉnh luồng làm việc ComfyUI cho việc tạo video khiêu dâm dựa trên Hunyuan. Hàng ngày, người dùng đăng các ví dụ về clip NSFW – nhiều trong số đó có thể được coi là ‘cực đoan’, hoặc ít nhất là căng thẳng các hạn chế được nêu trong quy tắc diễn đàn.

Cộng đồng này cũng duy trì một kho lưu trữ GitHub đáng kể và phát triển các công cụ có thể tải xuống và xử lý video khiêu dâm, để cung cấp dữ liệu đào tạo cho các mô hình mới.

Vì người đào tạo LoRA phổ biến nhất, Kohya-ss, bây giờ hỗ trợ đào tạo LoRA Hunyuan, các rào cản gia nhập đào tạo video tạo ra không giới hạn đang giảm hàng ngày, cùng với các yêu cầu phần cứng cho đào tạo và tạo video Hunyuan.

Khía cạnh quan trọng của các kế hoạch đào tạo chuyên dụng cho AI khiêu dâm (thay vì danh tính – mô hình, chẳng hạn như người nổi tiếng) là một mô hình nền tảng tiêu chuẩn như Hunyuan không được đào tạo cụ thể trên đầu ra NSFW và do đó có thể hoạt động kém khi được yêu cầu tạo ra nội dung NSFW, hoặc không thể phân tách các khái niệm và mối quan hệ đã học trong một cách thực hiện hoặc thuyết phục.

Bằng cách phát triển các mô hình nền tảng NSFW tinh chỉnh và LoRAs, sẽ ngày càng có thể chiếu các danh tính được đào tạo vào một lĩnh vực video ‘khiêu dâm’ chuyên dụng; sau tất cả, đây chỉ là phiên bản video của điều gì đã xảy ra với hình ảnh tĩnh trong hai năm rưỡi qua.

VFX

Sự gia tăng lớn về tính nhất quán thời gian mà LoRAs video Hunyuan cung cấp là một điều lợi rõ ràng cho ngành hiệu ứng hình ảnh AI, vốn dựa rất nhiều vào việc thích nghi với phần mềm mã nguồn mở.

Mặc dù cách tiếp cận LoRA video Hunyuan tạo ra cả khung hình và môi trường, các công ty VFX đã gần như chắc chắn bắt đầu thử nghiệm với việc cô lập các khuôn mặt con người nhất quán về thời gian có thể thu được bằng phương pháp này, để áp dụng hoặc tích hợp khuôn mặt vào cảnh quay nguồn thực.

Giống như cộng đồng đam mê, các công ty VFX phải chờ đợi chức năng hình ảnh-sang-video và video-sang-video của Hunyuan Video, có thể là cầu nối hữu ích nhất giữa nội dung ‘deepfake’ dựa trên LoRA và ID; hoặc tự phát minh, và sử dụng khoảng thời gian này để kiểm tra các khả năng ngoài cùng của khuôn khổ và các bản thích nghi độc quyền tiềm năng, hoặc thậm chí các nhánh độc quyền của Hunyuan Video.

Mặc dù các điều khoản giấy phép cho Hunyuan Video về mặt kỹ thuật cho phép mô tả các cá nhân thực miễn là có sự cho phép, nhưng chúng cấm sử dụng nó ở EU, Vương quốc Anh và Hàn Quốc. Trên nguyên tắc ‘ở lại Vegas’, điều này không nhất thiết có nghĩa là Hunyuan Video sẽ không được sử dụng trong các khu vực này; tuy nhiên, việc sử dụng bất hợp pháp như vậy có thể rủi ro do khả năng kiểm toán dữ liệu bên ngoài để thực thi quy định ngày càng tăng xung quanh AI tạo ra.

Một khu vực khác có thể mơ hồ trong các điều khoản giấy phép nêu:

‘Nếu, vào ngày phát hành phiên bản Tencent Hunyuan, số lượng người dùng hoạt động hàng tháng của tất cả sản phẩm hoặc dịch vụ được cung cấp bởi hoặc cho Người được cấp phép là hơn 100 triệu người dùng hoạt động hàng tháng trong tháng lịch trước, Bạn phải yêu cầu giấy phép từ Tencent, mà Tencent có thể cấp cho Bạn theo quyết định riêng của mình, và Bạn không được ủy quyền thực hiện bất kỳ quyền nào theo Thỏa thuận này trừ khi hoặc cho đến khi Tencent cấp cho Bạn các quyền đó một cách rõ ràng.’

Điều khoản này rõ ràng nhắm vào vô số công ty có khả năng ‘trung gian’ Hunyuan Video cho một cơ thể người dùng tương đối không am hiểu về công nghệ, và những công ty này sẽ được yêu cầu chia sẻ cho Tencent, trên một mức trần người dùng nhất định.

Cho dù việc diễn đạt rộng có thể bao gồm cả gián tiếp sử dụng (tức là thông qua việc cung cấp đầu ra hiệu ứng hình ảnh Hunyuan được kích hoạt trên các bộ phim và chương trình truyền hình phổ biến) có thể cần làm rõ.

Kết luận

Vì video deepfake đã tồn tại trong một thời gian dài, sẽ dễ dàng đánh giá thấp tầm quan trọng của LoRA Hunyuan Video như một cách tiếp cận tổng hợp danh tính và deepfaking; và để giả định rằng những nỗ lực hiện đang thể hiện tại cộng đồng Civit và các Discord và subreddit liên quan đại diện cho một bước nhảy nhỏ về tổng hợp video con người có thể kiểm soát được.

Có khả năng cao hơn là những nỗ lực hiện tại chỉ đại diện cho một phần nhỏ của tiềm năng của Hunyuan Video trong việc tạo ra deepfakes toàn thân và toàn môi trường hoàn toàn thuyết phục; khi thành phần hình ảnh-sang-video được phát hành (được đồn là sẽ xảy ra trong tháng này), một mức độ tạo ra mạnh mẽ hơn nhiều sẽ có sẵn cho cả cộng đồng đam mê và chuyên nghiệp.

Khi Stability.ai phát hành Stable Diffusion vào năm 2022, nhiều người quan sát không thể xác định lý do tại sao công ty lại đưa ra một hệ thống tạo ra như vậy, vào thời điểm đó, có giá trị và mạnh mẽ; với Hunyuan Video, động lực lợi nhuận được tích hợp trực tiếp vào giấy phép – mặc dù nó có thể chứng minh khó khăn cho Tencent để xác định khi một công ty kích hoạt kế hoạch chia sẻ lợi nhuận.

Trong mọi trường hợp, kết quả là giống nhau như năm 2022: các cộng đồng phát triển chuyên dụng đã hình thành ngay lập tức và với sự hào hứng mãnh liệt xung quanh việc phát hành. Một số con đường mà những nỗ lực này sẽ thực hiện trong 12 tháng tới chắc chắn sẽ thúc đẩy các tiêu đề mới.

* Tối đa 136 vào thời điểm xuất bản.

Được xuất bản lần đầu vào thứ ba, ngày 7 tháng 1 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]