Kết nối với chúng tôi

Sự trỗi dậy của Hunyuan Video Deepfakes

Trí tuệ nhân tạo

Sự trỗi dậy của Hunyuan Video Deepfakes

mm
Video Arnie Hunyuan LoRA do Bob Doyle trình bày trên ComfyUI, trên YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – và, chèn bên phải, lấy từ nhiều video mẫu khác nhau cho cùng một LoRA tại Civit.ai

Do bản chất của một số tài liệu được thảo luận ở đây, bài viết này sẽ chứa ít liên kết tham khảo và hình ảnh minh họa hơn bình thường.

Một điều đáng chú ý hiện đang diễn ra trong cộng đồng tổng hợp AI, mặc dù tầm quan trọng của nó có thể mất một thời gian để trở nên rõ ràng. Những người đam mê đang đào tạo các mô hình video AI tạo ra để tái tạo hình ảnh giống người, sử dụng video dựa trên LoRA về mã nguồn mở mới được Tencent phát hành gần đây Khung video Hunyuan.*

Bấm để chơi. Nhiều kết quả khác nhau từ các tùy chỉnh LoRA dựa trên Hunyuan có sẵn miễn phí tại cộng đồng Civit. Bằng cách đào tạo các mô hình thích ứng cấp thấp (LoRA), các vấn đề về độ ổn định thời gian, vốn đã gây khó khăn cho việc tạo video AI trong hai năm, đã được giảm đáng kể. Nguồn: civit.ai

Trong video được hiển thị ở trên, hình ảnh của các nữ diễn viên Natalie Portman, Christina Hendricks và Scarlett Johansson, cùng với nhà lãnh đạo công nghệ Elon Musk, đã được đào tạo thành các tệp bổ sung tương đối nhỏ cho hệ thống video tạo Hunyuan, có thể được cài đặt không có bộ lọc nội dung (chẳng hạn như bộ lọc NSFW) trên máy tính của người dùng.

Người tạo ra Christina Hendricks LoRA được hiển thị ở trên cho biết chỉ có 16 hình ảnh từ Mad Men Chương trình truyền hình là cần thiết để phát triển mô hình (chỉ tải xuống 307mb); nhiều bài đăng từ cộng đồng Stable Diffusion trên Reddit và Discord xác nhận rằng LoRA loại này không yêu cầu lượng dữ liệu đào tạo lớn hoặc thời gian đào tạo dài trong hầu hết các trường hợp.

Cliếm để chơi. Arnold Schwarzenegger được tái hiện trong video Hunyuan LoRA có thể tải xuống tại Civit. Xem https://www.youtube.com/watch?v=1D7B9g9rY68 để biết thêm ví dụ về Arnie, từ người đam mê AI Bob Doyle.

Hunyuan LoRA có thể được đào tạo trên cả hình ảnh tĩnh hoặc video, mặc dù đào tạo trên video đòi hỏi nhiều tài nguyên phần cứng hơn và thời gian đào tạo cũng tăng lên.

Mô hình Video Hunyuan có 13 tỷ tham số, vượt xa 12 tỷ tham số của Sora và vượt xa các mô hình kém khả năng hơn Hồn Nguyên-Địch mô hình được phát hành thành mã nguồn mở vào mùa hè năm 2024, chỉ có 1.5 tỷ tham số.

Như trường hợp hai năm rưỡi trước với Stable Diffusion và LoRA (xem các ví dụ về những người nổi tiếng 'bản địa' của Stable Diffusion 1.5 đây), mô hình nền tảng đang được đề cập có hiểu biết hạn chế hơn nhiều về tính cách của người nổi tiếng, so với mức độ trung thực có thể đạt được thông qua các triển khai LoRA 'tiêm ID'.

Trên thực tế, một LoRA tùy chỉnh, tập trung vào tính cách sẽ được "đi nhờ miễn phí" vào khả năng tổng hợp đáng kể của mô hình Hunyuan cơ bản, mang lại khả năng tổng hợp của con người hiệu quả hơn đáng kể so với khả năng có thể đạt được vào thời đại 2017 deepfake tự động mã hóa hoặc bằng cách cố gắng thêm chuyển động vào hình ảnh tĩnh thông qua các hệ thống như feted Chân dung trực tiếp.

Tất cả các LoRA được mô tả ở đây đều có thể được tải xuống miễn phí từ cộng đồng Civit rất phổ biến, trong khi số lượng lớn các LoRA 'hình ảnh tĩnh' tùy chỉnh cũ hơn cũng có khả năng tạo ra các hình ảnh 'hạt giống' cho quá trình tạo video (tức là chuyển đổi hình ảnh thành video, một bản phát hành đang chờ xử lý cho Hunyuan Video, mặc dù giải pháp thay thế là có thể, tạm thời).

Bấm để chơi. Phía trên là các mẫu từ Flux LoRA 'tĩnh'; phía dưới là các ví dụ từ video LoRA của Hunyuan có sự góp mặt của ca sĩ Taylor Swift. Cả hai LoRA này đều được cung cấp miễn phí tại cộng đồng Civit.

Khi tôi viết những dòng này, trang web Civit cung cấp 128 kết quả tìm kiếm cho từ khóa "Hunyuan"*. Hầu hết trong số đó đều là người mẫu không phù hợp để làm việc; 22 hình ảnh mô tả người nổi tiếng; 18 hình ảnh được thiết kế để tạo điều kiện cho việc sản xuất phim khiêu dâm hạng nặng; và chỉ có bảy hình ảnh mô tả nam giới thay vì nữ giới.

Vậy có gì mới?

Do bản chất phát triển của thuật ngữ sâu sắcvà sự hiểu biết hạn chế của công chúng về (khá nghiêm trọng) Do những hạn chế của các khuôn khổ tổng hợp video AI cho đến nay, tầm quan trọng của Hunyuan LoRA không dễ hiểu đối với những người chỉ theo dõi lĩnh vực AI tạo hình. Hãy cùng xem xét một số điểm khác biệt chính giữa Hunyuan LoRA và các phương pháp tiếp cận trước đây về tạo video AI dựa trên danh tính.

1: Cài đặt cục bộ không bị ràng buộc

Mặt quan trọng nhất của Hunyuan Video là thực tế là nó có thể được tải xuống cục bộ và nó tạo ra một sức mạnh rất lớn và kiểm duyệt Hệ thống tạo video AI nằm trong tay người dùng thông thường cũng như cộng đồng VFX (trong phạm vi giấy phép cho phép trên khắp các khu vực địa lý).

Lần cuối cùng điều này xảy ra là khi phát hành mã nguồn mở mô hình Stability.ai Stable Diffusion vào mùa hè của 2022. Vào thời điểm đó, DALL-E2 của OpenAI đã bị bắt trí tưởng tượng của công chúng, mặc dù DALLE-2 là một dịch vụ trả phí với những hạn chế đáng kể (tăng dần theo thời gian).

Khi Stable Diffusion trở nên khả dụng và Low-Rank Adaptation sau đó đã giúp tạo ra hình ảnh về danh tính của bất kì người (người nổi tiếng hay không), sự quan tâm lớn của nhà phát triển và người tiêu dùng đã giúp Stable Diffusion làm lu mờ sự phổ biến của DALLE-2; mặc dù DALLE-XNUMX là một hệ thống có khả năng hơn ngay khi xuất xưởng, nhưng các quy trình kiểm duyệt của nó được coi là nặng nề bởi nhiều người dùng và không thể tùy chỉnh.

Có thể nói, kịch bản tương tự hiện đang áp dụng giữa Sora và Hunyuan – hay chính xác hơn là giữa Cấp độ Sora hệ thống video tạo ra độc quyền và các đối thủ nguồn mở, trong đó Hunyuan là đối thủ đầu tiên – nhưng có lẽ không phải là đối thủ cuối cùng (ở đây, hãy xem xét rằng Phun ra cuối cùng sẽ đạt được bước tiến đáng kể về Sự khuếch tán ổn định).

Người dùng muốn tạo đầu ra Hunyuan LoRA nhưng lại thiếu thiết bị mạnh mẽ có thể chuyển giao khía cạnh GPU của quá trình đào tạo cho các dịch vụ điện toán trực tuyến chẳng hạn như RunPod. Điều này không giống như việc tạo video AI trên các nền tảng như Kaiber hoặc Kling, vì không có quá trình lọc ngữ nghĩa hoặc dựa trên hình ảnh (kiểm duyệt) nào liên quan đến việc thuê GPU trực tuyến để hỗ trợ quy trình làm việc cục bộ.

2: Không cần video 'Host' và nỗ lực cao

Khi deepfake xuất hiện vào cuối năm 2017, mã được đăng ẩn danh sẽ phát triển thành các nhánh chính thống DeepFaceLabHoán đổi khuôn mặt (cũng như DeepFaceSống hệ thống deepfaking thời gian thực).

Phương pháp này đòi hỏi phải cẩn thận chọn lọc hàng nghìn hình ảnh khuôn mặt của mỗi danh tính để hoán đổi; càng ít nỗ lực trong giai đoạn này, mô hình càng kém hiệu quả. Ngoài ra, thời gian đào tạo thay đổi từ 2-14 ngày, tùy thuộc vào phần cứng có sẵn, gây căng thẳng ngay cả với các hệ thống có khả năng trong thời gian dài.

Khi mô hình cuối cùng đã sẵn sàng, nó chỉ có thể áp đặt khuôn mặt vào video hiện có và thường cần một danh tính 'mục tiêu' (tức là danh tính thực) có vẻ ngoài gần giống với danh tính được chồng lên.

Gần đây hơn, ROP, LivePortrait và nhiều khuôn khổ tương tự đã cung cấp chức năng tương tự với ít nỗ lực hơn nhiều và thường có kết quả vượt trội – nhưng không có khả năng tạo ra chính xác deepfake toàn thân – hoặc bất kỳ thành phần nào khác ngoài khuôn mặt.

Ví dụ về ROOP Unleashed và LivePortrait (hình chèn bên trái phía dưới), từ luồng nội dung của Bob Doyle trên YouTube. Nguồn: https://www.youtube.com/watch?v=i39xeYPBAAM và https://www.youtube.com/watch?v=QGatEItg2Ns

Ví dụ về ROOP Unleashed và LivePortrait (hình nhỏ bên trái phía dưới), từ luồng nội dung của Bob Doyle trên YouTube. Nguồn: https://www.youtube.com/watch?v=i39xeYPBAAM và https://www.youtube.com/watch?v=QGatEItg2Ns

Ngược lại, Hunyuan LoRA (và các hệ thống tương tự chắc chắn sẽ theo sau) cho phép tạo ra toàn bộ thế giới mà không bị hạn chế, bao gồm cả mô phỏng toàn bộ bản sắc LoRA do người dùng đào tạo.

3: Sự nhất quán về thời gian được cải thiện đáng kể

Sự nhất quán về thời gian đã được Chén Thánh của video khuếch tán trong nhiều năm nay. Việc sử dụng LoRA, cùng với các lời nhắc thích hợp, cung cấp cho thế hệ video Hunyuan một tham chiếu danh tính liên tục để tuân thủ. Về mặt lý thuyết (đây là những ngày đầu), người ta có thể đào tạo nhiều LoRA có một danh tính cụ thể, mỗi LoRA mặc một loại trang phục cụ thể.

Dưới sự bảo trợ đó, quần áo cũng ít có khả năng "biến đổi" trong suốt quá trình tạo video (vì hệ thống tạo ra khung hình tiếp theo dựa trên một khoảng thời gian rất hạn chế các khung hình trước đó).

(Ngoài ra, giống như các hệ thống LoRA dựa trên hình ảnh, người ta có thể chỉ cần áp dụng nhiều LoRA, chẳng hạn như LoRA nhận dạng + trang phục, cho một thế hệ video duy nhất)

4: Truy cập vào 'Thí nghiệm trên con người'

Như tôi gần đây quan sát, lĩnh vực AI tạo ra độc quyền và cấp FAANG hiện có vẻ rất cảnh giác với những lời chỉ trích tiềm ẩn liên quan đến khả năng tổng hợp của con người trong các dự án của mình, rằng thực tế người hiếm khi xuất hiện trên trang dự án cho các thông báo và bản phát hành quan trọng. Thay vào đó, các tài liệu quảng cáo liên quan ngày càng có xu hướng hiển thị các chủ đề "dễ thương" và "không gây đe dọa" trong các kết quả tổng hợp.

Với sự ra đời của Hunyuan LoRAs, lần đầu tiên, cộng đồng có cơ hội mở rộng ranh giới tổng hợp video của con người dựa trên LDM trong một hệ thống có khả năng cao (thay vì chỉ ở mức trung bình) và khám phá đầy đủ chủ đề mà hầu hết chúng ta quan tâm nhất – con người.

Những gợi ý

Vì tìm kiếm 'Hunyuan' trong cộng đồng Civit chủ yếu trả về các LoRA của người nổi tiếng và LoRA 'hardcore', nên hàm ý chính của sự ra đời của Hunyuan LoRA là chúng sẽ được sử dụng để tạo ra các video khiêu dâm AI (hoặc phỉ báng) về người thật - cả người nổi tiếng và người vô danh.

Vì mục đích tuân thủ, những người đam mê tạo ra Hunyuan LoRA và thử nghiệm chúng trên nhiều máy chủ Discord khác nhau cẩn thận không đăng tải các ví dụ về người thật. Thực tế là ngay cả hình ảnh- dựa trên deepfakes hiện nay được vũ trang nghiêm ngặt; và triển vọng thêm các video thực sự chân thực vào hỗn hợp cuối cùng có thể biện minh cho nỗi sợ hãi gia tăng đã liên tục xuất hiện trên các phương tiện truyền thông trong bảy năm qua và đã thúc đẩy những điều mới quy định.

Động lực

Như thường lệ, khiêu dâm vẫn còn động lực thúc đẩy công nghệ. Bất kể quan điểm của chúng ta về cách sử dụng như vậy là gì, động lực không ngừng nghỉ này thúc đẩy những tiến bộ trong công nghệ tiên tiến có thể mang lại lợi ích cho việc áp dụng rộng rãi hơn.

Trong trường hợp này, giá có thể sẽ cao hơn bình thường vì việc cung cấp mã nguồn mở cho việc tạo video siêu thực có thể dẫn đến việc sử dụng sai mục đích vì lý do tội phạm, chính trị và đạo đức.

Một nhóm Reddit (mà tôi sẽ không nêu tên ở đây) dành riêng cho việc tạo ra nội dung video NSFW bằng AI có một máy chủ Discord mở liên quan, nơi người dùng đang tinh chỉnh Giao diện người dùng thoải mái Quy trình làm việc cho việc tạo video khiêu dâm dựa trên Hunyuan. Hàng ngày, người dùng đăng tải các ví dụ về clip NSFW – nhiều clip trong số đó có thể được coi là "cực đoan", hoặc ít nhất là vượt quá các hạn chế được nêu trong quy tắc diễn đàn.

Cộng đồng này cũng duy trì một kho lưu trữ GitHub lớn và được phát triển tốt với các công cụ có thể tải xuống và xử lý video khiêu dâm, nhằm cung cấp dữ liệu đào tạo cho các mô hình mới.

Kể từ khi trình huấn luyện LoRA phổ biến nhất, Kohya-ss, hiện hỗ trợ đào tạo Hunyuan LoRA, các rào cản gia nhập vào đào tạo video tạo ra không giới hạn đang giảm dần hàng ngày, cùng với các yêu cầu về phần cứng để đào tạo và tạo video về Hunyuan.

Yếu tố quan trọng của các chương trình đào tạo chuyên sâu dành cho AI dựa trên nội dung khiêu dâm (thay vì bản sắc- các mô hình dựa trên, chẳng hạn như người nổi tiếng) là một mô hình nền tảng tiêu chuẩn như Hunyuan không được đào tạo cụ thể về đầu ra NSFW và do đó có thể hoạt động kém khi được yêu cầu tạo nội dung NSFW hoặc không thể gỡ rối các khái niệm và mối liên hệ đã học theo cách trình bày hoặc thuyết phục.

Bằng cách phát triển các mô hình nền tảng NSFW và LoRA được tinh chỉnh, việc đưa các danh tính đã được đào tạo vào một miền video 'khiêu dâm' chuyên dụng sẽ ngày càng có thể thực hiện được; xét cho cùng, đây chỉ là phiên bản video của thứ gì đó đã xảy ra rồi cho những hình ảnh tĩnh trong hai năm rưỡi qua.

VFX

Sự gia tăng đáng kể về tính nhất quán về mặt thời gian mà Hunyuan Video LoRA mang lại là một lợi ích rõ ràng cho ngành công nghiệp hiệu ứng hình ảnh AI, vốn phụ thuộc rất nhiều vào việc áp dụng phần mềm nguồn mở.

Mặc dù phương pháp Hunyuan Video LoRA tạo ra toàn bộ khung hình và môi trường, các công ty VFX chắc chắn đã bắt đầu thử nghiệm việc tách biệt các khuôn mặt người có cùng thời gian có thể thu được bằng phương pháp này, để chồng hoặc tích hợp khuôn mặt vào cảnh quay gốc trong thế giới thực.

Giống như cộng đồng người yêu thích, các công ty VFX phải chờ chức năng chuyển đổi hình ảnh sang video và video sang video của Hunyuan Video, đây có khả năng là cầu nối hữu ích nhất giữa nội dung 'deepfake' dựa trên ID do LoRA điều khiển; hoặc ứng biến và sử dụng khoảng thời gian này để thăm dò các khả năng bên ngoài của khuôn khổ và các khả năng điều chỉnh tiềm năng, thậm chí là các nhánh độc quyền nội bộ của Hunyuan Video.

Thông qua Hợp đồng Về mặt kỹ thuật, Hunyuan Video cho phép mô tả hình ảnh người thật, miễn là được cấp phép, nhưng họ cấm sử dụng ở EU, Vương quốc Anh và Hàn Quốc. Theo nguyên tắc "ở lại Las Vegas", điều này không nhất thiết có nghĩa là Hunyuan Video sẽ không được sử dụng ở những khu vực này; tuy nhiên, viễn cảnh kiểm toán dữ liệu bên ngoài để thực thi các quy định ngày càng tăng xung quanh AI tạo sinh, có thể khiến việc sử dụng bất hợp pháp này trở nên nguy hiểm.

Một điều khoản cấp phép có khả năng mơ hồ khác nêu rõ:

'Nếu vào ngày phát hành phiên bản Tencent Hunyuan, số lượng người dùng hoạt động hàng tháng của tất cả các sản phẩm hoặc dịch vụ do Bên được cấp phép cung cấp hoặc dành cho Bên được cấp phép lớn hơn 100 triệu người dùng hoạt động hàng tháng trong tháng dương lịch trước đó, Bạn phải yêu cầu Tencent cấp giấy phép, Tencent có thể cấp cho Bạn theo quyết định riêng của mình và Bạn không được phép thực hiện bất kỳ quyền nào theo Thỏa thuận này trừ khi hoặc cho đến khi Tencent cấp cho Bạn những quyền đó một cách rõ ràng.'

Điều khoản này rõ ràng nhắm vào nhiều công ty có khả năng "làm trung gian" cho Hunyuan Video để phục vụ một nhóm người dùng tương đối ít hiểu biết về công nghệ và sẽ buộc Tencent phải tham gia vào hoạt động này, khi số lượng người dùng vượt quá một ngưỡng nhất định.

Liệu cách diễn đạt chung có thể bao hàm hay không không trực tiếp việc sử dụng (tức là thông qua việc cung cấp hiệu ứng hình ảnh hỗ trợ Hunyuan trong các bộ phim và chương trình truyền hình phổ biến) có thể cần được làm rõ.

Kết luận

Vì video deepfake đã tồn tại trong một thời gian dài, nên chúng ta dễ đánh giá thấp tầm quan trọng của Hunyuan Video LoRA như một phương pháp tiếp cận tổng hợp danh tính và deepfake; và cho rằng những phát triển hiện đang diễn ra trong cộng đồng Civit, cũng như tại các Discord và subreddit liên quan, chỉ là động lực gia tăng hướng tới tổng hợp video do con người thực sự kiểm soát được.

Nhiều khả năng là những nỗ lực hiện tại chỉ chiếm một phần nhỏ trong tiềm năng của Hunyuan Video trong việc tạo ra các video deepfake toàn thân và toàn môi trường hoàn toàn thuyết phục; sau khi thành phần chuyển đổi hình ảnh thành video được phát hành (có tin đồn là sẽ diễn ra trong tháng này), cả cộng đồng người yêu thích và chuyên nghiệp sẽ có được khả năng tạo ra video ở cấp độ chi tiết hơn nhiều.

Khi Stability.ai phát hành Stable Diffusion vào năm 2022, nhiều nhà quan sát không thể xác định được lý do tại sao công ty lại cho đi thứ mà vào thời điểm đó là một hệ thống sinh sản có giá trị và mạnh mẽ như vậy. Với Hunyuan Video, động cơ lợi nhuận được xây dựng trực tiếp vào giấy phép – mặc dù Tencent có thể gặp khó khăn trong việc xác định thời điểm một công ty kích hoạt chương trình chia sẻ lợi nhuận.

Trong mọi trường hợp, kết quả vẫn giống như năm 2022: các cộng đồng phát triển tận tụy đã được thành lập ngay lập tức và với sự nhiệt tình mãnh liệt xung quanh việc phát hành. Một số con đường mà những nỗ lực này sẽ đi trong 12 tháng tới chắc chắn sẽ thúc đẩy các tiêu đề mới.

 

* Lên đến 136 vào thời điểm xuất bản.

Lần đầu tiên xuất bản vào Thứ Ba, ngày 7 tháng 2025 năm XNUMX

Người viết về máy học, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Cựu giám đốc nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên Hệ: [email được bảo vệ]
Twitter: @manders_ai