Yapay Zeka

Hunyuan Video Deepfake'lerinin Yükselişi

Yayınlanan Ocak 7, 2025

Martin Anderson

Bob Doyle tarafından ComfyUI'de, YouTube'da (https://www.youtube.com/watch?v=1D7B9g9rY68) gösterilen bir Arnie Hunyuan Video LoRA - ve sağdaki ekte, Civit.ai'de aynı LoRA için çeşitli örnek videolardan alıntılar

Burada tartışılan bazı materyallerin doğası gereği, bu makalede normalden daha az referans bağlantısı ve resim yer alacaktır.

AI sentez topluluğunda şu anda dikkate değer bir şey yaşanıyor, ancak bunun öneminin anlaşılması biraz zaman alabilir. Hobiciler, video tabanlı LoRA'lar Tencent'in yakın zamanda yayınladığı açık kaynaklı Hunyuan Video çerçevesi.*

Oynatmak için tıklayın. Hunyuan tabanlı LoRA özelleştirmelerinden çeşitli sonuçlar Civit topluluğunda serbestçe kullanılabilir. Düşük rütbeli adaptasyon modelleri (LoRA'lar) eğitilerek, iki yıldır AI video üretimini etkileyen zamansal kararlılık sorunları önemli ölçüde azaltılır. Kaynaklar: civit.ai

Yukarıda gösterilen videoda, aktrisler Natalie Portman, Christina Hendricks ve Scarlett Johansson'un benzerlikleri, teknoloji lideri Elon Musk ile birlikte, Hunyuan üretken video sistemi için nispeten küçük eklenti dosyalarına dönüştürülmüştür. içerik filtreleri olmadan (NSFW filtreleri gibi) bir kullanıcının bilgisayarında.

Yukarıda gösterilen Christina Hendricks LoRA'nın yaratıcısı, yalnızca 16 görüntünün Mad Men Modeli geliştirmek için bir TV şovuna ihtiyaç duyuldu (sadece 307 MB'lık bir indirme); Reddit ve Discord'daki Stable Diffusion topluluğundan gelen çok sayıda gönderi, bu tür LoRA'ların çoğu durumda yüksek miktarda eğitim verisi veya yüksek eğitim süreleri gerektirmediğini doğruluyor.

Cyalayarak oynamak. Arnold Schwarzenegger, Civit'ten indirilebilen bir Hunyuan LoRA videosunda hayata geçiriliyor. AI tutkunu Bob Doyle'un daha fazla Arnie örneği için https://www.youtube.com/watch?v=1D7B9g9rY68 adresine bakın.

Hunyuan LoRA'ları statik görüntüler veya videolar üzerinde eğitilebilir, ancak videolar üzerinde eğitim daha fazla donanım kaynağı ve daha fazla eğitim süresi gerektirir.

Hunyuan Video modeli, Sora'nın 13 milyar parametresini aşan ve daha az yetenekli olanlardan çok daha üstün olan 12 milyar parametreye sahiptir Hunyuan-DiT 2024 yazında açık kaynaklı olarak piyasaya sürülen model, sadece 1.5 milyar parametresi var.

Durum böyleydi iki buçuk yıl önce Stable Diffusion ve LoRA ile (Stable Diffusion 1.5'in 'yerel' ünlülerinin örneklerine bakın) okuyun), söz konusu temel model, 'ID-enjekte edilen' LoRA uygulamalarıyla elde edilebilecek sadakat düzeyine kıyasla, ünlü kişilikler hakkında çok daha sınırlı bir anlayışa sahiptir.

Etkili bir şekilde, özelleştirilmiş, kişiliğe odaklı bir LoRA, temel Hunyuan modelinin önemli sentez yeteneklerinden 'ücretsiz bir şekilde' yararlanıyor ve 2017 dönemi itibarıyla elde edilebilecek olandan belirgin şekilde daha etkili bir insan sentezi sunuyor. otomatik kodlayıcı deepfake'ler veya statik görüntülere, kutlanan sistemler gibi sistemler aracılığıyla hareket eklemeye çalışarak Canlı Portre.

Burada tasvir edilen tüm LoRA'lar oldukça popüler Civit topluluğundan ücretsiz olarak indirilebilirken, daha bol sayıda eski özel yapım 'statik görüntü' LoRA'ları da potansiyel olarak video oluşturma süreci için 'tohum' görüntüleri oluşturabilir (yani, görüntüden videoya, Hunyuan Video için bekleyen bir sürüm olsa da) geçici çözümler mümkündür(şimdilik).

Oynatmak için tıklayın. Yukarıda, 'statik' bir Flux LoRA'dan örnekler; aşağıda ise müzisyen Taylor Swift'in yer aldığı Hunyuan video LoRA'sından örnekler yer alıyor. Bu LoRA'ların her ikisi de Civit topluluğunda ücretsiz olarak mevcuttur.

Bu yazıyı yazdığım sırada, Civit web sitesi 'Hunyuan' için 128 arama sonucu sunuyor. Bunların neredeyse tamamı bir şekilde NSFW modeller; 22'si ünlüleri tasvir ediyor; 18'i hardcore pornografinin üretimini kolaylaştırmak için tasarlanmış; ve bunlardan sadece yedisi kadınları değil erkekleri tasvir ediyor.

Ee başka?

dolayı gelişen doğa dönemin deepfakeve (konusunda sınırlı kamuoyu anlayışıoldukça şiddetli) Yapay zeka insan video sentezleme çerçevelerinin bugüne kadarki sınırlamaları göz önüne alındığında, Hunyuan LoRA'nın önemi, üretken yapay zeka alanını yakından takip eden biri için anlaşılması kolay değildir. Hunyuan LoRA'lar ile kimlik tabanlı yapay zeka video üretimine yönelik önceki yaklaşımlar arasındaki bazı temel farkları inceleyelim.

1: Sınırsız Yerel Kurulum

Hunyuan Video'nun en önemli yönü, yerel olarak indirilebilmesi ve çok güçlü ve sansürsüz Hem sıradan kullanıcıların hem de VFX topluluğunun (lisansların coğrafi bölgelere göre izin verdiği ölçüde) elinde yapay zeka video üretim sistemi.

Bu durum en son Stability.ai Stable Diffusion modelinin açık kaynaklı sürümünün yayınlanması sırasında yaşandı 2022 yazındaO zamanlar, OpenAI'nin DALL-E2'si vardı Yakalanan DALLE-2, zamanla artan önemli kısıtlamalara sahip ücretli bir hizmet olmasına rağmen, halkın hayal gücü bu yöndeydi.

Kararlı Yayılma mümkün hale geldiğinde ve Düşük Dereceli Uyum, kimliğin görüntülerini üretmeyi mümkün kıldı. herhangi Kişi (ünlü veya değil), geliştirici ve tüketici ilgisinin büyük odağı, Stable Diffusion'ın DALLE-2'nin popülaritesini gölgede bırakmasına yardımcı oldu; ikincisi, kullanıma hazır olarak daha yetenekli bir sistem olmasına rağmen, sansür rutinleri külfetli olarak görüldü kullanıcılarının birçoğu tarafından kullanılamıyordu ve özelleştirme mümkün değildi.

Tartışmalı olarak, aynı senaryo şimdi Sora ve Hunyuan arasında da geçerlidir - veya daha doğrusu, arasında Sora sınıfı tescilli üretken video sistemleri ve Hunyuan'ın ilk olduğu, ancak muhtemelen son olmayacağı açık kaynaklı rakipler (burada, şunu düşünün Akı (sonunda Kararlı Difüzyon konusunda önemli bir mesafe kat edecektir).

Hunyuan LoRA çıktısı oluşturmak isteyen ancak etkili bir şekilde güçlü bir donanıma sahip olmayan kullanıcılar, her zamanki gibi eğitimin GPU yönünü çevrimiçi hesaplama hizmetlerine devredebilir RunPod gibiBu, Kaiber veya Kling gibi platformlarda yapay zeka videoları oluşturmakla aynı şey değildir, çünkü aksi takdirde yerel bir iş akışını desteklemek için çevrimiçi bir GPU kiralamak, herhangi bir anlamsal veya görüntü tabanlı filtreleme (sansürleme) gerektirmez.

2: 'Ana Bilgisayar' Videolarına Gerek Yok ve Çok Emek Gerektiriyor

Deepfake'ler 2017'nin sonunda sahneye çıktığında, anonim olarak yayınlanan kodlar ana akım çatallanmalara dönüşecekti Derin Yüz Laboratuvarı ve Yüz nakli (yanı sıra DerinYüzCanlı (gerçek zamanlı deepfake sistemi).

Bu yöntem, takas edilecek her kimliğin binlerce yüz görüntüsünün titizlikle düzenlenmesini gerektiriyordu; bu aşamaya ne kadar az çaba harcanırsa, model o kadar az etkili olurdu. Ayrıca, eğitim süreleri, mevcut donanıma bağlı olarak 2-14 gün arasında değişiyordu ve bu da uzun vadede yetenekli sistemleri bile zorluyordu.

Model nihayet hazır olduğunda, yalnızca mevcut videoya yüzler yerleştirebiliyordu ve genellikle üst üste bindirilen kimliğe görünüşte yakın bir 'hedef' (yani gerçek) kimliğe ihtiyaç duyuyordu.

Son zamanlarda, ROOP, LivePortrait ve çok sayıda benzer çerçeve, çok daha az çabayla ve genellikle üstün sonuçlarla benzer işlevselliği sağladı - ancak doğru sonuçlar üretme kapasitesi yoktu tam vücut deepfake'ler – veya yüzler dışındaki herhangi bir unsur.

Bob Doyle'un YouTube'daki içerik akışından ROOP Unleashed ve LivePortrait örnekleri (sol alt ek). Kaynaklar: https://www.youtube.com/watch?v=i39xeYPBAAM ve https://www.youtube.com/watch?v=QGatEItg2Ns

Bob Doyle'un YouTube'daki içerik akışından ROOP Unleashed ve LivePortrait örnekleri (sol alt köşede). Kaynaklar: https://www.youtube.com/watch?v=i39xeYPBAAM ve https://www.youtube.com/watch?v=QGatEItg2Ns

Buna karşılık, Hunyuan LoRA'ları (ve kaçınılmaz olarak bunları takip edecek benzer sistemler) kullanıcı tarafından eğitilen LoRA kimliğinin tüm vücut simülasyonu da dahil olmak üzere, tüm dünyaların sınırsız bir şekilde yaratılmasına olanak tanır.

3: Zamansal Tutarlılıkta Büyük İyileştirme

Zamansal tutarlılık sağlandı Kutsal Kase Birkaç yıldır difüzyon videosu. Uygun istemlerle birlikte bir LoRA'nın kullanımı, Hunyuan video nesline uyması gereken sürekli bir kimlik referansı verir. Teoride (bunlar erken günler), her biri belirli kıyafetler giyen belirli bir kimliğe sahip birden fazla LoRA eğitilebilir.

Bu himaye altında, giysilerin de bir video oluşturma süreci boyunca 'mutasyona uğrama' olasılığı daha düşüktür (çünkü oluşturma sistemi bir sonraki kareyi önceki karelerin çok sınırlı bir penceresine dayandırır).

(Alternatif olarak, görüntü tabanlı LoRA sistemlerinde olduğu gibi, kimlik + kostüm LoRA'ları gibi birden fazla LoRA'yı tek bir video nesline uygulayabilirsiniz)

4: 'İnsan Deneyi'ne Erişim

Ben olduğum gibi yakın zamanda gözlendi, tescilli ve FAANG düzeyindeki üretken AI sektörü artık projelerinin insan sentez yetenekleriyle ilgili olası eleştirilere karşı o kadar temkinli görünüyor ki, gerçek Önemli duyuru ve sürümler için proje sayfalarında nadiren görünürler. Bunun yerine, ilgili tanıtım literatürü, sentezlenmiş sonuçlarda giderek daha fazla "sevimli" ve "tehdit oluşturmayan" konuları gösterme eğilimindedir.

Hunyuan LoRA'ların gelişiyle birlikte, topluluk ilk kez LDM tabanlı insan video sentezinin sınırlarını son derece yetenekli (marjinal değil) bir sistemde zorlama ve çoğumuzun, yani insanların en çok ilgisini çeken konuyu tam olarak keşfetme fırsatına sahip oldu.

Etkileri

Civit topluluğunda 'Hunyuan' araması çoğunlukla ünlü LoRA'ları ve 'hardcore' LoRA'ları gösterdiğinden, Hunyuan LoRA'larının ortaya çıkmasının temel anlamı, gerçek insanların - ünlüler ve tanınmayanlar - yapay zeka pornografik (veya başka şekilde iftira niteliğinde) videolarını oluşturmak için kullanılacaklarıdır.

Uyumluluk amaçları için, Hunyuan LoRA'ları oluşturan ve bunları çeşitli Discord sunucularında deneyen hobiciler, gerçek kişilerin örneklerinin yayınlanmasını yasaklamaya dikkat ediyor. Gerçek şu ki, görüntü-tabanlı deepfake'ler artık ciddi şekilde silahlandırılmış; ve karışıma gerçekten gerçekçi videolar ekleme olasılığı, son yedi yıldır medyada tekrarlanan ve yeni korkulara yol açan artan korkuları nihayet haklı çıkarabilir. yönetmelik.

İtici Güç

Her zamanki gibi porno kalıntılar Teknolojinin itici gücüBu tür kullanımlara ilişkin görüşümüz ne olursa olsun, bu amansız ivme motoru, nihayetinde daha ana akım benimsenmeye fayda sağlayabilecek en son teknolojideki ilerlemeleri yönlendirir.

Bu durumda fiyatın normalden daha yüksek olması mümkün, zira aşırı gerçekçi video üretiminin açık kaynaklı hale getirilmesinin suç, siyaset ve etik açıdan kötüye kullanımı açısından bariz sonuçları var.

NSFW video içeriğinin yapay zeka tarafından üretilmesine adanmış bir Reddit grubunun (burada adını vermeyeceğim) kullanıcıların rafine ettiği ilişkili, açık bir Discord sunucusu var Rahat Kullanıcı Arayüzü Hunyuan merkezli video porno üretimi için iş akışları. Kullanıcılar her gün, çoğu makul bir şekilde "aşırı" veya en azından forum kurallarında belirtilen kısıtlamaları zorlayan NSFW klip örnekleri paylaşıyor.

Bu topluluk aynı zamanda yeni modeller için eğitim verisi sağlamak amacıyla pornografik videoları indirip işleyebilen araçların yer aldığı kapsamlı ve iyi geliştirilmiş bir GitHub deposunu da korumaktadır.

En popüler LoRA eğitmeni Kohya-ss'den beri, artık Hunyuan LoRA eğitimini destekliyorSınırsız üretken video eğitimine giriş engelleri her geçen gün azalıyor, donanım gereksinimleriyle birlikte Hunyuan eğitimi ve video üretimi için.

Porno tabanlı yapay zekaya yönelik özel eğitim planlarının kritik yönü ( kimlik-ünlüler gibi temel modeller) Hunyuan gibi standart bir temel modelin NSFW çıktısı üzerinde özel olarak eğitilmemiş olması ve bu nedenle NSFW içerik üretmesi istendiğinde zayıf performans gösterebilmesi veya başarısız olabilmesidir. çözmek Öğrenilen kavram ve çağrışımların performatif ya da ikna edici bir biçimde aktarılması.

İnce ayarlı NSFW temel modelleri ve LoRA'lar geliştirerek, eğitilmiş kimlikleri özel bir 'porno' video alanına yansıtmak giderek daha mümkün olacak; sonuçta bu, yalnızca bir şeyin video versiyonudur zaten gerçekleşti Son iki buçuk yıldaki hareketsiz görüntüler için.

VFX

Hunyuan Video LoRA'ların sunduğu zamansal tutarlılıktaki büyük artış, açık kaynaklı yazılımlara büyük ölçüde uyum sağlayan yapay zeka görsel efekt endüstrisi için açık bir nimettir.

Hunyuan Video LoRA yaklaşımı bütün bir kare ve ortam oluşturmasına rağmen, VFX şirketleri, bu yöntemle elde edilebilen zamansal olarak tutarlı insan yüzlerini izole ederek, yüzleri gerçek dünya kaynak görüntülerine yerleştirmek veya entegre etmek için denemeler yapmaya başlamışlardır.

Tıpkı amatör topluluklar gibi, VFX şirketleri de potansiyel olarak LoRA odaklı, kimlik tabanlı 'deepfake' içerikler arasında en kullanışlı köprü olan Hunyuan Video'nun görüntü-video ve video-video işlevselliğini beklemek zorundadır; ya da doğaçlama yapmak ve bu aralığı çerçevenin dış yeteneklerini ve olası uyarlamaları ve hatta Hunyuan Video'nun tescilli şirket içi çatallarını araştırmak için kullanmak zorundadır.

Rağmen lisans şartları Hunyuan Video, teknik olarak izin verildiği sürece gerçek kişilerin tasvirine izin verse de, AB, Birleşik Krallık ve Güney Kore'de kullanımını yasaklıyor. 'Vegas'ta kalma' ilkesine göre, bu Hunyuan Video'nun bu bölgelerde kullanılmayacağı anlamına gelmez; ancak, bir veri koruma yasasının uygulanması için harici veri denetimleri olasılığı Üretken AI etrafında büyüyen düzenlemeler, bu tür yasadışı kullanımları riskli hale getirebilir.

Lisans şartlarının potansiyel olarak belirsiz bir diğer kısmı ise şöyle:

'Tencent Hunyuan sürümünün yayınlanma tarihinde, Lisans Sahibi tarafından veya Lisans Sahibi adına sunulan tüm ürün veya hizmetlerin aylık aktif kullanıcı sayısı bir önceki takvim ayında 100 milyondan fazla ise, Tencent'ten bir lisans talep etmelisiniz. Tencent, bu lisansı kendi takdirine bağlı olarak size verebilir ve Tencent size aksi yönde açıkça bu hakları verene kadar bu Sözleşme kapsamındaki hakların hiçbirini kullanma yetkiniz yoktur.'

Bu madde açıkça, Hunyuan Video'yu nispeten teknoloji konusunda bilgisiz bir kullanıcı grubu için 'aracı' olarak kullanma olasılığı olan ve belirli bir kullanıcı tavanının üstünde Tencent'i devreye sokmak zorunda kalacak çok sayıda şirkete yöneliktir.

Geniş ifadenin aynı zamanda şunları da kapsayıp kapsamayacağı dolaylı Kullanım (yani, popüler filmlerde ve TV'de Hunyuan destekli görsel efekt çıktılarının sağlanması yoluyla) açıklığa kavuşturulmaya ihtiyaç duyabilir.

Sonuç

Deepfake video uzun zamandır var olduğundan, Hunyuan Video LoRA'nın kimlik sentezi ve deepfake'e bir yaklaşım olarak önemini hafife almak kolay olurdu; ve şu anda Civit topluluğunda ve ilgili Discord'larda ve alt dizinlerde ortaya çıkan gelişmelerin, gerçekten kontrol edilebilir insan video sentezine doğru yalnızca kademeli bir ilerlemeyi temsil ettiğini varsaymak kolay olurdu.

Daha muhtemel olanı ise, şu anki çabaların Hunyuan Video'nun tamamen ikna edici tam vücut ve tam ortam deepfake'leri yaratma potansiyelinin yalnızca küçük bir kısmını temsil etmesi; görüntü-video bileşeni yayınlandığında (bu ay gerçekleşeceği söyleniyor), hem amatör hem de profesyonel topluluklar için çok daha ayrıntılı bir üretken güç seviyesi mevcut olacak.

Stability.ai 2022'de Stable Diffusion'ı yayınladığında, birçok gözlemci şirketin o zamanlar bu kadar değerli ve güçlü bir üretken sistemi neden bedavaya verdiğini anlayamadı. Hunyuan Video ile kar amacı doğrudan lisansa dahil edildi - ancak Tencent'in bir şirketin kar paylaşım planını ne zaman tetiklediğini belirlemesi zor olabilir.

Her durumda, sonuç 2022'dekiyle aynı: adanmış geliştirme toplulukları derhal ve yayın etrafında yoğun bir coşkuyla oluştu. Bu çabaların önümüzdeki 12 ayda alacağı yollardan bazıları kesinlikle yeni manşetlere yol açacak.

* Yayımlandığı tarihe kadar 136'ya kadar.

İlk yayın tarihi Salı, 7 Ocak 2025

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai