Yapay Zekâ
Hunyuan Video Derin Sahteciliklerinin Yükselişi

Burada tartışılan bazı materyallerin doğası nedeniyle, bu makale genellikle olduğundan daha az referans bağlantısı ve resim içerecektir.
Yapay zeka sentez topluluğu içinde dikkat çekici bir şey şu anda gerçekleşiyor, ancak öneminin anlaşılması bir süre alabilir. Hobiler, insanların benzerliklerini yeniden üretmek için video tabanlı LoRAs kullanarak Tencent’in yakın zamanda piyasaya sürdüğü açık kaynaklı Hunyuan Video çerçevesi üzerinde generatif AI video modellerini eğitiyorlar.*
Oynatmak için tıklayın. Civit topluluğu’nda ücretsiz olarak sunulan Hunyuan tabanlı LoRA özelleştirmelerinden çeşitli sonuçlar. Düşük dereceli uyarlamalı modelleri (LoRAs) eğitmek, AI video oluşturması için iki yıldır sorun olan zaman stabilitesi sorunlarını önemli ölçüde azaltıyor. Kaynaklar: civit.ai
Yukarıdaki videoda, Natalie Portman, Christina Hendricks ve Scarlett Johansson gibi aktrislerin ve teknoloji lideri Elon Musk’un benzerlikleri, Hunyuan generatif video sistemi için nispeten küçük eklenti dosyalarına eğitildi ve bu dosyalar içerik filtreleri (örneğin NSFW filtreleri) olmadan bir kullanıcının bilgisayarına kurulabilir.
Yukarıdaki Christina Hendricks LoRA’nın yaratıcısı, modeli geliştirmek için Mad Men TV şovu’nun sadece 16 resmine ihtiyaç duyduğunu belirtiyor (bu, 307mb indirme büyüklüğünde bir dosyadır); Reddit ve Discord’daki Stable Diffusion topluluğundan çoklu gönderiler, bu tür LoRAs’ın genellikle yüksek miktarda eğitim verisi veya uzun eğitim süreleri gerektirmediğini onaylıyor.
Oynatmak için tıklayın. Arnold Schwarzenegger, Civit’te indirilebilen bir Hunyuan video LoRA’sı ile canlandırılıyor. Daha fazla Arnie örnekleri için https://www.youtube.com/watch?v=1D7B9g9rY68 adresini ziyaret edin, AI sever Bob Doyle’dan.
Hunyuan LoRAs, statik resimler veya videolardan eğitilebilir, ancak videoyu eğitmek daha fazla donanım kaynağı ve artan eğitim süresi gerektirir.
Hunyuan Video modeli, 13 milyar parametreye sahip olup, Sora’nın 12 milyar parametresini aşmakta ve 2024 yazında açık kaynak olarak yayınlanan ve Hunyuan-DiT modelinin çok daha az yetenekli bir modeli olan 1,5 milyar parametreyi önemli ölçüde aşmaktadır. bu modele sahiptir.
İki buçuk yıl önce Stable Diffusion ve LoRA ile olduğu gibi (örneğin, Stable Diffusion 1.5’in ‘yerli’ ünlülerinin örneklerini burada görebilirsiniz), ilgili temel model, ünlü kişiliklerin kişiliklerini anlamak konusunda çok daha sınırlı bir anlayışa sahiptir, bu da ‘ID-enjekte’ LoRA uygulamaları yoluyla elde edilebilecek doğruluk düzeyiyle karşılaştırıldığında.
Esasen, kişilik odaklı bir LoRA, temel Hunyuan modelinin önemli sentez yeteneklerine ücretsiz bir yolculuk elde eder ve bu, 2017 dönemi oto-encoder derin sahteciliklerinden veya statik resimlere hareket eklemek için LivePortrait gibi sistemleri kullanmaktan daha etkili bir insan sentezini sunar.
Burada gösterilen tüm LoRAs, Civit topluluğundan ücretsiz olarak indirilebilir, daha fazla sayıda eski, özel olarak üretilen ‘statik resim’ LoRAs da potansiyel olarak video oluşturma işlemi için ‘tohum’ resimleri oluşturabilir (yani, resimden videoya, Hunyuan Video için beklenen bir yayın, ancak şu anda çalış-aroundlar mümkündür).
Oynatmak için tıklayın. Yukarıda, bir ‘statik’ Flux LoRA’dan örnekler; aşağıda, müzisyen Taylor Swift’i içeren bir Hunyuan video LoRA’sından örnekler. Bu LoRAs, her ikisi de Civit topluluğunda ücretsiz olarak sunulmaktadır.
Civit web sitesi, ‘Hunyuan’ için 128 arama sonucunu sunuyor*. Bunların neredeyse tümü某 şekilde NSFW modelleri; 22’si ünlüleri tasvir ediyor; 18’i hardcore pornografi oluşturmayı kolaylaştırmak için tasarlandı ve sadece yedisi erkekleri değil, kadınları tasvir ediyor.
Ne Yeni?
Derin sahtecilik teriminin evrimleşen doğası ve sınırlı kamu anlayışının yanı sıra AI insan video sentezinin sınırlamaları nedeniyle, Hunyuan LoRA’nın önemi kolayca anlaşılabilir değildir. Daha önceki kimlik tabanlı AI video oluşturma yaklaşımları ile Hunyuan LoRAs arasındaki bazı ana farklılıkları gözden geçirelim.
1: Engelsiz Yerel Kurulum
Hunyuan Video’nun en önemli yönü, yerel olarak indirilebiliyor olması ve çok güçlü ve sansürsüz bir AI video oluşturma sistemini casual kullanıcıların ve VFX topluluğunun (coğrafi bölgelerdeki lisanslara izin verildiği ölçüde) eline vermesidir.
Son kez bu, 2022 yazında Stability.ai’nin Stable Diffusion modelinin açık kaynak olarak yayınlanması ile oldu. O zaman, OpenAI’nin DALL-E2, kamunun hayal gücünü ele geçirmişti, ancak DALLE-2, bir ücretli hizmetti ve önemli kısıtlamalar vardı (zamanla büyüdü).
Stable Diffusion kullanılabilir olduğunda ve Low-Rank Adaptation, herhangi bir kişinin (ünlü veya değil) kimliğini üretmeyi mümkün kıldığında, büyük bir geliştirici ve tüketici ilgisinin odağı, Stable Diffusion’u DALLE-2’nin popülerliğini aşmasına yardımcı oldu; DALLE-2, daha yetenekli bir sistemdi, ancak sansür rutinleri kullanıcıları tarafından ağır olarak görülüyordu ve özelleştirme mümkün değildi.
Muhtemelen aynı senaryo şimdi Sora ve Hunyuan arasında geçerli – veya daha doğru bir şekilde, Sora düzeyinde özel generatif video sistemleri ile açık kaynaklı rakipler arasında, ve Hunyuan bunlardan ilki değil, ancak muhtemelen sonuncusu değil (burada, Flux sonunda Stable Diffusion’a önemli bir şekilde yaklaştı).
Kullanıcılar, Hunyuan LoRA çıktısı oluşturmak istiyor ancak etkili bir şekilde güçlü ekipmana sahip değilse, her zaman online hesaplama hizmetlerine RunPod gibi GPU tarafını eğitime offload edebilir. Bu, Kaiber veya Kling gibi platformlarda AI videoları oluşturmakla aynı değildir, çünkü yerel bir iş akışını desteklemek için bir online GPU kiralamak, semantik veya resim tabanlı filtreleme (sansür) içermez.
2: ‘Konak’ Videolara ve Yüksek Çaba Gereksinimine İhtiyaç Yok
Derin sahtecilikler 2017 sonlarında sahneye çıktığında, anonim olarak yayınlanan kod, DeepFaceLab ve FaceSwap (ve ayrıca DeepFaceLive gerçek zamanlı derin sahtecilik sistemi) gibi ana akım dallarına dönüşecekti.
Bu yöntem, her kimliğin değiştirilmesi için binlerce yüz resminin titiz bir şekilde küratörlüğünü gerektiriyordu; bu aşamada yapılan çaba ne kadar azsa, model o kadar etkisiz olacaktı. Ayrıca, eğitim süreleri mevcut donanım bağlı olarak 2-14 gün arasında değişiyordu ve yetenekli sistemleri bile uzun vadede strese sokuyordu.
Model nihayet hazır olduğunda, yalnızca mevcut bir videoya yüzleri yerleştirebiliyordu ve genellikle süperpoze edilen kimliğe benzer bir görünümde bir ‘hedef’ (yani, gerçek) kimliğe ihtiyaç duyuyordu.
Daha yakın zamanda, ROOP, LivePortrait ve benzer birçok çerçeve, benzer işlevselliği çok daha az çaba ile ve genellikle daha iyi sonuçlar ile sağladı – ancak tam vücut derin sahtecilikleri üretme yeteneği yoktu veya yüzlerden başka herhangi bir öğe yoktu.

ROOP Unleashed ve LivePortrait (alt sol köşede) örnekleri, Bob Doyle’un YouTube’daki içerik akışından. Kaynaklar: https://www.youtube.com/watch?v=i39xeYPBAAM ve https://www.youtube.com/watch?v=QGatEItg2Ns
Karşılaştırıldığında, Hunyuan LoRAs (ve muhtemelen takip edecek benzer sistemler) tüm çevrelerin ve tam vücut simülasyonunun creation creation oluşturulmasına izin verir.
3: Büyük Ölçüde İyileştirilmiş Zamanlı tutarlılık
Zamanlı tutarlılık, difüzyon videosu için birkaç yıldır kutsal kase olmuştur. Bir LoRA ve uygun.promptların kullanılması, Hunyuan video oluşturmasına sürekli bir kimlik referansı sağlar. Teoride (bu erken günlerdir), belirli giysiler giyen belirli bir kimliğin birden fazla LoRAs’ı eğitilebilir.
Bu koşullar altında, giysi de video oluşturma sürecinde ‘mutate’ olma olasılığı daha düşük olur (çünkü generatif sistem, bir sonraki kareyi önceki karelerin sınırlı bir penceresine dayanarak oluşturur).
(Alternatif olarak, image tabanlı LoRA sistemlerinde olduğu gibi, bir video oluşturmasına birden fazla LoRA uygulanabilir, Örneğin, kimlik + kostüm LoRAs)
4: ‘İnsan Deneyine’ Erişim
Son olarak, daha önce gözlemlediğim gibi, özel ve FAANG düzeyindeki generatif AI sektörü, projelerinin insan sentez yetenekleri ile ilgili olası eleştirilere karşı o kadar temkinli görünüyor ki, gerçek insanlar artık büyük açıklamalar ve yayınlar için proje sayfalarında nadiren görünüyor. Bunun yerine, ilgili tanıtım literatürü, sentezlenen sonuçlarda giderek daha fazla ‘sevimli’ ve ‘tehdit içermeyen’ konuları gösterme eğilimindedir.
Hunyuan LoRAs’ın ortaya çıkmasıyla, ilk kez, topluluk, LDM tabanlı insan video sentezinin sınırlarını, yetenekli (değil marjinal) bir sistemde ve çoğumuzun ilgisini çeken konuyu – insanları – tam olarak keşfetme fırsatına sahip.
İmplications
Hunyuan LoRAs’ın ortaya çıkmasının temel sonucu, gerçek insanların (ünlü veya bilinmeyen) AI pornografik (veya başka şekilde iftira niteliğinde) videolarını oluşturmak için kullanılacağıdır.
Uygunluk amacıyla, Hunyuan LoRAs oluşturan ve çeşitli Discord sunucularında deneysel olarak çalışan hobiciler, gerçek insanların örneklerini paylaşmaktan kaçınıyorlar. Gerçeklik, resim tabanlı derin sahteciliklerin artık ciddi bir şekilde silahlandırıldığı ve gerçekçi videoların bu karışıma eklenmesinin, son yedi yıldır medyada yer alan ve yeni düzenlemeleri tetikleyen artan korkuları haklı çıkarabileceği gerçeğidir.
İtici Güç
Her zaman olduğu gibi, porn ilerlemenin düşük süspansiyonlu motoru olmaya devam ediyor. Ne olursa olsun, bu kararlı itici güç, sonunda daha ana akım benimsemeye fayda sağlayabilecek gelişmelerin devletini ilerletiyor.
Bu durumda, fiyat daha yüksek olabilir, çünkü hyper-realistik video creationın açık kaynaklı olması, suç, siyasi ve etik suistimal için açık sonuçları vardır.
Bir Reddit grubu (burada adını vermeyeceğim), AI tarafından oluşturulan NSFW video içeriğine adanmış ve Hunyuan tabanlı video pornografisi oluşturma için ComfyUI iş akışlarını geliştiren bir açık Discord sunucusu var. Günlük olarak, kullanıcılar NSFW kliplerinin örneklerini paylaşıyor – bunlar makul bir şekilde ‘aşırı’ veya en azından forum kurallarında belirtilen kısıtlamaları zorlayabilir.
Bu topluluk ayrıca, yeni modeller için eğitim verisi sağlamak üzere pornografik videoları indirmek ve işlemek için araçlar içeren önemli bir GitHub deposunu维护 ediyor.
En popüler LoRA eğitmeni Kohya-ss, şimdi Hunyuan LoRA eğitimini destekliyor, sınırsız generatif video eğitimine giriş engelleri günlük olarak düşüyor, donanım gereksinimleri ile birlikte.
Hunyuan Video LoRAs’ın ortaya çıkmasının kritik yönü, bir standart temel modelin NSFW çıktısı üzerinde özel olarak eğitilmemiş olması ve bu nedenle ya NSFW içeriği üretirken kötü performans gösterebileceği veya öğrenilen kavramları ve ilişkileri inandırıcı bir şekilde ayıramayacağıdır.
NSFW tabanlı AI (ünlü gibi kimlik tabanlı modeller yerine) için adanmış eğitim şemalarını geliştirerek, eğitilmiş kimliklerin bir ‘porn’ video alanına yansıtılması giderek daha mümkün hale gelecektir;毕竟, bu, son iki buçuk yılda statik resimler için zaten gerçekleşen şeyin video versiyonudur .
VFX
Hunyuan Video LoRAs’ın sunduğu büyük zamanlı tutarlılık artışı, AI görsel efekt endüstrisi için açık bir avantajdır; bu endüstri, açık kaynaklı yazılımların uyarlanmasına büyük ölçüde dayanır.
Hunyuan Video LoRA yaklaşımı bir tüm çerçeve ve çevre oluşturur, VFX şirketleri, bu yöntemle elde edilebilecek zamanlı tutarlı insan yüzlerini izole etmek ve bunları gerçek dünya kaynak videolarına yerleştirmek veya entegre etmek için deneylere başlamıştır.
Hobiciler topluluğu gibi, VFX şirketleri de Hunyuan Video’nun image-to-video ve video-to-video işlevselliğinin yayınlanmasını beklemek zorundadır; ya daElse, çalış-around’lar kullanabilir ve bu çerçeveyi ve olası uyarlamalarını outer yeteneklerini araştırmak için arayı kullanabilir.
SONUÇ
Derin sahtecilik videoları uzun süredir var olduğundan, Hunyuan Video LoRA’nın kimlik sentezi ve derin sahtecilik yaklaşımı olarak öneminin küçümsenmesi kolaydır; ve Civit topluluğu, ilgili Discord ve subreddit’lerde ortaya çıkan gelişmelerin, gerçekten kontrollü insan video sentezine doğru sadece küçük bir adımdan başka bir şey olmadığını varsaymak.
Daha olası olanı, mevcut çabaların Hunyuan Video’nun tamamen inandırıcı tam vücut ve tam çevre derin sahtecikleri oluşturma potansiyelini temsil ettiğidir; bir kez image-to-video bileşeni yayınlandığında (bu ay gerçekleşeceği söylentisi var), daha granüler bir düzeyde generatif güç, hem hobiciler hem de profesyoneller topluluğuna kullanılabilir hale gelecektir.
Stability.ai, 2022’de Stable Diffusion’u piyasaya sürdüğünde, birçok gözlemci, şirketin o zamanlar böyle değerli ve güçlü bir generatif sistemi neden verdiğini anlayamadı. Hunyuan Video ile kar motive doğrudan lisans sözleşmesine inşa edilmiştir – ancak Tencent’in bu kar payı düzenini tetiklediğini belirlemesi zor olabilir.
Her durumda, sonuç aynıdır: adanmış geliştirme toplulukları, yayınlanmasıyla birlikte hemen ve yoğun bir şekilde oluşmuştur. Bu çabaların önümüzdeki 12 ay içinde alacağı bazı yollar, kesinlikle yeni başlıklar yaratmaya mahkûmdur.
* Yayınlanma zamanına kadar 136’ya kadar.
İlk olarak 7 Ocak 2025 Salı günü yayınlandı










