Kecerdasan Buatan
Munculnya Deepfake Video Hunyuan

Karena sifat beberapa materi yang dibahas di sini, artikel ini akan berisi lebih sedikit tautan referensi dan ilustrasi dari biasanya.
Sesuatu yang penting saat ini sedang terjadi di komunitas sintesis AI, meskipun signifikansinya mungkin memerlukan waktu untuk menjadi jelas. Para penghobi melatih model video AI generatif untuk mereproduksi kemiripan orang, menggunakan video berbasis LoRA pada perangkat lunak sumber terbuka Tencent yang baru saja dirilis Kerangka Video Hunyuan.*
Klik untuk main. Beragam hasil dari kustomisasi LoRA berbasis Hunyuan yang tersedia secara gratis di komunitas Civit. Dengan melatih model adaptasi peringkat rendah (LoRA), masalah stabilitas temporal, yang telah mengganggu pembuatan video AI selama dua tahun, berkurang secara signifikan. Sumber: civit.ai
Dalam video yang ditunjukkan di atas, kemiripan aktris Natalie Portman, Christina Hendricks dan Scarlett Johansson, bersama dengan pemimpin teknologi Elon Musk, telah dilatih menjadi file tambahan yang relatif kecil untuk sistem video generatif Hunyuan, yang dapat diinstal tanpa filter konten (seperti filter NSFW) di komputer pengguna.
Pembuat Christina Hendricks LoRA yang ditunjukkan di atas menyatakan bahwa hanya 16 gambar dari Mad Men Acara TV dibutuhkan untuk mengembangkan model (yang hanya diunduh sebesar 307mb); beberapa posting dari komunitas Difusi Stabil di Reddit dan Discord mengonfirmasi bahwa LoRA jenis ini tidak memerlukan data pelatihan dalam jumlah besar, atau waktu pelatihan tinggi, dalam sebagian besar kasus.
Cjilat untuk bermain. Arnold Schwarzenegger dihidupkan dalam video Hunyuan LoRA yang dapat diunduh di Civit. Lihat https://www.youtube.com/watch?v=1D7B9g9rY68 untuk contoh Arnie lainnya, dari penggemar AI Bob Doyle.
Hunyuan LoRA dapat dilatih pada gambar statis atau video, meskipun pelatihan pada video memerlukan sumber daya perangkat keras yang lebih besar dan waktu pelatihan yang lebih lama.
Model Video Hunyuan memiliki 13 miliar parameter, melebihi 12 miliar parameter Sora, dan jauh melebihi yang kurang mampu Hunyuan-DiT model dirilis ke sumber terbuka pada musim panas tahun 2024, yang hanya memiliki 1.5 miliar parameter.
Seperti yang terjadi dua setengah tahun yang lalu dengan Difusi Stabil dan LoRA (lihat contoh selebriti 'asli' Difusi Stabil 1.5 di sini), model dasar yang dimaksud memiliki pemahaman yang jauh lebih terbatas tentang kepribadian selebriti, dibandingkan dengan tingkat kesetiaan yang dapat diperoleh melalui implementasi LoRA 'yang disuntikkan ID'.
Secara efektif, LoRA yang disesuaikan dan berfokus pada kepribadian mendapatkan 'tumpangan gratis' pada kemampuan sintesis yang signifikan dari model dasar Hunyuan, menawarkan sintesis manusia yang jauh lebih efektif daripada yang dapat diperoleh baik pada era 2017 autoencoder pemalsuan otomatis atau dengan mencoba menambahkan gerakan ke gambar statis melalui sistem seperti yang dirayakan Potret Langsung.
Semua LoRA yang digambarkan di sini dapat diunduh secara gratis dari komunitas Civit yang sangat populer, sementara jumlah LoRA 'gambar statis' lama yang lebih banyak juga berpotensi membuat gambar 'benih' untuk proses pembuatan video (yaitu, gambar-ke-video, rilis yang tertunda untuk Hunyuan Video, meskipun solusi sementara mungkin ada, untuk saat ini).
Klik untuk main. Di atas, contoh dari Flux LoRA 'statis'; di bawah, contoh dari video LoRA Hunyuan yang menampilkan musisi Taylor Swift. Kedua LoRA ini tersedia secara gratis di komunitas Civit.
Saat saya menulis ini, situs web Civit menawarkan 128 hasil pencarian untuk 'Hunyuan'*. Hampir semuanya adalah model NSFW; 22 menggambarkan selebriti; 18 dirancang untuk memfasilitasi pembuatan pornografi hardcore; dan hanya tujuh di antaranya yang menggambarkan pria, bukan wanita.
Jadi Apa yang Baru?
Karena alam yang berkembang dari istilah tersebut deepfake, dan pemahaman publik yang terbatas tentang (cukup parah) keterbatasan kerangka kerja sintesis video manusia AI hingga saat ini, signifikansi Hunyuan LoRA tidak mudah dipahami bagi seseorang yang mengikuti perkembangan AI generatif secara sepintas. Mari kita tinjau beberapa perbedaan utama antara Hunyuan LoRA dan pendekatan sebelumnya terhadap pembuatan video AI berbasis identitas.
1: Instalasi Lokal Tanpa Batas
Aspek terpenting dari Hunyuan Video adalah kenyataan bahwa ia dapat diunduh secara lokal, dan ia memberikan pengalaman yang sangat kuat dan uncensored Sistem pembuatan video AI di tangan pengguna biasa, serta komunitas VFX (sejauh lisensi mengizinkannya di seluruh wilayah geografis).
Terakhir kali hal ini terjadi adalah munculnya rilis sumber terbuka model Difusi Stabil Stability.ai pada musim panas 2022Saat itu, DALL-E2 OpenAI telah ditangkap imajinasi publik, meskipun DALLE-2 adalah layanan berbayar dengan batasan-batasan penting (yang berkembang seiring waktu).
Ketika Difusi Stabil tersedia, dan Adaptasi Tingkat Rendah kemudian memungkinkan untuk menghasilkan gambar identitas Apa pun orang (selebriti atau bukan), lokus besar minat pengembang dan konsumen membantu Stable Diffusion untuk melampaui popularitas DALLE-2; meskipun yang terakhir adalah sistem yang lebih mampu di luar kotak, rutinitas penyensorannya dianggap memberatkan oleh banyak penggunanya, dan kustomisasi tidak memungkinkan.
Bisa dibilang, skenario yang sama kini berlaku antara Sora dan Hunyuan – atau, lebih tepatnya, antara Kelas Sora sistem video generatif yang bersifat kepemilikan, dan pesaing open source, yang mana Hunyuan adalah yang pertama – namun mungkin bukan yang terakhir (di sini, pertimbangkan bahwa Aliran akhirnya akan mendapatkan keuntungan signifikan pada Difusi Stabil).
Pengguna yang ingin membuat output Hunyuan LoRA, tetapi tidak memiliki peralatan yang kuat, dapat, seperti biasa, memindahkan aspek pelatihan GPU ke layanan komputasi online. seperti RunPodIni tidak sama dengan membuat video AI di platform seperti Kaiber atau Kling, karena tidak ada penyaringan berbasis semantik atau gambar (penyensoran) yang diperlukan dalam menyewa GPU daring untuk mendukung alur kerja lokal.
2: Tidak Perlu Video 'Host' dan Upaya Tinggi
Ketika deepfake muncul di akhir tahun 2017, kode yang diposting secara anonim akan berkembang menjadi fork arus utama Lab Wajah Dalam dan Tukar Muka (dan juga DeepFaceLive sistem deepfaking waktu nyata).
Metode ini memerlukan kurasi cermat ribuan gambar wajah dari setiap identitas yang akan dipertukarkan; semakin sedikit upaya yang dilakukan pada tahap ini, semakin tidak efektif model tersebut. Selain itu, waktu pelatihan bervariasi antara 2-14 hari, tergantung pada perangkat keras yang tersedia, yang akan membebani sistem yang mampu dalam jangka panjang.
Saat model akhirnya siap, ia hanya dapat memaksakan wajah ke dalam video yang sudah ada, dan biasanya memerlukan identitas 'target' (yaitu, nyata) yang tampilannya mirip dengan identitas yang ditumpangkan.
Baru-baru ini, ROOPLivePortrait dan banyak framework serupa telah menyediakan fungsionalitas serupa dengan usaha yang jauh lebih sedikit, dan seringkali dengan hasil yang lebih unggul – namun tanpa kapasitas untuk menghasilkan gambar yang akurat. deepfake seluruh tubuh – atau elemen apa pun selain wajah.

Contoh ROOP Unleashed dan LivePortrait (sisipan kiri bawah), dari aliran konten Bob Doyle di YouTube. Sumber: https://www.youtube.com/watch?v=i39xeYPBAAM dan https://www.youtube.com/watch?v=QGatEItg2Ns
Sebaliknya, Hunyuan LoRA (dan sistem serupa yang pasti akan menyusul) memungkinkan penciptaan seluruh dunia tanpa batas, termasuk simulasi seluruh tubuh dari identitas LoRA yang dilatih pengguna.
3: Konsistensi Temporal yang Sangat Meningkat
Konsistensi temporal telah Cawan Suci video difusi selama beberapa tahun terakhir. Penggunaan LoRA, bersama dengan perintah yang tepat, memberikan generasi video Hunyuan referensi identitas yang konstan untuk dipatuhi. Secara teori (ini masih tahap awal), seseorang dapat melatih beberapa LoRA dengan identitas tertentu, masing-masing mengenakan pakaian tertentu.
Di bawah naungan tersebut, pakaian pun kecil kemungkinannya untuk 'bermutasi' selama pembuatan video (karena sistem generatif mendasarkan frame berikutnya pada jendela frame sebelumnya yang sangat terbatas).
(Alternatifnya, seperti halnya sistem LoRA berbasis gambar, seseorang dapat dengan mudah menerapkan beberapa LoRA, seperti LoRA identitas + kostum, ke satu pembangkitan video)
4: Akses ke 'Eksperimen Manusia'
Seperti saya baru-baru ini diamati, sektor AI generatif yang bersifat kepemilikan dan setara dengan FAANG kini tampaknya sangat waspada terhadap potensi kritik yang berkaitan dengan kemampuan sintesis manusia dalam proyek-proyeknya, sehingga team Anda jarang muncul di halaman proyek untuk pengumuman dan rilis besar. Sebaliknya, literatur publisitas terkait cenderung menunjukkan subjek yang 'lucu' dan 'tidak mengancam' dalam hasil sintesis.
Dengan hadirnya Hunyuan LoRA, untuk pertama kalinya, masyarakat memiliki kesempatan untuk mendorong batasan sintesis video manusia berbasis LDM dalam sistem yang sangat mumpuni (bukannya marjinal), dan untuk sepenuhnya mengeksplorasi subjek yang paling menarik minat mayoritas dari kita – manusia.
Implikasi
Karena penelusuran 'Hunyuan' di komunitas Civit sebagian besar menampilkan LoRA selebriti dan LoRA 'hardcore', implikasi utama munculnya Hunyuan LoRA adalah bahwa keduanya akan digunakan untuk membuat video AI pornografi (atau video yang memfitnah) dari orang sungguhan – baik selebriti maupun orang yang tidak dikenal.
Demi tujuan kepatuhan, para penghobi yang membuat Hunyuan LoRA dan bereksperimen dengannya di berbagai server Discord berhati-hati untuk melarang contoh orang sungguhan diposting. Kenyataannya adalah bahwa bahkan gambarDeepfake berbasis .NET sekarang dipersenjatai secara parah; dan prospek penambahan video yang benar-benar realistis ke dalam campuran ini mungkin akhirnya membenarkan ketakutan yang meningkat yang telah berulang kali muncul di media selama tujuh tahun terakhir, dan yang telah mendorong munculnya hal-hal baru peraturan.
Kekuatan Penggerak
Seperti biasa, porno sisa kekuatan pendorong teknologiApa pun pendapat kita tentang penggunaan semacam itu, mesin pendorong yang tak kenal lelah ini mendorong kemajuan dalam teknologi terkini yang pada akhirnya dapat menguntungkan adopsi yang lebih luas.
Dalam kasus ini, ada kemungkinan harganya akan lebih tinggi dari biasanya, karena sumber terbuka pembuatan video hiper-realistis memiliki implikasi yang jelas terhadap penyalahgunaan kriminal, politik, dan etika.
Satu grup Reddit (yang tidak akan saya sebutkan namanya di sini) yang didedikasikan untuk pembuatan konten video NSFW dengan AI memiliki server Discord terbuka yang terkait, tempat para pengguna menyempurnakan UI nyaman alur kerja untuk pembuatan video porno berbasis Hunyuan. Setiap hari, pengguna mengunggah contoh klip NSFW – banyak di antaranya yang dapat secara wajar disebut 'ekstrem', atau setidaknya melanggar batasan yang dinyatakan dalam aturan forum.
Komunitas ini juga memelihara repositori GitHub yang substansial dan berkembang dengan baik yang menampilkan alat yang dapat mengunduh dan memproses video pornografi, untuk menyediakan data pelatihan bagi model-model baru.
Karena pelatih LoRA paling populer, Kohya-ss, sekarang mendukung pelatihan Hunyuan LoRA, hambatan untuk masuk ke pelatihan video generatif tanpa batas semakin menurun setiap harinya, bersama dengan persyaratan perangkat keras untuk pelatihan Hunyuan dan pembuatan video.
Aspek penting dari skema pelatihan khusus untuk AI berbasis pornografi (bukan identitasModel berbasis NSFW (seperti selebriti) adalah model dasar standar seperti Hunyuan tidak secara khusus dilatih pada output NSFW, dan karena itu mungkin berkinerja buruk ketika diminta untuk menghasilkan konten NSFW, atau gagal menguraikan mempelajari konsep dan asosiasi dengan cara yang performatif atau meyakinkan.
Dengan mengembangkan model dasar NSFW dan LoRA yang telah disesuaikan, akan semakin memungkinkan untuk memproyeksikan identitas yang telah dilatih ke dalam domain video 'porno' yang khusus; lagipula, ini hanyalah versi video dari sesuatu yang telah terjadi untuk gambar diam selama dua setengah tahun terakhir.
VFX
Peningkatan besar dalam konsistensi temporal yang ditawarkan Hunyuan Video LoRA merupakan keuntungan nyata bagi industri efek visual AI, yang sangat bergantung pada adaptasi perangkat lunak sumber terbuka.
Meskipun pendekatan Hunyuan Video LoRA menghasilkan keseluruhan bingkai dan lingkungan, perusahaan VFX hampir pasti sudah mulai bereksperimen dengan mengisolasi wajah manusia yang konsisten secara temporal yang dapat diperoleh dengan metode ini, untuk melapiskan atau mengintegrasikan wajah ke dalam rekaman sumber dunia nyata.
Seperti halnya komunitas penghobi, perusahaan VFX harus menunggu fungsionalitas gambar-ke-video dan video-ke-video dari Hunyuan Video, yang berpotensi menjadi jembatan paling berguna antara konten 'deepfake' berbasis ID dan digerakkan LoRA; atau berimprovisasi, dan menggunakan interval tersebut untuk menguji kemampuan luar kerangka kerja dan adaptasi potensial, dan bahkan percabangan internal milik Hunyuan Video.
Meskipun persyaratan lisensi karena Hunyuan Video secara teknis mengizinkan penggambaran individu nyata selama izin diberikan, mereka melarang penggunaannya di Uni Eropa, Inggris Raya, dan Korea Selatan. Berdasarkan prinsip 'tetap di Vegas', ini tidak berarti bahwa Hunyuan Video tidak akan digunakan di wilayah tersebut; namun, prospek audit data eksternal, untuk menegakkan peraturan yang berkembang seputar AI generatif, dapat membuat penggunaan terlarang tersebut menjadi berisiko.
Area lain yang berpotensi ambigu dari ketentuan lisensi menyatakan:
'Jika, pada tanggal rilis versi Tencent Hunyuan, pengguna aktif bulanan dari semua produk atau layanan yang disediakan oleh atau untuk Penerima Lisensi lebih dari 100 juta pengguna aktif bulanan pada bulan kalender sebelumnya, Anda harus meminta lisensi dari Tencent, yang dapat diberikan Tencent kepada Anda atas kebijakannya sendiri, dan Anda tidak berwenang untuk menggunakan hak apa pun berdasarkan Perjanjian ini kecuali atau sampai Tencent secara tegas memberikan Anda hak tersebut.'
Klausul ini jelas ditujukan pada banyak perusahaan yang cenderung menjadi 'perantara' Hunyuan Video untuk kelompok pengguna yang relatif buta teknologi, dan yang akan diminta untuk mengajak Tencent ikut serta dalam aksi tersebut, di atas batasan pengguna tertentu.
Apakah frasa yang luas juga dapat mencakup tidak langsung penggunaan (misalnya, melalui penyediaan keluaran efek visual berbasis Hunyuan dalam film dan TV populer) mungkin perlu diklarifikasi.
Kesimpulan
Karena video deepfake sudah ada sejak lama, mudah untuk meremehkan signifikansi Hunyuan Video LoRA sebagai pendekatan terhadap sintesis identitas, dan deepfaking; dan berasumsi bahwa perkembangan yang saat ini terwujud di komunitas Civit, dan di Discord serta subreddit terkait, mewakili dorongan tambahan belaka menuju sintesis video manusia yang benar-benar dapat dikontrol.
Kemungkinan yang lebih besar adalah bahwa upaya saat ini hanya mewakili sebagian kecil potensi Hunyuan Video untuk menciptakan deepfake seluruh tubuh dan lingkungan yang benar-benar meyakinkan; setelah komponen gambar ke video dirilis (dikabarkan akan terjadi bulan ini), tingkat kekuatan generatif yang jauh lebih terperinci akan tersedia baik untuk komunitas hobi maupun profesional.
Ketika Stability.ai merilis Stable Diffusion pada tahun 2022, banyak pengamat tidak dapat memastikan mengapa perusahaan tersebut begitu saja memberikan sistem generatif yang saat itu sangat berharga dan canggih. Dengan Hunyuan Video, motif keuntungan tertanam langsung dalam lisensi – meskipun mungkin sulit bagi Tencent untuk menentukan kapan sebuah perusahaan memicu skema pembagian keuntungan.
Bagaimanapun, hasilnya sama seperti pada tahun 2022: komunitas pengembang yang berdedikasi telah terbentuk segera dan dengan semangat yang kuat seputar peluncuran tersebut. Beberapa jalan yang akan ditempuh upaya ini dalam 12 bulan ke depan pasti akan memicu berita utama baru.
* Hingga 136 pada saat publikasi.
Pertama kali diterbitkan pada hari Selasa, 7 Januari 2025