Connect with us

Kecerdasan buatan

Munculnya Hunyuan Video Deepfakes

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

Karena sifat beberapa materi yang dibahas di sini, artikel ini akan berisi lebih sedikit tautan referensi dan ilustrasi daripada biasanya.

Sesuatu yang patut diperhatikan saat ini terjadi di komunitas sintesis AI, meskipun signifikansinya mungkin membutuhkan waktu untuk menjadi jelas. Penghobi sedang melatih model video AI generatif untuk mereproduksi kemiripan orang, menggunakan LoRAs berbasis video di kerangka Hunyuan Video yang baru dirilis oleh Tencent.*

Klik untuk memutar. Hasil yang beragam dari kustomisasi Hunyuan-based LoRA yang tersedia secara gratis di komunitas Civit. Dengan melatih model adaptasi berperingkat rendah (LoRAs), masalah dengan stabilitas temporal, yang telah mengganggu generasi video AI selama dua tahun, secara signifikan berkurang. Sumber: civit.ai

Di video yang ditunjukkan di atas, kemiripan aktris Natalie Portman, Christina Hendricks, dan Scarlett Johansson, bersama dengan pemimpin teknologi Elon Musk, telah dilatih ke dalam file tambahan yang relatif kecil untuk sistem video generatif Hunyuan, yang dapat dipasang tanpa filter konten (seperti filter NSFW) di komputer pengguna.

Pembuat LoRA Christina Hendricks yang ditunjukkan di atas menyatakan bahwa hanya 16 gambar dari acara TV Mad Men yang diperlukan untuk mengembangkan model (yang merupakan unduhan sebesar 307mb); beberapa posting dari komunitas Stable Diffusion di Reddit dan Discord mengkonfirmasi bahwa LoRAs seperti itu tidak memerlukan jumlah data pelatihan yang tinggi, atau waktu pelatihan yang lama, dalam sebagian besar kasus.

Klik untuk memutar. Arnold Schwarzenegger dibawa ke kehidupan dalam LoRA video Hunyuan yang dapat diunduh di Civit. Lihat https://www.youtube.com/watch?v=1D7B9g9rY68 untuk contoh Arnie lebih lanjut, dari penggemar AI Bob Doyle.

LoRAs Hunyuan dapat dilatih pada gambar statis atau video, meskipun pelatihan pada video memerlukan sumber daya perangkat keras yang lebih besar dan waktu pelatihan yang lebih lama.

Model video Hunyuan memiliki 13 miliar parameter, melebihi 12 miliar parameter Sora, dan jauh melebihi model Hunyuan-DiT yang kurang mampu yang dirilis ke sumber terbuka pada musim panas 2024, yang hanya memiliki 1,5 miliar parameter.

Seperti yang terjadi dua setengah tahun yang lalu dengan Stable Diffusion dan LoRA (lihat contoh selebriti ‘asli’ Stable Diffusion 1.5 di sini), model dasar yang bersangkutan memiliki pemahaman yang jauh lebih terbatas tentang kepribadian selebriti, dibandingkan dengan tingkat kesetiaan yang dapat diperoleh melalui implementasi LoRA ‘ID-injected’.

Secara efektif, LoRA kustom yang berfokus pada kepribadian mendapatkan ‘tumpangan gratis’ pada kemampuan sintesis yang signifikan dari model dasar Hunyuan, menawarkan sintesis manusia yang jauh lebih efektif daripada yang dapat diperoleh baik oleh autoencoder deepfakes era 2017 atau dengan menambahkan gerakan ke gambar statis melalui sistem seperti LivePortrait yang terkenal.

Semua LoRAs yang digambarkan di sini dapat diunduh secara gratis dari komunitas Civit yang sangat populer, sedangkan jumlah LoRAs ‘gambar statis’ kustom yang lebih banyak dapat juga berpotensi menciptakan ‘benih’ gambar untuk proses pembuatan video (yaitu, gambar-ke-video, sebuah rilis yang akan datang untuk Hunyuan Video, meskipun solusi dapat dilakukan untuk saat ini).

Klik untuk memutar. Di atas, sampel dari LoRA ‘statis’ Flux; di bawah, contoh dari LoRA video Hunyuan yang menampilkan musisi Taylor Swift. Kedua LoRA ini tersedia secara gratis di komunitas Civit.

Saat saya menulis, situs web Civit menawarkan 128 hasil pencarian untuk ‘Hunyuan’*. Hampir semua ini ada hubungannya dengan model NSFW; 22 menggambarkan selebriti; 18 dirancang untuk memfasilitasi generasi pornografi hardcore; dan hanya tujuh di antaranya menggambarkan pria daripada wanita.

Jadi Apa yang Baru?

Karena sifat evolusi istilah deepfake, dan pemahaman publik yang terbatas tentang (keterbatasan yang cukup parah) keterbatasan kerangka sintesis video manusia AI hingga saat ini, signifikansi LoRA Hunyuan tidak mudah dipahami bagi seseorang yang mengikuti adegan AI generatif secara santai. Mari kita tinjau beberapa perbedaan kunci antara LoRAs Hunyuan dan pendekatan sebelumnya untuk generasi video AI berbasis identitas.

1: Instalasi Lokal Tanpa Batasan

Aspek paling penting dari Hunyuan Video adalah fakta bahwa itu dapat diunduh secara lokal, dan itu meletakkan sistem generasi video AI yang sangat kuat dan tidak disensor di tangan pengguna kasual, serta komunitas VFX (sejauh lisensi memungkinkan di seluruh wilayah geografis).

Terakhir kali ini terjadi adalah saat peluncuran model Stable Diffusion ke sumber terbuka pada musim panas 2022. Pada saat itu, OpenAI’s DALL-E2 telah menangkap imajinasi publik, meskipun DALLE-2 adalah layanan berbayar dengan batasan yang mencolok (yang tumbuh seiring waktu).

Ketika Stable Diffusion menjadi tersedia, dan Adaptasi Peringkat Rendah kemudian memungkinkan untuk menghasilkan gambar identitas siapa saja (selebriti atau tidak), locus besar minat pengembang dan konsumen membantu Stable Diffusion untuk mengatasi popularitas DALLE-2; meskipun yang terakhir adalah sistem yang lebih mampu out-of-the-box, rutinitas sensor-nya dilihat sebagai oneros oleh banyak penggunanya, dan kustomisasi tidak mungkin.

Secara dapat disimpulkan, skenario yang sama sekarang berlaku antara Sora dan Hunyuan – atau, lebih akurat, antara Sora-grade sistem generatif video milik perusahaan, dan saingan sumber terbuka, di mana Hunyuan adalah yang pertama – tetapi mungkin tidak yang terakhir (di sini, pertimbangkan bahwa Flux akhirnya akan mendapatkan ground yang signifikan pada Stable Diffusion).

Pengguna yang ingin membuat output LoRA Hunyuan, tetapi kekurangan peralatan yang efektif, dapat, seperti biasa, mengalihkan aspek GPU dari pelatihan ke layanan komputasi online seperti RunPod. Ini tidak sama dengan membuat video AI di platform seperti Kaiber atau Kling, karena tidak ada penyaringan semantik atau berbasis gambar (penyensoran) yang terlibat dalam menyewa GPU online untuk mendukung alur kerja lokal.

2: Tidak Perlu ‘Video Host’ dan Upaya Tinggi

Ketika deepfakes muncul di adegan pada akhir 2017, kode yang diposting secara anonim akan berkembang menjadi cabang utama DeepFaceLab dan FaceSwap (serta sistem deepfaking waktu nyata DeepFaceLive).

Metode ini memerlukan kurasi yang teliti dari ribuan gambar wajah dari setiap identitas yang akan ditukar; upaya yang lebih sedikit yang dilakukan pada tahap ini, model yang kurang efektif akan dihasilkan. Selain itu, waktu pelatihan bervariasi antara 2-14 hari, tergantung pada perangkat keras yang tersedia, menekankan bahkan sistem yang mampu dalam jangka panjang.

Ketika model akhirnya siap, itu hanya dapat mengimpos wajah ke dalam video yang ada, dan biasanya memerlukan ‘target’ (yaitu identitas nyata) yang dekat dalam penampilan dengan identitas yang diimpos.

Lebih baru-baru ini, ROOP, LivePortrait, dan kerangka kerja serupa telah menyediakan fungsionalitas serupa dengan upaya yang jauh lebih sedikit, dan sering dengan hasil yang lebih baik – tetapi dengan tidak ada kapasitas untuk menghasilkan deepfakes tubuh penuh yang akurat – atau elemen lain selain wajah.

Contoh ROOP Unleashed dan LivePortrait (inset kiri bawah), dari aliran konten Bob Doyle di YouTube. Sumber: https://www.youtube.com/watch?v=i39xeYPBAAM dan https://www.youtube.com/watch?v=QGatEItg2Ns

Contoh ROOP Unleashed dan LivePortrait (inset kiri bawah), dari aliran konten Bob Doyle di YouTube. Sumber: https://www.youtube.com/watch?v=i39xeYPBAAM dan https://www.youtube.com/watch?v=QGatEItg2Ns

Dengan kontras, LoRAs Hunyuan (dan sistem serupa yang akan tak terelakkan mengikuti) memungkinkan penciptaan dunia yang tidak terbatas, termasuk simulasi tubuh penuh dan lingkungan yang konsisten.

3: Konsistensi Temporal yang Jauh Lebih Baik

Konsistensi temporal telah menjadi Holy Grail dari difusi video selama beberapa tahun sekarang. Penggunaan LoRA, bersama dengan prompt yang sesuai, memberikan generasi video Hunyuan referensi identitas yang konstan untuk dipatuhi. Secara teori (ini masih awal), seseorang bisa melatih beberapa LoRAs dari identitas tertentu, masing-masing mengenakan pakaian tertentu.

Di bawah kondisi tersebut, pakaian juga kurang mungkin ‘bermutasi’ sepanjang generasi video (karena sistem generatif membasiskan bingkai berikutnya pada jendela bingkai sebelumnya yang sangat terbatas).

(Alternatif, seperti sistem LoRA berbasis gambar, satu dapat menerapkan beberapa LoRAs, seperti identitas + LoRAs kostum, ke generasi video tunggal)

4: Akses ke ‘Eksperimen Manusia’

Seperti yang saya baru-baru ini amati, sektor AI generatif milik perusahaan dan FAANG sekarang tampaknya sangat waspada terhadap kemampuan sintesis manusia dari proyek-proyeknya, sehingga orang-orang nyata jarang muncul di halaman proyek untuk pengumuman dan rilis besar. Sebaliknya, literatur publikasi yang terkait cenderung menampilkan subjek ‘imut’ dan ‘tidak mengancam’ lainnya dalam hasil sintesis.

Dengan munculnya LoRAs Hunyuan, untuk pertama kalinya, komunitas memiliki kesempatan untuk mendorong batas-batas sintesis video manusia berbasis LDM di sistem yang sangat mampu (bukan marginal), dan untuk sepenuhnya menjelajahi subjek yang paling menarik bagi sebagian besar dari kita – orang-orang.

Implikasi

Karena pencarian ‘Hunyuan’ di komunitas Civit sebagian besar menunjukkan LoRAs selebriti dan ‘hardcore’, implikasi sentral munculnya LoRAs Hunyuan adalah bahwa mereka akan digunakan untuk membuat video pornografi AI (atau fitnah) dari orang-orang nyata – selebriti dan orang-orang tidak dikenal.

Untuk tujuan kepatuhan, penghobi yang membuat LoRAs Hunyuan dan yang bereksperimen dengan mereka di server Discord yang beragam dan subreddits yang terkait, berhati-hati untuk melarang contoh orang-orang nyata dari diposting. Kenyataannya adalah bahwa bahkan gambar deepfakes sudah dipersenjatai secara parah; dan prospek menambahkan video yang sangat realistis ke dalam campuran ini mungkin akhirnya membenarkan ketakutan yang telah berulang dalam media selama tujuh tahun terakhir, dan yang telah memicu regulasi baru.

Kekuatan Penggerak

Seperti biasa, porn tetap kekuatan penggerak untuk teknologi. Apa pun pendapat kita tentang penggunaan seperti itu, mesin penggerak yang tak henti-hentinya ini mendorong kemajuan dalam keadaan seni yang akhirnya dapat menguntungkan adopsi yang lebih mainstream.

Dalam kasus ini, memungkinkan bahwa harga yang akan dibayarkan akan lebih tinggi dari biasanya, karena pelepasan sumber terbuka dari pembuatan video hiper-realistik memiliki implikasi yang jelas untuk penyalahgunaan kriminal, politik, dan etika.

Satu grup Reddit (yang tidak akan saya sebutkan di sini) yang didedikasikan untuk generasi video NSFW AI memiliki server Discord terbuka yang terkait, di mana pengguna mengembangkan alur kerja ComfyUI untuk generasi video pornografi berbasis Hunyuan. Setiap hari, pengguna memposting contoh klip NSFW – banyak di antaranya dapat dianggap ‘ekstrem’, atau setidaknya menegangkan batasan yang dinyatakan dalam aturan forum.

Komunitas ini juga memelihara repositori GitHub yang substansial dan berkembang yang menampilkan alat yang dapat mengunduh dan memproses video pornografi, untuk menyediakan data pelatihan untuk model baru.

Karena pelatih LoRA paling populer, Kohya-ss, sekarang mendukung pelatihan LoRA Hunyuan, hambatan untuk masuk ke pelatihan video generatif tanpa batas menurun setiap hari, bersama dengan persyaratan perangkat keras untuk pelatihan dan generasi video Hunyuan.

Aspek kritis dari skema pelatihan yang didedikasikan untuk AI berbasis pornografi (bukan model identitas seperti selebriti) adalah bahwa model dasar seperti Hunyuan tidak secara khusus dilatih pada output NSFW, dan mungkin karenanya baik melakukan buruk ketika diminta untuk menghasilkan konten NSFW, atau gagal untuk memisahkan konsep dan asosiasi yang dipelajari dengan cara yang performatif atau meyakinkan.

Dengan mengembangkan model dasar NSFW yang disesuaikan dan LoRAs, akan semakin memungkinkan untuk memproyeksikan identitas yang dilatih ke dalam domain video ‘porn’ yang didedikasikan; setelah semua, ini hanyalah versi video dari sesuatu yang sudah terjadi untuk gambar statis selama dua setengah tahun terakhir.

VFX

Peningkatan besar dalam konsistensi temporal yang ditawarkan oleh LoRAs video Hunyuan adalah sebuah berkah yang jelas bagi industri efek visual AI, yang sangat bergantung pada penyesuaian perangkat lunak sumber terbuka.

Meskipun pendekatan LoRA Hunyuan Video LoRA menghasilkan seluruh bingkai dan lingkungan, perusahaan VFX telah pasti mulai bereksperimen dengan mengisolasi wajah manusia yang konsisten secara temporal yang dapat diperoleh dengan metode ini, untuk menempel atau mengintegrasikan wajah ke dalam cuplikan sumber dunia nyata.

Seperti komunitas hobi, perusahaan VFX harus menunggu fungsi gambar-ke-video dan video-ke-video Hunyuan Video, yang potensial adalah jembatan yang paling berguna antara konten ‘deepfake’ berbasis LoRA; atau improvisasi, dan menggunakan interval untuk menyelidiki kemampuan luar dari kerangka kerja dan adaptasi potensial, dan bahkan garpu milik perusahaan dari Hunyuan Video.

Meskipun ketentuan lisensi untuk Hunyuan Video secara teknis memungkinkan penggambaran individu nyata selama izin diberikan, mereka melarang penggunaannya di Uni Eropa, Inggris, dan Korea Selatan. Berdasarkan prinsip ‘tetap di Vegas’, ini tidak secara otomatis berarti bahwa Hunyuan Video tidak akan digunakan di wilayah-wilayah ini; namun, prospek audit data eksternal, untuk memaksakan regulasi yang tumbuh di sekitar AI generatif, dapat membuat penggunaan ilegal seperti itu berisiko.

Satu area lain yang ambigu dari ketentuan lisensi menyatakan:

‘Jika, pada tanggal rilis versi Tencent Hunyuan, pengguna aktif bulanan dari semua produk atau layanan yang tersedia oleh atau untuk Pemegang Lisensi lebih dari 100 juta pengguna aktif bulanan dalam bulan kalender sebelumnya, Anda harus meminta lisensi dari Tencent, yang dapat diberikan kepada Anda atas kebijakan tunggal Tencent, dan Anda tidak berwenang untuk melakukan hak-hak di bawah Perjanjian ini kecuali atau sampai Tencent memberikan hak-hak tersebut kepada Anda.’

Klausul ini jelas ditujukan pada sejumlah perusahaan yang kemungkinan akan ‘menengahi’ Hunyuan Video untuk sejumlah besar pengguna yang relatif tidak terampil secara teknis, dan yang akan diminta untuk memasukkan Tencent ke dalam aksi, di atas ambang tertentu pengguna.

Apakah atau tidak phrasing yang luas juga dapat mencakup penggunaan tidak langsung (yaitu, melalui penyediaan output efek visual Hunyuan yang diaktifkan dalam film dan acara TV populer) mungkin perlu klarifikasi.

Kesimpulan

Karena deepfake video telah ada selama waktu yang lama, akan mudah untuk meremehkan signifikansi LoRA Hunyuan Video sebagai pendekatan untuk sintesis identitas, dan deepfaking; dan untuk menganggap bahwa perkembangan yang saat ini muncul di komunitas Civit, dan di Discord dan subreddits yang terkait, mewakili dorongan inkremental kecil ke arah sintesis video manusia yang dapat dikendalikan secara nyata.

Lebih mungkin adalah bahwa upaya saat ini hanya mewakili sebagian kecil dari potensi Hunyuan Video untuk menciptakan deepfakes tubuh penuh dan lingkungan yang sepenuhnya meyakinkan; sekali komponen gambar-ke-video dirilis (diberitakan akan terjadi bulan ini), tingkat generatif yang jauh lebih granular akan tersedia bagi komunitas hobi dan profesional.

Ketika Stability.ai merilis Stable Diffusion pada 2022, banyak pengamat tidak bisa menentukan mengapa perusahaan itu akan memberikan sistem generatif yang sangat berharga dan kuat; dengan Hunyuan Video, motif keuntungan secara langsung dibangun ke dalam lisensi – meskipun itu mungkin terbukti sulit bagi Tencent untuk menentukan kapan sebuah perusahaan memicu skema pembagian keuntungan.

Dalam hal apapun, hasilnya sama seperti pada 2022: komunitas pengembangan yang didedikasikan telah terbentuk segera dan dengan semangat yang intens sekitar rilis. Beberapa jalan yang upaya ini akan ambil dalam 12 bulan ke depan pasti akan memicu headline baru.

 

* Hingga 136 pada saat penerbitan.

Publikasi pertama pada hari Selasa, 7 Januari 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.