Sudut Anderson

Cara Melatih dan Menggunakan Model LoRA Hunyuan Video

mm
ChatGPT-4o: Variation on 'Create me an image 1792 x 1024. It should be in the style of ThΓ©odore GΓ©ricault, and should depict a dark medieval figure seated in front of a laptop, illuminated by the screen. We are facing the figure, and can only see the back of the laptop lid. Around the seated medieval figure are many other medieval men and women, curious as to what is happening on the computer screen'

Artikel ini akan menunjukkan cara menginstal dan menggunakan perangkat lunak berbasis Windows yang dapat melatih model LoRA Hunyuan video, memungkinkan pengguna untuk menghasilkan kepribadian kustom di model dasar Hunyuan Video.

Klik untuk memutar. Contoh dari ledakan selebriti Hunyuan LoRAs dari komunitas civit.ai.

Saat ini, dua cara paling populer untuk menghasilkan model LoRA Hunyuan secara lokal adalah:

1) diffusion-pipe-ui framework berbasis Docker, yang bergantung pada Windows Subsystem for Linux (WSL) untuk menangani beberapa proses.

2) Musubi Tuner, penambahan baru pada arsitektur pelatihan difusi populer Kohya ss. Musubi Tuner tidak memerlukan Docker dan tidak bergantung pada WSL atau proksi Linux-based lainnya – tetapi dapat sulit untuk dijalankan di Windows.

Oleh karena itu, jalur ini akan fokus pada Musubi Tuner, dan pada menyediakan solusi lokal lengkap untuk pelatihan dan generasi LoRA Hunyuan, tanpa menggunakan situs web yang digerakkan oleh API atau proses penyewaan GPU komersial seperti Runpod.

Klik untuk memutar. Sampel dari pelatihan LoRA pada Musubi Tuner untuk artikel ini. Semua izin diberikan oleh orang yang digambarkan, untuk tujuan mengilustrasikan artikel ini.

PERSYARATAN

Instalasi akan memerlukan minimal PC Windows 10 dengan kartu NVIDIA seri 30+/40+ yang memiliki setidaknya 12GB VRAM (meskipun 16GB direkomendasikan). Instalasi yang digunakan untuk artikel ini diuji pada mesin dengan 64GB RAM sistem dan kartu grafis NVIDIA 3090 dengan 24GB VRAM. Ini diuji pada sistem test-bed khusus menggunakan instalasi Windows 10 Professional yang baru, pada partisi dengan 600+GB ruang disk yang tersedia.

PERINGATAN

Menginstal Musubi Tuner dan prasyaratnya juga melibatkan instalasi perangkat lunak dan paket yang berfokus pada pengembang langsung ke instalasi Windows utama PC. Mengambil instalasi ComfyUI ke dalam pertimbangan, untuk tahap akhir, proyek ini akan memerlukan sekitar 400-500 gigabyte ruang disk. Meskipun saya telah menguji prosedur tanpa insiden beberapa kali di lingkungan test-bed Windows 10 yang baru diinstal, baik saya maupun unite.ai tidak bertanggung jawab atas kerusakan pada sistem dari mengikuti instruksi ini. Saya menyarankan Anda untuk membackup data penting sebelum mencoba prosedur instalasi ini.

PERTIMBANGAN

Apakah Metode Ini Masih Valid?

Adegan AI generatif bergerak sangat cepat, dan kita dapat mengharapkan metode yang lebih baik dan lebih terstruktur untuk kerangka LoRA Hunyuan Video tahun ini.

…atau bahkan minggu ini! Sementara saya menulis artikel ini, pengembang Kohya/Musubi menghasilkan musubi-tuner-gui, antarmuka pengguna Gradio yang canggih untuk Musubi Tuner:

Jelas bahwa antarmuka pengguna yang ramah lebih disukai daripada file BAT yang saya gunakan dalam fitur ini – sekali musubi-tuner-gui berfungsi. Saya menulis, itu hanya online lima hari yang lalu, dan saya tidak dapat menemukan akun dari siapa pun yang berhasil menggunakannya.

Menurut postingan di repositori, antarmuka pengguna baru ini dimaksudkan untuk digabungkan langsung ke dalam proyek Musubi Tuner secepat mungkin, yang akan mengakhiri keberadaannya sebagai repositori GitHub mandiri.

Berdasarkan instruksi instalasi saat ini, antarmuka pengguna baru ini digabungkan langsung ke dalam lingkungan virtual Musubi; dan, meskipun banyak upaya, saya tidak dapat mengasosiasikannya dengan instalasi Musubi yang ada. Ini berarti bahwa ketika dijalankan, itu akan menemukan bahwa tidak ada mesin!

Sekali antarmuka pengguna terintegrasi ke dalam Musubi Tuner, masalah seperti ini pasti akan diselesaikan. Meskipun pengarang mengakui bahwa proyek baru ini ‘sangat kasar’, dia optimis tentang pengembangannya dan integrasi langsung ke dalam Musubi Tuner.

Terlepas dari masalah ini (juga mengenai jalur default saat instalasi, dan penggunaan paket Python UV, yang mempersulit beberapa prosedur dalam rilis baru), kita mungkin harus menunggu sedikit untuk pengalaman pelatihan LoRA Hunyuan Video yang lebih mulus. Itu dikatakan, tampaknya sangat menjanjikan!

Tapi jika Anda tidak bisa menunggu, dan bersedia menggulung lengan baju sedikit, Anda dapat menjalankan pelatihan LoRA Hunyuan video secara lokal sekarang juga.

Mari kita mulai.

MENGAPA MENGINSTAL APAPUN DI BARE METAL?

(Lewati paragraf ini jika Anda bukan pengguna tingkat lanjut)
Pengguna tingkat lanjut akan bertanya-tanya mengapa saya memilih untuk menginstal banyak perangkat lunak di instalasi Windows 10 yang murni, bukan di lingkungan virtual. Alasannya adalah bahwa port Windows dari paket Linux-based Triton jauh lebih sulit untuk dijalankan di lingkungan virtual. Semua instalasi bare-metal lainnya dalam tutorial ini tidak dapat diinstal di lingkungan virtual, karena mereka harus berinteraksi langsung dengan perangkat keras lokal.

MENGINSTAL PAKET PRASYARAT DAN PROGRAM

Untuk program dan paket yang harus diinstal awal, urutan instalasi penting. Mari kita mulai.

1: UNDUH MICROSOFT REDISTRIBUTABLE

Unduh dan instalkan paket Microsoft Redistributable dari https://aka.ms/vs/17/release/vc_redist.x64.exe.

Ini adalah instalasi yang sederhana dan cepat.

2: INSTAL VISUAL STUDIO 2022

Unduh edisi Community Microsoft Visual Studio 2022 dari https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta

Jalankan penginstal yang diunduh;

Kita tidak memerlukan semua paket yang tersedia, yang akan menjadi instalasi yang berat dan panjang. Di halaman Workloads awal yang terbuka, centang Desktop Development with C++ (lihat gambar di bawah).

Sekarang, klik tab Individual Components di bagian kiri atas antarmuka dan gunakan kotak pencarian untuk menemukan ‘Windows SDK’.

Secara default, hanya Windows 11 SDK yang dicentang. Jika Anda menggunakan Windows 10 (prosedur instalasi ini belum diuji oleh saya di Windows 11), centang versi Windows 10 terbaru, yang ditunjukkan pada gambar di atas.

Cari ‘C++ CMake’ dan periksa bahwa C++ CMake tools for Windows dicentang.

Instalasi ini akan memakan setidaknya 13 GB ruang.

Setelah Visual Studio terinstal, itu akan mencoba menjalankan pada komputer Anda. Biarkan membuka sepenuhnya. Ketika antarmuka layar penuh Visual Studio terlihat, tutup programnya.

3: INSTAL VISUAL STUDIO 2019

Beberapa paket berikutnya untuk Musubi mengharapkan versi yang lebih lama dari Microsoft Visual Studio, sementara yang lain memerlukan versi yang lebih baru.

Oleh karena itu, unduh juga edisi Community dari Visual Studio 19 baik dari Microsoft (https://visualstudio.microsoft.com/vs/older-downloads/ – akun diperlukan) atau Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).

Instal dengan opsi yang sama seperti untuk Visual Studio 2022 (lihat prosedur di atas, kecuali bahwa Windows SDK sudah dicentang di penginstal Visual Studio 2019).

Anda akan melihat bahwa penginstal Visual Studio 2019 sudah menyadari versi yang lebih baru saat diinstal:

Ketika instalasi selesai, dan Anda telah membuka dan menutup aplikasi Visual Studio 2019 yang diinstal, buka prompt perintah Windows (ketik CMD di Pencarian Mulai) dan ketik dan jalankan:

where cl

Hasilnya harus menampilkan lokasi yang diketahui dari dua edisi Visual Studio yang diinstal.

Jika Anda malah mendapatkan INFO: Could not find files for the given pattern(s), lihat bagian Periksa Jalur dari artikel ini di bawah, dan gunakan instruksi tersebut untuk menambahkan jalur Visual Studio yang relevan ke lingkungan Windows.

Simpan perubahan yang dilakukan sesuai dengan bagian Periksa Jalur di bawah, dan kemudian coba perintah where cl lagi.

4: INSTAL CUDA 11 + 12 TOOLKIT

Berbagai paket yang diinstal di Musubi memerlukan versi yang berbeda dari NVIDIA CUDA, yang mempercepat dan mengoptimalkan pelatihan pada kartu grafis NVIDIA.

Alasannya kita menginstal versi Visual Studio terlebih dahulu adalah bahwa penginstal CUDA NVIDIA mencari dan mengintegrasikan dengan instalasi Visual Studio yang ada.

Unduh paket instalasi CUDA 11+ dari:

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (unduh ‘exe (local)’)

Unduh paket instalasi CUDA 12+ dari:

https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64

Proses instalasi identik untuk kedua penginstal. Abaikan peringatan apa pun tentang keberadaan atau tidak adanya jalur instalasi di variabel Lingkungan Windows – kita akan mengaturnya secara manual nanti.

INSTAL NVIDIA CUDA TOOLKIT V11+

Jalankan penginstal untuk CUDA 11+.

Di Installation Options, pilih Custom (Advanced) dan lanjutkan.

Hapus centang opsi NVIDIA GeForce Experience dan klik Next.

Biarlah Select Installation Location diatur ke default (ini penting):

Klik Next dan biarkan instalasi selesai.

Abaikan peringatan atau catatan apa pun yang diberikan oleh penginstal tentang Nsight Visual Studio integrasi, yang tidak diperlukan untuk kasus penggunaan kita.

INSTAL NVIDIA CUDA TOOLKIT V12+

Ulangi proses seluruhnya untuk penginstal CUDA 12+ terpisah yang Anda unduh:

Proses instalasi untuk versi ini identik dengan yang tercantum di atas (versi 11+), kecuali untuk satu peringatan tentang jalur lingkungan, yang dapat Anda abaikan:

Ketika instalasi CUDA 12+ selesai, buka prompt perintah Windows dan ketik dan jalankan:

nvcc --version

Ini harus mengkonfirmasi informasi tentang versi driver yang diinstal:

Untuk memeriksa bahwa kartu Anda dikenali, ketik dan jalankan:

nvidia-smi

5: INSTAL GIT

GIT akan menangani instalasi repositori Musubi di mesin lokal Anda. Unduh penginstal GIT di:

https://git-scm.com/downloads/win (’64-bit Git for Windows Setup’)

Jalankan penginstal:

Gunakan pengaturan default untuk Select Components:

Biarkan editor default di Vim:

Biarkan GIT menentukan nama cabang:

Gunakan pengaturan yang disarankan untuk Path Environment:

Gunakan pengaturan yang disarankan untuk SSH:

Gunakan pengaturan yang disarankan untuk HTTPS Transport backend:

Gunakan pengaturan yang disarankan untuk konversi akhir baris:

Pilih konsol default Windows sebagai Terminal Emulator:

Gunakan pengaturan default (Fast-forward or merge) untuk Git Pull:

Gunakan Git-Credential Manager (pengaturan default) untuk Credential Helper:

Di Configuring extra options, biarkan Enable file system caching dicentang, dan Enable symbolic links tidak dicentang (kecuali Anda adalah pengguna tingkat lanjut yang menggunakan tautan keras untuk repositori model terpusat).

Selesaikan instalasi dan uji bahwa GIT terinstal dengan benar dengan membuka jendela CMD dan mengetik dan menjalankan:

git --version

LOGIN GITHUB

Nanti, ketika Anda mencoba mengkloning repositori GitHub, Anda mungkin akan diminta untuk memasukkan kredensial GitHub Anda. Untuk mengantisipasi ini, masuk ke akun GitHub Anda (buat satu, jika perlu) di browser yang dipasang pada sistem Windows Anda. Dengan cara ini, metode autentikasi 0Auth (jendela pop-up) harus memakan waktu sesingkat mungkin.

Setelah tantangan awal, Anda seharusnya tetap terautentikasi secara otomatis.

6: INSTAL CMAKE

CMake 3.21 atau lebih baru diperlukan untuk beberapa bagian dari proses instalasi Musubi. CMake adalah arsitektur pengembangan lintas platform yang mampu mengatur berbagai compiler, dan mengkompilasi perangkat lunak dari kode sumber.

Unduh dari:

https://cmake.org/download/ (‘Windows x64 Installer’)

Luncurkan penginstal:

Pastikan Add Cmake to the PATH environment variable dicentang.

Tekan Next.

Ketik dan jalankan perintah ini di prompt perintah Windows:

cmake --version

Jika CMake terinstal dengan benar, itu akan menampilkan sesuatu seperti:

cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).

7: INSTAL PYTHON 3.10

Interpreter Python adalah pusat dari proyek ini. Unduh versi 3.10 (kompromi terbaik antara berbagai tuntutan paket Musubi) di:

https://www.python.org/downloads/release/python-3100/ (‘Windows installer (64-bit)’)

Jalankan penginstal unduhan, dan biarkan di pengaturan default:

Di akhir proses instalasi, klik Disable path length limit (memerlukan konfirmasi admin UAC):

Ketik dan jalankan perintah ini di prompt perintah Windows:

python --version

Ini harus menghasilkan Python 3.10.0

PERIKSA JALUR

Pengkloning dan instalasi kerangka Musubi, serta operasional normalnya setelah instalasi, memerlukan bahwa komponennya mengetahui jalur ke beberapa komponen eksternal penting di Windows, terutama CUDA.

Oleh karena itu, kita perlu membuka lingkungan jalur dan memeriksa bahwa semua prasyarat ada di sana.

Cara cepat untuk mendapatkan kontrol lingkungan Windows adalah dengan mengetik Edit the system environment variables ke bilah pencarian Windows.

Mengklik ini akan membuka panel kontrol System Properties. Di bagian kanan bawah System Properties, klik tombol Environment Variables, dan jendela yang disebut Environment Variables akan terbuka. Di panel System Variables di bagian bawah jendela ini, gulir ke bawah ke Path dan klik dua kali. Ini akan membuka jendela yang disebut Edit environment variables. Tarik lebar jendela ini sehingga Anda dapat melihat jalur penuh dari variabel:

Di sini, entri penting adalah:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

Dalam kebanyakan kasus, variabel jalur yang benar sudah ada.

Tambahkan jalur yang hilang dengan mengklik New di sebelah kiri jendela Edit environment variable dan menempelkan jalur yang benar:

Jangan hanya menyalin dan menempelkan dari jalur yang tercantum di atas; periksa bahwa setiap jalur setara ada di instalasi Windows Anda sendiri.

Jika ada variasi jalur kecil (terutama dengan instalasi Visual Studio), gunakan jalur yang tercantum di atas untuk menemukan folder target yang benar (yaitu, x64 di Host64 di instalasi Anda sendiri). Kemudian, tempelkan jalur itu ke jendela Edit environment variable.

Setelah ini, restart komputer.

MENGINSTAL MUSUBI

UPGRADE PIP

Menggunakan versi terbaru dari penginstal PIP dapat memuluskan beberapa tahap instalasi. Di prompt perintah Windows dengan hak istimewa administrator (lihat Elevasi di bawah), ketik dan jalankan:

pip install --upgrade pip

ELEVASI

Beberapa perintah mungkin memerlukan hak istimewa yang ditinggikan (yaitu, untuk dijalankan sebagai administrator). Jika Anda menerima pesan kesalahan tentang izin, tutup jendela prompt perintah dan buka kembali dalam mode administrator dengan mengetik CMD ke bilah pencarian Windows, mengklik kanan Command Prompt dan memilih Run as administrator:

Untuk tahap berikutnya, kita akan menggunakan Windows Powershell bukan prompt perintah Windows. Anda dapat menemukannya dengan mengetik Powershell ke bilah pencarian Windows, dan (jika perlu) mengklik kanan itu untuk Run as administrator:

INSTAL TORCH

Di Powershell, ketik dan jalankan:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Sabarlah saat banyak paket diinstal.

Ketika selesai, Anda dapat memverifikasi instalasi PyTorch yang diaktifkan GPU dengan mengetik dan menjalankan:

python -c "import torch; print(torch.cuda.is_available())"

Ini harus menghasilkan:

True

INSTAL TRITON UNTUK WINDOWS

Selanjutnya, instalasi komponen Triton untuk Windows. Di Powershell yang ditinggikan, masukkan (dalam satu baris):

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(Penginstal triton-3.1.0-cp310-cp310-win_amd64.whl bekerja untuk kedua CPU Intel dan AMD selama arsitektur 64-bit dan lingkungan cocok dengan versi Python)

Setelah dijalankan, ini harus menghasilkan:

Successfully installed triton-3.1.0

Kita dapat memeriksa apakah Triton berfungsi dengan mengimpor di Python. Masukkan perintah ini:

python -c "import triton; print('Triton is working')"

Ini harus mengeluarkan:

Triton is working

Untuk memeriksa bahwa Triton diaktifkan GPU, masukkan:

python -c "import torch; print(torch.cuda.is_available())"

Ini harus menghasilkan True:

BUAT LINGKUNGAN VIRTUAL UNTUK MUSUBI

Dari sekarang, kita akan menginstal perangkat lunak lebih lanjut ke dalam lingkungan virtual Python (atau venv). Ini berarti bahwa semua yang perlu Anda lakukan untuk menghapus semua perangkat lunak berikutnya adalah menarik folder venv ke tempat sampah.

Buat folder yang disebut Musubi di desktop Anda. Contoh-contoh berikut menganggap bahwa folder ini ada: C:\Users\[Nama Profil Anda]\Desktop\Musubi\.

Di Powershell, navigasikan ke folder itu dengan memasukkan:

cd C:\Users\[Nama Profil Anda]\Desktop\Musubi

Kita ingin lingkungan virtual memiliki akses ke apa yang telah kita instalkan sebelumnya (terutama Triton), jadi kita akan menggunakan bendera --system-site-packages. Masukkan ini:

python -m venv --system-site-packages musubi

Tunggu sampai lingkungan dibuat, lalu aktifkan dengan memasukkan:

.\musubi\Scripts\activate

Dari titik ini, Anda dapat mengetahui bahwa Anda berada di lingkungan virtual yang diaktifkan dengan adanya (musubi) di awal semua prompt Anda.

KLON REPOSITORI

Navigasikan ke folder musubi yang baru dibuat (yang ada di dalam folder Musubi di desktop Anda):

cd musubi

Sekarang kita berada di tempat yang tepat, masukkan perintah ini:

git clone https://github.com/kohya-ss/musubi-tuner.git

Tunggu sampai pengkloning selesai (ini tidak akan memakan waktu lama).

MENGINSTAL PERSYARATAN

Navigasikan ke folder instalasi:

cd musubi-tuner

Masukkan:

pip install -r requirements.txt

Tunggu sampai banyak instalasi selesai (ini akan memakan waktu lebih lama).

OTOMATISASI AKSES KE HUNYUAN VIDEO VENV

Untuk dengan mudah mengaktifkan dan mengakses venv baru untuk sesi di masa depan, tempelkan teks berikut ke Notepad dan simpan dengan nama activate.bat, menyimpannya dengan opsi All files (lihat gambar di bawah).

@echo off

call C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner

cmd

(Gantikan [Nama Profil Anda] dengan nama profil pengguna Windows yang sebenarnya)

Tidak masalah ke lokasi mana Anda menyimpan file ini.

Dari sekarang, Anda dapat mengklik dua kali activate.bat dan memulai bekerja segera.

MENGUNAKAN MUSUBI TUNER

MENGUNDUH MODEL

Proses pelatihan LoRA Hunyuan Video memerlukan pengunduhan setidaknya tujuh model untuk mendukung semua opsi optimasi yang mungkin untuk pre-caching dan pelatihan LoRA Hunyuan video, yang secara total beratnya lebih dari 60GB.

Untuk saat ini, instruksi untuk mengunduhnya dapat ditemukan di https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download

Namun, ini adalah instruksi pengunduhan pada saat penulisan:

clip_l.safetensors, llava_llama3_fp16.safetensors dan llava_llama3_fp8_scaled.safetensors dapat diunduh di https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

mp_rank_00_model_states.pt, mp_rank_00_model_states_fp8.pt dan mp_rank_00_model_states_fp8_map.pt dapat diunduh di https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers

pytorch_model.pt dapat diunduh di https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae

Meskipun Anda dapat meletakkan file-file ini di direktori mana pun yang Anda inginkan, untuk konsistensi dengan scripting selanjutnya, mari kita letakkan di:

C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\models\

Ini konsisten dengan pengaturan direktori sebelum titik ini. Jangan lupa menggantikan [Nama Profil Anda] dengan nama folder profil Windows yang sebenarnya.

PERSIAPAN DATASET

Mengabaikan kontroversi komunitas tentang poin ini, adil untuk mengatakan bahwa Anda akan memerlukan sekitar 10-100 foto untuk dataset pelatihan LoRA Hunyuan. Hasil yang sangat baik dapat diperoleh bahkan dengan 15 gambar, selama gambar-gambar tersebut seimbang dan berkualitas baik.

LoRA Hunyuan dapat dilatih baik pada gambar maupun klip video pendek dan rendah, atau bahkan campuran dari keduanya – meskipun menggunakan klip video sebagai data pelatihan menantang, bahkan untuk kartu 24GB.

Namun, klip video hanya berguna jika karakter Anda bergerak dengan cara yang tidak biasa sehingga model dasar Hunyuan Video mungkin tidak mengetahuinya, atau tidak dapat menebaknya.

Contoh termasuk Roger Rabbit, xenomorph, The Mask, Spider-Man, atau kepribadian lain yang memiliki karakteristik gerakan unik.

Karena Hunyuan Video sudah mengetahui bagaimana orang biasa bergerak, klip video tidak perlu untuk mendapatkan LoRA Hunyuan Video yang meyakinkan. Jadi kita akan menggunakan gambar statis.

PERSIAPAN GAMBAR

DAFTAR BUCKET

Versi TLDR:

Lebih baik menggunakan gambar yang semua ukurannya sama untuk dataset Anda, atau menggunakan split 50/50 antara dua ukuran yang berbeda, misalnya 10 gambar yang 512x768px dan 10 yang 768x512px.

Pelatihan mungkin berjalan dengan baik bahkan jika Anda tidak melakukan ini – LoRA Hunyuan Video dapat sangat memaafkan.

Versi Lebih Panjang

Sebagaimana dengan LoRA Kohya-ss untuk sistem generatif statis seperti Stable Diffusion, bucketing digunakan untuk mendistribusikan beban kerja di seluruh gambar dengan ukuran yang berbeda, memungkinkan gambar yang lebih besar digunakan tanpa menyebabkan kesalahan kehabisan memori saat pelatihan (yaitu, bucketing ‘memotong’ gambar menjadi potongan yang dapat ditangani GPU, sambil mempertahankan integritas semantik gambar keseluruhan).

Untuk setiap ukuran gambar yang Anda masukkan dalam dataset pelatihan (yaitu 512x768px), sebuah bucket, atau ‘sub-tugas’ akan dibuat untuk ukuran itu. Jadi jika Anda memiliki distribusi gambar seperti ini, ini adalah bagaimana perhatian bucket menjadi tidak seimbang, dan risiko bahwa beberapa foto akan diberi perhatian lebih besar dalam pelatihan daripada yang lain:

2x 512x768px gambar
7x 768x512px gambar
1x 1000x600px gambar
3x 400x800px gambar

Kita dapat melihat bahwa perhatian bucket tidak dibagi secara merata di antara gambar-gambar ini:

Oleh karena itu, baik Anda menggunakan satu format ukuran, atau mencoba menjaga distribusi ukuran yang berbeda relatif seimbang.

Hindari gambar yang sangat besar, karena ini kemungkinan akan memperlambat pelatihan, tanpa manfaat yang signifikan.

Untuk kesederhanaan, saya telah menggunakan 512x768px untuk semua foto di dataset saya.

Disclaimer: Model (orang) yang digunakan dalam dataset memberikan saya izin penuh untuk menggunakan gambar-gambar ini untuk tujuan ini, dan menyetujui semua output AI yang menampilkan kesamaan mereka yang diilustrasikan dalam artikel ini.

Dataset saya terdiri dari 40 gambar, dalam format PNG (meskipun JPG juga baik). Gambar-gambar saya disimpan di C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman

Anda harus membuat folder cache di dalam folder gambar pelatihan:

Sekarang, mari kita buat file khusus yang akan mengkonfigurasi pelatihan.

BERKAS TOML

Proses pelatihan dan pre-caching LoRA Hunyuan Video mendapatkan jalur file dari file teks datar dengan ekstensi .toml.

Untuk tes saya, file TOML terletak di C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml

Isi file TOML pelatihan saya terlihat seperti ini:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(Tanda backslash ganda untuk direktori gambar dan cache tidak selalu diperlukan, tetapi dapat membantu menghindari kesalahan dalam kasus di mana ada spasi dalam jalur. Saya telah melatih model dengan file .toml yang menggunakan tanda backslash maju dan mundur)

Kita dapat melihat di bagian resolution bahwa dua resolusi akan dipertimbangkan – 512px dan 768px. Anda juga dapat membiarkannya di 512, dan masih mendapatkan hasil yang baik.

KAPTION

Hunyuan Video adalah model teks+visi, jadi kita memerlukan keterangan deskriptif untuk gambar-gambar ini, yang akan dipertimbangkan selama pelatihan. Proses pelatihan akan gagal tanpa keterangan.

Ada banyak sistem keterangan sumber terbuka yang bisa kita gunakan untuk tugas ini, tetapi mari kita pertahankan kesederhanaan dan menggunakan sistem taggui. Meskipun disimpan di GitHub, dan meskipun mengunduh beberapa model pembelajaran dalam yang berat pada saat pertama kali dijalankan, itu datang dalam bentuk executable Windows sederhana yang memuat perpustakaan Python dan antarmuka pengguna yang sederhana.

Setelah memulai Taggui, gunakan File > Load Directory untuk menavigasi ke direktori dataset gambar Anda, dan opsionalnya letakkan pengidentifikasi token (dalam hal ini, examplewoman) yang akan ditambahkan ke semua keterangan:

(Pastikan Anda mematikan Load in 4-bit ketika Taggui pertama kali dibuka – itu akan melempar kesalahan selama keterangan)

Pilih gambar di kolom preview kiri dan tekan CTRL+A untuk memilih semua gambar. Kemudian tekan tombol Start Auto-Captioning di sebelah kanan:

Anda akan melihat Taggui mengunduh model di CLI kecil di kolom kanan, tetapi hanya jika ini pertama kali Anda menjalankannya. Jika tidak, Anda akan melihat pratinjau keterangan.

Sekarang, setiap foto memiliki file .txt keterangan yang sesuai dengan deskripsi isi gambar:

Anda dapat mengklik Advanced Options di Taggui untuk meningkatkan panjang dan gaya keterangan, tetapi itu di luar cakupan jalur ini.

Keluar dari Taggui dan mari kita lanjutkan ke…

PRE-CACHING LATEN

Untuk menghindari beban GPU yang berlebihan saat pelatihan, perlu membuat dua jenis file pre-caching – satu untuk mewakili gambar laten yang dihasilkan dari gambar-gambar itu sendiri, dan yang lain untuk mengevaluasi pengkodean teks yang terkait dengan isi keterangan.

Untuk menyederhanakan ketiga proses (2x cache + pelatihan), Anda dapat menggunakan file .BAT interaktif yang akan bertanya kepada Anda pertanyaan dan melakukan proses ketika Anda telah memberikan informasi yang diperlukan.

Untuk pre-caching laten, salin teks berikut ke Notepad dan simpan sebagai file .BAT (misalnya, namai latent-precache.bat), seperti sebelumnya, memastikan bahwa jenis file di menu drop-down di dialog Save As adalah All Files (lihat gambar di bawah):

@echo off

REM Aktifkan lingkungan virtual

call C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Dapatkan input pengguna

set /p IMAGE_PATH=Masukkan jalur ke direktori gambar:

set /p CACHE_PATH=Masukkan jalur ke direktori cache:

set /p TOML_PATH=Masukkan jalur ke file TOML:

echo Anda memasukkan:

echo Jalur gambar: %IMAGE_PATH%

echo Jalur cache: %CACHE_PATH%

echo Jalur file TOML: %TOML_PATH%

set /p CONFIRM=Apakah Anda ingin melanjutkan dengan pre-caching laten (y/n)?

if /i "%CONFIRM%"=="y" (

REM Jalankan skrip pre-caching laten

python C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) else (

echo Operasi dibatalkan.

)

REM Biarkan jendela tetap terbuka

pause

(Gantikan [Nama Profil Anda] dengan nama folder profil Windows yang sebenarnya)

Sekarang Anda dapat menjalankan file .BAT untuk pre-caching laten otomatis:

Ketika diminta oleh file .BAT, tempel atau ketik jalur ke dataset, folder cache, dan file TOML.

PRE-CACHING TEKS

Kita akan membuat file .BAT kedua, kali ini untuk pre-caching teks.

@echo off

REM Aktifkan lingkungan virtual

call C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Dapatkan input pengguna

set /p IMAGE_PATH=Masukkan jalur ke direktori gambar:

set /p CACHE_PATH=Masukkan jalur ke direktori cache:

set /p TOML_PATH=Masukkan jalur ke file TOML:

echo Anda memasukkan:

echo Jalur gambar: %IMAGE_PATH%

echo Jalur cache: %CACHE_PATH%

echo Jalur file TOML: %TOML_PATH%

set /p CONFIRM=Apakah Anda ingin melanjutkan dengan pre-caching output pengkode teks (y/n)?

if /i "%CONFIRM%"=="y" (

REM Gunakan executable python dari lingkungan virtual

python C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) else (

echo Operasi dibatalkan.

)

REM Biarkan jendela tetap terbuka

pause

(Gantikan [Nama Profil Anda] dengan nama folder profil Windows yang sebenarnya)

Simpan skrip ini sebagai text-cache.bat (atau nama lain yang Anda sukai), di lokasi yang nyaman, seperti prosedur untuk file .BAT sebelumnya.

Jalankan file .BAT ini, ikuti instruksi, dan file yang diperlukan akan muncul di folder cache:

MELATIH LORA HUNYUAN VIDEO

Pelatihan LoRA yang sebenarnya akan memakan waktu jauh lebih lama daripada dua proses preparasi ini.

Meskipun ada banyak variabel yang bisa kita khawatirkan (seperti ukuran batch, pengulangan, epoch, dan apakah menggunakan model penuh atau kuantisasi, di antara lainnya), kita akan menyimpan pertimbangan ini untuk hari lain, dan tinjauan yang lebih dalam tentang kehalusan pembuatan LoRA.

Untuk sekarang, mari kita minimalisir pilihan sedikit dan melatih LoRA dengan pengaturan ‘median’.

Kita akan membuat file .BAT ketiga, kali ini untuk memulai pelatihan. Salin teks berikut ke Notepad dan simpan sebagai file .BAT, seperti sebelumnya, sebagai training.bat (atau nama lain yang Anda sukai):

@echo off

REM Aktifkan lingkungan virtual

call C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Dapatkan input pengguna

set /p DATASET_CONFIG=Masukkan jalur ke file konfigurasi dataset:

set /p EPOCHS=Masukkan jumlah epoch untuk dilatih:

set /p OUTPUT_NAME=Masukkan nama model output (misalnya, example0001):

set /p LEARNING_RATE=Pilih tingkat pembelajaran (1 untuk 1e-3, 2 untuk 5e-3, default 1e-3):

if "%LEARNING_RATE%"=="1" set LR=1e-3

if "%LEARNING_RATE%"=="2" set LR=5e-3

if "%LEARNING_RATE%"=="" set LR=1e-3

set /p SAVE_STEPS=Berapa sering (dalam langkah) untuk menyimpan gambar pratinjau:

set /p SAMPLE_PROMPTS=Dimana letak file prompt teks untuk pratinjau pelatihan?

echo Anda memasukkan:

echo File konfigurasi dataset: %DATASET_CONFIG%

echo Jumlah epoch: %EPOCHS%

echo Nama model output: %OUTPUT_NAME%

echo Tingkat pembelajaran: %LR%

echo Simpan gambar pratinjau setiap %SAVE_STEPS% langkah.

echo File prompt teks: %SAMPLE_PROMPTS%

REM Siapkan perintah

set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_CONFIG% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOCHS% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Nama Profil Anda]\Desktop\Musubi\Output Models" ^

--output_name %OUTPUT_NAME% ^

--vae C:/Users/[Nama Profil Anda]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Nama Profil Anda]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Nama Profil Anda]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %SAMPLE_PROMPTS% ^

--sample_every_n_steps %SAVE_STEPS% ^

--sample_at_first

echo Perintah berikut akan dijalankan:

echo %CMD%

set /p CONFIRM=Apakah Anda ingin melanjutkan dengan pelatihan (y/n)?

if /i "%CONFIRM%"=="y" (

%CMD%

) else (

echo Operasi dibatalkan.

)

REM Biarkan jendela tetap terbuka

cmd /k

Seperti biasa, pastikan untuk menggantikan semua instance [Nama Profil Anda] dengan nama profil Windows yang sebenarnya.

Pastikan direktori C:\Users\[Nama Profil Anda]\Desktop\Musubi\Output Models\ ada, dan buat jika tidak.

PRA-TINJAUAN PELATIHAN

Ada fitur pratinjau pelatihan dasar yang baru diaktifkan untuk Musubi trainer, yang memungkinkan Anda untuk memaksa model pelatihan untuk berhenti dan menghasilkan gambar berdasarkan prompt yang Anda simpan. Gambar-gambar ini disimpan dalam folder yang dibuat secara otomatis yang disebut Sample, di direktori yang sama dengan model yang dilatih.

Untuk mengaktifkan ini, Anda perlu menyimpan setidaknya satu prompt di file teks. File .BAT pelatihan yang kita buat akan meminta Anda untuk memasukkan lokasi file ini; oleh karena itu, Anda dapat menamai file prompt apa pun yang Anda inginkan, dan menyimpannya di mana pun.

Berikut beberapa contoh prompt untuk file yang akan menghasilkan tiga gambar berbeda ketika diminta oleh rutinitas pelatihan:

Seperti yang Anda lihat pada contoh di atas, Anda dapat meletakkan bendera di akhir prompt yang akan mempengaruhi gambar:

–w adalah lebar (secara default 256px jika tidak disetel, menurut dokumentasi)
–h adalah tinggi (secara default 256px jika tidak disetel)
–f adalah jumlah bingkai. Jika disetel ke 1, gambar dihasilkan; lebih dari satu, video.
–d adalah benih. Jika tidak disetel, itu acak; tetapi Anda harus menyetelnya untuk melihat satu prompt berkembang.
–s adalah jumlah langkah dalam generasi, secara default 20.

Lihat dokumentasi resmi untuk bendera tambahan.

Meskipun pratinjau pelatihan dapat dengan cepat mengungkap beberapa masalah yang mungkin menyebabkan Anda membatalkan pelatihan dan mempertimbangkan kembali data atau pengaturan, jadi menyelamatkan waktu, ingatlah bahwa setiap prompt tambahan memperlambat pelatihan sedikit lebih banyak.

Juga, semakin besar gambar pratinjau pelatihan (sebagaimana ditentukan oleh bendera yang tercantum di atas), semakin banyak waktu yang dibutuhkan untuk menghasilkannya.

Luncurkan file .BAT pelatihan Anda.

Pertanyaan #1 adalah ‘Masukkan jalur ke file konfigurasi dataset’. Tempel atau ketik jalur yang benar ke file TOML Anda.

Pertanyaan #2 adalah ‘Masukkan jumlah epoch untuk dilatih’. Ini adalah variabel trial-and-error, karena dipengaruhi oleh jumlah dan kualitas gambar, serta keterangan, dan faktor lainnya. Secara umum, lebih baik untuk menyetelnya terlalu tinggi daripada terlalu rendah, karena Anda selalu dapat menghentikan pelatihan dengan Ctrl+C di jendela pelatihan jika Anda merasa model telah berkembang cukup. Setel ke 100 pada awalnya, dan lihat bagaimana hasilnya.

Pertanyaan #3 adalah ‘Masukkan nama model output’. Beri nama model Anda! Mungkin lebih baik untuk menjaga nama tetap singkat dan sederhana.

Pertanyaan #4 adalah ‘Pilih tingkat pembelajaran’, yang secara default 1e-3 (opsi 1). Ini adalah tempat yang baik untuk memulai, menunggu pengalaman lebih lanjut.

Pertanyaan #5 adalah ‘Berapa sering (dalam langkah) untuk menyimpan gambar pratinjau’. Jika Anda menyetel ini terlalu rendah, Anda akan melihat sedikit kemajuan antara penyimpanan gambar pratinjau, dan ini akan memperlambat pelatihan.

Pertanyaan #6 adalah ‘Dimana letak file prompt teks untuk pratinjau pelatihan?’. Tempel atau ketik jalur ke file prompt teks Anda.

File .BAT kemudian menampilkan perintah yang akan dikirim ke Model Hunyuan, dan meminta Anda untuk memutuskan apakah ingin melanjutkan, y/n.

Teruskan dan mulai pelatihan:

Selama waktu ini, jika Anda memeriksa bagian GPU dari tab Kinerja di Pengelola Tugas Windows, Anda akan melihat bahwa proses ini menggunakan sekitar 16GB VRAM.

Ini mungkin bukan angka yang sewenang-wenang, karena ini adalah jumlah VRAM yang tersedia di banyak kartu grafis NVIDIA, dan kode upstream mungkin telah dioptimalkan untuk memasukkan tugas ke dalam 16GB untuk kepentingan mereka yang memiliki kartu tersebut.

Terlepas dari itu, sangat mudah untuk meningkatkan penggunaan ini, dengan mengirimkan bendera yang lebih ekstrem ke perintah pelatihan.

Selama pelatihan, Anda akan melihat di sisi kanan bawah jendela CMD sebuah angka untuk berapa lama waktu yang telah berlalu sejak pelatihan dimulai, dan perkiraan waktu pelatihan total (yang akan bervariasi berat tergantung pada bendera yang ditetapkan, jumlah gambar pelatihan, jumlah gambar pratinjau pelatihan, dan beberapa faktor lain).

Waktu pelatihan yang khas adalah sekitar 3-4 jam pada pengaturan median, tergantung pada perangkat keras yang tersedia, jumlah gambar, pengaturan bendera, dan faktor lainnya.

MENGUNAKAN MODEL LORA YANG DILATIH DI HUNYUAN VIDEO

MEMILIH CHECKPOINT

Ketika pelatihan selesai, Anda akan memiliki titik checkpoint untuk setiap epoch pelatihan.

Frekuensi penyimpanan ini dapat diubah oleh pengguna untuk menyimpan lebih sering atau lebih jarang, sesuai keinginan, dengan mengubah nomor --save_every_n_epochs [N] di file .BAT pelatihan. Jika Anda menambahkan angka rendah untuk penyimpanan-per-langkah saat mengatur pelatihan dengan file .BAT, akan ada sejumlah besar file checkpoint yang disimpan.

MEMILIH CHECKPOINT YANG MANA?

Seperti yang disebutkan sebelumnya, model yang dilatih paling awal akan paling fleksibel, sementara checkpoint yang lebih lambat mungkin menawarkan detail yang lebih banyak. Satu-satunya cara untuk menguji faktor-faktor ini adalah dengan menjalankan beberapa LoRA dan menghasilkan beberapa video. Dengan cara ini, Anda dapat mengetahui checkpoint mana yang paling produktif, dan mewakili keseimbangan terbaik antara fleksibilitas dan kesetiaan.

COMFYUI

Lingkungan paling populer (meskipun tidak satu-satunya) untuk menggunakan LoRA Hunyuan Video saat ini adalah ComfyUI, sebuah editor berbasis node dengan antarmuka Gradio yang canggih yang berjalan di browser web Anda.

Sumber: https://github.com/comfyanonymous/ComfyUI

Sumber: https://github.com/comfyanonymous/ComfyUI

Instruksi instalasi sederhana dan tersedia di repositori GitHub resmi (model tambahan harus diunduh).

MENGUBAH MODEL UNTUK COMFYUI

Model LoRA yang dilatih Anda disimpan dalam format (diffusers) yang tidak kompatibel dengan sebagian besar implementasi ComfyUI. Musubi dapat mengubah model ke format yang kompatibel dengan ComfyUI. Mari kita siapkan file .BAT untuk mengimplementasikan ini.

Sebelum menjalankan file .BAT ini, buat folder C:\Users\[Nama Profil Anda]\Desktop\Musubi\CONVERTED\ yang diharapkan oleh skrip.

@echo off

REM Aktifkan lingkungan virtual

call C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\Scripts\activate.bat

:START

REM Dapatkan input pengguna

set /p INPUT_PATH=Masukkan jalur ke file Musubi safetensors (atau ketik "exit" untuk keluar):

REM Keluar jika pengguna mengetik "exit"

if /i "%INPUT_PATH%"=="exit" goto END

REM Ekstrak nama file dari jalur input dan tambahkan 'converted' ke dalamnya

for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF

set OUTPUT_PATH=C:\Users\[Nama Profil Anda]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors

set TARGET=other

echo Anda memasukkan:

echo File input: %INPUT_PATH%

echo File output: %OUTPUT_PATH%

echo Format target: %TARGET%

set /p CONFIRM=Apakah Anda ingin melanjutkan dengan konversi (y/n)?

if /i "%CONFIRM%"=="y" (

REM Jalankan skrip konversi dengan jalur yang dikutip dengan benar

python C:\Users\[Nama Profil Anda]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%

echo Konversi selesai.

) else (

echo Operasi dibatalkan.

)

REM Kembali ke awal untuk file lain

goto START

:END

REM Biarkan jendela tetap terbuka

echo Keluar dari skrip.

pause

Seperti biasa, pastikan untuk menggantikan semua instance [Nama Profil Anda] dengan nama profil Windows yang sebenarnya.

Simpan skrip ini sebagai ‘All files’ dari Notepad, menamainya convert.bat (atau nama lain yang Anda sukai).

Sekarang, Anda dapat mengklik dua kali file .BAT ini, yang akan meminta Anda untuk memasukkan lokasi file untuk dikonversi.

Tempel atau ketik jalur ke file yang ingin Anda konversi, klik y, dan tekan enter.

Setelah menyimpan LoRA yang dikonversi ke folder CONVERTED, skrip akan meminta apakah Anda ingin mengonversi file lain. Jika Anda ingin menguji beberapa checkpoint di ComfyUI, konversi beberapa model.

Ketika Anda telah mengonversi cukup checkpoint, tutup jendela perintah .BAT.

Anda sekarang dapat menyalin model yang dikonversi ke folder models\loras di instalasi ComfyUI Anda.

Secara umum, lokasi yang benar adalah sesuatu seperti:

C:\Users\[Nama Profil Anda]\Desktop\ComfyUI\models\loras\

MENGUBAH LORA HUNYUAN DI COMFYUI

Meskipun alur kerja berbasis node dari ComfyUI tampak kompleks awalnya, pengaturan pengguna lain dapat dimuat dengan menarik gambar (yang dibuat dengan ComfyUI pengguna lain) langsung ke jendela ComfyUI. Alur kerja juga dapat diekspor sebagai file JSON, yang dapat diimpor secara manual, atau ditarik ke jendela ComfyUI.

Beberapa alur kerja yang diimpor mungkin memiliki ketergantungan yang tidak ada di instalasi Anda. Oleh karena itu, pasang ComfyUI-Manager, yang dapat mengambil modul yang hilang secara otomatis.

Sumber: https://github.com/ltdrdata/ComfyUI-Manager

Sumber: https://github.com/ltdrdata/ComfyUI-Manager

Untuk memuat salah satu alur kerja yang digunakan untuk menghasilkan video dari model dalam tutorial ini, unduh file JSON ini dan tarik ke jendela ComfyUI Anda (meskipun ada contoh alur kerja yang jauh lebih baik yang tersedia di berbagai komunitas Reddit dan Discord yang telah mengadopsi Hunyuan Video, dan milik saya disesuaikan dari salah satu dari mereka).

Ini bukan tempat untuk tutorial yang diperpanjang tentang penggunaan ComfyUI, tetapi patut disebutkan beberapa parameter kunci yang akan mempengaruhi output Anda jika Anda mengunduh dan menggunakan tata letak JSON yang saya tautkan di atas.

1) LEBAR DAN TINGGI

Semakin besar gambar Anda, semakin lama waktu yang dibutuhkan untuk menghasilkannya, dan semakin tinggi risiko kesalahan kehabisan memori (OOM).

2) PANJANG

Ini adalah nilai numerik untuk jumlah bingkai. Berapa detiknya tergantung pada frame rate (disetel ke 30fps dalam tata letak ini). Anda dapat mengonversi detik>bingkai berdasarkan fps di Omnicalculator.

3) UKURAN BATCH

Semakin tinggi Anda menyetel ukuran batch, semakin cepat hasilnya mungkin, tetapi semakin besar beban VRAM. Setel ini terlalu tinggi dan Anda mungkin akan mengalami kesalahan OOM.

4) KONTROL SETELAH GENERASI

Ini mengontrol benih acak. Opsi untuk node sub ini adalah fixed, increment, decrement dan randomize. Jika Anda membiarkannya di fixed dan tidak mengubah prompt teks, Anda akan mendapatkan gambar yang sama setiap saat. Jika Anda mengubah prompt teks, gambar akan berubah sampai batas tertentu. Pengaturan increment dan decrement memungkinkan Anda untuk menjelajahi nilai benih yang berdekatan, sementara randomize memberi Anda interpretasi yang sepenuhnya baru dari prompt.

5) NAMA LORA

Anda perlu memilih model yang terinstal sendiri di sini, sebelum mencoba menghasilkan.

6) TOKEN

Jika Anda melatih model untuk memicu konsep dengan token, (seperti ‘example-person’), letakkan kata pemicu itu di prompt Anda.

7) LANGKAH

Ini mewakili berapa banyak langkah yang akan diterapkan pada proses difusi. Langkah yang lebih tinggi mungkin mendapatkan detail yang lebih baik, tetapi ada batas atas seberapa efektif pendekatan ini, dan ambang batas itu bisa sulit ditemukan. Rentang langkah yang umum adalah sekitar 20-30.

8) UKURAN TILES

Ini mendefinisikan berapa banyak informasi yang ditangani sekaligus selama generasi. Secara default, disetel ke 256. Meningkatkan ini dapat mempercepat generasi, tetapi meningkatkannya terlalu tinggi dapat menyebabkan pengalaman OOM yang sangat menjengkelkan, karena itu terjadi di akhir proses yang panjang.

9) TUMPANG TINDIH WAKTU

Generasi Hunyuan Video orang dapat menyebabkan ‘hantu’, atau gerakan yang tidak meyakinkan jika ini disetel terlalu rendah. Secara umum, kebijaksanaan saat ini adalah bahwa ini harus disetel ke nilai yang lebih tinggi daripada jumlah bingkai, untuk menghasilkan gerakan yang lebih baik.

KESIMPULAN

Meskipun eksplorasi lebih lanjut tentang penggunaan ComfyUI berada di luar cakupan artikel ini, pengalaman komunitas di Reddit dan Discord dapat memudahkan kurva belajar, dan ada beberapa pedoman online yang memperkenalkan dasar-dasarnya.

 

Publikasi pertama hari Kamis, 23 Januari 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.