Anderson’un Açısı

Hunyuan Video LoRA Modellerini Eğitme ve Kullanma Rehberi

mm
ChatGPT-4o: Variation on 'Create me an image 1792 x 1024. It should be in the style of Théodore Géricault, and should depict a dark medieval figure seated in front of a laptop, illuminated by the screen. We are facing the figure, and can only see the back of the laptop lid. Around the seated medieval figure are many other medieval men and women, curious as to what is happening on the computer screen'

Bu makale, Windows tabanlı bir yazılımı kurmak ve kullanmak için adım adım bir rehber sunacak, bu sayede kullanıcılar Hunyuan Video LoRA modellerini eğitebilecek ve özelleştirilmiş kişilikler oluşturabilecektir.

Oynatmak için tıklayın. Civit.ai topluluğu tarafından recent explosion of celebrity Hunyuan LoRAs örnekleri.

Şu anda, Hunyuan LoRA modellerini yerel olarak oluşturmanın iki popüler yolu vardır:

1) Diffusion-pipe-ui Docker-based framework, Windows Subsystem for Linux (WSL) kullanır.

2) Musubi Tuner, Kohya ss difüzyon eğitim mimarisinin yeni bir ekidir. Musubi Tuner, Docker’ı gerektirmez ve WSL veya diğer Linux tabanlı proxy’leri kullanmaz – ancak Windows’ta çalıştırılması zor olabilir.

Bu nedenle, bu rehber Musubi Tuner’a odaklanacak ve Hunyuan LoRA eğitimini ve oluşturulmasını yerel olarak gerçekleştirmek için tamamen yerel bir çözüm sunacak, API tarafından çalışan web siteleri veya ticari GPU kiralama süreçleri gibi Runpod’u kullanmadan.

Oynatmak için tıklayın. Bu makale için Musubi Tuner’da LoRA eğitimi örnekleri. Tüm izinler, makaleyi örneklemek için ilgili kişi tarafından verilmiştir.

GEREKSİNİMLER

Kurulum, minimum 30+/40+ serisi NVIDIA kartı ve en az 12GB VRAM ile Windows 10 PC gerektirir (16GB önerilir). Bu makale için kullanılan kurulum, 64GB sistem RAM’i ve 24GB VRAM ile NVIDIA 3090 grafik kartına sahip bir makine üzerinde test edilmiştir.

UYARI

Musubi Tuner ve ön koşullarını kurmak, geliştirici odaklı yazılım ve paketlerin doğrudan ana Windows kurulumuna kurulmasını içerir. ComfyUI’nin son aşamalarını dikkate alarak, bu proje yaklaşık 400-500 gigabayt disk alanı gerektirecektir. Bu prosedürü yeni kurulan test yatağı Windows 10 ortamlarında birkaç kez sorun yaşamadan test ettim, ancak ben veya unite.ai, talimatları izleyerek sistemlere verilen hasarlardan sorumlu değildir. Önemli verilerinizi yedeklemeyi tavsiye ederim.

DİKKAT EDİLECEK HUSUSLAR

Bu Yöntem hala Geçerli mi?

Yaratıcı AI sahnesi çok hızlı ilerliyor ve bu yıl Hunyuan Video LoRA çerçeveleri için daha iyi ve daha akışkan yöntemler bekleyebiliriz.

…veya bu hafta! Makaleyi yazarken, Kohya/Musubi geliştiricisi musubi-tuner-gui adlı bir Gradio GUI’sini üretti:

Elbette, bir GUI kullanmak, bu özellikte kullandığım BAT dosyalarından daha tercih edilebilirdir – ancak musubi-tuner-gui çalıştığı zaman. Yazarken, sadece beş gün önce yayınlandı ve kimsenin başarılı bir şekilde kullanıp kullanmadığını bulamadım.

Depodaki gönderilere göre, yeni GUI’nin Musubi Tuner projesine mümkün olan en kısa sürede entegre edilmesi amaçlanıyor, bu da mevcut GitHub deposunun son bulmasına neden olacaktır.

Şu anda, GUI Musubi sanal ortamına doğrudan klonlanıyor; ancak birçok denemeye rağmen, mevcut Musubi kurulumuna bağlanmasını sağlayamadım.

GUI Musubi Tuner’a entegre edildiğinde, bu tür sorunlar chắc chắn çözülecektir. Yazar, projenin ‘gerçekten kaba’ olduğunu kabul ediyor, ancak geliştirme ve Musubi Tuner’a doğrudan entegrasyonu konusunda iyimser.

Bu sorunlar (kurulum zamanındaki varsayılan yollar ve UV Python paketi kullanımı gibi) nedeniyle, daha sorunsuz bir Hunyuan Video LoRA eğitim deneyimi için biraz beklememiz gerekecek. Ancak çok umut verici görünüyor!

Ama bekleyemezseniz ve biraz çaba sarf etmeye hazırsanız, Hunyuan video LoRA eğitimini hemen yerel olarak çalıştırabilirsiniz.

Hadisi başlatalım.

Neden Her Şeyi Çıplak Metal Üzerine Kuruyorsunuz?

(Gelişmiş kullanıcılar bu paragrafı atlayabilir)
Gelişmiş kullanıcılar, neden çıplak Windows 10 kurulumuna bu kadar çok yazılımı kurduğumu merak edebilir. Sebep, Windows portu olan Linux tabanlı Triton paketinin sanal bir ortamda çalışması çok daha zor olmasıdır. Diğer tüm çıplak metal kurulumları, yerel donanımla doğrudan iletişim kurmaları gerektiği için sanal bir ortamda kurulamaz.

Ön Koşulların Kurulumu

İlk olarak kurulması gereken programlar ve paketler için kurulum sırası önemlidir. Hadisi başlatalım.

1: Microsoft Redistributable İndirin

Microsoft Redistributable paketini https://aka.ms/vs/17/release/vc_redist.x64.exe adresinden indirin ve kurun.

Bu, basit ve hızlı bir kurulumdur.

2: Visual Studio 2022 Kurun

Microsoft Visual Studio 2022 Topluluk sürümünü https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta adresinden indirin.

İndirilen kurucu çalıştırıldığında:

Her şeyi kurmak zorunda değiliz, bu da ağır ve uzun bir kurulum olurdu. İlk İş Yükleri sayfasında, Masaüstü Geliştirme ile C++ işini işaretleyin (aşağıdaki resme bakın).

Şimdi, üstteki arayüzün Bireysel Bileşenler sekmesine gidin ve arama kutusunu kullanarak ‘Windows SDK’ bulun.

Varsayılan olarak, sadece Windows 11 SDK işaretli olacaktır. Eğer Windows 10 kullanıyorsanız (bu kurulum prosedürü benim tarafımdan Windows 11’de test edilmemiştir), en son Windows 10 sürümünü işaretleyin, resimde gösterildiği gibi.

‘C++ CMake’ arayın ve C++ CMake araçları için Windows işaretlendiğinden emin olun.

Bu kurulum en az 13 GB alan kaplayacaktır.

Visual Studio kurulumu tamamlandığında, çalıştırılmaya çalışacaktır. Tamamen açılmasını bekleyin. Visual Studio’nun tam ekran arayüzü görünür olduğunda, programı kapatın.

3: Visual Studio 2019 Kurun

Bazı sonraki Musubi paketleri, daha eski bir Microsoft Visual Studio sürümünü beklerken, diğerleri daha yeni bir sürüme ihtiyaç duyar.

Dolayısıyla, Microsoft’tan (https://visualstudio.microsoft.com/vs/older-downloads/ – hesap gerektirir) veya Techspot’tan (https://www.techspot.com/downloads/7241-visual-studio-2019.html) ücretsiz Topluluk sürümünü indirin.

Aynı seçeneklerle kurun (yukarıdaki prosedürü takip edin, ancak Windows SDK zaten Visual Studio 2019 kurucusunda işaretli olacaktır).

Kurulum tamamlandığında ve Visual Studio 2019 uygulaması açıldığında ve kapatıldığında, bir Windows komut istemini açın (Başlat’a CMD yazın) ve girin:

where cl

Sonuç, iki kurulmuş Visual Studio sürümünün bilinen konumları olmalıdır:

Eğer yerine INFO: Belirtilen desenlere uygun dosyalar bulunamadı alırsanız, bu makalenin Yol Kontrolü bölümüne bakın ve orada verilen talimatları kullanarak ilgili Visual Studio yollarını Windows ortam değişkenlerine ekleyin.

Değişiklikleri kaydedin ve where cl komutunu tekrar çalıştırın.

4: CUDA 11 + 12 Araç Setlerini Kurun

Çeşitli paketler, Musubi’de farklı NVIDIA CUDA sürümlerine ihtiyaç duyar.

Neden Visual Studio sürümlerini önce kurduğumuz sebep, NVIDIA CUDA kurucularının mevcut Visual Studio kurulumlarını araması ve entegre etmesidir.

11+ serisi CUDA kurulum paketini https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local adresinden indirin ( ‘exe (yerel)’ indirin).

12+ serisi CUDA Araç Seti kurulum paketini https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64 adresinden indirin.

Kurulum prosedürü her iki sürüm için de aynıdır. Windows ortam değişkenlerindeki yolların varlığı veya yokluğu hakkında verilen uyarılara dikkat etmeyin.

NVIDIA CUDA Araç Seti V11+

11+ serisi CUDA Araç Seti kurucusunu çalıştırın.

Yükleme Seçenekleri bölümünde, Özel (Gelişmiş) seçeneğini seçin ve devam edin.

NVIDIA GeForce Experience seçeneğini işaretsiz bırakın ve Sonraki düğmesine tıklayın.

Yükleme Konumunu Seçin bölümünde, varsayılan ayarlarda kalın (bu önemli).

Sonraki düğmesine tıklayın ve kurulumun tamamlanmasını bekleyin.

Nsight Visual Studio entegrasyonu hakkında kurucunun verdiği uyarı veya notları göz ardı edin, bu bizim kullanım durumumuz için gerekli değildir.

NVIDIA CUDA Araç Seti V12+

Aynı prosedürü, ayrı 12+ NVIDIA Araç Seti kurucusu için tekrarlayın:

Kurulum prosedürü, yukarıda listelenen 11+ sürümü ile aynıdır, ancak bir ortam yolu uyarısı vardır, bunu göz ardı edebilirsiniz:

12+ CUDA sürümü kurulumu tamamlandığında, bir Windows komut istemini açın ve girin:

nvcc --version

Bu, yüklenen sürücü sürümü hakkında bilgi doğrulayacaktır:

Kartınızın tanınıp tanınmadığını kontrol etmek için girin:

nvidia-smi

5: GIT Kurun

GIT, Musubi deposunu yerel makinenize kuracak. GIT yükleyicisini https://git-scm.com/downloads/win adresinden indirin (’64-bit Git for Windows Setup’).

Yükleyiciyi çalıştırın:

Bileşenler Seçin bölümünde, varsayılan ayarlarda kalın:

Vim’i varsayılan düzenleyici olarak bırakın:

Dal adları için GIT’in karar vermesine izin verin:

Yol ortam değişkeni için önerilen ayarlarda kalın:

SSH için önerilen ayarlarda kalın:

HTTPS Taşıma Arka Uç için önerilen ayarlarda kalın:

Satır sonları dönüşümleri için önerilen ayarlarda kalın:

Windows varsayılan konsolunu Terminal Emülatörü olarak seçin:

GIT Çekme için önerilen ayarlarda kalın (Hızlı İleri veya Birleştir):

GIT Kimlik Bilgisi Yardımcısı için GIT Kimlik Bilgisi Yöneticisi’ni (varsayılan ayar) kullanın:

Ek Seçenekler bölümünde, Dosya Sistemi Önbelleğini Etkinleştir işaretli bırakın ve Sembolik Bağlantıları Etkinleştir işaretsiz bırakın (sadece merkezi model deposu için sabit bağlantılar kullanan gelişmiş bir kullanıcıysanız).

Kurulumu tamamlayın ve GIT’in doğru kurulduğunu test edin, bir CMD penceresini açın ve girin:

git --version

Github Girişi

Daha sonra, GitHub depolarını klonlamanız gerektiğinde, GitHub kimlik bilgilerinizi girmeniz istenebilir. Bunu önceden tahmin etmek için, Windows’taki herhangi bir tarayıcıda GitHub hesabınıza giriş yapın (eğer yoksa bir hesap oluşturun). Bu şekilde, 0Auth kimlik doğrulama yöntemi (bir açılır pencere) mümkün olduğunca kısa sürecektir.

İlk挑nge sonra, otomatik olarak kimlik bilgilerinizi hatırlayacaksınız.

6: CMake Kurun

CMake 3.21 veya daha yeni, Musubi kurulumunun bazı kısımları için gereklidir. CMake, çeşitli derleyicileri düzenleyebilen ve kaynak kodundan yazılım derleyebilen bir çapraz platform geliştirme mimarisidir.

Onu https://cmake.org/download/ adresinden indirin (‘Windows x64 Yükleyicisi’).

Yükleyiciyi çalıştırın:

CMake’i yol ortam değişkenine ekleyin seçeneğinin işaretli olduğundan emin olun.

Sonraki düğmesine tıklayın.

Bir Windows Komut İstemini açın ve girin:

cmake --version

Eğer CMake başarılı bir şekilde kurulduysa, bir şeyler gibi görünecektir:

cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).

7: Python 3.10 Kurun

Python yorumlayıcısı, bu projenin merkezinde yer alıyor. 3.10 sürümünü (Musubi paketlerinin çeşitli talepleri arasında en iyi uzlaşmayı sunan) https://www.python.org/downloads/release/python-3100/ adresinden indirin (’64-bit Yükleyicisi’).

İndirilen yükleyiciyi çalıştırın ve varsayılan ayarlarda kalın:

Kurulum prosedürünün sonunda, Yol Uzunluğu Sınırını Devre Dışı Bırak düğmesine tıklayın (Yönetici Onayı gerektirir).

Bir Windows Komut İstemini açın ve girin:

python --version

Bu, Python 3.10.0 sonucunu doğurmalıdır.

Yolları Kontrol Edin

Musubi çerçevelerinin klonlanması ve kurulumu, serta normal çalışması, bileşenlerin beberapa önemli dış bileşenlerin yollarını Windows’ta bilmesini gerektirir, özellikle CUDA.

Bu nedenle, yol ortamını açıp tüm gereksinimlerin orada olup olmadığını kontrol etmeliyiz.

Windows Ortam Değişkenlerini hızlı bir şekilde açmak için, Windows arama çubuğuna Sistem ortam değişkenlerini düzenle yazın.

Bu, Sistem Özellikleri kontrol panelini açacaktır. Sistem Özellikleri‘nin alt sağ köşesinde, Ortam Değişkenleri düğmesine tıklayın ve Ortam Değişkenleri adlı bir pencere açılacaktır. Bu pencerenin alt yarısında, Sistem Değişkenleri panelinde, aşağı kaydırın ve Yol bölümünü çift tıklatın. Bu, Ortam Değişkenlerini Düzenle adlı bir pencere açacaktır. Bu pencerenin genişliğini genişletin, böylece tam yolları görebilesiniz:

Burada önemli girişler şunlardır:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

Çoğu durumda, doğru yol değişkenleri zaten mevcut olmalıdır.

Eksik olan yolları eklemek için Yeni düğmesine tıklayın ve doğru yolu yapıştırın:

Yapıştırma yerine, listedeki yollardan birini kopyalayın ve kendi Windows kurulumunuzda hedef klasöre gidin (örneğin, x64 klasörüne Host64 klasörüne).

Bilgisayarı yeniden başlatın.

Musubi Kurulumu

PIP’i Güncelleyin

En son PIP yükleyicisini kullanmak, kurulum aşamalarını kolaylaştırabilir. Yönetici ayrıcalıklarına sahip bir Windows Komut İstemini açın (aşağıdaki Yükseltme bölümüne bakın) ve girin:

pip install --upgrade pip

Yükseltme

Bazı komutlar yönetici ayrıcalıklarını gerektirebilir (yani, yönetici olarak çalıştırılmalıdır). Kurulumun sonraki aşamalarında izin hataları alırsanız, Komut İstemini kapatın ve Windows arama çubuğuna CMD yazın, Command Prompt üzerine sağ tıklayın ve Yönetici olarak çalıştır seçeneğini seçin:

Sonraki aşamalar için Windows Powershell kullanacağız. Bunu, Windows arama çubuğuna Powershell yazarak ve (gerekirse) sağ tıklayarak Yönetici olarak çalıştır seçeneğini seçerek açabilirsiniz:

Torch Kurun

Powershell’de girin:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Çok sayıda paket kurulumunu bekleyin.

Tamamlandığında, bir GPU ile PyTorch kurulumunu doğrulamak için girin:

python -c "import torch; print(torch.cuda.is_available())"

Bu, True sonucunu doğurmalıdır:

C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True

Triton for Windows Kurun

Sonraki adım, Triton for Windows bileşeninin kurulumudur. Yönetici ayrıcalıklarına sahip Powershell’de girin (tek satırda):

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(Yükleyici triton-3.1.0-cp310-cp310-win_amd64.whl hem Intel hem de AMD CPU’lar için 64-bit mimari ve çevre için çalışır ve Python sürümü eşleşirse.)

Çalıştıktan sonra, bu sonucu doğurmalıdır:

Successfully installed triton-3.1.0

Triton’un çalışıp çalışmadığını kontrol etmek için Python’da girin:

python -c "import triton; print('Triton is working')"

Bu, Triton is working sonucunu doğurmalıdır:

Triton is working

GPU ile Triton’u doğrulamak için girin:

python -c "import torch; print(torch.cuda.is_available())"

Bu, True sonucunu doğurmalıdır:

Musubi için Sanal Ortam Oluşturun

Artık, herhangi bir weitere yazılımları Musubi için Python Sanal Ortamına (veya venv) kuracağız. Bu, tüm sonraki yazılımları kaldırmak için yalnızca venv’nin kurulum klasörünü çöp kutusuna sürüklemenizi gerektirecektir.

Musubi klasörünü masaüstünüzde oluşturun: C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\.

Powershell’de, bu klasöre navigasyon yapın:

cd C:\Users\[Kullanıcı Adınız]\Desktop\Musubi

Sanal ortamın zaten kurduğumuz yazılımlara erişimi olmasını istiyoruz (özellikle Triton), bu nedenle --system-site-packages bayrağını kullanacağız. Girin:

python -m venv --system-site-packages musubi

Bekleyin, sanal ortam oluşturulsun, ardından etkinleştirin:

.\musubi\Scripts\activate

Bu noktadan sonra, sanal ortamda olduğunuzu (musubi) komut istemlerinizin başında görünerek anlayabilirsiniz.

Depoyu Klonlayın

Yeni oluşturulan musubi klasörüne navigasyon yapın (ki bu Musubi klasörünün içinde masaüstündedir):

cd musubi

Şimdi, doğru yerde olduğumuzdan emin olun, aşağıdaki komutu girin:

git clone https://github.com/kohya-ss/musubi-tuner.git

Klonlama işleminin tamamlanmasını bekleyin (bunun uzun sürmesi gerekmez).

Gereksinimleri Kurun

Kurulum klasörüne navigasyon yapın:

cd musubi-tuner

Girin:

pip install -r requirements.txt

Çok sayıda kurulumun tamamlanmasını bekleyin (bu biraz zaman alacaktır).

Hunyuan Video Venv Erişimini Otomatikleştirmek

Gelecek oturumlar için sanal ortamı etkinleştirmeyi ve Musubi’ye erişimi kolaylaştırmak için, Notepad’da aşağıdaki satırları yapıştırın ve activate.bat adıyla (veya istediğiniz başka bir adla) kaydedin:

@echo off

call C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner

cmd

([Kullanıcı Adınız] ile kendi Windows kullanıcı profil adınızı değiştirin.)

Bu dosyayı nereye kaydedeceğiniz önemli değildir.

Artık, çift tıklayarak activate.bat dosyasını çalıştırabilir ve hemen işe başlayabilirsiniz:

Musubi Tuner’ı Kullanma

Modelleri İndirme

Hunyuan Video LoRA eğitimi, tüm olası ön önbelleğe alma ve eğitimi desteklemek için en az yedi modeli indirmeyi gerektirir. Bu modeller birlikte 60 GB’dan fazla yer kaplar.

Şu anda, modelleri indirmek için talimatlar https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download adresinde mevcuttur.

Ancak, talimatlar yazıldığı sırada şunlardı:

clip_l.safetensors, llava_llama3_fp16.safetensors ve llava_llama3_fp8.safetensors modellerini https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders adresinden indirebilirsiniz.

mp_rank_00_model_states.pt, mp_rank_00_model_states_fp8.pt ve mp_rank_00_model_states_fp8_map.pt modellerini https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers adresinden indirebilirsiniz.

pytorch_model.pt modelini https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae adresinden indirebilirsiniz.

Modelleri istediğiniz klasöre koyabilirsiniz, ancak tutarlılık için sonraki komut dosyalarında kullanılan klasöre koyun:

C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\models\

Bu, önceki noktaya kadar kullanılan klasör düzeniyle tutarlıdır. [Kullanıcı Adınız] ile kendi Windows kullanıcı profil klasör adınızı değiştirin.

Veri Seti Hazırlama

Topluluk tartışmalarını göz ardı ederek, Hunyuan LoRA için bir eğitim veri setine ihtiyaç duyacağınızı söylemek adildir, bu da 10 ila 100 fotoğraf arasında değişebilir. İyi sonuçlar, yalnızca 15 resimle bile elde edilebilir, resimler dengeli ve kaliteli ise.

Hunyuan LoRA, hem resimlerden hem de çok kısa ve düşük çözünürlüklü video kliplerinden eğitilebilir, veya her ikisinin bir karışımı. Ancak, video kliplerini eğitim veri seti olarak kullanmak, özellikle 24 GB’lik bir kart için bile zor olabilir.

Video klipleri, yalnızca karakterin hareket tarzı Hunyuan Video temel modelinin bilmediği veya tahmin edemeyeceği şekilde benzersizse yararlıdır. Örnekler arasında Roger Rabbit, bir xenomorph, The Mask, Spider-Man veya benzersiz karakteristik hareketlere sahip diğer kişilikler bulunur.

Hunyuan Video zaten normal insanların nasıl hareket ettiğini bilir, bu nedenle video klipleri, inandırıcı bir Hunyuan Video LoRA insan tipi karakteri elde etmek için gerekli değildir. Bu nedenle, statik resimleri kullanacağız.

Resim Hazırlama

Sepet Listesi

Özet:

En iyi sonuç, tüm resimlerin aynı boyutta olması veya iki farklı boyutta resimlerin 50/50 oranında kullanılmasıdır, örneğin 10 adet 512x768px ve 10 adet 768x512px resim.

Eğitim iyi gidebilir, ancak bu yapılandırmayı kullanmazsanız, Hunyuan Video LoRAsı affedici olabilir.

Uzun Sürüm

Kohya-ss LoRAsı gibi statik üreten sistemler için, sepetleme kullanılır. Sepetleme, iş yükünü farklı boyutlardaki resimlere dağıtmaya yarar, böylece daha büyük resimler kullanılabiliyor ve eğitim sırasında out-of-memory hataları oluşması önleniyor (yani, sepetleme resimleri, GPU’nun işleyebileceği parçalara ayırıyor, ancak resmin semantik bütünlüğünü koruyor).

Her resim boyutu için, bir sepet veya “alt görev” oluşturulur. Örneğin, aşağıdaki resim dağılımı varsa, sepet dikkati dengesiz hale gelir ve bazı resimlerin diğerlerine göre daha fazla eğitim görmesine neden olabilir:

2x 512x768px resimler
7x 768x512px resimler
1x 1000x600px resim
3x 400x800px resimler

Sepet dikkatini nasıl dengesiz hale getirebileceğimizi görebiliriz:

Bu nedenle, ya tek bir formata bağlı kalın veya farklı boyutlardaki resimlerin dağılımını mümkün olduğunca eşit tutmaya çalışın.

Her durumda, çok büyük resimlerden kaçının, çünkü bu eğitimi yavaşlatabilir ve neredeyse hiçbir fayda sağlamaz.

Ben, tüm resimlerim için 512x768px boyutunu kullandım.

Açıklama: Model (kişi) used in the dataset gave me full permission to use these pictures for this purpose, and exercised approval of all AI-based output depicting her likeness featured in this article.

Veri setim 40 resimden oluşuyor, PNG formatında (JPG de iyi). Resimlerimi C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman klasörüne kaydettim.

Eğitim resim klasörünüz içinde bir önbellek klasörü oluşturun:

Şimdi, eğitimi yapılandırmanın bir yolu olan özel bir dosya oluşturalım.

TOML Dosyaları

Hunyuan Video LoRA eğitimi ve ön önbelleğe alma, .toml uzantılı bir düz metin dosyasından dosya yollarını alır.

Benim test için TOML dosyası C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml klasöründe.

Benim eğitim TOML dosyamın içeriği şöyle:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(Çift ters çizgi, yol ayırıcıları için gereklidir, ancak her zaman gerekli değildir. Ben, tek ters çizgi ve sola doğru çizgi kullandığım TOML dosyalarıyla eğitim yaptım.)

Görebileceğimiz gibi, resolution bölümünde iki çözünürlük dikkate alınacaktır – 512px ve 768px. Ayrıca bunu 512’e sabitleyip iyi sonuçlar alabilirsiniz.

Açıklamalar

Hunyuan Video, metin+görme temel modelidir, bu nedenle resimlerin açıklamalarına ihtiyacımız vardır, bunlar eğitilirken dikkate alınacaktır. Eğitim prosedürü açıklamalar olmadan başarısız olacaktır.

Açıklama sistemlerini kullanmak için açık kaynaklı birçok seçenek vardır, ancak basitlik için taggui sistemini kullanacağız. GitHub’da depolanmıştır, ancak ilk çalıştırıldığında ağır derin öğrenme modellerini indirir ve basit bir Windows çalıştırabilir dosyası ve anlaşılır bir arayüze sahiptir.

Taggui’yi çalıştırın, Dosya > Dizini Yükle seçeneğini kullanarak resim veri setinizi açın ve isteğe bağlı olarak açıklamalara eklemek istediğiniz bir token tanımlayıcı (bu örnekte examplewoman) ekleyin:

(Taggui ilk açıldığında, 4-bit olarak yükle seçeneğini kapatmayı unutmayın – açıklama sırasında hatalar verecektir.)

Sol panelden bir resim seçin ve tüm resimleri seçmek için CTRL+A tuşlarına basın. Sonra, sağ taraftaki Otomatik Açıklama Başlat düğmesine tıklayın:

Taggui, sağ taraftaki küçük CLI’de modelleri indiriyor, ancak yalnızca ilk çalıştırdığınızda. Aksi takdirde, açıklamaların ön izlemesini göreceksiniz.

Şimdi, her resim için karşılık gelen bir .txt açıklama dosyası vardır:

Taggui’den çıkın ve devam edin…

Latent Ön Önbelleğe Alma

Eğitim sırasında aşırı GPU yükünü önlemek için, iki tür ön önbelleğe alma dosyası oluşturmak gerekir – biri resimlerden türetilen latent görüntüyü temsil eden, diğeri ise açıklama içeriği ile ilgili metin kodlamasını değerlendiren.

Bu üç prosedürü (2x ön önbelleğe alma + eğitim) basitleştirmek için, size soru soran ve prosedürleri gerçekleştiren etkileşimli .BAT dosyalarını kullanabilirsiniz.

Latent ön önbelleğe alma için, Notepad’da aşağıdaki metni yapıştırın ve .BAT dosyası olarak kaydedin (örneğin, latent-precache.bat):

@echo off

REM Sanal ortamı etkinleştir

call C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\Scripts\activate

REM Kullanıcı girdisi alın

set /p IMAGE_PATH=Resim dizininin yolunu girin:

set /p CACHE_PATH=Önbellek dizininin yolunu girin:

set /p TOML_PATH=TOML dosyasının yolunu girin:

echo Girdiğiniz bilgiler:

echo Resim yolu: %IMAGE_PATH%

echo Önbellek yolu: %CACHE_PATH%

echo TOML dosyası yolu: %TOML_PATH%

set /p CONFIRM=Latent ön önbelleğe almaya devam etmek istiyor musunuz (e/h)?

if /i "%CONFIRM%"=="e" (

REM Latent ön önbelleğe alma komutunu çalıştır

python C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) else (

echo İşlem iptal edildi.

)

REM Pencereyi açık tut

pause

([Kullanıcı Adınız] ile kendi Windows kullanıcı profil adınızı değiştirin.)

Şimdi, .BAT dosyasını çalıştırabilirsiniz:

BAT dosyası tarafından sorulan sorulara, resim dizininin, önbellek dizininin ve TOML dosyasının yolunu yapıştırın veya girin.

Metin Ön Önbelleğe Alma

İkinci bir .BAT dosyası oluşturacağız, bu kez metin ön önbelleğe alma için.

@echo off

REM Sanal ortamı etkinleştir

call C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\Scripts\activate

REM Kullanıcı girdisi alın

set /p IMAGE_PATH=Resim dizininin yolunu girin:

set /p CACHE_PATH=Önbellek dizininin yolunu girin:

set /p TOML_PATH=TOML dosyasının yolunu girin:

echo Girdiğiniz bilgiler:

echo Resim yolu: %IMAGE_PATH%

echo Önbellek yolu: %CACHE_PATH%

echo TOML dosyası yolu: %TOML_PATH%

set /p CONFIRM=Metin kodlayıcı çıkış ön önbelleğe almaya devam etmek istiyor musunuz (e/h)?

if /i "%CONFIRM%"=="e" (

REM Metin kodlayıcı çıkış ön önbelleğe alma komutunu çalıştır

python C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) else (

echo İşlem iptal edildi.

)

REM Pencereyi açık tut

pause

([Kullanıcı Adınız] ile kendi Windows kullanıcı profil adınızı değiştirin.)

Bu komut dosyasını Notepad’dan kaydedin, önceki gibi text-cache.bat (veya istediğiniz başka bir ad) olarak.

Şimdi, bu yeni .BAT dosyasını çalıştırın, talimatları takip edin ve gerekli metin kodlu dosyalar önbellek klasörüne aparecektir:

Hunyuan Video LoRA Eğitimi

Asıl LoRA eğitimi, bu iki hazırlık prosedüründen çok daha uzun sürecektir.

Çok fazla değişken vardır, ancak bu makale için eğitimi “orta” ayarlarla gerçekleştireceğiz.

Üçüncü bir .BAT dosyası oluşturacağız, bu kez eğitimi başlatmak için. Notepad’da aşağıdaki metni yapıştırın ve .BAT dosyası olarak kaydedin (örneğin, training.bat):

@echo off

REM Sanal ortamı etkinleştir

call C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\Scripts\activate

REM Kullanıcı girdisi alın

set /p DATASET_CONFIG=Veri seti yapılandırma dosyasının yolunu girin:

set /p EPOCHS=Eğitim epochs sayısını girin:

set /p OUTPUT_NAME=Çıkış model adınızı girin (örneğin, example0001):

set /p LEARNING_RATE=Öğrenme oranını seçin (1 için 1e-3, 2 için 5e-3, varsayılan 1e-3):

if "%LEARNING_RATE%"=="1" set LR=1e-3

if "%LEARNING_RATE%"=="2" set LR=5e-3

if "%LEARNING_RATE%"=="" set LR=1e-3

set /p SAVE_STEPS=Ön izleme resimlerini ne sıklıkla kaydetmelisiniz:

set /p SAMPLE_PROMPTS=Eğitim ön izleme metin.prompt dosyasının konumunu girin:

echo Girdiğiniz bilgiler:

echo Veri seti yapılandırma dosyası: %DATASET_CONFIG%

echo Eğitim epochs sayısı: %EPOCHS%

echo Çıkış model adı: %OUTPUT_NAME%

echo Öğrenme oranı: %LR%

echo Ön izleme resimlerini her %SAVE_STEPS% adımda kaydet.

echo Metin.prompt dosyası: %SAMPLE_PROMPTS%

REM Komutu hazırla

set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_CONFIG% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOCHS% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\Output Models" ^

--output_name %OUTPUT_NAME% ^

--vae C:/Users/[Kullanıcı Adınız]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Kullanıcı Adınız]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Kullanıcı Adınız]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %SAMPLE_PROMPTS% ^

--sample_every_n_steps %SAVE_STEPS% ^

--sample_at_first

echo Çalıştırılacak komut:

echo %CMD%

set /p CONFIRM=Eğitimi başlatmak istiyor musunuz (e/h)?

if /i "%CONFIRM%"=="e" (

%CMD%

) else (

echo İşlem iptal edildi.

)

REM Pencereyi açık tut

cmd /k

([Kullanıcı Adınız] ile kendi Windows kullanıcı profil adınızı değiştirin.)

C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\Output Models\ klasörünün var olduğundan emin olun, yoksa oluşturun.

Eğitim Ön İzleme

Musubi eğitimi için çok temel bir ön izleme özelliği etkinleştirildi, bu da eğitimi durdurup belirli metinlere dayalı resimler oluşturmanıza olanak tanır. Bu resimler, eğitilen modellerin aynı klasöründe Örnek adlı bir klasörde otomatik olarak oluşturulur.

Bunu etkinleştirmek için, en az bir metin.prompt dosyası kaydetmelisiniz. Eğitim .BAT dosyası, bu dosyanın konumunu girmenizi isteyecektir; bu nedenle, metin.prompt dosyasına istediğiniz adı verebilir ve istediğiniz yere kaydedebilirsiniz.

Aşağıdaki örnek, üç farklı resim oluşturmak için bir metin.prompt dosyası:

Gördüğünüz gibi, her bir metin.prompt satırının sonuna bayraklar ekleyebilirsiniz:

–w, genişlik (varsayılan olarak 256px, dokümantasyona göre)

–h, yükseklik (varsayılan olarak 256px, dokümantasyona göre)

–f, çerçevelerin sayısı. 1 olarak ayarlanırsa, bir resim oluşturulur; daha fazlaysa, bir video.

–d, tohum. Ayarlanmazsa, rastgele olur; ancak aynı metin.prompt’un gelişimini görmek için ayarlamalısınız.

–s, üretimde adımların sayısı, varsayılan olarak 20.

Resmi dokümantasyona bakın, ek bayraklar için.

Eğitim ön izlemeleri, bazı sorunları erken ortaya çıkarabilir ve eğitimi iptal etmenize, verilerinizi veya kurulumunuzu yeniden değerlendirmenize neden olabilir, bu da zaman kazandırabilir. Ancak, her ek metin.prompt, eğitimi biraz daha yavaşlatabilir.

Ayrıca, eğitim ön izleme resimlerinin genişliği ve yüksekliği (yukarıda listelenen bayraklarla ayarlanır), eğitimi daha da yavaşlatabilir.

Eğitim .BAT dosyasını çalıştırın.

Soru #1, “Veri seti yapılandırma dosyasının yolunu girin.” TOML dosyasının yolunu yapıştırın veya girin.

Soru #2, “Eğitim epochs sayısını girin.” Bu, deneme yanılma ile belirlenecek bir değişken, çünkü eğitim epochs sayısı, resimlerin sayısı ve kalitesi, açıklamalar ve diğer faktörler gibi birçok faktöre bağlıdır. İlk olarak 100 olarak ayarlayın ve nasıl gittiğini görün.

Soru #3, “Çıkış model adınızı girin.” Modelinizi adlandırın! En iyisi, ismi kısa ve basit tutmaktır.

Soru #4, “Öğrenme oranını seçin”, varsayılan olarak 1e-3 (seçenek 1). Bu, iyi bir başlangıç noktasıdır.

Soru #5, “Ön izleme resimlerini ne sıklıkla kaydetmelisiniz.” Çok düşük ayarlamayın, yoksa eğitim ön izleme resimlerinde çok az ilerleme göreceksiniz ve bu, eğitimi daha da yavaşlatabilir.

Soru #6, “Eğitim ön izleme metin.prompt dosyasının konumunu girin.” Metin.prompt dosyasının yolunu yapıştırın veya girin.

.BAT dosyası, Hunyuan Model’e göndereceği komutu gösterir ve devam etmek isteyip istemediğinizi sorar, e/h.

Eğitimi başlatın:

Eğitim sırasında, Windows Görev Yöneticisi’nin Performans sekmesine bakarsanız, işlemin yaklaşık 16 GB VRAM kullandığını göreceksiniz.

Bu, belki de birçok NVIDIA grafik kartının VRAM miktarıdır ve yukarı akış kodu, bu kartlara sahip olanların yararına 16 GB’a uyarlanmış olabilir.

Dediğim gibi, bu kullanımı artırmak kolaydır, ancak eğitim komutuna daha müsrif bayraklar ekleyerek.

Eğitim sırasında, CMD penceresinin alt sağ köşesinde, eğitim süresini ve toplam eğitim süresini (bu, bayraklara, eğitim resimlerinin sayısına, eğitim ön izleme resimlerinin sayısına ve diğer faktörlere bağlı olarak büyük ölçüde değişebilir) gösteren bir sayı göreceksiniz.

Tipik bir eğitim süresi, median ayarlarla yaklaşık 3-4 saattir, kullanılabilir donanım, resimlerin sayısı, bayrak ayarları ve diğer faktörlere bağlı olarak.

Eğitilen LoRA Modellerinizi Hunyuan Video’da Kullanma

Checkpoint’leri Seçme

Eğitim tamamlandığında, her eğitim epoch’unda bir model checkpoint’u oluşturulur.

Bu kaydetme sıklığı, --save_every_n_epochs [N] sayısını eğitim .BAT dosyasında değiştirerek daha sık veya daha az sıklıkta ayarlanabilir. Eğitim .BAT dosyasında adımların sayısını düşük olarak ayarladıysanız, çok sayıda kaydetme checkpoint’u oluşturulacaktır.

Hangi Checkpoint’i Seçmelisiniz?

Daha önce de bahsedildiği gibi, en erken eğitilen modeller daha esnek olacaktır, ancak daha geç checkpoint’ler daha fazla ayrıntı sunabilir. Bu faktörleri test etmek için, bazı LoRA’ları çalıştırın ve birkaç video oluşturun. Bu şekilde, en üretken checkpoint’leri ve esneklik ile Sadakat arasındaki en iyi dengeyi öğrenebilirsiniz.

ComfyUI

Şu anda Hunyuan Video LoRA’larını kullanmak için en popüler (ancak tek değil) ortam, ComfyUI, bir node tabanlı editör ve web tarayıcınızda çalışan bir Gradio arayüze sahiptir.

Kaynak: https://github.com/comfyanonymous/ComfyUI

Kaynak: https://github.com/comfyanonymous/ComfyUI

Kurulum talimatları Basittir ve resmi GitHub deposunda mevcuttur (ek modeller indirilmelidir).

ComfyUI için Model Dönüştürme

Eğitilen modelleriniz, ComfyUI ile uyumlu olmayan (diffusers) formatında kaydedilir. Musubi, bir modeli ComfyUI uyumlu formata dönüştürebilir. ComfyUI uyumlu formata dönüştürme için bir .BAT dosyası oluşturalım.

Öncelikle, dönüştürme betiğinin beklediği C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\CONVERTED\ klasörünü oluşturun.

@echo off

REM Sanal ortamı etkinleştir

call C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\Scripts\activate

:START

REM Kullanıcı girdisi alın

set /p INPUT_PATH=Musubi safetensors dosyasının yolunu girin (veya çıkışı iptal etmek için "exit" yazın):

REM Çıkışı iptal edin

if /i "%INPUT_PATH%"=="exit" goto END

REM Dosya adını girdi yolundan çıkarın ve adına "converted" ekleyin

for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF

set OUTPUT_PATH=C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors

set TARGET=other

echo Girdiğiniz bilgiler:

echo Girdi dosyası: %INPUT_PATH%

echo Çıkış dosyası: %OUTPUT_PATH%

echo Hedef format: %TARGET%

set /p CONFIRM=Çevirme işlemini gerçekleştirmek istiyor musunuz (e/h)?

if /i "%CONFIRM%"=="e" (

REM Çevirme komutunu çalıştır

python C:\Users\[Kullanıcı Adınız]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%

echo Çevirme tamamlandı.

) else (

echo İşlem iptal edildi.

)

REM Pencereyi açık tut

echo İşlem sonlandırılıyor.

pause

([Kullanıcı Adınız] ile kendi Windows kullanıcı profil adınızı değiştirin.)

Bu komut dosyasını Notepad’dan kaydedin, önceki gibi convert.bat (veya istediğiniz başka bir ad) olarak.

Şimdi, bu yeni .BAT dosyasını çalıştırın, Musubi dosyasının yolunu girin, e tuşuna basın ve Enter’a basın:

Çevirme tamamlandıktan sonra, komut penceresi kapanacaktır.

Şimdi, dönüştürülen modelinizi ComfyUI’nın models\loras klasörüne kopyalayabilirsiniz.

Tipik olarak, doğru konum C:\Users\[Kullanıcı Adınız]\Desktop\ComfyUI\models\loras\ gibi bir şeydir.

ComfyUI’da Hunyuan Video LoRA’larını Oluşturma
ComfyUI’nin node tabanlı iş akışları ilk başta karmaşık görünebilir, ancak diğer kullanıcıların ayarlarını bir resim olarak ComfyUI penceresine sürükleyerek yükleyebilirsiniz. İş akışları ayrıca JSON dosyaları olarak dışa aktarılabilir ve elle veya ComfyUI penceresine sürükleyerek içe aktarılabilir.

Bazı ithal iş akışları, kurulumunuzda mevcut olmayan bağımlılıklara sahip olabilir. Bu nedenle, ComfyUI-Manager yükleyin, bu da eksik modülleri otomatik olarak alabilir.

Kaynak: https://github.com/ltdrdata/ComfyUI-Manager

Kaynak: https://github.com/ltdrdata/ComfyUI-Manager

ComfyUI’da video oluşturmak için kullanılan iş akışlarını yüklemek için bu JSON dosyasını indirin ve ComfyUI penceresine sürükleyin (ancak Reddit ve Discord toplulukları tarafından benimsenen daha iyi iş akışı örnekleri mevcuttur ve benimki bunlardan birine dayanmaktadır).

ComfyUI kullanımı hakkında geniş bir rehber bu makalenin konusu değildir, ancak bu JSON dosyasını indirip kullanıyorsanız, beberapa önemli parametreyi bilmelisiniz:

1) Genişlik ve Yükseklik

Resminizin ne kadar büyük olduğu, oluşturmanın ne kadar süreceğini ve out-of-memory (OOM) hatası riskini etkiler.

2) Uzunluk

Bu, kare sayısını temsil eden bir sayıdır. Kaç saniye olduğunu, fps’ye (bu düzenlemede 30 fps) bağlı olarak hesaplayabilirsiniz. Saniye > kare dönüşümünü Omnicalculator adresinde bulabilirsiniz.

3) Toplu İşlem Boyutu

Toplu işlem boyutunu ne kadar yüksek ayarlarsanız, sonuç o kadar hızlı gelecektir, ancak VRAM yükü de o kadar fazla olacaktır. Çok yüksek ayarlarsanız, OOM hatası alabilirsiniz.

4) Oluşturma Sonrası Kontrol

Bu, rastgele tohumunu kontrol eder. Alt düğüm seçenekleri sabit, artır, azalt ve rasgele şeklindedir. Eğer sabit olarak bırakırsanız ve metin.prompt’u değiştirmezseniz, her zaman aynı resmi elde edersiniz. Metin.prompt’u değiştirirseniz, resim sınırlı ölçüde değişecektir. Artır ve azalt ayarları, yakın tohum değerlerini keşfetmenize izin verir, rasgele ise tamamen yeni bir yorum getirir.

5) LoRA Adı

Burada, kurduğunuz modeli seçmeniz gerekir.

6) Token

Eğer modelinizi bir kavramı tetiklemek için eğittiyseniz (örneğin, example-person), tetikleyici kelimeyi metin.prompt’a koyun.

7) Adımlar

Bu, difüzyon prosedürüne uygulanacak adımların sayısını temsil eder. Daha yüksek adımlar daha iyi ayrıntı elde edebilir, ancak bu yaklaşımın bir sınırı vardır ve bu eşiği bulmak zor olabilir. Adımların ortak aralığı 20-30 arasındadır.

8) Taş Boyutu

Bu, oluşturma sırasında aynı anda işlenen bilgi miktarını tanımlar. Varsayılan olarak 256 olarak ayarlanmıştır. Bunu yükseltmek, oluşturmayı hızlandırabilir, ancak çok yüksek ayarlarsanız, özellikle uzun bir sürecin sonunda, OOM deneyimine neden olabilir.

9) Zamansal Çakışma

Hunyuan Video insan oluşturma, bu ayarın düşük ayarlanması durumunda “hayaletleme” veya inandırıcı olmayan hareketlere neden olabilir. Genel olarak, bu ayarın kare sayısından daha yüksek olması önerilir, böylece daha iyi hareket elde edilebilir.

Sonuç

ComfyUI kullanımının daha derin bir keşfi bu makalenin konusu değildir, ancak Reddit ve Discord topluluklarındaki topluluk deneyimi, öğrenme eğrisini kolaylaştırabilir ve Hunyuan Video LoRA’larını kullanmak için temel kavramları tanıtan birçok çevrimiçi rehber mevcuttur.

 

İlk olarak 23 Ocak 2025 Perşembe günü yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]