Bizimle iletişime geçin

Yapay Zeka

Hunyuan Video LoRA Modelleri Nasıl Eğitilir ve Kullanılır

mm
ChatGPT-4o: 'Bana 1792 x 1024 boyutunda bir resim yarat' adlı eserin varyasyonu. Théodore Géricault tarzında olmalı ve ekran tarafından aydınlatılan bir dizüstü bilgisayarın önünde oturan karanlık bir ortaçağ figürünü tasvir etmelidir. Figüre bakıyoruz ve sadece dizüstü bilgisayar kapağının arkasını görebiliyoruz. Oturan ortaçağ figürünün etrafında, bilgisayar ekranında neler olup bittiğini merak eden birçok başka ortaçağ erkeği ve kadını var.

Bu makale size Windows tabanlı bir yazılımın nasıl kurulacağını ve kullanılacağını gösterecektir. Hunyuan video LoRA modelleriHunyuan Video temel modelinde kullanıcının özel kişilikler oluşturmasına olanak tanır:

Oynatmak için tıklayın. Civit.ai topluluğundan ünlü Hunyuan LoRA'ların son zamanlardaki patlamasından örnekler.

Şu anda yerel olarak Hunyuan LoRA modelleri üretmenin en popüler iki yolu şunlardır:

1) difüzyon-boru-ui Docker tabanlı çerçeve, buna dayanan Linux için Windows Alt Sistemi (WSL) bazı süreçleri yönetecek.

2) Musubi Tuner, popüler olanlara yeni bir ekleme Kohya ss difüzyon eğitim mimarisi. Musubi Tuner, Docker'a ihtiyaç duymaz ve WSL veya diğer Linux tabanlı proxy'lere bağımlı değildir - ancak Windows'ta çalıştırmak zor olabilir.

Bu nedenle bu çalışma Musubi Tuner'a odaklanacak ve API odaklı web siteleri veya Runpod gibi ticari GPU kiralama süreçleri kullanılmadan Hunyuan LoRA eğitimi ve üretimi için tamamen yerel bir çözüm sunmaya odaklanacaktır.

Oynatmak için tıklayın. Bu makale için Musubi Tuner'da LoRA eğitiminden örnekler. Bu makaleyi resimlendirmek amacıyla, tasvir edilen kişi tarafından verilen tüm izinler.

ŞARTLAR

Kurulum için en az 10 GB VRAM'e sahip 30+/40+ serisi NVIDIA kartına sahip bir Windows 12 PC gerekecektir (ancak 16 GB önerilir). Bu makale için kullanılan kurulum 64 GB VRAM'e sahip bir makinede test edilmiştir. sistem RAM ve 3090 GB VRAM'li NVIDIA 24 grafik kartları. 10+ GB yedek disk alanına sahip bir bölümde, Windows 600 Professional'ın yeni bir kurulumu kullanılarak özel bir test yatağı sisteminde test edildi.

UYARI

Musubi Tuner ve önkoşullarını yüklemek, geliştirici odaklı yazılım ve paketlerin doğrudan bir PC'nin ana Windows kurulumuna yüklenmesini de gerektirir. ComfyUI kurulumunu hesaba katarsak, bu proje son aşamalar için yaklaşık 400-500 gigabayt disk alanı gerektirecektir. Prosedürü yeni yüklenen test yatağı Windows 10 ortamlarında birkaç kez sorunsuz bir şekilde test etmiş olsam da, ne ben ne de unite.ai bu talimatları izlemekten kaynaklanan sistemlerdeki herhangi bir hasardan sorumlu tutulamayız. Bu tür bir kurulum prosedürünü denemeden önce tüm önemli verilerinizi yedeklemenizi öneririm.

Hususlar

Bu Yöntem Hala Geçerli Mi?

Üretken yapay zeka sahnesi çok hızlı hareket ediyor ve bu yıl Hunyuan Video LoRA çerçevelerinin daha iyi ve daha akıcı yöntemlerini bekleyebiliriz.

…veya bu hafta bile! Bu makaleyi yazarken, Kohya/Musubi geliştiricisi musubi-tuner-gui, Musubi Tuner için gelişmiş bir Gradio GUI:

Açıkçası, bu özellikte kullandığım BAT dosyalarına kıyasla kullanıcı dostu bir GUI tercih edilir – musubi-tuner-gui çalıştığında. Bunu yazarken, yalnızca beş gün önce çevrimiçi oldu ve bunu başarıyla kullanan herhangi birine dair hiçbir kayıt bulamadım.

Depoda yer alan paylaşımlara göre, yeni GUI'nin mümkün olan en kısa sürede doğrudan Musubi Tuner projesine eklenmesi planlanıyor. Musubi Tuner, şu anki bağımsız GitHub deposu olarak varlığını sonlandıracak.

Mevcut kurulum talimatlarına göre, yeni GUI doğrudan mevcut Musubi sanal ortamına klonlanıyor; ve birçok çabaya rağmen, mevcut Musubi kurulumuyla ilişkilendiremiyorum. Bu, çalıştığında hiçbir motoru olmadığını göreceği anlamına geliyor!

GUI Musubi Tuner'a entegre edildiğinde, bu tür sorunlar kesinlikle çözülecektir. Yazar yeni projenin 'gerçekten zorlu' olduğunu kabul ediyor, bunun geliştirilmesi ve doğrudan Musubi Tuner'a entegre edilmesi konusunda iyimser.

Bu sorunlar göz önüne alındığında (ayrıca yükleme sırasında varsayılan yollar ve UV Python paketi, yeni sürümdeki bazı prosedürleri karmaşıklaştırıyor), daha akıcı bir Hunyuan Video LoRA eğitim deneyimi için muhtemelen biraz beklememiz gerekecek. Bununla birlikte, çok umut verici görünüyor!

Ama eğer bekleyemeyecekseniz ve kolları sıvamaya hazırsanız, Hunyuan video LoRA eğitimini hemen yerel olarak başlatabilirsiniz.

Başlayalım.

Neden Yükle Bir şey Bare Metal'de mi?

(Eğer ileri düzey bir kullanıcı değilseniz bu paragrafı atlayın)
İleri düzey kullanıcılar, neden bu kadar çok yazılımı sanal bir ortamda değil de çıplak metal Windows 10 kurulumunda kurmayı seçtiğimi merak edeceklerdir. Bunun nedeni, Linux tabanlı Windows portunun temel Triton paketi sanal bir ortamda çalışır hale getirmek çok daha zordur. Eğitimdeki diğer tüm çıplak metal kurulumları, yerel donanımla doğrudan arayüz oluşturmaları gerektiğinden sanal bir ortama kurulamaz.

Önkoşul Paketlerini ve Programlarını Yükleme

Başlangıçta kurulması gereken program ve paketler için kurulum sırası önemlidir. Hadi başlayalım.

1: Microsoft Redistributable'ı indirin

Microsoft Redistributable paketini şu adresten indirin ve yükleyin: https://aka.ms/vs/17/release/vc_redist.x64.exe.

Kurulumu basit ve hızlıdır.

2: Visual Studio 2022'yi yükleyin

Microsoft Visual Studio 2022 Community sürümünü şu adresten indirin: https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta

İndirilen yükleyiciyi başlatın:

Mevcut tüm paketlere ihtiyacımız yok, bu da ağır ve uzun bir kurulum anlamına gelir. Başlangıçta İş Yükleri açılan sayfa, tik C++ ile Masaüstü Geliştirme (aşağıdaki resme bakın).

Şimdi tıklayın Kişisel bileşenler Arayüzün sol üst kısmındaki sekmeye tıklayın ve arama kutusunu kullanarak 'Windows SDK'yı bulun.

Varsayılan olarak yalnızca Windows 11 SDK'sı işaretli. Windows 10 kullanıyorsanız (bu kurulum prosedürü Windows 11'de tarafımca test edilmemiştir), yukarıdaki resimde gösterilen en son Windows 10 sürümünü işaretleyin.

'C++ CMake' ifadesini arayın ve şunu kontrol edin: Windows için C++ CMake araçları kontrol edilir.

Bu kurulum en az 13 GB yer kaplayacaktır.

Visual Studio yüklendikten sonra bilgisayarınızda çalışmaya başlayacaktır. Tamamen açılmasını bekleyin. Visual Studio'nun tam ekran arayüzü nihayet göründüğünde programı kapatın.

3: Visual Studio 2019'yi yükleyin

Musubi için çıkacak paketlerin bir kısmı Microsoft Visual Studio'nun daha eski bir versiyonunu beklerken, bir kısmı da daha yeni bir versiyona ihtiyaç duyuyor.

Bu nedenle Visual Studio 19'un ücretsiz Community sürümünü Microsoft'tan da indirin (https://visualstudio.microsoft.com/vs/older-downloads/ – hesap gerekli) veya Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).

Visual Studio 2022 ile aynı seçeneklerle yükleyin (yukarıdaki prosedüre bakın, ancak Windows SDK (Visual Studio 2019 yükleyicisinde zaten işaretli).

Visual Studio 2019 yükleyicisinin, yükleme sırasında yeni sürümün farkında olduğunu göreceksiniz:

Kurulum tamamlandığında ve yüklenen Visual Studio 2019 uygulamasını açıp kapattığınızda bir Windows komut istemi açın (Şunu yazın: CMD Başlat'ta Arama'ya tıklayın ve şunu yazın ve girin:

where cl

Sonuç, yüklü iki Visual Studio sürümünün bilinen konumları olmalıdır.

Eğer bunun yerine alırsanız INFO: Could not find files for the given pattern(s), bakın Yol Kontrolü Bu makalenin aşağıdaki bölümüne bakın ve bu talimatları kullanarak ilgili Visual Studio yollarını Windows ortamına ekleyin.

Yapılan tüm değişiklikleri kaydedin Yolları Kontrol Et Aşağıdaki bölüme gidin ve ardından where cl komutunu tekrar deneyin.

4: CUDA 11 + 12 Araç Kitlerini yükleyin

Musubi'ye yüklenen çeşitli paketlerin farklı sürümlerine ihtiyaç vardır NVIDIA CUDANVIDIA grafik kartlarında eğitimi hızlandıran ve optimize eden.

Visual Studio sürümlerini yüklememizin nedeni ilk NVIDIA CUDA yükleyicilerinin mevcut tüm Visual Studio kurulumlarını arayıp bunlara entegre olabilmesidir.

11+ serisi CUDA kurulum paketini şu adresten indirin:

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (indir 'exe (yerel') )

12+ serisi CUDA Toolkit kurulum paketini şu adresten indirin:

https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64

Kurulum süreci her iki yükleyici için de aynıdır. Windows Ortam değişkenlerinde kurulum yollarının varlığı veya yokluğuyla ilgili uyarıları dikkate almayın - buna daha sonra manuel olarak değineceğiz.

NVIDIA CUDA Toolkit V11+'ı yükleyin

11+ serisi CUDA Toolkit için yükleyiciyi başlatın.

At Kurulum Seçenekleri, seçmek Özel geliştirilmiş) ve devam edin.

NVIDIA GeForce Experience seçeneğinin işaretini kaldırın ve tıklayın Sonraki.

Ayrılmak Kurulum Konumunu Seçin varsayılan olarak (bu önemlidir):

Tıkla Sonraki ve kurulumun tamamlanmasını bekleyin.

Kurulumcunun verdiği herhangi bir uyarıyı veya notu dikkate almayın. Nsight Görsel Stüdyo kullanım durumumuz için gerekli olmayan entegrasyon.

NVIDIA CUDA Toolkit V12+'ı yükleyin

İndirdiğiniz ayrı 12+ NVIDIA Toolkit yükleyicisi için tüm işlemi tekrarlayın:

Bu sürümün kurulum süreci, yukarıda listelenen sürümle (11+ sürümü) aynıdır; yalnızca ortam yollarıyla ilgili bir uyarı vardır; bu uyarıyı göz ardı edebilirsiniz:

12+ CUDA sürümünün kurulumu tamamlandığında, Windows'ta bir komut istemi açın ve şunu yazın ve girin:

nvcc --version

Bu, yüklü sürücü sürümüyle ilgili bilgileri doğrulamalıdır:

Kartınızın tanındığını kontrol etmek için şunu yazın ve girin:

nvidia-smi

5: GIT'i yükleyin

GIT, yerel makinenizdeki Musubi deposunun kurulumunu gerçekleştirecektir. GIT yükleyicisini şu adresten indirin:

https://git-scm.com/downloads/win ('Windows için 64-bit Git Kurulumu')

Yükleyiciyi çalıştırın:

Varsayılan ayarları kullan Bileşenleri Seçin:

Varsayılan düzenleyiciyi şu şekilde bırakın: Gayret:

Dal isimlerine GIT'in karar vermesine izin verin:

Önerilen ayarları kullanın Yol Çevre:

SSH için önerilen ayarları kullanın:

Önerilen ayarları kullanın HTTPS Taşıma arka ucu:

Satır sonu dönüştürmeleri için önerilen ayarları kullanın:

Terminal Emülatörü olarak Windows varsayılan konsolunu seçin:

Varsayılan ayarları kullan (Hızlı ileri veya birleştirme) Git Çekme için:

Credential Helper için Git-Credential Manager'ı (varsayılan ayar) kullanın:

In Ek seçenekleri yapılandırma, ayrılmak Dosya sistemi önbelleğini etkinleştir işaretli ve Sembolik bağlantıları etkinleştir (merkezi bir model deposu için sabit bağlantılar kullanan ileri düzey bir kullanıcı değilseniz) işaretlenmemiş olmalıdır.

Kurulumu tamamlayın ve Git'in düzgün bir şekilde kurulduğunu test etmek için bir CMD penceresi açın ve şunu yazıp girin:

git --version

GitHub Girişi

Daha sonra GitHub depolarını klonlamaya çalıştığınızda, GitHub kimlik bilgileriniz için sizden talepte bulunulabilir. Bunu öngörmek için, Windows sisteminize yüklü herhangi bir tarayıcıda GitHub hesabınıza giriş yapın (gerekirse bir tane oluşturun). Bu şekilde, 0Auth kimlik doğrulama yöntemi (bir açılır pencere) mümkün olduğunca az zaman almalıdır.

Bu ilk meydan okumadan sonra otomatik olarak kimliğinizin doğrulanmış kalması gerekir.

6: CMake'i yükleyin

Musubi kurulum sürecinin bazı bölümleri için CMake 3.21 veya daha yenisi gereklidir. CMake, çeşitli derleyicileri düzenleme ve yazılımı kaynak kodundan derleme yeteneğine sahip, platformlar arası bir geliştirme mimarisidir.

Şu adresten indirin:

https://cmake.org/download/  ('Windows x64 Yükleyici')

Yükleyiciyi başlatın:

Sağlamak Cmake'i PATH ortam değişkenine ekleyin kontrol edilir.

Basın Sonraki.

Bu komutu Windows Komut istemine yazın ve girin:

cmake --version

CMake başarıyla kurulduysa, aşağıdakine benzer bir şey görüntülenecektir:

cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).

7: Python 3.10'u yükleyin

Python yorumlayıcısı bu projenin merkezindedir. 3.10 sürümünü (Musubi paketlerinin farklı talepleri arasındaki en iyi uzlaşma) şuradan indirin:

https://www.python.org/downloads/release/python-3100/ ('Windows yükleyici (64-bit)')

İndirilen yükleyiciyi çalıştırın ve varsayılan ayarlarda bırakın:

Kurulum işleminin sonunda, tıklayın Yol uzunluğu sınırını devre dışı bırak (UAC yönetici onayı gerektirir):

Windows Komut istemine şunu yazın ve girin:

python --version

Bu, şu sonucu doğurmalıdır: Python 3.10.0

Yolları Kontrol Et

Musubi frameworklerinin klonlanması ve kurulumu ile kurulumdan sonraki normal çalışması, bileşenlerinin Windows'taki bazı önemli harici bileşenlere, özellikle CUDA'ya giden yolu bilmesini gerektirir.

Yani path ortamını açmamız ve tüm gerekliliklerin orada olduğundan emin olmamız gerekiyor.

Windows Ortamı denetimlerine ulaşmanın hızlı bir yolu yazmaktır Sistem ortamı değişkenlerini düzenleyin Windows arama çubuğuna.

Buna tıklamak açılacaktır sistem Özellikleri kontrol paneli. Sağ altta sistem Özellikleri, tıkla Ortam Değişkenleri düğmesi ve adında bir pencere Ortam Değişkenleri açılır. İçinde Sistem değişkenleri Bu pencerenin alt yarısındaki panele gidin, aşağı kaydırın Yol ve çift tıklayın. Bu, şu adla bir pencere açar: Ortam değişkenlerini düzenle. Değişkenlerin tam yolunu görebilmek için bu pencerenin genişliğini genişletin:

İşte önemli maddeler:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

Çoğu durumda doğru yol değişkenleri zaten mevcut olmalıdır.

Eksik olan yolları tıklayarak ekleyin Yeni solunda Ortam değişkenlerini düzenle pencereyi açın ve doğru yola yapıştırın:

Yukarıda listelenen yollardan kopyalayıp yapıştırmayın; her eşdeğer yolun kendi Windows kurulumunuzda mevcut olduğundan emin olun.

Küçük yol değişiklikleri varsa (özellikle Visual Studio kurulumlarında), doğru hedef klasörleri bulmak için yukarıda listelenen yolları kullanın (yani, x64 in Ana bilgisayar64 kendi kurulumunuzda. Sonra yapıştırın Bu yollara doğru Ortam değişkenlerini düzenle pencere.

Bundan sonra bilgisayarınızı yeniden başlatın.

Musubi'yi yükleme

PIP'i yükseltin

PIP yükleyicisinin en son sürümünü kullanmak, kurulum aşamalarının bazılarını kolaylaştırabilir. Yönetici ayrıcalıklarına sahip bir Windows Komut isteminde (bkz. Yükseklik, aşağıda), yazın ve girin:

pip install --upgrade pip

Yükseklik

Bazı komutlar yükseltilmiş ayrıcalıklar gerektirebilir (yani, yönetici olarak çalıştırılması gerekir). Aşağıdaki aşamalarda izinlerle ilgili hata iletileri alırsanız, komut istemi penceresini kapatın ve şunu yazarak yönetici modunda yeniden açın: CMD Windows arama kutusuna sağ tıklayın komut İstemi ve seçme Yönetici olarak çalıştır:

Sonraki aşamalar için Windows Komut istemi yerine Windows Powershell kullanacağız. Bunu girerek bulabilirsiniz powershell Windows arama kutusuna girin ve (gerektiğinde) üzerine sağ tıklayın Yönetici olarak çalıştır:

Torch'u yükleyin

Powershell'de şunu yazın ve girin:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Birçok paket kurulurken sabırlı olun.

Tamamlandığında, GPU etkin bir PyTorch kurulumunu yazıp girerek doğrulayabilirsiniz:

python -c "import torch; print(torch.cuda.is_available())"

Bunun sonucu şu şekilde olmalıdır:

C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True

Windows için Triton'u yükleyin

Daha sonra, kurulumu Windows için Triton bileşen. Yükseltilmiş Powershell'de, (tek bir satırda) şunu girin:

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(Kurulumcu triton-3.1.0-cp310-cp310-win_amd64.whl (Mimari 64-bit olduğu ve ortam Python sürümüyle uyumlu olduğu sürece hem Intel hem de AMD CPU'lar için çalışır)

Çalıştırdıktan sonra aşağıdaki gibi bir sonuç elde edilmelidir:

Successfully installed triton-3.1.0

Triton'un çalışıp çalışmadığını Python'a aktararak kontrol edebiliriz. Bu komutu girin:

python -c "import triton; print('Triton is working')"

Çıktı şu şekilde olmalı:

Triton is working

Triton'un GPU destekli olup olmadığını kontrol etmek için şunu girin:

python -c "import torch; print(torch.cuda.is_available())"

Bu, şu sonucu doğurmalıdır: True:

Musubi için Sanal Ortamı Oluşturun

Bundan sonra herhangi bir yazılımı bir Python sanal ortamı (Ya da Venv). Bu, aşağıdaki tüm yazılımları kaldırmak için yapmanız gereken tek şeyin venv'in kurulum klasörünü çöp kutusuna sürüklemek olduğu anlamına gelir.

Kurulum klasörünü oluşturalım: adında bir klasör oluşturalım Musubi Masaüstünüzde. Aşağıdaki örnekler bu klasörün var olduğunu varsayar: C:\Users\[Your Profile Name]\Desktop\Musubi\.

Powershell'de, şu komutu girerek söz konusu klasöre gidin:

cd C:\Users\[Your Profile Name]\Desktop\Musubi

Sanal ortamın halihazırda yüklediğimiz şeylere (özellikle Triton) erişebilmesini istiyoruz, bu yüzden şunu kullanacağız: --system-site-packages bayrak. Şunu girin:

python -m venv --system-site-packages musubi

Ortamın oluşturulmasını bekleyin ve ardından şunu girerek etkinleştirin:

.\musubi\Scripts\activate

Bu noktadan itibaren aktif sanal ortamda olduğunuzu, tüm komutlarınızın başında (musubi) harfinin belirmesinden anlayabilirsiniz.

Depoyu Klonla

Yeni oluşturulana gidin musubi klasör (içinde bulunan) Musubi Masaüstünüzdeki klasör):

cd musubi

Artık doğru yerdeyiz, şu komutu girelim:

git clone https://github.com/kohya-ss/musubi-tuner.git

Klonlamanın tamamlanmasını bekleyin (uzun sürmeyecektir).

Kurulum Gereksinimleri

Kurulum klasörüne gidin:

cd musubi-tuner

Girin:

pip install -r requirements.txt

Birçok kurulumun bitmesini bekleyin (bu daha uzun sürecektir).

Hunyuan Video Venv'e Erişimin Otomatikleştirilmesi

Yeni venv'i gelecekteki oturumlar için kolayca etkinleştirmek ve erişmek için, aşağıdakileri Not Defteri'ne yapıştırın ve adıyla kaydedin etkinleştir.bat, onu kaydederek Tüm dosyalar Seçenek (aşağıdaki resme bakınız).

@echo off

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner

cmd

(Değiştir [Your Profile Name](Windows kullanıcı profilinizin gerçek adı ile)

Bu dosyayı hangi konuma kaydettiğinizin bir önemi yok.

Artık çift tıklayabilirsiniz etkinleştir.bat ve hemen çalışmaya başlayın.

Musubi Tuner'ı Kullanma

Modelleri İndirme

Hunyuan Video LoRA eğitim süreci, bir Hunyuan video LoRA'yı önbelleğe alma ve eğitme için tüm olası optimizasyon seçeneklerini desteklemek amacıyla en az yedi modelin indirilmesini gerektirir. Bu modeller birlikte 60 GB'tan daha ağırdır.

Bunları indirmek için güncel talimatlar şu adreste bulunabilir: https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download

Ancak yazının yazıldığı tarihte indirme talimatları şu şekildedir:

clip_l.safetensors
llava_llama3_fp16.safetensors
ve
llava_llama3_fp8_scaled.safetensors
şu adresten indirilebilir:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

mp_rank_00_model_states.pt
mp_rank_00_model_states_fp8.pt
ve
mp_rank_00_model_states_fp8_map.pt
şu adresten indirilebilir:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers

pytorch_model.pt
şu adresten indirilebilir:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae

Bunları istediğiniz herhangi bir dizine koyabilirsiniz ancak daha sonraki betiklerle tutarlılık açısından şuraya koyalım:

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\

Bu, bu noktadan önceki dizin düzenlemesiyle tutarlıdır. Bundan sonraki tüm komutlar veya talimatlar, modellerin burada bulunduğunu varsayacaktır; [Profil Adınız] ifadesini gerçek Windows profil klasör adınızla değiştirmeyi unutmayın.

Veri Seti Hazırlama

Topluluktaki bu konudaki tartışmaları bir kenara bırakırsak, Hunyuan LoRA'nız için bir eğitim veri seti oluşturmak üzere 10-100 fotoğrafa ihtiyacınız olacağını söylemek doğru olur. Görüntüler iyi dengelenmiş ve kaliteli olduğu sürece, 15 görüntüyle bile çok iyi sonuçlar elde edilebilir.

Bir Hunyuan LoRA hem görüntüler hem de çok kısa ve düşük çözünürlüklü video klipler, hatta her ikisinin bir karışımı üzerinde eğitilebilir; ancak eğitim verisi olarak video klipleri kullanmak, 24 GB'lık bir kart için bile zorludur.

Ancak, video klipler yalnızca karakteriniz varsa gerçekten yararlıdır Hunyuan Video Vakfı modelinin bundan haberi olmayacak kadar alışılmadık bir şekilde hareket ediyor, veya tahmin edebilmek.

Örnek olarak Roger Rabbit, bir xenomorph, Maske, Örümcek Adam veya diğer kişilikler verilebilir. benzersiz karakteristik hareket.

Hunyuan Video sıradan erkek ve kadınların nasıl hareket ettiğini zaten bildiğinden, ikna edici bir Hunyuan Video LoRA insan tipi karakteri elde etmek için video kliplere gerek yok. Bu yüzden statik görüntüler kullanacağız.

Görüntü Hazırlama

The Bucket List

Özeti:

Veri kümeniz için aynı boyutta olan görselleri kullanmak veya iki farklı boyut arasında 50/50 bölünmüş bir görüntü kullanmak en iyisidir, örneğin 10x512 piksel boyutunda 768 görsel ve 10x768 piksel boyutunda 512 görsel.

Bunu yapmasanız bile eğitim iyi gidebilir – Hunyuan Video LoRA'ları şaşırtıcı derecede affedici olabilir.

Uzun Versiyon

Kararlı Difüzyon gibi statik üretim sistemleri için Kohya-ss LoRA'larında olduğu gibi, kovalama iş yükünü farklı boyutlardaki görüntüler arasında dağıtmak için kullanılır ve bu sayede eğitim sırasında bellek yetersizliği hatalarına neden olmadan daha büyük görüntülerin kullanılmasına olanak tanır (yani, görüntüleri GPU'nun işleyebileceği parçalara 'bölerek' tüm görüntünün anlamsal bütünlüğünü korur).

Eğitim veri setinize eklediğiniz her görüntü boyutu için (yani 512x768 piksel), o boyut için bir kova veya "alt görev" oluşturulacaktır. Dolayısıyla, aşağıdaki görüntü dağılımına sahipseniz, kova dikkati bu şekilde dengesiz hale gelir ve bazı fotoğrafların eğitimde diğerlerinden daha fazla dikkate alınması riski ortaya çıkar:

2x 512x768px resim
7x 768x512px resim
1x 1000x600px resim
3x 400x800px resim

Bu görsellerde kovaya olan ilginin eşitsiz bir şekilde dağıldığını görebiliyoruz:

Bu nedenle ya tek bir format boyutuna sadık kalın ya da farklı boyutların dağılımını nispeten eşit tutmaya çalışın.

Her iki durumda da çok büyük resimler kullanmaktan kaçının, çünkü bu durum eğitimi yavaşlatabilir ve faydasını ihmal edebilirsiniz.

Basitleştirmek adına, veri setimdeki tüm fotoğraflar için 512x768px boyutunu kullandım.

Yasal Uyarı: Veri setinde kullanılan model (kişi), bu resimleri bu amaçla kullanmam için bana tam izin verdi ve bu makalede yer alan benzerliğini gösteren tüm yapay zeka tabanlı çıktıları onayladı.

Veri setim PNG formatında (JPG de uygundur) 40 resimden oluşuyor. Resimlerim şurada saklandı: C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman

Bir tane oluşturmalısın önbellek eğitim görüntü klasörünün içindeki klasör:

Şimdi eğitimi yapılandıracak özel bir dosya oluşturalım.

TOML Dosyaları

Hunyuan Video LoRA'larının eğitim ve ön önbelleğe alma süreçleri, dosya yollarını düz bir metin dosyasından alır. .toml eklenti.

Testim için TOML şu konumdadır: C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml

TOML eğitimimin içeriği şu şekilde:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(Görüntü ve önbellek dizinleri için çift ters eğik çizgiler her zaman gerekli değildir, ancak yolda boşluk olduğu durumlarda hataları önlemeye yardımcı olabilirler. Tek ileri ve tek geri eğik çizgiler kullanan .toml dosyalarıyla eğitilmiş modellerim var)

Bunu görebiliriz resolution iki çözünürlüğün dikkate alınacağı bölüm – 512px ve 768px. Bunu 512'de bırakabilir ve yine de iyi sonuçlar elde edebilirsiniz.

Başlıklar

Hunyuan Videosu bir metin+vision temel modeli, bu nedenle eğitim sırasında dikkate alınacak olan bu görseller için açıklayıcı başlıklara ihtiyacımız var. Başlıklar olmadan eğitim süreci başarısız olacaktır.

Orada da bir çokluk Bu görev için kullanabileceğimiz açık kaynaklı altyazı sistemleri var, ancak basit tutalım ve etiket sistem. GitHub'da depolansa da ve ilk çalıştırmada bazı çok ağır derin öğrenme modelleri indirse de, Python kütüphanelerini ve basit bir GUI'yi yükleyen basit bir Windows yürütülebilir dosyası biçiminde gelir.

Taggui'yi başlattıktan sonra şunu kullanın: Dosya > Dizin Yükle görüntü veri kümenize gitmek için ve isteğe bağlı olarak bir belirteç tanımlayıcısı (bu durumda, örnek kadın) tüm altyazılara eklenecek:

(Kapatmayı unutmayın) 4 bitlik yükleme Taggui ilk açıldığında – bu açık bırakılırsa altyazı sırasında hatalar verecektir)

Sol taraftaki önizleme sütununda bir resim seçin ve tüm resimleri seçmek için CTRL+A'ya basın. Ardından sağdaki Otomatik Altyazı Başlat düğmesine basın:

Taggui'nin sağ sütundaki küçük CLI'da modelleri indirdiğini göreceksiniz, ancak yalnızca bu, altyazı oluşturucuyu ilk kez çalıştırıyorsanız. Aksi takdirde altyazıların bir önizlemesini göreceksiniz.

Artık her fotoğrafın, görsel içeriğinin açıklamasını içeren karşılık gelen bir .txt başlığı var:

Tıklayabilirsiniz Gelişmiş Seçenekler Taggui'de altyazıların uzunluğunu ve stilini artırmak için bazı düzenlemeler yapıldı, ancak bu, bu çalışmanın kapsamı dışındadır.

Taggui'yi bırakalım ve şuraya geçelim...

Gizli Ön Önbelleğe Alma

Eğitim sırasında aşırı GPU yüklenmesini önlemek için, iki tür önceden önbelleğe alınmış dosya oluşturmak gerekir: biri görüntülerin kendisinden türetilen gizli görüntüyü temsil etmek için, diğeri ise altyazı içeriğiyle ilgili bir metin kodlamasını değerlendirmek için.

Her üç işlemi de (2x önbellek + eğitim) basitleştirmek için, gerekli bilgileri verdiğinizde size sorular soracak ve işlemleri gerçekleştirecek etkileşimli .BAT dosyalarını kullanabilirsiniz.

Gizli ön önbelleğe alma için, aşağıdaki metni Not Defteri'ne kopyalayın ve .BAT dosyası olarak kaydedin (yani, buna şu şekilde bir ad verin: gizli-ön-önbellek.bat), daha önce olduğu gibi, açılır menüdeki dosya türünün Farklı Kaydet diyalog Tüm dosyalar (Aşağıdaki resme bakınız):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the latent pre-caching script

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) else (

echo Operation canceled.

)

REM Keep the window open

pause

(Değiştirdiğinizden emin olun [Profil Adınız] (gerçek Windows profil klasör adınızla)

Artık otomatik gizli önbelleğe alma için .BAT dosyasını çalıştırabilirsiniz:

BAT dosyasındaki çeşitli sorular sorulduğunda, veri kümenizin, önbellek klasörlerinizin ve TOML dosyanızın yolunu yapıştırın veya yazın.

Metin Önbelleğe Alma

Bu sefer metnin ön belleğe alınması için ikinci bir BAT dosyası oluşturacağız.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Use the python executable from the virtual environment

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) else (

echo Operation canceled.

)

REM Keep the window open

pause

Windows profil adınızı değiştirin ve bunu şu şekilde kaydedin: metin-önbellek.bat (veya istediğiniz başka bir ismi) önceki BAT dosyasındaki prosedüre uygun olarak, uygun bir yere yazın.

Bu yeni BAT dosyasını çalıştırın, talimatları izleyin ve gerekli metin kodlu dosyalar görünecektir. önbellek Klasör:

Hunyuan Video Lora'nın Eğitimi

Gerçek LoRA'yı eğitmek bu iki hazırlık sürecinden çok daha uzun sürecektir.

Endişelenebileceğimiz birden fazla değişken olmasına rağmen (toplu boyut, tekrarlar, dönemler ve tam veya nicemlenmiş modellerin kullanılıp kullanılmaması gibi), bu hususları başka bir güne bırakacağız ve LoRA oluşturmanın karmaşıklıklarına daha derinlemesine bakacağız.

Şimdilik seçenekleri biraz azaltalım ve LoRA'yı 'medyan' ayarlarda eğitelim.

Bu sefer eğitimi başlatmak için üçüncü bir BAT dosyası oluşturacağız. Bunu Not Defteri'ne yapıştırın ve daha önce olduğu gibi bir BAT dosyası olarak kaydedin. eğitim.bat (veya istediğiniz herhangi bir isim):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p DATASET_CONFIG=Enter the path to the dataset configuration file:

set /p EPOCHS=Enter the number of epochs to train:

set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):

set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):

if "%LEARNING_RATE%"=="1" set LR=1e-3

if "%LEARNING_RATE%"=="2" set LR=5e-3

if "%LEARNING_RATE%"=="" set LR=1e-3

set /p SAVE_STEPS=How often (in steps) to save preview images:

set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?

echo You entered:

echo Dataset configuration file: %DATASET_CONFIG%

echo Number of epochs: %EPOCHS%

echo Output name: %OUTPUT_NAME%

echo Learning rate: %LR%

echo Save preview images every %SAVE_STEPS% steps.

echo Text-prompt file: %SAMPLE_PROMPTS%

REM Prepare the command

set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_CONFIG% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOCHS% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^

--output_name %OUTPUT_NAME% ^

--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %SAMPLE_PROMPTS% ^

--sample_every_n_steps %SAVE_STEPS% ^

--sample_at_first

echo The following command will be executed:

echo %CMD%

set /p CONFIRM=Do you want to proceed with training (y/n)?

if /i "%CONFIRM%"=="y" (

%CMD%

) else (

echo Operation canceled.

)

REM Keep the window open

cmd /k

Her zamanki gibi, tüm örnekleri değiştirdiğinizden emin olun.f [Profil Adınız] doğru Windows profil adınızla.

Dizinin doğru olduğundan emin olun C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\ varsa, o konumda oluşturun.

Eğitim Önizlemeleri

Musubi eğitmeni için yakın zamanda etkinleştirilen çok temel bir eğitim önizleme özelliği var. Bu özellik, eğitim modelinin duraklatılmasını ve kaydettiğiniz istemlere göre resimler oluşturmasını zorunlu kılıyor. Bunlar, otomatik olarak oluşturulan bir klasöre kaydedilir. Örnek, eğitilen modellerin kaydedildiği dizinde.

Bunu etkinleştirmek için, en azından bir tane istemi bir metin dosyasına kaydetmeniz gerekecektir. Oluşturduğumuz eğitim BAT'ı sizden bu dosyanın konumunu girmenizi isteyecektir; bu nedenle istem dosyasını istediğiniz şekilde adlandırabilir ve istediğiniz yere kaydedebilirsiniz.

Eğitim rutini tarafından talep edildiğinde üç farklı görüntü çıktısı verecek bir dosya için bazı komut istemi örnekleri şunlardır:

Yukarıdaki örnekte görebileceğiniz gibi, istemin sonuna görselleri etkileyecek bayraklar koyabilirsiniz:

–w şudur genişlik (ayarlanmazsa varsayılan olarak 256 pikseldir, dokümanlar)
-onun yükseklik (ayarlanmamışsa varsayılan olarak 256 pikseldir)
–f şudur: çerçeve sayısı1 olarak ayarlanırsa bir görüntü üretilir; birden fazla ayarlanırsa bir video üretilir.
–d tohumdur. Ayarlanmamışsa rastgeledir; ancak bir istemin evrimleştiğini görmek için ayarlamalısınız.
–s, üretimdeki adım sayısıdır; varsayılan olarak 20'dir.

Yerimizi resmi belgeler ek bayraklar için.

Eğitim önizlemeleri, eğitimi iptal edip verileri veya kurulumu yeniden gözden geçirmenize neden olabilecek bazı sorunları hızla ortaya çıkarabilir ve böylece zamandan tasarruf sağlayabilir; ancak her ekstra istemin eğitimi biraz daha yavaşlattığını unutmayın.

Ayrıca, eğitim önizleme görüntüsünün genişliği ve yüksekliği (yukarıda listelenen bayraklarda ayarlandığı gibi) ne kadar büyük olursa, eğitim o kadar yavaşlayacaktır.

Eğitim BAT dosyanızı başlatın.

Soru #1 'Veri kümesi yapılandırmasının yolunu girin. TOML dosyanızın doğru yolunu yapıştırın veya yazın.

Soru #2 'Eğitilecek dönem sayısını girin'. Bu, deneme yanılma yoluyla elde edilen bir değişkendir, çünkü görsellerin miktarı ve kalitesi, başlıklar ve diğer faktörlerden etkilenir. Genellikle, modelin yeterince ilerlediğini düşünüyorsanız, eğitim penceresinde Ctrl+C tuşlarına basarak eğitimi durdurabileceğiniz için, değeri çok düşükten çok yüksek ayarlamak daha iyidir. İlk etapta değeri 100 olarak ayarlayın ve nasıl gittiğini görün.

Soru #3 'Çıktı modeli adını girin'. Modelinize bir ad verin! Adını makul ölçüde kısa ve basit tutmak en iyisi olabilir.

Soru #4 'Öğrenme oranını seç' seçeneği varsayılan olarak 1e-3'tür (seçenek 1). Daha fazla deneyime bağlı olarak, bu başlamak için iyi bir yerdir.

Soru #5 'Önizleme görüntülerinin ne sıklıkla (adım olarak) kaydedileceği'dir. Bunu çok düşük ayarlarsanız, önizleme görüntülerinin kaydedilmesi arasında çok az ilerleme görürsünüz ve bu da eğitimi yavaşlatır.

Soru #6 'Eğitim önizlemeleri için metin istemi dosyasının konumu nedir?'. İstem metin dosyanızın yolunu yapıştırın veya yazın.

BAT daha sonra Hunyuan Modeline göndereceği komutu gösterir ve devam etmek isteyip istemediğinizi sorar, y/h.

Haydi, eğitime başlayın:

Bu esnada Windows Görev Yöneticisi'nin Performans sekmesindeki GPU bölümüne baktığınızda, işlemin yaklaşık 16 GB VRAM kullandığını göreceksiniz.

Bu keyfi bir rakam olmayabilir, zira bu, pek çok NVIDIA grafik kartında bulunan VRAM miktarıdır ve yukarı akış kodu, bu tür kartlara sahip olanların yararına olacak şekilde görevleri 16 GB'a sığdırmak için optimize edilmiş olabilir.

Bununla birlikte, eğitim komutuna daha yüksek bayraklar göndererek bu kullanımı artırmak çok kolaydır.

Eğitim sırasında, CMD penceresinin sağ alt tarafında eğitimin başlamasından bu yana ne kadar zaman geçtiğine dair bir rakam ve toplam eğitim süresinin bir tahminini göreceksiniz (bu süre, ayarlanan bayraklara, eğitim görüntülerinin sayısına, eğitim önizleme görüntülerinin sayısına ve diğer çeşitli faktörlere bağlı olarak büyük ölçüde değişecektir).

Ortalama ayarlarda tipik bir eğitim süresi, mevcut donanıma, görüntü sayısına, bayrak ayarlarına ve diğer faktörlere bağlı olarak yaklaşık 3-4 saattir.

Eğitilmiş LoRA Modellerinizi Hunyuan Videosunda Kullanma

Kontrol Noktalarını Seçmek

Eğitim tamamlandığında, her eğitim dönemi için bir model kontrol noktanız olacak.

Bu kaydetme sıklığı, kullanıcı tarafından istenildiği gibi daha sık veya daha seyrek kaydetmek üzere değiştirilebilir. --save_every_n_epochs [N] eğitim BAT dosyasındaki sayı. BAT ile eğitimi ayarlarken adım başına kaydetmeler için düşük bir rakam eklediyseniz, yüksek sayıda kaydedilmiş kontrol noktası dosyası olacaktır.

Hangi Kontrol Noktasını Seçmeli?

Daha önce de belirtildiği gibi, en erken eğitilen modeller en esnek olacakken, daha sonraki kontrol noktaları en fazla ayrıntıyı sunabilir. Bu faktörleri test etmenin tek yolu, bazı LoRA'ları çalıştırmak ve birkaç video oluşturmaktır. Bu şekilde, hangi kontrol noktalarının en üretken olduğunu ve esneklik ile doğruluk arasında en iyi dengeyi temsil ettiğini öğrenebilirsiniz.

Rahat Kullanıcı Arayüzü

Şu anda Hunyuan Video LoRA'ları kullanmak için en popüler (ancak tek değil) ortam şudur: Rahat Kullanıcı Arayüzü, web tarayıcınızda çalışan ayrıntılı bir Gradio arayüzüne sahip düğüm tabanlı bir editördür.

Kaynak: https://github.com/comfyanonymous/ComfyUI

Kaynak: https://github.com/comfyanonymous/ComfyUI

Kurulum talimatları basittir ve resmi GitHub deposunda mevcuttur (ek modeller indirilmesi gerekecektir).

ComfyUI için Modelleri Dönüştürme

Eğittiğiniz modelleriniz, ComfyUI'nin çoğu uygulamasıyla uyumlu olmayan bir (difüzör) biçiminde kaydediliyor. Musubi, bir modeli ComfyUI uyumlu bir biçime dönüştürebilir. Bunu uygulamak için bir BAT dosyası oluşturalım.

Bu BAT'ı çalıştırmadan önce, şunu oluşturun: C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\ Komut dosyasının beklediği klasör.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

:START

REM Get user input

set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):

REM Exit if the user types "exit"

if /i "%INPUT_PATH%"=="exit" goto END

REM Extract the file name from the input path and append 'converted' to it

for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF

set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors

set TARGET=other

echo You entered:

echo Input file: %INPUT_PATH%

echo Output file: %OUTPUT_PATH%

echo Target format: %TARGET%

set /p CONFIRM=Do you want to proceed with the conversion (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the conversion script with correctly quoted paths

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%

echo Conversion complete.

) else (

echo Operation canceled.

)

REM Return to start for another file

goto START

:END

REM Keep the window open

echo Exiting the script.

pause

Önceki BAT dosyalarında olduğu gibi, betiği Not Defteri'nden 'Tüm dosyalar' olarak kaydedin ve adını şu şekilde verin: dönüştür.bat (veya ne isterseniz).

Kaydettikten sonra, dönüştürülecek dosyanın konumunu soracak olan yeni BAT dosyasına çift tıklayın.

Dönüştürmek istediğiniz eğitilmiş dosyanın yolunu yapıştırın veya yazın, tıklayın yve enter'a basın.

Dönüştürülen LoRA'yı kaydettikten sonra DÖNÜŞTÜRÜLMÜŞ klasöründe, betik başka bir dosyayı dönüştürmek isteyip istemediğinizi soracaktır. ComfyUI'da birden fazla kontrol noktasını test etmek istiyorsanız, modellerin bir seçimini dönüştürün.

Yeterli sayıda kontrol noktasını dönüştürdüğünüzde BAT komut penceresini kapatın.

Dönüştürülen modellerinizi artık ComfyUI kurulumunuzdaki models\loras klasörüne kopyalayabilirsiniz.

Genellikle doğru konum şöyle bir şeydir:

C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\

ComfyUI'de Hunyuan Video LoRA'ları Oluşturma

ComfyUI'nin düğüm tabanlı iş akışları başlangıçta karmaşık görünse de, daha deneyimli diğer kullanıcıların ayarları, diğer kullanıcının ComfyUI'siyle oluşturulmuş bir görseli doğrudan ComfyUI penceresine sürükleyerek yüklenebilir. İş akışları ayrıca, manuel olarak içe aktarılabilen veya bir ComfyUI penceresine sürüklenebilen JSON dosyaları olarak da dışa aktarılabilir.

Bazı içe aktarılan iş akışları, kurulumunuzda mevcut olmayabilecek bağımlılıklara sahip olacaktır. Bu nedenle, kurulum ComfyUI-Yöneticisi, eksik modülleri otomatik olarak getirebilir.

Kaynak: https://github.com/ltdrdata/ComfyUI-Manager

Kaynak: https://github.com/ltdrdata/ComfyUI-Manager

Bu eğitimdeki modellerden video oluşturmak için kullanılan iş akışlarından birini yüklemek için şunu indirin: bu JSON dosyası ve bunu ComfyUI pencerenize sürükleyin (gerçi Hunyuan Video'yu benimsemiş çeşitli Reddit ve Discord topluluklarında çok daha iyi iş akışı örnekleri mevcuttur ve benimki bunlardan birinden uyarlanmıştır).

Burası ComfyUI kullanımına dair detaylı bir eğitimin yeri değil, ancak yukarıda bağlantısını verdiğim JSON düzenini indirip kullanırsanız çıktınızı etkileyecek birkaç önemli parametreden bahsetmek faydalı olacaktır.

1) Genişlik ve Yükseklik

Görüntünüz ne kadar büyükse, oluşturma işlemi o kadar uzun sürecek ve bellek yetersizliği (OOM) hatası riski de o kadar yüksek olacaktır.

2) Uzunluk

Bu, kare sayısı için sayısal değerdir. Kaç saniyeye eşit olacağı kare hızına bağlıdır (bu düzende 30 fps olarak ayarlanmıştır). Saniye>kareleri fps'ye göre dönüştürebilirsiniz Omnicalculator'da.

3) Parti boyutu

Toplu boyutu ne kadar yüksek ayarlarsanız, sonuç o kadar hızlı gelebilir, ancak VRAM yükü de o kadar büyük olur. Bunu çok yüksek ayarlarsanız bir OOM alabilirsiniz.

4) Üretim Sonrası Kontrol

Bu, rastgele tohumu kontrol eder. Bu alt düğüm için seçenekler şunlardır: sabit, artım, azalma ve rasgele dağıtmakEğer onu orada bırakırsanız sabit ve metin istemini değiştirmezseniz, her seferinde aynı resmi alırsınız. Metin istemini değiştirirseniz, resim sınırlı bir ölçüde değişecektir. artım ve azalma Ayarlar, yakındaki tohum değerlerini keşfetmenize olanak tanırken rasgele dağıtmak size istemin tamamen yeni bir yorumunu sunar.

5) Lora Adı

Oluşturmaya çalışmadan önce, burada kendi yüklü modelinizi seçmeniz gerekecektir.

6) Jeton

Modelinizi, kavramı bir belirteçle (örneğin) tetikleyecek şekilde eğittiyseniz, 'örnek kişi'), tetikleyici kelimeyi isteminize ekleyin.

7) Adımlar

Bu, sistemin difüzyon sürecine kaç adım uygulayacağını temsil eder. Daha yüksek adımlar daha iyi ayrıntı elde edebilir, ancak bu yaklaşımın ne kadar etkili olduğu konusunda bir tavan vardır ve bu eşiği bulmak zor olabilir. Ortak adım aralığı 20-30 civarındadır.

8) Karo Boyutu

Bu, üretim sırasında tek seferde ne kadar bilginin işlendiğini tanımlar. Varsayılan olarak 256 olarak ayarlanmıştır. Bu değeri artırmak üretimi hızlandırabilir, ancak çok yüksek bir değere çıkarmak, uzun bir sürecin sonunda gerçekleştiği için özellikle sinir bozucu bir OOM deneyimine yol açabilir.

9) Zamansal Çakışma

Hunyuan Video'da insan üretimi, bu değer çok düşük ayarlanırsa 'gölgelenmeye' veya inandırıcı olmayan hareketlere yol açabilir. Genel olarak, mevcut görüş, daha iyi hareket sağlamak için bu değerin kare sayısından daha yüksek bir değere ayarlanması gerektiğidir.

Sonuç

ComfyUI kullanımının daha fazla incelenmesi bu makalenin kapsamı dışında olsa da, Reddit ve Discord'lardaki topluluk deneyimi öğrenme eğrisini kolaylaştırabilir ve birkaç tane vardır çevrimiçi rehberler Temelleri tanıtan.

 

İlk yayın tarihi Perşembe, 23 Ocak 2025

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai