Inteligența artificială
Cum să antrenezi și să folosești modelele video LoRA Hunyuan

Acest articol vă va arăta cum să instalați și să utilizați software-ul bazat pe Windows care se poate antrena Hunyuan modele video LoRA, permițând utilizatorului să genereze personalități personalizate în modelul fundației Hunyuan Video:
Faceți clic pentru a juca. Exemple din explozia recentă a celebrităților Hunyuan LoRA din comunitatea civit.ai.
În prezent, cele mai populare două moduri de a genera modele Hunyuan LoRA la nivel local sunt:
1) difuzie-pipe-ui cadru bazat pe Docker, pe care se bazează Subsistem Windows pentru Linux (WSL) pentru a gestiona unele procese.
2) Musubi Tuner, o nouă adăugare la popular Kohya ss arhitectura de instruire de difuzie. Musubi Tuner nu necesită Docker și nu depinde de WSL sau de alte proxy-uri bazate pe Linux - dar poate fi dificil să rulați pe Windows.
Prin urmare, această run-through se va concentra pe Musubi Tuner și pe furnizarea unei soluții complet locale pentru formarea și generarea Hunyuan LoRA, fără utilizarea site-urilor web bazate pe API sau a proceselor comerciale de închiriere GPU, cum ar fi Runpod.
Faceți clic pentru a juca. Mostre din antrenamentul LoRA pe Musubi Tuner pentru acest articol. Toate permisiunile acordate de persoana înfățișată, în scopul ilustrării acestui articol.
CERINȚE
Instalarea va necesita cel puțin un PC Windows 10 cu un card NVIDIA din seria 30+/40+ care are cel puțin 12 GB de VRAM (deși 16 GB sunt recomandati). Instalarea folosită pentru acest articol a fost testată pe o mașină cu 64 GB de sistem RAM și o placă grafică NVIDIA 3090 cu 24 GB de VRAM. A fost testat pe un sistem de test dedicat folosind o nouă instalare a Windows 10 Professional, pe o partiție cu 600+GB de spațiu liber pe disc.
AVERTISMENT
Instalarea Musubi Tuner și cerințele sale prealabile implică, de asemenea, instalarea de software și pachete axate pe dezvoltatori direct pe instalarea principală Windows a unui computer. Luând în considerare instalarea ComfyUI, pentru etapele finale, acest proiect va necesita în jur de 400-500 de gigaocteți de spațiu pe disc. Deși am testat procedura fără incidente de mai multe ori în mediile Windows 10 nou-instalate de test, nici eu, nici unite.ai nu suntem răspunzători pentru orice daune aduse sistemelor din urma acestor instrucțiuni. Vă sfătuiesc să faceți o copie de rezervă a oricăror date importante înainte de a încerca acest tip de procedură de instalare.
Considerații
Mai este această metodă valabilă?
Scena AI generativă se mișcă foarte repede și ne putem aștepta la metode mai bune și mai simplificate ale cadrelor Hunyuan Video LoRA în acest an.
…sau chiar săptămâna aceasta! În timp ce scriam acest articol, dezvoltatorul Kohya/Musubi a produs musubi-tuner-gui, o interfață grafică Gradio sofisticată pentru Musubi Tuner:
Evident, o interfață grafică ușor de utilizat este de preferat fișierelor BAT pe care le folosesc în această funcție – odată ce musubi-tuner-gui funcționează. În timp ce scriu, a intrat online în urmă cu cinci zile și nu găsesc nicio înregistrare despre cineva care l-a folosit cu succes.
Potrivit postărilor din depozit, noua GUI este destinată să fie introdusă direct în proiectul Musubi Tuner cât mai curând posibil, care își va încheia existența actuală ca depozit GitHub autonom.
Pe baza instrucțiunilor de instalare prezente, noua GUI este clonată direct în mediul virtual Musubi existent; și, în ciuda multor eforturi, nu o pot face să se asocieze cu instalația Musubi existentă. Asta înseamnă că atunci când va rula, va constata că nu are motor!
Odată ce GUI este integrat în Musubi Tuner, problemele de acest gen vor fi cu siguranță rezolvate. Deși autorul recunoaște că noul proiect este „foarte dificil”, el este optimist pentru dezvoltarea și integrarea acestuia direct în Musubi Tuner.
Având în vedere aceste probleme (de asemenea, cu privire la căile implicite la momentul instalării și la utilizarea programului Pachetul UV Python, ceea ce complică anumite proceduri în noua versiune), probabil că va trebui să așteptăm puțin pentru o experiență de antrenament Hunyuan Video LoRA mai fluidă. Acestea fiind spuse, pare foarte promițător!
Dar dacă nu poți aștepta și ești dispus să-ți sufleci puțin mânecile, poți începe chiar acum cursul local Hunyuan Video LoRA.
Să începem.
De ce instalați Nimic pe Bare Metal?
(Săriți peste acest paragraf dacă nu sunteți utilizator avansat)
Utilizatorii avansați se vor întreba de ce am ales să instalez atât de mult din software-ul pe instalarea Windows 10, nu într-un mediu virtual. Motivul este că portul Windows esențial al celui bazat pe Linux Pachet Triton este mult mai dificil să lucrezi într-un mediu virtual. Toate celelalte instalații bare-metal din tutorial nu au putut fi instalate într-un mediu virtual, deoarece trebuie să interfațeze direct cu hardware-ul local.
Instalarea pachetelor și programelor de cerințe preliminare
Pentru programele și pachetele care trebuie instalate inițial, ordinea instalării contează. Să începem.
1: Descărcați Microsoft Redistributable
Descărcați și instalați pachetul Microsoft Redistributable de la https://aka.ms/vs/17/release/vc_redist.x64.exe.
Aceasta este o instalare simplă și rapidă.
2: Instalați Visual Studio 2022
Descărcați ediția Microsoft Visual Studio 2022 Community de la https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta
Porniți programul de instalare descărcat:
Nu avem nevoie de fiecare pachet disponibil, ceea ce ar reprezenta o instalare grea și lungă. La început Sarcini de lucru pagina care se deschide, bifați Dezvoltare desktop cu C++ (vezi imaginea de mai jos).
Acum faceți clic pe Componente individuale din colțul stânga sus al interfeței și folosiți caseta de căutare pentru a găsi „Windows SDK”.
În mod implicit, numai Windows 11 SDK este bifat. Dacă sunteți pe Windows 10 (această procedură de instalare nu a fost testată de mine pe Windows 11), bifați cea mai recentă versiune de Windows 10, indicată în imaginea de mai sus.
Căutați „C++ CMake” și verificați dacă Instrumente C++ CMake pentru Windows este bifat.
Această instalare va ocupa cel puțin 13 GB de spațiu.
După ce Visual Studio a fost instalat, acesta va încerca să ruleze pe computer. Lăsați-l să se deschidă complet. Când interfața pe ecran complet a Visual Studio este în sfârșit vizibilă, închideți programul.
3: Instalați Visual Studio 2019
Unele dintre pachetele ulterioare pentru Musubi așteaptă o versiune mai veche a Microsoft Visual Studio, în timp ce altele au nevoie de una mai recentă.
Prin urmare, descărcați și ediția gratuită Community a Visual Studio 19 fie de la Microsoft (https://visualstudio.microsoft.com/vs/older-downloads/ – cont este necesar) sau Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).
Instalați-l cu aceleași opțiuni ca pentru Visual Studio 2022 (vezi procedura de mai sus, cu excepția faptului că Windows SDK este deja bifată în programul de instalare Visual Studio 2019).
Veți vedea că programul de instalare Visual Studio 2019 este deja conștient de versiunea mai nouă pe măsură ce se instalează:
Când instalarea este completă și ați deschis și închis aplicația instalată Visual Studio 2019, deschideți o linie de comandă Windows (Type CMD în Start Search) și introduceți și introduceți:
where cl
Rezultatul ar trebui să fie locațiile cunoscute ale celor două ediții Visual Studio instalate.
Dacă în schimb primești INFO: Could not find files for the given pattern(s)
, vedeți Verificați Calea secțiunea acestui articol de mai jos și utilizați acele instrucțiuni pentru a adăuga căile relevante Visual Studio în mediul Windows.
Salvați toate modificările făcute conform Verificați căile secțiunea de mai jos și apoi încercați din nou comanda where cl.
4: Instalați seturile de instrumente CUDA 11 + 12
Diferitele pachete instalate în Musubi au nevoie de versiuni diferite de NVIDIA CUDA, care accelerează și optimizează antrenamentul pe plăcile grafice NVIDIA.
Motivul pentru care am instalat versiunile Visual Studio primul este că instalatorii NVIDIA CUDA caută și se integrează cu orice instalare Visual Studio existentă.
Descărcați un pachet de instalare CUDA din seria 11+ de la:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (Descarca 'exe (local') )
Descărcați un pachet de instalare CUDA Toolkit din seria 12+ de la:
https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64
Procesul de instalare este identic pentru ambii instalatori. Ignorați orice avertismente despre existența sau inexistența căilor de instalare în variabilele de mediu Windows - ne vom ocupa de asta manual mai târziu.
Instalați NVIDIA CUDA Toolkit V11+
Porniți programul de instalare pentru kitul de instrumente CUDA din seria 11+.
At Opțiuni de instalare, alege Avansat personalizat) și continuați.
Debifați opțiunea NVIDIA GeForce Experience și faceți clic Pagina Următoare →.
Părăsi Selectați Locația de instalare la valorile implicite (acest lucru este important):
Clic Pagina Următoare → și lăsați instalarea să se încheie.
Ignorați orice avertisment sau notă despre care le oferă instalatorul Nsight Visual Studio integrare, care nu este necesară pentru cazul nostru de utilizare.
Instalați NVIDIA CUDA Toolkit V12+
Repetați întregul proces pentru programul de instalare separat pentru 12+ NVIDIA Toolkit pe care l-ați descărcat:
Procesul de instalare pentru această versiune este identic cu cel enumerat mai sus (versiunea 11+), cu excepția unui avertisment despre căile de mediu, pe care îl puteți ignora:
Când instalarea versiunii 12+ CUDA este finalizată, deschideți un prompt de comandă în Windows și tastați și introduceți:
nvcc --version
Acest lucru ar trebui să confirme informații despre versiunea driverului instalat:
Pentru a verifica dacă cardul dvs. este recunoscut, tastați și introduceți:
nvidia-smi
5: Instalați GIT
GIT se va ocupa de instalarea depozitului Musubi pe mașina dvs. locală. Descărcați programul de instalare GIT de la:
https://git-scm.com/downloads/win ('Instalare Git pentru Windows pe 64 de biți')
Rulați programul de instalare:
Utilizați setările implicite pentru Selectați Componente:
Lăsați editorul implicit la sevă:
Lăsați GIT să decidă despre numele ramurilor:
Utilizați setările recomandate pentru Cale Mediu inconjurator:
Utilizați setările recomandate pentru SSH:
Utilizați setările recomandate pentru Backend de transport HTTPS:
Utilizați setările recomandate pentru conversiile la sfârșitul rândului:
Alegeți consola implicită Windows ca emulator de terminal:
Utilizați setările implicite (Derulați rapid înainte sau îmbinați) pentru Git Pull:
Utilizați Git-Credential Manager (setarea implicită) pentru Credential Helper:
In Configurarea opțiunilor suplimentare, părăsi Activați memoria cache a sistemului de fișiere bifat, și Activați linkurile simbolice debifat (cu excepția cazului în care sunteți un utilizator avansat care utilizează link-uri hard pentru un depozit de model centralizat).
Încheiați instalarea și testați dacă Git este instalat corect deschizând o fereastră CMD și tastând și introducând:
git --version
Conectare GitHub
Mai târziu, când încercați să clonați depozitele GitHub, este posibil să fiți solicitat pentru acreditările GitHub. Pentru a anticipa acest lucru, conectați-vă la contul dvs. GitHub (creați unul, dacă este necesar) în orice browser instalat pe sistemul dvs. Windows. În acest fel, metoda de autentificare 0Auth (o fereastră pop-up) ar trebui să dureze cât mai puțin timp posibil.
După această provocare inițială, ar trebui să rămâneți autentificat automat.
6: Instalați CMake
CMake 3.21 sau mai nou este necesar pentru părți ale procesului de instalare Musubi. CMake este o arhitectură de dezvoltare multiplatformă capabilă să orchestreze diverse compilatoare și să compileze software din codul sursă.
Descărcați-l la:
https://cmake.org/download/ („Instalare Windows x64”)
Lansați programul de instalare:
Asigura Adăugați Cmake la variabila de mediu PATH este bifat.
Anunturi Pagina Următoare →.
Tastați și introduceți această comandă într-un prompt de comandă Windows:
cmake --version
Dacă CMake s-a instalat cu succes, va afișa ceva de genul:
cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).
7: Instalați Python 3.10
Interpretul Python este esențial pentru acest proiect. Descărcați versiunea 3.10 (cel mai bun compromis între diferitele cerințe ale pachetelor Musubi) la:
https://www.python.org/downloads/release/python-3100/ ('Instalare Windows (64 biți)')
Rulați programul de instalare de descărcare și lăsați la setările implicite:
La sfârșitul procesului de instalare, faceți clic pe Dezactivați limita de lungime a căii (necesită confirmarea administratorului UAC):
Într-un prompt de comandă Windows, tastați și introduceți:
python --version
Acest lucru ar trebui să aibă ca rezultat Python 3.10.0
Verificați căile
Clonarea și instalarea cadrelor Musubi, precum și funcționarea normală după instalare, necesită ca componentele sale să cunoască calea către câteva componente externe importante în Windows, în special CUDA.
Așa că trebuie să deschidem mediul de cale și să verificăm dacă toate cerințele sunt acolo.
O modalitate rapidă de a ajunge la comenzile pentru Mediul Windows este să tastați Editați variabilele sistemului de sistem în bara de căutare Windows.
Dacă faceți clic pe acesta, se va deschide fișierul Proprietatile sistemului panoul de control. În dreapta jos a Proprietatile sistemului, Faceți clic pe variabile de mediu butonul și o fereastră numită variabile de mediu se deschide. În Variabile de sistem panoul din jumătatea de jos a acestei ferestre, derulați în jos la Cale și faceți dublu clic pe el. Aceasta deschide o fereastră numită Editați variabilele de mediu. Trageți lățimea acestei ferestre mai lat, astfel încât să puteți vedea calea completă a variabilelor:
Aici intrările importante sunt:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin
În cele mai multe cazuri, variabilele de cale corectă ar trebui să fie deja prezente.
Adăugați toate căile care lipsesc făcând clic Nou în stânga Editați variabila de mediu fereastră și lipire în calea corectă:
NU doar copiați și lipiți din căile enumerate mai sus; verificați dacă fiecare cale echivalentă există în propria dvs. instalare Windows.
Dacă există variații minore de cale (în special cu instalările Visual Studio), utilizați căile enumerate mai sus pentru a găsi folderele țintă corecte (de exemplu, x64 in Gazdă64 în propria instalație. Apoi lipiți aceste căi în Editați variabila de mediu fereastră.
După aceasta, reporniți computerul.
Instalarea Musubi
Actualizați PIP
Utilizarea celei mai recente versiuni a programului de instalare PIP poate ușura unele dintre etapele de instalare. Într-un prompt de comandă Windows cu privilegii de administrator (vezi Elevație, mai jos), tastați și introduceți:
pip install --upgrade pip
Elevație
Unele comenzi pot necesita privilegii ridicate (de exemplu, pentru a fi rulate ca administrator). Dacă primiți mesaje de eroare despre permisiuni în următoarele etape, închideți fereastra promptului de comandă și redeschideți-o în modul administrator tastând CMD în caseta de căutare Windows, făcând clic dreapta pe Command Prompt și selectarea Executare ca administrator:
Pentru etapele următoare, vom folosi Windows Powershell în loc de promptul de comandă Windows. Puteți găsi acest lucru introducând PowerShell în caseta de căutare Windows și (după caz) fă clic dreapta pe ea pentru a Executare ca administrator:
Instalați Torch
În Powershell, tastați și introduceți:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Aveți răbdare în timp ce multe pachete se instalează.
După finalizare, puteți verifica o instalare PyTorch activată pentru GPU, tastând și introducând:
python -c "import torch; print(torch.cuda.is_available())"
Acest lucru ar trebui să aibă ca rezultat:
C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True
Instalați Triton pentru Windows
În continuare, instalarea Triton pentru Windows componentă. În Powershell crescut, introduceți (pe o singură linie):
pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl
(Instalatorul triton-3.1.0-cp310-cp310-win_amd64.whl
funcționează atât pentru procesoarele Intel, cât și pentru AMD, atâta timp cât arhitectura este pe 64 de biți și mediul se potrivește cu versiunea Python)
După rulare, acest lucru ar trebui să aibă ca rezultat:
Successfully installed triton-3.1.0
Putem verifica dacă Triton funcționează importându-l în Python. Introduceți această comandă:
python -c "import triton; print('Triton is working')"
Aceasta ar trebui să scoată:
Triton is working
Pentru a verifica dacă Triton este compatibil GPU, introduceți:
python -c "import torch; print(torch.cuda.is_available())"
Acest lucru ar trebui să aibă ca rezultat True
:
Creați mediul virtual pentru Musubi
De acum înainte, vom instala orice alt software în a Mediul virtual Python (Sau venv). Aceasta înseamnă că tot ce va trebui să faceți pentru a dezinstala toate programele software următoare este să trageți folderul de instalare al venv în coșul de gunoi.
Să creăm folderul de instalare: creați un folder numit Musubi pe desktop. Următoarele exemple presupun că acest folder există: C:\Users\[Your Profile Name]\Desktop\Musubi\
.
În Powershell, navigați la acel folder introducând:
cd C:\Users\[Your Profile Name]\Desktop\Musubi
Dorim ca mediul virtual să aibă acces la ceea ce am instalat deja (în special Triton), așa că vom folosi --system-site-packages
pavilion. Introduceți aceasta:
python -m venv --system-site-packages musubi
Așteptați ca mediul să fie creat și apoi activați-l introducând:
.\musubi\Scripts\activate
Din acest moment, poți spune că te afli în mediul virtual activat prin faptul că (musubi) apare la începutul tuturor solicitărilor tale.
Clonează depozitul
Navigați la nou-creatul Musubi folderul (care se află în interiorul Musubi folderul de pe desktop):
cd musubi
Acum că suntem în locul potrivit, introduceți următoarea comandă:
git clone https://github.com/kohya-ss/musubi-tuner.git
Așteptați finalizarea clonării (nu va dura mult).
Cerințe de instalare
Navigați la folderul de instalare:
cd musubi-tuner
Introduceți:
pip install -r requirements.txt
Așteptați ca numeroasele instalări să se termine (aceasta va dura mai mult).
Automatizarea accesului la Hunyuan Video Venv
Pentru a activa și accesa cu ușurință noul venv pentru sesiuni viitoare, inserați următoarele în Notepad și salvați-l cu numele activare.bat, salvându-l cu Toate fișierele opțiune (vezi imaginea de mai jos).
@echo off
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate
cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner
cmd
(A inlocui [Your Profile Name]
cu numele real al profilului dvs. de utilizator Windows)
Nu contează în ce locație salvați acest fișier.
De acum înainte puteți face dublu clic activare.bat și începe munca imediat.
Folosind Musubi Tuner
Descărcarea modelelor
Procesul de instruire Hunyuan Video LoRA necesită descărcarea a cel puțin șapte modele pentru a suporta toate opțiunile posibile de optimizare pentru pre-caching și antrenamentul unui video LoRA Hunyuan. Împreună, aceste modele cântăresc mai mult de 60 GB.
Instrucțiunile actuale pentru descărcarea acestora pot fi găsite la https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download
Cu toate acestea, acestea sunt instrucțiunile de descărcare la momentul scrierii:
clip_l.safetensors
și
llava_llama3_fp16.safetensors
llava_llama3_fp8_scaled.safetensors
poate fi descărcat de la:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
mp_rank_00_model_states.pt
și
mp_rank_00_model_states_fp8.pt
mp_rank_00_model_states_fp8_map.pt
poate fi descărcat de la:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers
pytorch_model.pt
poate fi descărcat de la:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae
Deși le puteți plasa în orice director doriți, pentru consecvență cu scripturile ulterioare, haideți să le plasăm în:
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\
Acest lucru este în concordanță cu aranjamentul directoarelor înainte de acest punct. Orice comenzi sau instrucțiuni ulterioare vor presupune că aici sunt situate modelele; și nu uitați să înlocuiți [Numele profilului dvs.] cu numele real al folderului profilului Windows.
Pregătirea setului de date
Ignorând controversele comunitare pe această temă, este corect să spunem că veți avea nevoie de undeva între 10 și 100 de fotografii pentru un set de date de antrenament pentru Hunyuan LoRA. Rezultate foarte bune pot fi obținute chiar și cu 15 imagini, atâta timp cât imaginile sunt bine echilibrate și de bună calitate.
Un Hunyuan LoRA poate fi antrenat atât pe imagini, cât și pe clipuri video foarte scurte și de joasă rezoluție, sau chiar pe un amestec din fiecare – deși utilizarea clipurilor video ca date de antrenament este o provocare, chiar și pentru un card de 24 GB.
Cu toate acestea, clipurile video sunt foarte utile doar dacă personajul tău se mișcă într-un mod atât de neobișnuit încât modelul fundației Hunyuan Video ar putea să nu știe despre asta, sau să poţi ghici.
Exemplele ar include Roger Rabbit, un xenomorf, The Mask, Spider-Man sau alte personalități care posedă unic mișcare caracteristică.
Întrucât Hunyuan Video știe deja cum se mișcă bărbații și femeile obișnuite, nu sunt necesare clipuri video pentru a obține un personaj uman convingător, specific Hunyuan Video LoRA. Așadar, vom folosi imagini statice.
Pregătirea imaginii
Lista de Cupă
Versiunea TLDR:
Cel mai bine este să folosiți fie imagini de aceeași dimensiune pentru setul de date, fie o împărțire 50/50 între două dimensiuni diferite, de exemplu, 10 imagini de 512x768px și 10 de 768x512px.
Antrenamentul s-ar putea să meargă bine chiar dacă nu faci asta – LoRA-urile video Hunyuan pot fi surprinzător de îngăduitoare.
Versiunea mai lungă
Ca și în cazul LoRA-urilor Kohya-ss pentru sisteme generative statice, cum ar fi Stable Diffusion, găleată este utilizată pentru a distribui volumul de lucru pe imagini de dimensiuni diferite, permițând utilizarea imaginilor mai mari fără a cauza erori de memorie insuficientă în timpul antrenamentului (adică, segmentarea „împarte” imaginile în bucăți pe care GPU-ul le poate gestiona, menținând în același timp integritatea semantică a întregii imagini).
Pentru fiecare dimensiune de imagine pe care o includeți în setul de date de antrenament (de exemplu, 512x768px), va fi creată o „sub-sarcină” sau o „sub-comandă” pentru dimensiunea respectivă. Așadar, dacă aveți următoarea distribuție a imaginilor, atenția acordată „coatingului” devine dezechilibrată și riscă ca unele fotografii să fie mai luate în considerare în antrenament decât altele:
2x imagini de 512x768px
7x imagini de 768x512px
1x imagine 1000x600px
3x imagini de 400x800px
Putem vedea că atenția găleții este împărțită inegal între aceste imagini:
Prin urmare, fie rămâneți la o dimensiune de format, fie încercați să păstrați distribuția diferitelor dimensiuni relativ egală.
În ambele cazuri, evitați imaginile foarte mari, deoarece acest lucru este probabil să încetinească antrenamentul, cu un beneficiu neglijabil.
Pentru simplitate, am folosit 512x768px pentru toate fotografiile din setul meu de date.
Avertisment: Modelul (persoana) folosit în setul de date mi-a dat permisiunea deplină de a folosi aceste imagini în acest scop și a exercitat aprobarea tuturor rezultatelor bazate pe AI care descriu asemănarea ei prezentată în acest articol.
Setul meu de date este format din 40 de imagini, în format PNG (deși și JPG este bine). Imaginile mele au fost stocate la C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman
Ar trebui să creați un cache folderul din dosarul cu imagini de antrenament:
Acum haideți să creăm un fișier special care va configura antrenamentul.
Fișiere TOML
Procesele de instruire și pre-caching ale Hunyuan Video LoRA obțin căile fișierelor dintr-un fișier text plat cu .toml extensie.
Pentru testul meu, TOML se află la C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml
Conținutul TOML-ului meu de formare arată astfel:
[general]
resolution = [512, 768]
caption_extension = ".txt"
batch_size = 1
enable_bucket = true
bucket_no_upscale = false
[[datasets]]
image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"
cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"
num_repeats = 1
(Barele oblice inverse duble pentru directoarele de imagine și cache nu sunt întotdeauna necesare, dar pot ajuta la evitarea erorilor în cazurile în care există un spațiu în cale. Am antrenat modele cu fișiere .toml care foloseau single-forward și single- bare oblice înapoi)
Putem vedea în resolution
secțiunea în care vor fi luate în considerare două rezoluții – 512px și 768px. De asemenea, puteți lăsa acest lucru la 512 și, în continuare, obțineți rezultate bune.
Legende
Hunyuan Video este un a) Sport and Nutrition Awareness Day in Manasia Around XNUMX people from the rural commune Manasia have participated in a sports and healthy nutrition oriented activity in one of the community’s sports ready yards. This activity was meant to gather, mainly, middle-aged people from a Romanian rural community and teach them about the benefits that sports have on both their mental and physical health and on how sporting activities can be used to bring people from a community closer together. Three trainers were made available for this event, so that the participants would get the best possible experience physically and so that they could have the best access possible to correct information and good sports/nutrition practices. b) Sports Awareness Day in Poiana Țapului A group of young participants have taken part in sporting activities meant to teach them about sporting conduct, fairplay, and safe physical activities. The day culminated with a football match. +model de fundație pentru viziune, așa că avem nevoie de legende descriptive pentru aceste imagini, care vor fi luate în considerare în timpul antrenamentului. Procesul de instruire va eșua fără subtitrări.
Există o multitudine de sisteme de subtitrare open source pe care le-am putea folosi pentru această sarcină, dar haideți să simplificăm lucrurile și să folosim taggui sistem. Deși este stocat la GitHub și deși descarcă câteva modele de învățare profundă foarte grele la prima rulare, vine sub forma unui executabil Windows simplu care încarcă biblioteci Python și o interfață grafică simplă.
După ce porniți Taggui, utilizați Fișier > Încărcare director pentru a naviga la setul de date de imagine și, opțional, puneți un identificator de simbol (în acest caz, femeie exemplu) care vor fi adăugate la toate legendele:
(Asigurați-vă că opriți Încărcați în 4 biți când Taggui se deschide pentru prima dată – va arunca erori în timpul subtitrării dacă aceasta este lăsată activată)
Selectați o imagine în coloana de previzualizare din stânga și apăsați CTRL+A pentru a selecta toate imaginile. Apoi apăsați butonul Start Auto-Captioning din dreapta:
Veți vedea Taggui descarcând modele în micul CLI din coloana din dreapta, dar numai dacă aceasta este prima dată când rulați subtitrarea. În caz contrar, veți vedea o previzualizare a subtitrărilor.
Acum, fiecare fotografie are o legendă .txt corespunzătoare cu o descriere a conținutului imaginii sale:
Puteți face clic pe Opțiuni avansate în Taggui pentru a crește lungimea și stilul subtitrărilor, dar asta depășește scopul acestei analize.
Renunță la Taggui și hai să trecem la…
Pre-caching latent
Pentru a evita încărcarea excesivă a GPU-ului în timpul antrenamentului, este necesar să creați două tipuri de fișiere pre-cache - unul pentru a reprezenta imaginea latentă derivată din imaginile în sine și altul pentru a evalua o codificare de text referitoare la conținutul subtitrării.
Pentru a simplifica toate cele trei procese (2x cache + training), puteți utiliza fișiere interactive .BAT care vă vor pune întrebări și vor întreprinde procesele atunci când ați oferit informațiile necesare.
Pentru pre-memorizarea latentă, copiați următorul text în Notepad și salvați-l ca fișier .BAT (adică, numiți-l așa cum ar fi latent-precache.bat), ca mai devreme, asigurându-vă că tipul fișierului în meniul drop-down din Salvare ca dialogul este Toate filele (vezi imaginea de mai jos):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the latent pre-caching script
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling
) else (
echo Operation canceled.
)
REM Keep the window open
pause
(Asigurați-vă că înlocuiți [Numele profilului dvs.] cu numele real al folderului de profil Windows)
Acum puteți rula fișierul .BAT pentru stocarea automată în cache latentă:
Când vi se solicită de diversele întrebări din fișierul BAT, lipiți sau introduceți calea către setul de date, folderele cache și fișierul TOML.
Pre-caching text
Vom crea un al doilea fișier BAT, de data aceasta pentru pre-caching-ul textului.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Use the python executable from the virtual environment
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16
) else (
echo Operation canceled.
)
REM Keep the window open
pause
Înlocuiți numele de profil Windows și salvați-l ca text-cache.bat (sau orice alt nume doriți), în orice locație convenabilă, conform procedurii pentru fișierul BAT anterior.
Rulați acest nou fișier BAT, urmați instrucțiunile și fișierele codificate text necesare vor apărea în fișierul cache pliant:
Antrenarea lui Hunyuan Video Lora
Formarea LoRA reală va dura mult mai mult decât aceste două procese pregătitoare.
Deși există și mai multe variabile de care ne-am putea îngrijora (cum ar fi dimensiunea lotului, repetițiile, epocile și dacă să folosim modele complete sau cuantizate, printre altele), vom păstra aceste considerații pentru altă dată și pentru o analiză mai profundă a complexității creării LoRA.
Deocamdată, haideți să minimizăm puțin opțiunile și să antrenăm o LoRA pe setări „mediane”.
Vom crea un al treilea fișier BAT, de data aceasta pentru a iniția antrenamentul. Lipiți-l în Notepad și salvați-l ca fișier BAT, ca înainte, ca antrenament.bat (sau orice nume te rog):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p DATASET_CONFIG=Enter the path to the dataset configuration file:
set /p EPOCHS=Enter the number of epochs to train:
set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):
set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):
if "%LEARNING_RATE%"=="1" set LR=1e-3
if "%LEARNING_RATE%"=="2" set LR=5e-3
if "%LEARNING_RATE%"=="" set LR=1e-3
set /p SAVE_STEPS=How often (in steps) to save preview images:
set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?
echo You entered:
echo Dataset configuration file: %DATASET_CONFIG%
echo Number of epochs: %EPOCHS%
echo Output name: %OUTPUT_NAME%
echo Learning rate: %LR%
echo Save preview images every %SAVE_STEPS% steps.
echo Text-prompt file: %SAMPLE_PROMPTS%
REM Prepare the command
set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^
--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^
--dataset_config %DATASET_CONFIG% ^
--sdpa ^
--mixed_precision bf16 ^
--fp8_base ^
--optimizer_type adamw8bit ^
--learning_rate %LR% ^
--gradient_checkpointing ^
--max_data_loader_n_workers 2 ^
--persistent_data_loader_workers ^
--network_module=networks.lora ^
--network_dim=32 ^
--timestep_sampling sigmoid ^
--discrete_flow_shift 1.0 ^
--max_train_epochs %EPOCHS% ^
--save_every_n_epochs=1 ^
--seed 42 ^
--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^
--output_name %OUTPUT_NAME% ^
--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^
--vae_chunk_size 32 ^
--vae_spatial_tile_sample_min_size 128 ^
--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^
--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^
--sample_prompts %SAMPLE_PROMPTS% ^
--sample_every_n_steps %SAVE_STEPS% ^
--sample_at_first
echo The following command will be executed:
echo %CMD%
set /p CONFIRM=Do you want to proceed with training (y/n)?
if /i "%CONFIRM%"=="y" (
%CMD%
) else (
echo Operation canceled.
)
REM Keep the window open
cmd /k
Ca de obicei, asigurați-vă că înlocuiți toate instanțele of [Numele profilului tău] cu numele dvs. corect de profil Windows.
Asigurați-vă că directorul C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\
există și creați-l în acea locație dacă nu.
Previzualizări de antrenament
Există o funcție de previzualizare a antrenamentului foarte de bază activată recent pentru antrenorul Musubi, care vă permite să forțați modelul de antrenament să întrerupă și să genereze imagini pe baza solicitărilor pe care le-ați salvat. Acestea sunt salvate într-un folder creat automat numit Eşantion, în același director în care sunt salvate modelele antrenate.
Pentru a activa acest lucru, va trebui să salvați ultimul prompt într-un fișier text. BAT de antrenament pe care l-am creat vă va cere să introduceți locația acestui fișier; prin urmare, puteți numi fișierul prompt pentru a fi orice doriți și îl puteți salva oriunde.
Iată câteva exemple prompte pentru un fișier care va scoate trei imagini diferite atunci când este solicitat de rutina de antrenament:
După cum puteți vedea în exemplul de mai sus, puteți pune steaguri la sfârșitul promptului care vor afecta imaginile:
–w este lățime (implicit la 256px dacă nu este setat, conform documentele)
– h este înălțime (implicit la 256 px dacă nu este setat)
–f este numărul de cadre. Dacă este setată la 1, este produsă o imagine; mai mult de unul, un videoclip.
–d este sămânța. Dacă nu este setat, este aleatoriu; dar ar trebui să-l setați pentru a vedea un prompt care evoluează.
–s este numărul de pași în generare, implicit la 20.
Vedea documentația oficială pentru steaguri suplimentare.
Deși previzualizările antrenamentului pot dezvălui rapid unele probleme care vă pot determina să anulați antrenamentul și să vă reconsiderați datele sau configurarea, economisind astfel timp, amintiți-vă că fiecare solicitare suplimentară încetinește un pic mai mult antrenamentul.
De asemenea, cu cât lățimea și înălțimea imaginii de previzualizare a antrenamentului sunt mai mari (așa cum sunt setate în steagurile enumerate mai sus), cu atât antrenamentul va încetini mai mult.
Lansați fișierul BAT de antrenament.
Întrebare #1 este „Introduceți calea către configurația setului de date. Lipiți sau introduceți calea corectă către fișierul dvs. TOML.
Întrebare #2 este „Introduceți numărul de epoci de antrenat”. Aceasta este o variabilă de tip încercare și eroare, deoarece este afectată de cantitatea și calitatea imaginilor, precum și de legende și de alți factori. În general, este mai bine să o setați prea mare decât prea mică, deoarece puteți oricând opri antrenamentul cu Ctrl+C în fereastra de antrenament dacă considerați că modelul a avansat suficient. Setați-o la 100 în prima instanță și vedeți cum merge.
Întrebare #3 este „Introduceți numele modelului de ieșire”. Denumiți modelul! Ar fi mai bine să păstrați numele relativ scurt și simplu.
Întrebare #4 este „Alegeți rata de învățare”, care implicit este 1e-3 (opțiunea 1). Acesta este un bun punct de plecare, în așteptarea experienței suplimentare.
Întrebare #5 este „Cât de des (în pași) se salvează imaginile de previzualizare. Dacă setați acest lucru prea scăzut, veți vedea un progres mic între salvarea imaginii de previzualizare, iar acest lucru va încetini antrenamentul.
Întrebare #6 este „Care este locația fișierului text cu solicitări pentru previzualizările de antrenament?”. Lipiți sau tastați calea către fișierul text cu solicitări.
BAT-ul vă arată apoi comanda pe care o va trimite modelului Hunyuan și vă întreabă dacă doriți să continuați, da/n.
Continuați și începeți antrenamentul:
În acest timp, dacă verificați secțiunea GPU din fila Performanță din Managerul de activități Windows, veți vedea că procesul necesită aproximativ 16 GB de VRAM.
Este posibil să nu fie o cifră arbitrară, deoarece aceasta este cantitatea de VRAM disponibilă pe destul de multe plăci grafice NVIDIA, iar codul din amonte poate fi optimizat pentru a se potrivi sarcinilor în 16 GB în beneficiul celor care dețin astfel de plăci.
Acestea fiind spuse, este foarte ușor să creșteți această utilizare, prin trimiterea de steaguri mai exorbitante la comanda de antrenament.
În timpul antrenamentului, veți vedea în partea dreaptă jos a ferestrei CMD o cifră care indică timpul scurs de la începerea antrenamentului și o estimare a timpului total de antrenament (care va varia foarte mult în funcție de semnalizatoarele setate, numărul de imagini de antrenament, numărul de imagini de previzualizare a antrenamentului și alți factori).
Un timp obișnuit de antrenament este de aproximativ 3-4 ore pentru setările medii, în funcție de hardware-ul disponibil, numărul de imagini, setările de semnalizare și alți factori.
Utilizarea modelelor dvs. LoRA instruite în Hunyuan Video
Alegerea punctelor de control
Când antrenamentul este încheiat, veți avea un punct de control model pentru fiecare epocă de antrenament.
Această frecvență de salvare poate fi modificată de către utilizator pentru a salva mai mult sau mai puțin frecvent, după dorință, prin modificarea --save_every_n_epochs [N]
numărul din fișierul BAT de antrenament. Dacă ați adăugat o cifră mică pentru salvările pe pași atunci când configurați antrenamentul cu BAT, va exista un număr mare de fișiere de puncte de control salvate.
Ce punct de control să aleg?
După cum am menționat mai devreme, modelele cele mai vechi antrenate vor fi cele mai flexibile, în timp ce punctele de control ulterioare pot oferi cele mai multe detalii. Singura modalitate de a testa acești factori este să rulați unele dintre LoRA-uri și să generați câteva videoclipuri. În acest fel, puteți afla care puncte de control sunt cele mai productive și reprezintă cel mai bun echilibru între flexibilitate și fidelitate.
ComfyUI
Cel mai popular (deși nu singurul) mediu pentru utilizarea Hunyuan Video LoRA-uri, în acest moment, este ComfyUI, un editor bazat pe noduri cu o interfață Gradio elaborată care rulează în browserul dvs. web.

Sursa: https://github.com/comfyanonymous/ComfyUI
Instrucțiunile de instalare sunt simple și disponibil în depozitul oficial GitHub (vor trebui descărcate modele suplimentare).
Conversia modelelor pentru ComfyUI
Modelele antrenate sunt salvate într-un format (difuzoare) care nu este compatibil cu majoritatea implementărilor ComfyUI. Musubi poate converti un model într-un format compatibil cu ComfyUI. Să configurăm un fișier BAT pentru a implementa acest lucru.
Înainte de a rula acest BAT, creați C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\
folderul pe care scriptul îl așteaptă.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
:START
REM Get user input
set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):
REM Exit if the user types "exit"
if /i "%INPUT_PATH%"=="exit" goto END
REM Extract the file name from the input path and append 'converted' to it
for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF
set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors
set TARGET=other
echo You entered:
echo Input file: %INPUT_PATH%
echo Output file: %OUTPUT_PATH%
echo Target format: %TARGET%
set /p CONFIRM=Do you want to proceed with the conversion (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the conversion script with correctly quoted paths
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%
echo Conversion complete.
) else (
echo Operation canceled.
)
REM Return to start for another file
goto START
:END
REM Keep the window open
echo Exiting the script.
pause
Ca și în cazul fișierelor BAT anterioare, salvați scriptul ca „Toate fișierele” din Notepad, denumindu-l convert.bat (sau ce vrei tu).
Odată salvat, faceți dublu clic pe noul fișier BAT, care va cere locația fișierului de convertit.
Lipiți sau introduceți calea către fișierul antrenat pe care doriți să îl convertiți, faceți clic y
, și apăsați enter.
După salvarea LoRA convertită în CONVERTIT folder, scriptul vă va întreba dacă doriți să convertiți un alt fișier. Dacă doriți să testați mai multe puncte de control în ComfyUI, convertiți o selecție de modele.
Când ați convertit suficiente puncte de control, închideți fereastra de comandă BAT.
Acum puteți copia modelele convertite în folderul model\loras din instalarea ComfyUI.
De obicei, locația corectă este ceva de genul:
C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\
Crearea de LoRA video Hunyuan în ComfyUI
Deși fluxurile de lucru bazate pe noduri ale ComfyUI par inițial complexe, setările altor utilizatori mai experți pot fi încărcate prin glisarea unei imagini (realizate cu ComfyUI-ul celuilalt utilizator) direct în fereastra ComfyUI. Fluxurile de lucru pot fi, de asemenea, exportate ca fișiere JSON, care pot fi importate manual sau glisate într-o fereastră ComfyUI.
Unele fluxuri de lucru importate vor avea dependențe care ar putea să nu existe în instalarea dvs. Prin urmare, instalați ComfyUI-Manager, care poate prelua automat modulele lipsă.

Sursa: https://github.com/ltdrdata/ComfyUI-Manager
Pentru a încărca unul dintre fluxurile de lucru utilizate pentru a genera videoclipuri din modelele din acest tutorial, descărcați acest fișier JSON și trageți-l în fereastra ComfyUI (deși există exemple de flux de lucru mult mai bune disponibile la diferitele comunități Reddit și Discord care au adoptat Hunyuan Video, iar al meu este adaptat dintr-una dintre acestea).
Acesta nu este locul pentru un tutorial extins în utilizarea ComfyUI, dar merită menționat câțiva dintre parametrii cruciali care vă vor afecta rezultatul dacă descărcați și utilizați aspectul JSON la care am legat mai sus.
1) Lățimea și înălțimea
Cu cât imaginea este mai mare, cu atât va dura mai mult generarea și cu atât este mai mare riscul unei erori de memorie lipsită (OOM).
2) Lungimea
Aceasta este valoarea numerică pentru numărul de cadre. Câte secunde se adună depinde de rata de cadre (setată la 30 fps în acest aspect). Puteți converti secunde> cadre pe baza fps la Omnicalculator.
3) Mărimea lotului
Cu cât setați dimensiunea lotului mai mare, cu atât rezultatul poate fi mai rapid, dar cu atât sarcina VRAM-ului este mai mare. Setați acest lucru prea sus și este posibil să obțineți un OOM.
4) Control după generare
Aceasta controlează sămânța aleatoare. Opțiunile pentru acest sub-nod sunt fixată, creştere, scăderea și randomiza. Daca o lasi la fixată și nu modificați promptul de text, veți obține aceeași imagine de fiecare dată. Dacă modificați solicitarea textului, imaginea se va schimba într-o măsură limitată. The creştere și scăderea setările vă permit să explorați valorile semințelor din apropiere, în timp ce randomiza vă oferă o interpretare complet nouă a promptului.
5) Numele Lora
Va trebui să selectați propriul model instalat aici, înainte de a încerca să generați.
6) Token
Dacă v-ați antrenat modelul să declanșeze conceptul cu un simbol (cum ar fi „persoană-exemplu”), pune acel cuvânt declanșator în promptul tău.
7) Pași
Aceasta reprezintă câți pași va aplica sistemul procesului de difuzie. Pașii mai înalți pot obține detalii mai bune, dar există un plafon privind cât de eficientă este această abordare și acel prag poate fi greu de găsit. Gama comună de pași este în jur de 20-30.
8) Dimensiunea plăcilor
Aceasta definește câtă informație este gestionată simultan în timpul generării. Este setată la 256 în mod implicit. Creșterea acestei valori poate accelera generarea, dar creșterea ei prea mare poate duce la o experiență OOM deosebit de frustrantă, deoarece apare chiar la sfârșitul unui proces lung.
9) Suprapunere temporală
Generația de oameni din Hunyuan Video poate duce la „ghosting” sau la mișcare neconvingătoare dacă această valoare este setată prea jos. În general, se consideră că această valoare ar trebui setată la o valoare mai mare decât numărul de cadre, pentru a produce o mișcare mai bună.
Concluzie
Deși explorarea suplimentară a utilizării ComfyUI depășește scopul acestui articol, experiența comunității de la Reddit și Discords poate ușura curba de învățare și există mai multe ghiduri online care introduc elementele de bază.
Publicat prima dată joi, 23 ianuarie 2025