Tekoäly

Kuinka Kouluttaa ja Käyttää Hunyuan Video LoRA -malleja

Published January 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: Variation on 'Create me an image 1792 x 1024. It should be in the style of Théodore Géricault, and should depict a dark medieval figure seated in front of a laptop, illuminated by the screen. We are facing the figure, and can only see the back of the laptop lid. Around the seated medieval figure are many other medieval men and women, curious as to what is happening on the computer screen'

Tämä artikkeli näyttää, miten asentaa ja käyttää Windows-pohjaista ohjelmistoa, joka voi kouluttaa Hunyuan Video LoRA -malleja, jolloin käyttäjä voi luoda mukautettuja persoonallisuutta Hunyuan Video -perusmallissa:

Klikkaa toistaa. Esimerkkejä viimeaikaisesta räjähdysmäisestä kasvusta celebri Hunyuan LoRAs civit.ai -yhteisöstä.

Tällä hetkellä kaksi suosituinta tapaa luoda Hunyuan LoRA -malleja paikallisesti ovat:

1) Diffusion-pipe-ui Docker-pohjainen kehys, joka riippuu Windows-alijärjestelmästä Linuxille (WSL) joitain prosessien käsittelyyn.

2) Musubi Tuner, uusi lisäys suositulle Kohya ss -diffuusiokoulutusarkkitehtuuriin. Musubi Tuner ei vaadi Dockeria eikä riipu WSL:stä tai muista Linux-pohjaisista välittäjistä – mutta se voi olla haasteellista saada toimimaan Windowsissa.

Siksi tämä kertaus keskittyy Musubi Tuneriin ja tarjoaa täysin paikallisen ratkaisun Hunyuan LoRA -koulutukseen ja generointiin ilman API-pohjaisia verkkosivustoja tai kaupallisia GPU-vuokrausprosesseja, kuten Runpod.

Klikkaa toistaa. Näyte Musubi Tunerista tähän artikkeliin. Kaikki lupaukset henkilölle, joka on kuvattu, tätä artikkelia varten.

VAATIMUKSET

Asennus vaatii vähintään Windows 10 -tietokoneen, jossa on 30+/40+ -sarjan NVIDIA -kortti, jossa on vähintään 12 GB VRAM:ia (vaikka 16 GB on suositeltavaa). Tämän artikkelin testauskoneessa oli 64 GB:ia järjestelmä -muistia ja NVIDIA 3090 -näytönohjain, jossa on 24 GB VRAM:ia. Se testattiin omistettuun testijärjestelmään, jossa oli uusi asennus Windows 10 Professionalista, jaossa oli yli 600 GB:ia vapaata levytilaa.

VAROITUS

Musubi Tunerin ja sen edellytysten asentaminen sisältää myös kehittäjäkeskeisten ohjelmistojen ja pakettien asentamisen suoraan tietokoneen pääasialliseen Windows-asennukseen. Ottaen huomioon ComfyUI:n lopputilassa, tämä projekti vaatii noin 400-500 gigatavua levytilaa. Vaikka olen testannut menettelyä useita kertoja uusissa testijärjestelmässä ilman vaaroja, enkä unite.ai ole vastuussa vahingoista, jotka johtuvat näiden ohjeiden seuraamisesta. Suosittelen varmuuskopioimaan kaikki tärkeät tiedot ennen tällaisen asennusmenettelyn yrittämistä.

HARKINTOJA

Onko tämä menetelmä edelleen voimassa?

Generatiivisen AI -maailma liikkuu erittäin nopeasti, ja odotamme parempia ja sujuvampia menetelmiä Hunyuan Video LoRA -kehyksistä tänä vuonna.

…tai jopa tällä viikolla! Kun kirjoitin tätä artikkelia, Kohya/Musubi -kehittäjä loi musubi-tuner-gui, sofistikoitunut Gradio -käyttöliittymä Musubi Tunerille:

Ilmeisesti helppokäyttöinen käyttöliittymä on mieluummin kuin BAT -tiedostot, joita käytän tässä ominaisuudessa – kun musubi-tuner-gui toimii. Kirjoittaessani se on ollut verkossa vain viisi päivää, ja en löydä ketään, joka olisi onnistunut käyttämään sitä.

Julkaisujen mukaan uusi käyttöliittymä on tarkoitus sisällyttää Musubi Tuneriin mahdollisimman pian, mikä lopettaa sen nykyisen olemassaolon erillisenä GitHub -rekisterinä.

Perustuen näihin ongelmiin (myös oletuspolkuja asennuksen aikana ja UV Python -paketin käyttöä uudessa julkaisussa), joutuisimme todennäköisesti odottamaan hieman sileämpää Hunyuan Video LoRA -koulutuskokemusta. Se näyttää kuitenkin lupaavalta!

Mutta jos et voi odottaa, ja olet valmis rullata hihaesi ylös, voit saada Hunyuan Video LoRA -koulutuksen toimimaan paikallisesti jo nyt.

Aloita.

Miksi asentaa mikä tahansa paljaalle metallille?

(Ohita tämä kappale, jos olet edistynyt käyttäjä)
Edistyneet käyttäjät ihmettelevät, miksi olen valinnut asentamaan niin paljon ohjelmistoa suoraan paljaalle Windows 10 -asennukselle sen sijaan, että olisin käyttänyt virtuaaliympäristöä. Syy on, että Windowsin portti Linux-pohjaisesta Triton -paketista on paljon vaikeampi saada toimimaan virtuaaliympäristössä. Kaikki muut paljaan metallin asennukset tässä tutoriaalissa eivät voisi asentaa virtuaaliympäristöön, koska ne on pakko käyttää suoraan paikallista laitteistoa.

Asennus Edellyttävät Paketteja ja Ohjelmia

Ohjelmien ja pakettien asennukselle, jotka on asennettava aluksi, asennuksen järjestys on tärkeää. Aloita.

1: Lataa Microsoft Redistributable

Lataa ja asenna Microsoft Redistributable -paketti osoitteesta https://aka.ms/vs/17/release/vc_redist.x64.exe.

Tämä on suoraviivainen ja nopea asennus.

2: Asenna Visual Studio 2022

Lataa Microsoft Visual Studio 2022 Community -versio osoitteesta https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta

Käynnistä ladataksi ladattu asennin:

Käytä oletusarvoja Valitse komponentit:

Napsauta Yksittäiset komponentit -välilehteä vasemmalla laidalla ja käytä hakukenttää etsimään ‘Windows SDK’.

Oletuksena vain Windows 11 SDK on valittu. Jos olet Windows 10:llä (tämä asennusmenettely ei ole testattu minun toimestani Windows 11:llä), valitse viimeisin Windows 10 -versio, kuten kuvassa yllä.

Etsi ‘C++ CMake’ ja varmista, että C++ CMake -työkalut Windowsille on valittu.

Tämä asennus vie vähintään 13 GB:ia tilaa.

Kun Visual Studio on asennettu, se yrittää käynnistää sen tietokoneellasi. Anna sen avautua täysin. Kun Visual Studio:n täysikokoinen käyttöliittymä on viimein näkyvissä, sulje ohjelma.

3: Asenna Visual Studio 2019

Jotkut myöhemmät paketit Musubille odottavat vanhempaa versiota Microsoft Visual Studioa, kun taas toiset tarvitsevat uudempaa versiota.

Siksi lataa myös ilmainen Community -versio Visual Studio 19 joko Microsoftilta (https://visualstudio.microsoft.com/vs/older-downloads/ – vaatii tilin) tai Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).

Asenna se samoin valinnoin kuin Visual Studio 2022 (ks. yllä oleva menettely, paitsi että Windows SDK on jo valittu Visual Studio 2019 -asennuksessa).

Näet, että Visual Studio 2019 -asennin on jo tietoinen uudemman version olemassaolosta, kun se asennetaan:

Kun asennus on valmis, ja olet avannut ja sulkenut asennetun Visual Studio 2019 -sovelluksen, avaa Windows -komentokehote (kirjoita CMD aloitusvalikkoon) ja kirjoita ja suorita:

where cl

Tulos pitäisi olla tunnetut sijainnit kahdelle asennetulle Visual Studio -versiolle.

Jos saat sen sijaan INFO: Could not find files for the given pattern(s), katso Tarkista polku -osio tästä artikkelista, ja käytä niitä ohjeita lisätäksesi tarvittavat Visual Studio -polut Windowsin ympäristöön.

Tallenna kaikki muutokset, jotka on tehty Tarkista polku -osiossa alla, ja yritä where cl -komento uudelleen.

4: Asenna CUDA 11 + 12 Työkalupaketit

Eri Musubin asennettavat paketit tarvitsevat eri versioita NVIDIA CUDA:a, joka kiihdyttää ja optimoi koulutusta NVIDIA -näytönohjaimilla.

Syy, miksi asensimme Visual Studio -versiot ensin on, että NVIDIA CUDA -asentajat etsivät ja integroivat kaikki olemassa olevat Visual Studio -asennukset.

Lataa 11+ -sarjan CUDA -asennuspaketti osoitteesta:

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (lataa ‘exe (local’) )

Lataa 12+ -sarjan CUDA -työkalupaketti osoitteesta:

https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64

Asennusprosessi on identtinen molemmille asentajille. Jätä huomioon kaikki varoitukset olemassa olevista asennuspoluista Windowsin ympäristömuuttujissa – me huolehdimme siitä myöhemmin manuaalisesti.

Asenna NVIDIA CUDA Työkalupaketti V11+

Käynnistä 11+ -sarjan CUDA -työkalupaketti.

Asennusvaihtoehdoissa valitse Custom (Advanced) ja jatka.

Poista valinta NVIDIA GeForce Experience -vaihtoehdosta ja napsauta Seuraava.

Jätä Valitse asennussijainti oletusarvoihin (tämä on tärkeää):

Napsauta Seuraava ja anna asennuksen päättyä.

Jätä huomioon kaikki varoitukset tai huomautukset, jotka asentaja antaa Nsight Visual Studio -integraatiosta, jota ei tarvita tapauksessamme.

Asenna NVIDIA CUDA Työkalupaketti V12+

Toista koko prosessi erillisen 12+ NVIDIA -työkalupaketti -asentajan kanssa, jonka latait:

Asennusprosessi on identtinen edellä mainitun (11+ -version) kanssa, paitsi yksi varoitus ympäristöpoluista, jonka voit jättää huomiotta:

Kun 12+ -version CUDA -asennus on valmis, avaa Windows -komentokehote ja kirjoita ja suorita:

nvcc --version

Tämä pitäisi vahvistaa tietoja asennetusta ajuriversiosta:

Tarkista, että korttisi on tunnistettu, kirjoita ja suorita:

nvidia-smi

5: Asenna GIT

GIT hallinnoi Musubi -rekisterin asennusta paikallisella tietokoneellasi. Lataa GIT -asentaja osoitteesta:

https://git-scm.com/downloads/win (’64-bittinen Git Windowsin asennusohjelma’)

Käynnistä asentaja:

Käytä oletusarvoja Valitse komponentit:

Jätä oletusarvo Vim:

Anna GIT:in päättää haara-nimistä:

Käytä suositeltuja asetuksia Polku -ympäristölle:

Käytä suositeltuja asetuksia SSH:lle:

Käytä suositeltuja asetuksia HTTPS Transport backend:

Käytä suositeltuja asetuksia rivin päättymisen muunnoksille:

Valitse Windowsin oletusarvoinen konsoli terminaali-emulaattoriksi:

Käytä oletusarvoa (Fast-forward tai yhdistä) Git -vedonhallinnalle:

Käytä Git -tunnistusohjainta (oletusarvo) tunnistusavustajana:

Lisäasetuksissa jätä Käytä tiedostojärjestelmän välimuistia valittuna ja Ota käyttöön symboliset linkit poistettuna (ellei ole etukäteen käyttäjä, joka käyttää kiinteitä linkkejä keskitetyssä mallirepositoriossa).

Päätä asennus ja testaa, onko GIT asennettu oikein, avaamalla CMD -ikkunan ja kirjoittamalla ja suorittamalla:

git --version

Tämä pitäisi johtaa git version 2.37.1.windows.1

Github -kirjautuminen

Myöhemmin, kun yrität kloonata GitHub -rekisteriä, sinua voidaan haastaa GitHub -tunnistautumistietojen antamiseen. Ennakkoon, kirjaudu GitHub -tiliisi (luo se, jos tarpeen) missä tahansa Windowsin selaimessa. Tällä tavoin 0Auth -tunnistusmenetelmä (ponnahdusikkuna) pitäisi kestää niin lyhyen ajan kuin mahdollista.

Sen jälkeen, kun olet kirjautunut sisään, sinun pitäisi pysyä kirjautuneena automaattisesti.

6: Asenna CMake

CMake 3.21 tai uudempi on vaadittu osalle Musubi -asennusta. CMake on monialustainen kehitysarkkitehtuuri, joka pystyy orkestroimaan erilaisia kääntäjiä ja kokoamaan ohjelmistoja lähdekoodista.

Lataa se osoitteesta:

https://cmake.org/download/ (Windows x64 -asennusohjelma)

Käynnistä asennusohjelma:

Varmista, että Lisää CMake polkuun on valittu.

Napsauta Seuraava.

Kirjoita ja suorita tämä komento Windowsin komentokehoitteessa:

cmake --version

Jos CMake on asennettu onnistuneesti, se tulostaa jotain, kuten:

cmake version 3.31.4
CMake -paketti on ylläpidetty ja tuettu Kitwarella (kitware.com/cmake).

7: Asenna Python 3.10

Python -tulkki on keskeinen tässä projektissa. Lataa 3.10 -versio (paras kompromissi eri Musubi -pakkauksien vaatimusten välillä) osoitteesta:

https://www.python.org/downloads/release/python-3100/ (Windows -asennusohjelma (64-bittinen))

Suorita latautunut asennusohjelma ja jätä oletusarvot:

Asennuksen lopussa napsauta Estä polun pituuden rajoitus (vaatii UAC -ylläpito-oikeudet):

Windowsin komentokehoitteessa kirjoita ja suorita:

python --version

Tämä pitäisi johtaa Python 3.10.0

Tarkista Polut

Musubi -kehyksen ja sen komponenttien kloonaus sekä sen normaali toiminta asennuksen jälkeen edellyttää, että ne tietävät polun useisiin tärkeisiin ulkoisiin komponentteihin Windowsissa, erityisesti CUDA:han.

Siksi meidän on avattava polku-ympäristö ja tarkistettava, että kaikki vaaditut asiat ovat siellä.

Nopea tapa päästä Windowsin ympäristön valvontaan on kirjoittaa Muokkaa järjestelmän ympäristömuuttujia Windowsin hakukenttään.

Tämä avaa Järjestelmän ominaisuudet -valvontapaneelin. Järjestelmän ominaisuudet -valvontapaneelin alareunassa napsauta Ympäristömuuttujat -painiketta, ja avautuu ikkuna nimeltä Ympäristömuuttujat. Järjestelmän muuttujat -paneelissa alhaalla vieritä alas Polku ja kaksoisnapsauta sitä. Tämä avaa ikkunan nimeltä Muokkaa ympäristömuuttujaa. Vedä ikkunan leveyttä laajemmaksi, jotta näet koko polun muuttujille:

Tässä tärkeät kirjaukset ovat:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

Useimmissa tapauksissa oikeat polku-muuttujat pitäisi jo olla läsnä.

Lisää puuttuvat polut napsauttamalla Uusi vasemmalla puolella Muokkaa ympäristömuuttujaa -ikkunassa ja liittämällä oikean polun:

Älä kopioi ja liitä suoraan polkuja yllä; tarkista, että vastaava polku on olemassa omassa Windows -asennuksessasi.

Jos on pieniä polun vaihteluita (erityisesti Visual Studio -asennuksissa), käytä yllä olevia polkuja löytääksesi oikeat kohdekansiot (ts. x64 Host64 -kansiossa omassa asennuksessasi). Liitä sitten nuo polut Muokkaa ympäristömuuttujaa -ikkunaan.

Kun olet tehnyt muutokset Tarkista polku -osiossa alla, käynnistä tietokone uudelleen.

Asenna Musubi

Päivitä PIP

Käyttämällä PIP -asentajan uusinta versiota voidaan sileksi joitain asennusvaiheita. Windowsin komentokehoitteessa ylläpidon oikeuksilla (ks. Korotus, alla), kirjoita ja suorita:

pip install --upgrade pip

Korotus

Jotkut komennot saattavat vaatia korotettuja oikeuksia (ts. suorittaa niitä järjestelmänvalvojana). Jos saat virheilmoituksia oikeuksista seuraavissa vaiheissa, sulje komentokehote-ikkuna ja avaa se uudelleen ylläpidon tilassa kirjoittamalla CMD Windowsin hakukenttään, napsauttamalla Komentokehote oikealla ja valitsemalla Suorita järjestelmänvalvojana:

Seuraavissa vaiheissa käytämme Windows Powershellia sen sijaan, että Windowsin komentokehote. Voit löytää sen kirjoittamalla Powershell Windowsin hakukenttään ja (tarvittaessa) napsauttamalla sitä oikealla ja valitsemalla Suorita järjestelmänvalvojana:

Asenna Torch

Powershellissa kirjoita ja suorita:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Ole kärsivällinen, kun monet paketit asennetaan.

Kun asennus on valmis, voit vahvistaa GPU:lla varustetun PyTorch -asennuksen kirjoittamalla ja suorittamalla:

python -c "import torch; print(torch.cuda.is_available())"

Tämä pitäisi johtaa:

C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True

Asenna Triton Windowsille

Seuraavaksi on Triton for Windows -komponentin asennus. Korotetussa Powershellissa kirjoita (yhdellä rivillä):

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(Asennuspaketti triton-3.1.0-cp310-cp310-win_amd64.whl toimii sekä Intel- että AMD-suorittimille, kunhan arkkitehtuuri on 64-bittinen ja ympäristö vastaa Python -versiota)

Suorittamisen jälkeen tämä pitäisi johtaa:

Successfully installed triton-3.1.0

Voimme tarkistaa, toimiiko Triton, tuomalla sen Pythoniin. Kirjoita ja suorita:

python -c "import triton; print('Triton is working')"

Tämä pitäisi tulostaa:

Triton is working

Tarkista, että Triton on GPU:lla varustettu, kirjoittamalla ja suorittamalla:

python -c "import torch; print(torch.cuda.is_available())"

Tämä pitäisi johtaa True:

Luo Virtuaaliympäristö Musubille

Jatkossa asennamme kaikki muut ohjelmistot Python -virtuaaliympäristössä (tai venv). Tämä tarkoittaa, että kaikki mitä sinun tarvitsee tehdä, jotta poistat kaikki seuraavat ohjelmistot, on vetää venv:n asennuskansio roskiin.

Luo asennuskansio: luo kansio nimeltä Musubi työpöydällesi. Seuraavat esimerkit olettavat, että tämä kansio on olemassa: C:\Users\[Käyttäjänimi]\Desktop\Musubi\.

Powershellissa siirry kyseiseen kansioon kirjoittamalla:

cd C:\Users\[Käyttäjänimi]\Desktop\Musubi

Haluamme, että virtuaaliympäristöllä on pääsy siihen, mitä olemme jo asentaneet (erityisesti Triton), joten käytämme --system-site-packages -lipuketta. Kirjoita:

python -m venv --system-site-packages musubi

Odota, kunnes ympäristö on luotu, ja aktivoi se kirjoittamalla:

.\musubi\Scripts\activate

Tästä lähtien voit tietää, että olet aktivoineesi virtuaaliympäristön, koska (musubi) näkyy kaikkien komentojen alkussa.

Kloonaa Repositorio

Siirry äskettäin luotuun musubi -kansioon (joka on Musubi -kansiossa työpöydälläsi):

cd musubi

Nyt olemme oikeassa paikassa, kirjoita:

git clone https://github.com/kohya-ss/musubi-tuner.git

Odota, kunnes kloonaus on valmis (se ei kestä kauan).

Asenna Vaatimukset

Siirry asennuskansioon:

cd musubi-tuner

Kirjoita:

pip install -r requirements.txt

Odota, kunnes monet asennukset on valmis (tämä kestää kauemmin).

Automaattinen Pääsy Hunyuan Video Venv:hen

Helppoja pääsyä venv:hen tuleviin istuntoihin varten voit liittää seuraavan tekstin Notepad -tekstiin ja tallentaa sen nimellä activate.bat, tallentamalla sen kaikki tiedostot -vaihtoehdolla (ks. kuva alla).

@echo off

call C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner

cmd

(Varmista, että korvaat [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi)

Se ei ole merkitystä, mihin sijaintiin tallennat tämän tiedoston.

Tästä lähtien voit kaksoisnapsauttaa activate.bat ja aloittaa työskentelyn välittömästi.

Käytä Musubi Tuneria

Lataa Mallit

Hunyuan Video LoRA -koulutusprosessi vaatii vähintään seitsemän mallin lataamista tukeakseen kaikkia mahdollisia optimointivaihtoehtoja esikäsitellyn ja koulutetun Hunyuan Video LoRA:n kannalta. Nämä mallit yhdessä painavat yli 60 GB.

Nykyiset ohjeet niiden lataamiseksi ovat saatavilla osoitteessa https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download

Kuitenkin nämä ovat latausohjeet kirjoitushetkellä:

clip_l.safetensorsllava_llama3_fp16.safetensors ja
llava_llama3_fp8_scaled.safetensors
voidaan ladata osoitteesta:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

mp_rank_00_model_states.ptmp_rank_00_model_states_fp8.pt ja
mp_rank_00_model_states_fp8_map.pt
voidaan ladata osoitteesta:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers

pytorch_model.pt
voidaan ladata osoitteesta:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae

Vaikka voit sijoittaa ne mihin tahansa kansioon, yhdenmukaisuuden vuoksi lataa ne kansioon:

C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\mallit\

Tämä on yhdenmukainen kansiorakenne tähän asti. Muista korvata [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi.

Datasetin Valmistelu

Yhteisön kiistan huomioon ottaen on reilua sanoa, että sinun tarvitsee olla jossain määrin 10-100 valokuvaa koulutusaineistoksi Hunyuan LoRA:lle.

Hyvät tulokset voidaan saavuttaa jopa 15 kuvan avulla, kunhan kuvat ovat tasapainossa ja laadukkaita.

Hunyuan LoRA voidaan kouluttaa sekä kuvista, hyvin lyhyistä ja matalaresoluutioisista videoklippeistä tai jopa niiden yhdistelmästä – vaikka videoklipit ovat haasteellisia jopa 24 GB:n kanssa.

Kuitenkin videoklipit ovat todella hyödyllisiä vain, jos hahmosi liikkuu epätavallisella tavalla, josta Hunyuan Video -perusmalli ei tiedä tai voi arvata.

Esimerkkejä ovat Roger Rabbit, xenomorph, The Mask, Spider-Man tai muut persoonallisuudet, joilla on uniikit ominaisuudet.

Koska Hunyuan Video jo tietää, miten tavalliset miehet ja naiset liikkuvat, videoklippejä ei tarvita saadakseen vakuuttavan Hunyuan Video LoRA -ihmisenkaltaisen hahmon. Joten käytämme statisia kuvia.

Kuvien Valmistelu

Bucket -lista

TLDR -versio:

On paras käyttää kuvia, jotka ovat kaikki saman kokoisia aineistossasi, tai käyttää 50/50 -jakoa kahden eri koosta, esim. 10 kuvaa, jotka ovat 512x768px ja 10, jotka ovat 768x512px.

Koulutus voi onnistua hyvin, vaikka et tee tätä. Hunyuan Video LoRAt voivat olla yllättävän anteeksiantavaisia.

Pitkä versio

Kuten Kohya-ss LoRAt:lle statiivisille generatiivisille järjestelmille, kuten Stable Diffusion, bucketing käytetään jakamaan työmäärää eri kokoisille kuville, jolloin suurempia kuvia voidaan käyttää ilman, että niistä tulee muistivirheitä koulutuksen aikana (ts. bucketing ‘jakaa’ kuvat palasiin, joita GPU pystyy käsittelemään, säilyttäen koko kuvan semanttisen eheyden).

Jokaiselle kuvakoolle, jonka sisällytät koulutusaineistoon (ts. 512x768px), luodaan ” bucket ” tai “alitehtävä”. Joten jos sinulla on seuraava jakautuminen kuvia:

2x 512x768px kuvia
7x 768x512px kuvia
1x 1000x600px kuva
3x 400x800px kuvia

Voimme nähdä, että bucket -huomio on epätasapuolinen näiden kuvien välillä:

Siksi joko pidä yhtenäisenä formaatin tai yritä pitää eri kokoisten kuvien jakautumista suhteellisen tasapuolisia.

Molemmissa tapauksissa vältä erittäin suuria kuvia, koska se voi hidastaa koulutusta ilman merkittävää hyötyä.

Yksinkertaisuuden vuoksi käytin 512x768px:aa kaikille kuvilleni.

Vastuuvapaus: Malli (henkilö) aineistossa antoi minulle täyden luvan käyttää näitä kuvia tähän tarkoitukseen, ja hyväksyi kaikki AI-pohjaiset tulosteet, jotka esittävät hänen kaltaisuutensa tässä artikkelissa.

Aineistoni koostuu 40 kuvasta PNG-muodossa (vaikka JPG on myös ok). Kuvani tallennettiin kansioon C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman

Sinun on luotava cache -kansio koulutuskuvakansioon:

Nyt luomme erityisen tiedoston, joka määrittää koulutuksen.

TOML -tiedostot

Hunyuan Video LoRA -koulutus- ja esikäsittelyprosessit saavat polut tiedostoistaan tasaisesta tekstiedostosta, jolla on .toml -laajennus.

TOML -tiedostoni on sijainnissa C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml

Tiedostoni koulutus-TOML -sisältö näyttää tältä:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(Kaksoispistekohtaiset takapuoliset vinoviivat eivät aina ole tarpeen, mutta ne voivat auttaa välttämään virheitä, jos polussa on välilyönti. Olen kouluttanut malleja .toml -tiedostojen kanssa, jotka käyttivät eteen- ja taaksepäin vinoviivoja.)

Voimme nähdä resoluutio -osiossa, että kaksi resoluutioita otetaan huomioon – 512px ja 768px. Voit myös jättää sen 512:ksi ja saada hyvät tulokset.

Kuvatekstitykset

Hunyuan Video on teksti+näkemys -perusmalli, joten tarvitsemme kuvauksellisia kuvatekstityksiä, jotka otetaan huomioon koulutuksen aikana. Koulutusprosessi epäonnistuu ilman kuvatekstityksiä.

On monia avoimia lähdekoodin kuvatekstitysjärjestelmiä, joita voisimme käyttää tähän tehtävään, mutta pidetään se yksinkertaisena ja käytetään taggui -järjestelmää. Vaikka se on tallennettu GitHubiin, ja vaikka se lataa joitain hyvin raskaita syväoppimismalleja ensimmäisellä suorituskerralla, se tulee muodossa, jossa on yksinkertainen Windows -suoritettava tiedosto, joka lataa Python -kirjastot ja suorittaa yksinkertaisen käyttöliittymän.

Kun Taggui on käynnistetty, käytä Tiedosto > Lataa kansio siirtymään koulutuskuva-aineistoon, ja valinnaisesti aseta tunniste (tässä tapauksessa examplewoman), joka lisätään kaikkiin kuvatekstityksiin:

(Varmista, että Lataa 4-bittisinä on pois päältä, kun Taggui avataan – se heittää virheitä kuvatekstityksen aikana, jos se on päällä)

Valitse kuva vasemmanpuoleisessa esikatselupalkissa ja paina CTRL+A valitaksesi kaikki kuvat. Sitten paina Käynnistä automaattinen kuvatekstitys -painiketta oikealla:

Näet Tagguin lataamassa malleja pienessä CLI -sarakkeessa oikeanpuoleisessa sarakkeessa, mutta vain, jos tämä on ensimmäinen kerta, kun olet suorittanut kuvatekstittäjää. Muuten näet esikatselun kuvatekstityksistä.

Nyt jokaisella kuvalla on vastaava .txt -kuvatekstitys, jossa on kuvaus sen sisällöstä:

Voit napsauttaa Edistyneet vaihtoehdot Tagguissa lisätäksesi kuvatekstitysten pituutta ja tyyliä, mutta se on tämän tutoriaalin ulottumattomissa.

Latentti Esikäsittely

Välttääksesi liian suuren GPU -kuormituksen koulutuksen aikana, on luotava kaksi tyypin esikäsiteltyjä tiedostoja – yksi edustaa latenttia, joka on johdettu kuvista itsestään, ja toinen arvioi tekstikoodauksen, joka liittyy kuvatekstitysten sisältöön.

Voidaksesi yksinkertaisesti kaikki kolme prosessia (2x esikäsittely + koulutus), voit käyttää interaktiivisia .BAT -tiedostoja, jotka kysyvät sinulta kysymyksiä ja suorittavat prosessit, kun olet antanut tarvittavat tiedot.

Latentti esikäsittelyyn varten kopioi seuraavan tekstin Notepad -tekstiin ja tallenna se .BAT -tiedostona (esim. latent-precache.bat), varmistamalla, että tiedostotyyppi pudotusvalikossa on kaikki tiedostot (ks. kuva alla):

@echo off

REM Aktivoi virtuaaliympäristö

call C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Pyydä käyttäjältä syötettä

set /p KUVA_POLKU=Anna kuva-alikansio:

set /p CACHE_POLKU=Anna välimuistin alikansio:

set /p TOML_POLKU=Anna TOML -tiedoston polku:

echo Sinä annoit:

echo Kuva-alikansio: %KUVA_POLKU%

echo Välimuistin alikansio: %CACHE_POLKU%

echo TOML -tiedoston polku: %TOML_POLKU%

set /p VARMISTUS=Haluatko jatkaa latentin esikäsittelyllä (k/e)?

if /i "%VARMISTUS%"=="k" (

REM Suorita latentin esikäsittelyskripti

python C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_POLKU% --vae C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) muuten (

echo Toiminto peruttu.

)

REM Pitäisi ikkuna auki

pause

(Varmista, että korvaat [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi)

Nyt voit suorittaa .BAT -tiedoston automaattiselle latentille esikäsittelylle:

Kun .BAT -tiedosto kysyy sinulta kysymyksiä, liitä tai kirjoita polku koulutuskuva-aineistoon, välimuistikansioon ja TOML -tiedostoon.

Tekstien Esikäsittely

Luo toinen .BAT -tiedosto, tällä kertaa tekstien esikäsittelyyn.

@echo off

REM Aktivoi virtuaaliympäristö

call C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Pyydä käyttäjältä syötettä

set /p KUVA_POLKU=Anna kuva-alikansio:

set /p CACHE_POLKU=Anna välimuistin alikansio:

set /p TOML_POLKU=Anna TOML -tiedoston polku:

echo Sinä annoit:

echo Kuva-alikansio: %KUVA_POLKU%

echo Välimuistin alikansio: %CACHE_POLKU%

echo TOML -tiedoston polku: %TOML_POLKU%

set /p VARMISTUS=Haluatko jatkaa tekstien esikäsittelyllä (k/e)?

if /i "%VARMISTUS%"=="k" (

REM Käytä python -suoritinta virtuaaliympäristöstä

python C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_POLKU% --text_encoder1 C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) muuten (

echo Toiminto peruttu.

)

REM Pitäisi ikkuna auki

pause

Korvaa [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi ja tallenna se .BAT -tiedostona (esim. text-cache.bat), missä tahansa kätevässä sijainnissa, kuten aiemmin.

Suorita uusi .BAT -tiedosto, seuraa ohjeita ja tarvittavat tekstikoodatut tiedostot ilmestyvät cache -kansioon:

Kouluta Hunyuan Video LoRA

Kouluttaa itse LoRA kestää huomattavasti kauemmin kuin nämä kaksi valmisteluprosessia.

Vaikka on monia muuttujia, joista voimme huolehtia (kuten batch-koko, toistot, epookit, täydelliset ja kvantifioidut mallit jne.), säästämme ne huomioita toiseen päivään ja tarkempaan tarkasteluun LoRA -luomisen hienouksista.

Tällä kertaa yksinkertaistamme valinnat hieman ja koulutamme LoRA: n “keskiarvoisilla” asetuksilla.

Luo kolmas .BAT -tiedosto, tällä kertaa koulutukseen. Kopioi seuraavan tekstin Notepad -tekstiin ja tallenna se .BAT -tiedostona, kuten aiemmin, nimellä training.bat (tai mikä tahansa nimi, jota haluat):

@echo off

REM Aktivoi virtuaaliympäristö

call C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Pyydä käyttäjältä syötettä

set /p DATASET_KONFIGURAATIO=Anna aineiston konfiguraatiotiedoston polku:

set /p EPOOKIT=Anna koulutusepookkien määrä:

set /p TULOSTEN_NIMI=Anna tulostusmallin nimi (esim. example0001):

set /p OPPIKURSSI=Valitse oppimiskerroin (1 1e-3:lle, 2 5e-3:lle, oletus 1e-3):

if "%OPPIKURSSI%"=="1" set LR=1e-3

if "%OPPIKURSSI%"=="2" set LR=5e-3

if "%OPPIKURSSI%"=="" set LR=1e-3

set /p TALLENNA_ASTE=Kuinka usein (askelissa) tallentaa esikatselukuvia:

set /p NAYTTEIDEN_LUPAUSET=Mikä on tekstipromptin sijainti koulutusesikatselujen kannalta?

echo Sinä annoit:

echo Aineiston konfiguraatiotiedosto: %DATASET_KONFIGURAATIO%

echo Epookkien määrä: %EPOOKIT%

echo Tulostusnimi: %TULOSTEN_NIMI%

echo Oppimiskerroin: %LR%

echo Tallenna esikatselukuvat joka %TALLENNA_ASTE% askelta.

echo Tekstipromptin sijainti: %NAYTTEIDEN_LUPAUSET%

REM Valmistele komento

set KOMENTO=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_KONFIGURAATIO% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOOKIT% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Käyttäjänimi]\Desktop\Musubi\Output Models" ^

--output_name %TULOSTEN_NIMI% ^

--vae C:/Users/[Käyttäjänimi]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Käyttäjänimi]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Käyttäjänimi]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %NAYTTEIDEN_LUPAUSET% ^

--sample_every_n_steps %TALLENNA_ASTE% ^

--sample_at_first

echo Seuraava komento suoritetaan:

echo %KOMENTO%

set /p VARMISTUS=Haluatko jatkaa koulutuksella (k/e)?

if /i "%VARMISTUS%"=="k" (

%KOMENTO%

) muuten (

echo Toiminto peruttu.

)

REM Pitäisi ikkuna auki

cmd /k

Korvaa [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi.

Varmista, että kansio C:\Users\[Käyttäjänimi]\Desktop\Musubi\Mallit\ on olemassa, ja luo se, jos se ei ole.

Koulutus Esikatselut

On olemassa erittäin perusomainen koulutus-esikatseluominaisuus Musubi -kouluttajassa, joka mahdollistaa koulutusmallin pysäyttämisen ja kuvien luomisen annetuilla syötteillä. Nämä tallennetaan automaattisesti luotuun kansioon nimeltä Näyte, samassa kansiossa, jossa koulutetut mallit tallennetaan.

Jotta voit käyttää tätä, sinun on tallennettava vähintään yksi syöte tekstiin. Koulutus-BAT, jonka loimme, kysyy sinulta sijaintia tätä tekstiä varten; siksi voit antaa syötteelle haluamasi nimen ja tallentaa sen mihin tahansa.

Tässä on joitain esimerkkejä tekstiä, joka tuottaa kolme eri kuvaa, kun koulutuspyyntöä käytetään:

Kuten näet yllä olevassa esimerkissä, voit lisätä lippuja lopussa, jotka vaikuttavat tuotoksiin:

–w on leveys (oletusarvo on 256px, jos se ei ole asetettu, kuten dokumentaatiosta käy ilmi)
–h on korkeus (oletusarvo on 256px, jos se ei ole asetettu)
–f on kehyksien määrä. Jos se on asetettu 1:ksi, se tuottaa kuvan; enemmän kuin yksi, se tuottaa videon.
–d on siemen. Jos se ei ole asetettu, se on satunnainen; mutta sinun pitäisi asettaa se, jotta näet yhden syötteen kehittymisen.
–s on luomisen askelten määrä, oletusarvo on 20.

Katso virallinen dokumentaatio lisätietoja lipuista.

Vaikka koulutus-esikatselut voivat nopeasti paljastaa joitain ongelmia, jotka saattavat johtaa koulutuksen peruuttamiseen ja aineiston tai asetusten uudelleenarviointiin, muista, että jokainen lisäsyöte hidastaa koulutusta hieman enemmän.

Myös suuremmat koulutusesikatselukuvien leveydet ja korkeudet (kuten lippujen määrittämät yllä) hidastavat koulutusta.

Käynnistä koulutus-BAT -tiedostosi.

Kysymys #1 on ‘Anna aineiston konfiguraatiotiedoston polku’. Liitä tai kirjoita oikea polku TOML -tiedostoon.

Kysymys #2 on ‘Anna koulutusepookkien määrä’. Tämä on kokeilu-muuttuja, joka riippuu kuvien määrästä ja laadusta sekä kuvatekstityksistä ja muista tekijöistä. Yleensä on parempi asettaa se liian suureksi kuin liian pieneksi, koska voit aina keskeyttää koulutuksen Ctrl+C:llä koulutusikkunassa, jos koet, että malli on edennyt tarpeeksi. Aseta se aluksi 100:aan ja katso, miten se menee.

Kysymys #3 on ‘Anna tulostusmallin nimi’. Anna mallille nimi! Se on parasta pitää lyhyenä ja yksinkertaisena.

Kysymys #4 on ‘Valitse oppimiskerroin’, joka oletusarvoisesti on 1e-3 (vaihtoehto 1). Tämä on hyvä aloituskohta, odottaen tulevia kokemuksia.

Kysymys #5 on ‘Kuinka usein (askelissa) tallentaa esikatselukuvia’. Jos asetat sen liian alhaiseksi, et näe paljon edistymistä esikatselukuvien tallennuksissa, ja se hidastaa koulutusta.

Kysymys #6 on ‘Mikä on tekstipromptin sijainti koulutusesikatselujen kannalta?’. Liitä tai kirjoita polku tekstiprompttisi.

BAT -tiedosto näyttää sinulle komennon, jonka se lähettää Hunyuan -mallille, ja kysyy, haluatko jatkaa, k/e.

Jatka koulutusta:

Koulutuksen aikana, jos tarkastelet GPU -osaa Suorituskyky -välilehdessä Windowsin tehtävienhallinnassa, näet, että prosessi käyttää noin 16 GB VRAM:ia.

Tämä ei välttämättä ole satunnainen luku, koska se on varsinainen määrä VRAM:ia, jota monilla NVIDIA -näytönohjaimilla on, ja ylävirta -koodi on saattanut olla optimoitu sopimaan nämä tehtävät 16 GB:een, hyödyksi niille, joilla on tällaisia kortteja.

Sanoi, on erittäin helppo nostaa tämä käyttö, lähettämällä koulutuskomennolle suurempia lippuja.

Koulutuksen aikana näet alareunassa komentokehote-ikkunassa, kuinka kauan koulutus on kestänyt, ja arvio koulutuksen kokonaiskestosta (joka voi vaihdella suuresti riippuen lippujen asetuksista, kuvien määrästä, koulutusesikatselujen määrästä ja useista muista tekijöistä).

Tyypillinen koulutusaika on noin 3-4 tuntia keskiarvoisilla asetuksilla, riippuen saatavissa olevasta laitteistosta, kuvien määrästä, lippuasetuksista ja muista tekijöistä.

Käytä Koulutettuja LoRA -malleja Hunyuan Videossa

Valitse Tarkistuspisteet

Kun koulutus on valmis, sinulla on tarkistuspiste mallille kullekin koulutusepookille.

Tämä tallennusväli voidaan muuttaa käyttäjän toimesta muuttamalla --save_every_n_epochs [N] -luku koulutus-BAT -tiedostossa. Jos asetit matalan arvon säästämisille askelille, saat suuren määrän tallennettuja tarkistuspistetiedostoja.

Mikä Tarkistuspiste Valitaan?

Kuten mainittiin aiemmin, varhaisimmat koulutetut mallit ovat joustavampia, kun taas myöhemmät tarkistuspisteet saattavat tarjota enemmän yksityiskohtia. Ainoa tapa testata näitä tekijöitä on suorittaa joitain LoRA:ita ja luoda muutamia videoita. Tällä tavoin voit tietää, mitkä tarkistuspisteet ovat tuottavampia ja edustavat parasta tasapainoa joustavuuden ja uskottavuuden välillä.

ComfyUI

Suosituin (vaikka ei ainoa) ympäristö Hunyuan Video LoRA:iden käyttöön on tällä hetkellä ComfyUI, solmupohjainen editori, jolla on monimutkainen Gradio -käyttöliittymä, joka suoritetaan verkkoselaimessasi.

Lähde: https://github.com/comfyanonymous/ComfyUI

Asennusohjeet ovat suoraviivaiset ja saatavilla ComfyUI:n virallisessa GitHub -rekisterissä (lisämalleja on ladattava).

Muunna Mallit ComfyUI:lle

Koulutetut mallisi tallennetaan (diffusers) -muodossa, joka ei ole yhteensopiva useimpien ComfyUI -toteutusten kanssa. Musubi pystyy muuttamaan mallin ComfyUI -yhteensopivaan muotoon. Luo .BAT -tiedosto, joka toteuttaa tämän.

Ennen kuin suoritat tämän .BAT -tiedoston, luo C:\Users\[Käyttäjänimi]\Desktop\Musubi\MUUNNETTU\ -kansio, jota skripti odottaa.

@echo off

REM Aktivoi virtuaaliympäristö

call C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\Scripts\activate.bat

:ALOITA

REM Pyydä käyttäjältä syötettä

set /p SYÖTEPOLKU=Anna Musubi -safetensors -tiedoston polku (tai kirjoita "poistu" lopettaaksesi):

REM Lopeta, jos käyttäjä kirjoittaa "poistu"

if /i "%SYÖTEPOLKU%"=="poistu" goto LOPETA

REM Poista tiedostonimi syötepolusta ja lisää "muunnettu" siihen

for %%F in ("%SYÖTEPOLKU%") do set TIEDOSTONIMI=%%~nF

set ULOSPOLKU=C:\Users\[Käyttäjänimi]\Desktop\Musubi\Output Models\CONVERTED\%TIEDOSTONIMI%_muunnettu.safetensors

set KOHDE=muu

echo Sinä annoit:

echo Syötepoltu: %SYÖTEPOLKU%

echo Uloskirjoituspoltu: %ULOSPOLKU%

echo Kohdemuoto: %KOHDE%

set /p VARMISTUS=Haluatko jatkaa muunnoksella (k/e)?

if /i "%VARMISTUS%"=="k" (

REM Suorita muunnosohjelma oikein merkityillä poluilla

python C:\Users\[Käyttäjänimi]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%SYÖTEPOLKU%" --output "%ULOSPOLKU%" --target %KOHDE%

echo Muunnos valmis.

) muuten (

echo Toiminto peruttu.

)

REM Palaa aloituskohtaan seuraavaa tiedostoa varten

goto ALOITA

:LOPETA

REM Pitäisi ikkuna auki

echo Lopetetaan skripti.

pause

Korvaa [Käyttäjänimi] oikealla Windowsin käyttäjänimelläsi ja tallenna se .BAT -tiedostona, kuten aiemmin.

Kun olet tallentanut skriptin, kaksoisnapsauta uutta .BAT -tiedostoa, joka kysyy sinulta tiedoston sijaintia, jonka haluat muuttaa.

Liitä tai kirjoita polku koulutettuun tiedostoon, jonka haluat muuttaa, valitse k ja paina enteriä.

Kun olet muuttanut koulutetun tiedoston ja tallentanut sen MUUNNETTU -kansioon, skripti kysyy, haluatko muuttaa toisen tiedoston. Jos haluat testata useita tarkistuspisteitä ComfyUI:ssa, muunna valikoiman malleja.

Kun olet muuttanut riittävästi tarkistuspisteitä, sulje .BAT -komentoikkuna.

Voit nyt kopioida muunnetut mallisi models\loras -kansioon ComfyUI -asennuksessasi.

Tyypillisesti oikea sijainti on jokin seuraavista:

C:\Users\[Käyttäjänimi]\Desktop\ComfyUI\models\loras\

Luo Hunyuan Video LoRA ComfyUI:ssa

Vaikka ComfyUI:n solmupohjaiset työvirrat näyttävät monimutkaisilta aluksi, muiden käyttäjien asetukset voidaan ladata vetämällä kuva (joka on tehty toisen käyttäjän ComfyUI:lla) suoraan ComfyUI -ikkunaan. Työvirrat voidaan myös viedä JSON -tiedostoina, jotka voidaan tuoda manuaalisesti tai vetää ComfyUI -ikkunaan.

Jotkut tuodut työvirrat saattavat vaatia riippuvuuksia, joita ei ole asennettu. Siksi asenna ComfyUI-Manager, joka voi noutaa puuttuvat moduulit automaattisesti.

Lähde: https://github.com/ltdrdata/ComfyUI-Manager

Lataa tämän JSON -tiedoston ja vedä se ComfyUI -ikkunaan (vaikka Reddit- ja Discord -yhteisöissä, jotka ovat omaksuneet Hunyuan Video, on paljon parempia työvirran esimerkkejä, ja minun omiani on sovellettu yhdeltä näistä).

Tämä ei ole paikkaa laajalle ComfyUI -oppaalle, mutta on mainittava muutamia tärkeitä parametreja, jotka vaikuttavat tuloksiisi, jos lataat ja käytät JSON -asettelua, jonka linkasin yllä.

1) Leveys ja Korkeus

Mitä suurempi kuvasi on, sitä kauemmin sen luominen kestää, ja sitä suurempi on riski muistivirheestä.

2) Pituus

Tämä on numeerinen arvo kehyksien määrälle. Kuinka monta sekuntia se kääntyy, riippuu kehysnopeudesta (asetettu 30fps:ään tässä asettelussa). Voit muuttaa sekunteja>kehysnopeuteen Omnicalculatorissa.

3) Batch -koko

Mitä suuremmaksi asetat batch -kokoa, sitä nopeammin tulos tulee, mutta suurempi on kuormitus VRAM:lle. Aseta se liian suureksi, ja saat muistivirheen.

4) Ohjaa Koulutuksen Jälkeen

Tämä ohjaa satunnaisen siemenen. Vaihtoehdot tälle solmupisteelle ovat kiinteä, lisää, vähennä ja satunnaista. Jos jätät sen kiinteäksi ja et muuta tekstiprompttia, saat saman kuvan joka kerta. Jos muutat tekstiprompttia, kuva muuttuu rajoitetusti. Lisää ja vähennä -asetukset sallivat sinun tutkia lähellä olevia siemenarvoja, kun taas satunnaista antaa sinulle täysin uuden tulkinnan syötteestä.

5) LoRA -nimi

Sinun on valittava omat asennetut mallisi tässä.

6) Token

Jos olet kouluttanut mallisi käyttämään tiettyä tokenia (kuten esimerkkihenkilöä), laita se token sana tekstiprompttiisi.

7) Askelta

Tämä edustaa, kuinka monta askelta järjestelmä soveltaa difuusioprosessiin. Suuremmat askelten määrät saattavat antaa parempia yksityiskohtia, mutta on katto, kuinka tehokas tämä lähestymistapa on, ja se katto voi olla haasteellista löytää. Yleinen askelten määrä on noin 20-30.

8) Laatutila

Tämä määrittää, kuinka paljon tietoa käsitellään kerran generoinnin aikana. Se on oletusarvoisesti 256. Nostamalla sitä voidaan nopeuttaa generointia, mutta nostamalla sitä liian korkeaksi voidaan aiheuttaa erittäin ärsyttävä muistivirhe, koska se tulee generoinnin lopussa pitkän prosessin jälkeen.

9) Temporaalinen Ylimeno

Hunyuan Video -henkilöhahmojen luominen voi johtaa “haamuihin” tai vakuuttamattomiin liikkeisiin, jos tämä asetetaan liian alhaiseksi. Yleensä nykyinen viisaus on, että se on asetettava korkeammaksi kuin kehysmäärä, jotta liike on vakuuttavampi.

Lopputulos

Vaikka ComfyUI:n käytön syventäminen on tämän artikkelin ulottumattomissa, yhteisön kokemus Redditissä ja Discordeissa voi helpottaa oppimiskäyrää, ja on useita verkkokäyttöohjeita, jotka esittelevät perusteita.

Julkaistu torstaina, 23. tammikuuta 2025

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Kuinka Kouluttaa ja Käyttää Hunyuan Video LoRA -malleja

VAATIMUKSET

VAROITUS

HARKINTOJA

Onko tämä menetelmä edelleen voimassa?

Miksi asentaa mikä tahansa paljaalle metallille?

Asennus Edellyttävät Paketteja ja Ohjelmia

1: Lataa Microsoft Redistributable

2: Asenna Visual Studio 2022

3: Asenna Visual Studio 2019

4: Asenna CUDA 11 + 12 Työkalupaketit

Asenna NVIDIA CUDA Työkalupaketti V11+

Asenna NVIDIA CUDA Työkalupaketti V12+

5: Asenna GIT

Github -kirjautuminen

6: Asenna CMake

7: Asenna Python 3.10

Tarkista Polut

Asenna Musubi

Päivitä PIP

Korotus

Asenna Torch

Asenna Triton Windowsille

Luo Virtuaaliympäristö Musubille

Kloonaa Repositorio

Asenna Vaatimukset

Automaattinen Pääsy Hunyuan Video Venv:hen

Käytä Musubi Tuneria

Lataa Mallit

Datasetin Valmistelu

Kuvien Valmistelu

Bucket -lista

TOML -tiedostot

Kuvatekstitykset

Latentti Esikäsittely

Tekstien Esikäsittely

Kouluta Hunyuan Video LoRA

Koulutus Esikatselut

Käytä Koulutettuja LoRA -malleja Hunyuan Videossa

Valitse Tarkistuspisteet

Mikä Tarkistuspiste Valitaan?

ComfyUI

Muunna Mallit ComfyUI:lle

Luo Hunyuan Video LoRA ComfyUI:ssa

1) Leveys ja Korkeus

2) Pituus

3) Batch -koko

4) Ohjaa Koulutuksen Jälkeen

5) LoRA -nimi

6) Token

7) Askelta

8) Laatutila

9) Temporaalinen Ylimeno

Lopputulos

You may like