Artificial Intelligence

Jinsi ya Kufunza na Kutumia Miundo ya Hunyuan Video LoRA

Imechapishwa

siku 6 iliyopita

Januari 23, 2025

ChatGPT-4o: Tofauti kwenye 'Niundie picha 1792 x 1024. Inapaswa kuwa katika mtindo wa Théodore Géricault, na inapaswa kuonyesha mtu mweusi wa zama za kati akiwa ameketi mbele ya kompyuta ya mkononi, inayomulikwa na skrini. Tunakabiliwa na takwimu, na tunaweza tu kuona nyuma ya kifuniko cha laptop. Karibu na watu wengine wa enzi za kati wameketi wanaume na wanawake wengine wa enzi za kati, wanaotamani kujua kinachotokea kwenye skrini ya kompyuta'

Makala hii itakuonyesha jinsi ya kusakinisha na kutumia programu ya Windows ambayo inaweza kutoa mafunzo Hunyuan video LoRA mifano, kumruhusu mtumiaji kutengeneza haiba maalum katika modeli ya msingi ya Hunyuan Video:

Bofya ili kucheza. Mifano kutoka kwa mlipuko wa hivi majuzi wa mtu mashuhuri Hunyuan LoRAs kutoka kwa jumuiya ya civit.ai.

Kwa sasa njia mbili maarufu zaidi za kutengeneza miundo ya Hunyuan LoRA ndani ya nchi ni:

1) uenezaji-bomba-ui Mfumo wa msingi wa Doka, ambayo inategemea Windows Subsystem kwa Linux (WSL) kushughulikia baadhi ya michakato.

2) Musubi Tuner, nyongeza mpya kwa maarufu Kohya ss usanifu wa mafunzo ya kuenea. Musubi Tuner haihitaji Docker na haitegemei WSL au proksi zingine za Linux - lakini inaweza kuwa vigumu kufanya kazi kwenye Windows.

Kwa hivyo utendakazi huu utalenga Musubi Tuner, na kutoa suluhisho la ndani kabisa kwa mafunzo na utayarishaji wa Hunyuan LoRA, bila matumizi ya tovuti zinazoendeshwa na API au michakato ya kibiashara ya kukodisha GPU kama vile Runpod.

Bofya ili kucheza. Sampuli kutoka kwa mafunzo ya LoRA kuhusu Musubi Tuner kwa makala haya. Ruhusa zote zilizotolewa na mtu aliyeonyeshwa, kwa madhumuni ya kuonyesha nakala hii.

Mahitaji

Usakinishaji utahitaji angalau Kompyuta ya Windows 10 iliyo na kadi ya NVIDIA ya mfululizo wa 30+/40+ ambayo ina angalau 12GB ya VRAM (ingawa 16GB inapendekezwa). Usanikishaji uliotumika kwa nakala hii ulijaribiwa kwenye mashine yenye 64GB ya mfumo RAM na kadi za michoro za NVIDIA 3090 zilizo na 24GB ya VRAM. Ilijaribiwa kwenye mfumo maalum wa majaribio kwa kutumia usakinishaji mpya wa Windows 10 Professional, kwenye kizigeu chenye 600+GB ya nafasi ya ziada ya diski.

WARNING

Kusakinisha Musubi Tuner na sharti zake pia kunahusisha usakinishaji wa programu na vifurushi vinavyolenga msanidi moja kwa moja kwenye usakinishaji mkuu wa Windows wa Kompyuta. Kuzingatia usakinishaji wa ComfyUI, kwa hatua za mwisho, mradi huu utahitaji karibu gigabytes 400-500 za nafasi ya diski. Ingawa nimejaribu utaratibu bila tukio mara kadhaa katika mazingira mapya ya Windows 10 ya majaribio yaliyosakinishwa, mimi wala unite.ai hatuwajibiki kwa uharibifu wowote wa mifumo kutokana na kufuata maagizo haya. Ninakushauri uhifadhi nakala ya data yoyote muhimu kabla ya kujaribu aina hii ya utaratibu wa usakinishaji.

mazingatio

Je, Njia Hii Bado Ni halali?

Tukio la uzalishaji la AI linakwenda haraka sana, na tunaweza kutarajia mbinu bora na zilizoratibiwa zaidi za mifumo ya Hunyuan Video LoRA mwaka huu.

... au hata wiki hii! Nilipokuwa nikiandika makala haya, msanidi programu wa Kohya/Musubi alitayarisha musubi-tuner-gui, GUI ya kisasa ya Gradio kwa Musubi Tuner:

Ni wazi kwamba GUI ifaayo kwa mtumiaji inafaa kuliko faili za BAT ninazotumia katika kipengele hiki - mara tu musubi-tuner-gui inapofanya kazi. Ninapoandika, iliingia mtandaoni siku tano tu zilizopita, na siwezi kupata akaunti ya mtu yeyote aliyeitumia kwa mafanikio.

Kulingana na machapisho kwenye hazina, GUI mpya inakusudiwa kuingizwa moja kwa moja kwenye mradi wa Musubi Tuner haraka iwezekanavyo, ambayo itamaliza uwepo wake wa sasa kama hazina ya GitHub inayojitegemea.

Kulingana na maagizo ya sasa ya usakinishaji, GUI mpya inaundwa moja kwa moja kwenye mazingira ya mtandaoni yaliyopo ya Musubi; na, licha ya juhudi nyingi, siwezi kupata kuhusishwa na usakinishaji uliopo wa Musubi. Hii ina maana kwamba wakati inaendesha, itagundua kuwa haina injini!

Mara tu GUI inapounganishwa kwenye Musubi Tuner, masuala ya aina hii hakika yatatatuliwa. Ingawa mwandishi inakubali kwamba mradi mpya ni 'mbaya sana', ana matumaini kwa maendeleo yake na kuunganishwa moja kwa moja kwenye Musubi Tuner.

Kwa kuzingatia maswala haya (pia kuhusu njia chaguo-msingi wakati wa kusakinisha, na utumiaji wa Kifurushi cha Python cha UV, ambayo inatatiza taratibu fulani katika toleo jipya), labda itatubidi tungojee kidogo kwa uzoefu laini wa mafunzo wa Hunyuan Video LoRA. Hiyo ilisema, inaonekana kuahidi sana!

Lakini ikiwa huwezi kusubiri, na uko tayari kukunja mikono yako juu kidogo, unaweza kupata mafunzo ya LoRA ya video ya Hunyuan yanayoendeshwa ndani ya nchi sasa hivi.

Tuanze.

Kwa nini Sakinisha Kitu chochote kwenye Bare Metal?

(Ruka aya hii ikiwa wewe si mtumiaji wa kina)
Watumiaji wa hali ya juu watashangaa kwa nini nimechagua kusakinisha programu nyingi kwenye chuma tupu Windows 10 usakinishaji badala ya katika mazingira ya mtandaoni. Sababu ni kwamba bandari muhimu ya Windows ya msingi wa Linux Kifurushi cha Triton ni ngumu zaidi kufanya kazi katika mazingira ya mtandaoni. Usakinishaji mwingine wote wa metali tupu kwenye somo haukuweza kusakinishwa katika mazingira ya mtandaoni, kwani lazima iunganishe moja kwa moja na maunzi ya ndani.

Kufunga Vifurushi na Programu za Mahitaji

Kwa programu na vifurushi ambavyo vinapaswa kuwekwa hapo awali, utaratibu wa ufungaji ni muhimu. Hebu tuanze.

1: Pakua Microsoft Redistributable

Pakua na usakinishe kifurushi cha Microsoft Redistributable kutoka https://aka.ms/vs/17/release/vc_redist.x64.exe.

Huu ni ufungaji wa moja kwa moja na wa haraka.

2: Sakinisha Visual Studio 2022

Pakua toleo la Jumuiya ya Microsoft Visual Studio 2022 kutoka https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta

Anzisha kisakinishi kilichopakuliwa:

Hatuhitaji kila kifurushi kinachopatikana, ambacho kitakuwa usakinishaji mzito na mrefu. Hapo awali Mizigo ya kazi ukurasa unaofungua, weka tiki Ukuzaji wa Eneo-kazi kwa kutumia C++ (tazama picha hapa chini).

Sasa bofya Vipengele vya Mtu Binafsi kichupo kilicho juu kushoto mwa kiolesura na utumie kisanduku cha kutafutia kupata 'Windows SDK'.

Kwa msingi, tu Windows 11 SDK imetiwa tiki. Ikiwa unatumia Windows 10 (utaratibu huu wa usakinishaji haujajaribiwa na mimi kwenye Windows 11), weka alama kwenye toleo la hivi karibuni la Windows 10, lililoonyeshwa kwenye picha hapo juu.

Tafuta 'C++ CMake' na uangalie hiyo C++ Tengeneza zana za Windows ni checked.

Usakinishaji huu utachukua angalau GB 13 ya nafasi.

Mara tu Studio ya Visual imewekwa, itajaribu kufanya kazi kwenye kompyuta yako. Wacha ifungue kikamilifu. Wakati kiolesura cha skrini nzima cha Visual Studio kinapoonekana, funga programu.

3: Sakinisha Visual Studio 2019

Baadhi ya vifurushi vinavyofuata vya Musubi vinatarajia toleo la zamani la Microsoft Visual Studio, wakati zingine zinahitaji toleo la hivi karibuni zaidi.

Kwa hivyo pia pakua toleo la bure la Jumuiya la Visual Studio 19 ama kutoka kwa Microsoft (https://visualstudio.microsoft.com/vs/older-downloads/ - akaunti inahitajika) au Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).

Isakinishe na chaguzi sawa na za Visual Studio 2022 (tazama utaratibu hapo juu, isipokuwa hiyo Windows SDK tayari imewekwa tiki katika kisakinishi cha Visual Studio 2019).

Utaona kwamba kisakinishi cha Visual Studio 2019 tayari kinafahamu toleo jipya zaidi kinaposakinisha:

Wakati usakinishaji umekamilika, na umefungua na kufunga programu iliyosanikishwa ya Visual Studio 2019, fungua haraka ya amri ya Windows (Aina. CMD katika Kutafuta Anza) na chapa na uingie:

where cl

Matokeo yake yanapaswa kuwa maeneo yanayojulikana ya matoleo mawili ya Visual Studio iliyosakinishwa.

Ikiwa badala yake utapata INFO: Could not find files for the given pattern(s), angalia Angalia Njia sehemu ya kifungu hiki hapa chini, na utumie maagizo hayo kuongeza njia za Visual Studio kwenye mazingira ya Windows.

Hifadhi mabadiliko yoyote yaliyofanywa kulingana na Angalia Njia sehemu iliyo hapa chini, na kisha jaribu amri ya wapi cl tena.

4: Sakinisha CUDA 11 + 12 Toolkits

Vifurushi mbalimbali vilivyosakinishwa katika Musubi vinahitaji matoleo tofauti ya NVIDIA CUDA, ambayo huharakisha na kuboresha mafunzo kwenye kadi za picha za NVIDIA.

Sababu ya sisi kusakinisha matoleo ya Visual Studio kwanza ni kwamba visakinishi vya NVIDIA CUDA hutafuta na kuunganishwa na usakinishaji wowote uliopo wa Visual Studio.

Pakua mfululizo wa 11+ wa kifurushi cha usakinishaji wa CUDA kutoka:

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (pakua 'exe (ya ndani') )

Pakua mfululizo wa 12+ wa kifurushi cha usakinishaji wa CUDA Toolkit kutoka:

https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64

Mchakato wa usakinishaji ni sawa kwa wasakinishaji wote wawili. Puuza maonyo yoyote kuhusu kuwepo au kutokuwepo kwa njia za usakinishaji katika vigezo vya Mazingira ya Windows - tutashughulikia hili mwenyewe baadaye.

Sakinisha NVIDIA CUDA Toolkit V11+

Anzisha kisakinishi cha Zana ya CUDA ya mfululizo wa 11+.

At Chaguzi za Ufungaji, chagua Desturi (Imesasishwa) na endelea.

Ondoa chaguo la Uzoefu wa NVIDIA GeForce na ubofye Inayofuata.

Acha Chagua Mahali pa Kusakinisha kwa chaguo-msingi (hii ni muhimu):

Bonyeza Inayofuata na acha usakinishaji umalizike.

Puuza onyo lolote au madokezo ambayo kisakinishi hutoa Studio ya Nsight Visual ujumuishaji, ambao hauhitajiki kwa kesi yetu ya utumiaji.

Sakinisha NVIDIA CUDA Toolkit V12+

Rudia mchakato mzima wa kisakinishi tofauti cha 12+ NVIDIA Toolkit ulichopakua:

Mchakato wa usakinishaji wa toleo hili ni sawa na ule ulioorodheshwa hapo juu (toleo la 11+), isipokuwa onyo moja kuhusu njia za mazingira, ambalo unaweza kulipuuza:

Wakati usakinishaji wa toleo la 12+ CUDA umekamilika, fungua upesi wa amri katika Windows na uandike na uingize:

nvcc --version

Hii inapaswa kuthibitisha habari kuhusu toleo la kiendeshi lililowekwa:

Ili kuangalia kama kadi yako inatambulika, chapa na uingize:

nvidia-smi

5: Weka GIT

GIT itakuwa inashughulikia usakinishaji wa hazina ya Musubi kwenye mashine yako ya karibu. Pakua kisakinishi cha GIT kwa:

https://git-scm.com/downloads/win ('64-bit Git kwa Usanidi wa Windows')

Endesha kisakinishi:

Tumia mipangilio chaguomsingi ya Chagua Vipengele:

Acha kihariri chaguo-msingi Vim:

Wacha GIT iamue juu ya majina ya tawi:

Tumia mipangilio iliyopendekezwa kwa Njia mazingira:

Tumia mipangilio inayopendekezwa kwa SSH:

Tumia mipangilio inayopendekezwa kwa Nyuma ya Usafiri wa HTTPS:

Tumia mipangilio inayopendekezwa kwa ubadilishaji wa kumaliza mstari:

Chagua koni chaguo-msingi ya Windows kama Emulator ya terminal:

Tumia mipangilio chaguo-msingi (Sambaza mbele au unganisha) kwa Git Pull:

Tumia Kidhibiti cha Kitambulisho cha Git (mipangilio chaguo-msingi) kwa Msaidizi wa Uthibitisho:

In Inasanidi chaguzi za ziada, kuondoka Washa uhifadhi wa mfumo wa faili alama, na Washa viungo vya ishara haijawekwa alama (isipokuwa wewe ni mtumiaji wa hali ya juu ambaye anatumia viungo ngumu kwa hazina ya mfano wa kati).

Hitimisha usakinishaji na jaribio ambalo Git imesakinishwa vizuri kwa kufungua dirisha la CMD na kuandika na kuingia:

git --version

Kuingia kwa GitHub

Baadaye, unapojaribu kuunda hazina za GitHub, unaweza kupingwa kwa vitambulisho vyako vya GitHub. Ili kutarajia hili, ingia kwenye akaunti yako ya GitHub (unda moja, ikiwa ni lazima) kwenye vivinjari vyovyote vilivyosakinishwa kwenye mfumo wako wa Windows. Kwa njia hii, mbinu ya uthibitishaji wa 0Auth (dirisha ibukizi) inapaswa kuchukua muda mfupi iwezekanavyo.

Baada ya changamoto hiyo ya awali, unapaswa kusalia kuthibitishwa kiotomatiki.

6: Weka CMake

CMake 3.21 au mpya zaidi inahitajika kwa sehemu za mchakato wa usakinishaji wa Musubi. CMake ni usanifu wa ukuzaji wa majukwaa mtambuka yenye uwezo wa kupanga watunzi mbalimbali, na kuandaa programu kutoka kwa msimbo wa chanzo.

Ipakue kwa:

https://cmake.org/download/ ('Kisakinishi cha Windows x64')

Zindua kisakinishi:

Kuhakikisha Ongeza Cmake kwa utofauti wa mazingira wa PATH ni checked.

Vyombo vya habari Inayofuata.

Andika na ingiza amri hii kwa haraka ya Amri ya Windows:

cmake --version

Ikiwa CMake imewekwa kwa mafanikio, itaonyesha kitu kama:

cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).

7: Weka Python 3.10

Mkalimani wa Python ndiye msingi wa mradi huu. Pakua toleo la 3.10 (maelewano bora kati ya mahitaji tofauti ya vifurushi vya Musubi) kwa:

https://www.python.org/downloads/release/python-3100/ ('Kisakinishi cha Windows (64-bit)')

Endesha kisakinishi cha upakuaji, na uondoke kwa mipangilio chaguo-msingi:

Mwishoni mwa mchakato wa ufungaji, bofya Zima kikomo cha urefu wa njia (inahitaji uthibitisho wa msimamizi wa UAC):

Katika aina ya haraka ya Amri ya Windows na ingiza:

python --version

Hii inapaswa kusababisha Python 3.10.0

Angalia Njia

Ufungaji na ufungaji wa mifumo ya Musubi, pamoja na uendeshaji wake wa kawaida baada ya ufungaji, inahitaji kwamba vipengele vyake vijue njia ya vipengele kadhaa muhimu vya nje katika Windows, hasa CUDA.

Kwa hivyo tunahitaji kufungua mazingira ya njia na kuangalia kuwa mahitaji yote yamo ndani.

Njia ya haraka ya kupata vidhibiti vya Mazingira ya Windows ni kuandika Badilisha vigezo vya mazingira ya mfumo kwenye upau wa utafutaji wa Windows.

Kubonyeza hii itafungua faili ya Mali ya Mfumo jopo la kudhibiti. Katika haki ya chini ya Mali ya MfumoKubofya Vigezo vya mazingira kifungo, na dirisha kuitwa Vigezo vya mazingira kufungua. Katika Vigeuzi vya Mfumo paneli katika nusu ya chini ya dirisha hili, sogeza chini hadi Njia na ubofye mara mbili. Hii inafungua dirisha inayoitwa Hariri vigezo vya mazingira. Buruta upana wa dirisha hili kwa upana ili uweze kuona njia kamili ya vigeuzo:

Hapa maingizo muhimu ni:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

Katika hali nyingi, vigezo sahihi vya njia vinapaswa kuwepo.

Ongeza njia zozote ambazo hazipo kwa kubofya New upande wa kushoto wa Badilisha utofauti wa mazingira dirisha na kubandika kwa njia sahihi:

USINAkili tu na kubandika kutoka kwa njia zilizoorodheshwa hapo juu; angalia kuwa kila njia sawa iko katika usakinishaji wako wa Windows.

Ikiwa kuna tofauti ndogo za njia (haswa na usakinishaji wa Visual Studio), tumia njia zilizoorodheshwa hapo juu kupata folda zinazolengwa (yaani, x64 in Mwenyeji64 katika usakinishaji wako mwenyewe. Kisha ubandike wale njia ndani ya Badilisha utofauti wa mazingira dirisha.

Baada ya hayo, fungua upya kompyuta.

Inaweka Musubi

Boresha PIP

Kutumia toleo jipya zaidi la kisakinishi cha PIP kunaweza kulainisha baadhi ya hatua za usakinishaji. Katika haraka ya Amri ya Windows na marupurupu ya msimamizi (ona Mwinuko, hapa chini), charaza na ingiza:

pip install --upgrade pip

Mwinuko

Amri zingine zinaweza kuhitaji mapendeleo ya juu (yaani, kuendeshwa kama msimamizi). Ukipokea ujumbe wa makosa kuhusu ruhusa katika hatua zifuatazo, funga kidirisha cha amri na uifungue tena katika hali ya msimamizi kwa kuandika. CMD kwenye kisanduku cha kutafutia cha Windows, kubofya kulia Amri ya haraka na kuchagua Run kama msimamizi:

Kwa hatua zinazofuata, tutatumia Windows Powershell badala ya haraka ya Amri ya Windows. Unaweza kupata hii kwa kuingia Powershell kwenye kisanduku cha utaftaji cha Windows, na (inapohitajika) kubofya kulia juu yake Run kama msimamizi:

Weka Mwenge

Katika Powershell, chapa na uingie:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Kuwa na subira wakati vifurushi vingi vinasakinisha.

Ikikamilika, unaweza kuthibitisha usakinishaji wa PyTorch unaowezeshwa na GPU kwa kuandika na kuingiza:

python -c "import torch; print(torch.cuda.is_available())"

Hii inapaswa kusababisha:

C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True

Sakinisha Triton kwa Windows

Ifuatayo, ufungaji wa Triton kwa Windows sehemu. Katika Powershell iliyoinuliwa, ingiza (kwenye mstari mmoja):

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(Mfungaji triton-3.1.0-cp310-cp310-win_amd64.whl inafanya kazi kwa Intel na AMD CPU kwa muda mrefu kama usanifu ni 64-bit na mazingira yanalingana na toleo la Python)

Baada ya kukimbia, hii inapaswa kusababisha:

Successfully installed triton-3.1.0

Tunaweza kuangalia ikiwa Triton inafanya kazi kwa kuiingiza katika Python. Ingiza amri hii:

python -c "import triton; print('Triton is working')"

Hii inapaswa kutoa:

Triton is working

Ili kuangalia kuwa Triton imewezeshwa na GPU, ingiza:

python -c "import torch; print(torch.cuda.is_available())"

Hii inapaswa kusababisha True:

Unda Mazingira Yanayoonekana kwa Musubi

Kuanzia sasa na kuendelea, tutasakinisha programu yoyote zaidi kwenye a Mazingira ya mtandaoni ya Python (Au venv) Hii ina maana kwamba utahitaji kufanya ili kusanidua programu zote zifuatazo ni kuburuta folda ya usakinishaji ya venv hadi kwenye tupio.

Wacha tuunda folda hiyo ya usakinishaji: tengeneza folda inayoitwa Musubi kwenye eneo-kazi lako. Mifano ifuatayo inadhani kuwa folda hii ipo: C:\Users\[Your Profile Name]\Desktop\Musubi\.

Kwenye Powershell, nenda kwenye folda hiyo kwa kuingiza:

cd C:\Users\[Your Profile Name]\Desktop\Musubi

Tunataka mazingira ya mtandaoni yapate ufikiaji wa kile ambacho tumesakinisha tayari (haswa Triton), kwa hivyo tutatumia --system-site-packages bendera. Ingiza hii:

python -m venv --system-site-packages musubi

Subiri hadi mazingira yaundwe, kisha uamilishe kwa kuingiza:

.\musubi\Scripts\activate

Kuanzia wakati huu na kuendelea, unaweza kujua kuwa uko katika mazingira ya mtandaoni yaliyoamilishwa kwa ukweli kwamba (musubi) inaonekana mwanzoni mwa maongozi yako yote.

Funga Hifadhi

Nenda kwenye vipya vilivyoundwa musubi folda (ambayo iko ndani ya Musubi folda kwenye eneo-kazi lako):

cd musubi

Sasa kwa kuwa tuko mahali pazuri, ingiza amri ifuatayo:

git clone https://github.com/kohya-ss/musubi-tuner.git

Subiri hadi cloning ikamilike (haitachukua muda mrefu).

Mahitaji ya Kufunga

Nenda kwenye folda ya usakinishaji:

cd musubi-tuner

Ingiza:

pip install -r requirements.txt

Subiri hadi usakinishaji mwingi ukamilike (hii itachukua muda mrefu zaidi).

Ufikiaji wa Kiotomatiki kwa Video ya Hunyuan Venv

Ili kuwezesha na kufikia venv mpya kwa vipindi vijavyo kwa urahisi, bandika yafuatayo kwenye Notepad na uihifadhi kwa jina. wezesha.bat, kuihifadhi na Faili zote chaguo (tazama picha hapa chini).

@echo off

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner

cmd

(Badilisha [Your Profile Name]na jina halisi la wasifu wako wa mtumiaji wa Windows)

Haijalishi ni eneo gani unahifadhi faili hii.

Kuanzia sasa unaweza kubofya mara mbili wezesha.bat na kuanza kazi mara moja.

Kwa kutumia Musubi Tuner

Inapakua Miundo

Mchakato wa mafunzo wa Hunyuan Video LoRA unahitaji upakuaji wa angalau miundo saba ili kuauni chaguo zote zinazowezekana za uboreshaji wa kuhifadhi kabla na kutoa mafunzo kwa LoRA ya video ya Hunyuan. Kwa pamoja, mifano hii ina uzito zaidi ya 60GB.

Maagizo ya sasa ya kupakua yanaweza kupatikana kwenye https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download

Walakini, haya ndio maagizo ya kupakua wakati wa kuandika:

clip_l.safetensorsllava_llama3_fp16.safetensors na
llava_llama3_fp8_scaled.safetensors
inaweza kupakuliwa kwa:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

mp_rank_00_model_states.ptmp_rank_00_model_states_fp8.pt na
mp_rank_00_model_states_fp8_map.pt
inaweza kupakuliwa kwa:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers

pytorch_model.pt
inaweza kupakuliwa kwa:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae

Ingawa unaweza kuziweka katika saraka yoyote unayochagua, kwa uthabiti na uandishi wa baadaye, wacha tuziweke:

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\

Hii inaambatana na mpangilio wa saraka kabla ya hatua hii. Amri au maagizo yoyote hapo baadaye yatafikiri kwamba hapa ndipo mifano iko; na usisahau kubadilisha [Jina la Wasifu Wako] na jina halisi la folda ya wasifu wako wa Windows.

Maandalizi ya Seti ya Data

Kwa kupuuza mabishano ya jumuiya kuhusu jambo hilo, ni sawa kusema kwamba utahitaji mahali fulani kati ya picha 10-100 kwa mkusanyiko wa data wa mafunzo kwa ajili ya Hunyuan LoRA yako. Matokeo mazuri sana yanaweza kupatikana hata kwa picha 15, kwa muda mrefu kama picha ni za usawa na za ubora mzuri.

Hunyuan LoRA inaweza kufunzwa kwa picha au klipu za video fupi na zenye ubora wa chini, au hata mchanganyiko wa kila moja - ingawa kutumia klipu za video kwani data ya mafunzo ni ngumu, hata kwa kadi ya 24GB.

Hata hivyo, klipu za video ni muhimu tu ikiwa tabia yako inasonga kwa njia isiyo ya kawaida hivi kwamba mfano wa msingi wa Video wa Hunyuan unaweza usijue kuihusu, au kuwa na uwezo wa kukisia.

Mifano itajumuisha Roger Rabbit, xenomorph, The Mask, Spider-Man, au haiba zingine zinazomiliki. kipekee harakati ya tabia.

Kwa kuwa Video ya Hunyuan tayari inajua jinsi wanaume na wanawake wa kawaida wanavyosonga, klipu za video si lazima kupata mhusika anayeshawishi wa Hunyuan Video LoRA aina ya binadamu. Kwa hivyo tutatumia picha tuli.

Maandalizi ya Picha

Orodha ya ndoo

Toleo la TLDR:

Ni bora kutumia picha ambazo zote zina ukubwa sawa kwa seti ya data yako, au utumie mgawanyiko wa 50/50 kati ya saizi mbili tofauti, yaani, picha 10 ambazo ni 512x768px na 10 ambazo ni 768x512px.

Mafunzo yanaweza kwenda vyema hata kama hutafanya hivi - LoRA za Video za Hunyuan zinaweza kukusamehe kwa kushangaza.

Toleo refu

Kama ilivyo kwa Kohya-ss LoRAs kwa mifumo ya uzalishaji tuli kama vile Usambazaji Imara, ndoo hutumika kusambaza mzigo wa kazi kwenye picha za ukubwa tofauti, kuruhusu picha kubwa zaidi kutumika bila kusababisha makosa ya kumbukumbu wakati wa mafunzo (yaani, kuweka ndoo 'hupunguza' picha kuwa vipande ambavyo GPU inaweza kushughulikia, huku ikidumisha uadilifu wa kisemantiki wa picha nzima).

Kwa kila saizi ya picha utakayojumuisha katika mkusanyiko wako wa data wa mafunzo (yaani, 512x768px), ndoo, au 'kazi ndogo' itaundwa kwa ukubwa huo. Kwa hivyo ikiwa una usambazaji ufuatao wa picha, hivi ndivyo umakini wa ndoo unavyokosa usawa, na hatari kwamba picha zingine zitazingatiwa zaidi katika mafunzo kuliko zingine:

2x 512x768px picha
7x 768x512px picha
1x 1000x600px picha
3x 400x800px picha

Tunaweza kuona kwamba umakini wa ndoo umegawanywa kwa usawa kati ya picha hizi:

Kwa hivyo ama ushikamane na saizi moja ya umbizo, au jaribu na uweke usambazaji wa saizi tofauti kwa usawa.

Kwa hali yoyote, epuka picha kubwa sana, kwani hii inaweza kupunguza kasi ya mafunzo, kwa manufaa kidogo.

Kwa unyenyekevu, nimetumia 512x768px kwa picha zote kwenye hifadhidata yangu.

disclaimer: Mtindo (mtu) aliyetumiwa kwenye mkusanyiko wa data alinipa ruhusa kamili ya kutumia picha hizi kwa madhumuni haya, na alitumia uidhinishaji wa matokeo yote ya msingi wa AI yanayoonyesha mfanano wake ulioangaziwa katika nakala hii.

Hifadhidata yangu ina picha 40, katika umbizo la PNG (ingawa JPG ni sawa pia). Picha zangu zilihifadhiwa kwenye C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman

Unapaswa kuunda a cache folda ndani ya folda ya picha ya mafunzo:

Sasa hebu tuunde faili maalum ambayo itasanidi mafunzo.

Faili za TOML

Michakato ya mafunzo na kuhifadhi kabla ya Hunyuan Video LoRAs hupata njia za faili kutoka kwa faili ya maandishi bapa na .toml ugani.

Kwa jaribio langu, TOML iko C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml

Yaliyomo kwenye mafunzo yangu ya TOML yanaonekana kama hii:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(Mikwaju maradufu ya saraka za picha na kache sio lazima kila wakati, lakini inaweza kusaidia kuzuia makosa katika hali ambapo kuna nafasi kwenye njia. Nimefunza miundo yenye faili za .toml zilizotumia moja-forward na single- mikwaju ya nyuma)

Tunaweza kuona katika resolution sehemu ambayo maazimio mawili yatazingatiwa - 512px na 768px. Unaweza pia kuacha hii kwa 512, na bado kupata matokeo mazuri.

Vichwa

Hunyuan Video ni Nakala+mfano wa msingi wa maono, kwa hivyo tunahitaji maelezo mafupi ya picha hizi, ambayo yatazingatiwa wakati wa mafunzo. Mchakato wa mafunzo utashindwa bila maelezo mafupi.

Kuna wingi ya mifumo huria ya manukuu ambayo tunaweza kutumia kwa kazi hii, lakini tuiweke rahisi na tuitumie taggui mfumo. Ingawa imehifadhiwa kwa GitHub, na ingawa inapakua mifano nzito ya kujifunza kwa kina mara ya kwanza, inakuja katika mfumo wa Windows inayoweza kutekelezwa ambayo hupakia maktaba za Python na GUI moja kwa moja.

Baada ya kuanza Taggui, tumia Faili > Saraka ya Pakia kuelekeza kwenye hifadhidata yako ya picha, na kwa hiari kuweka kitambulisho cha ishara (katika kesi hii, mwanamke wa mfano) ambayo itaongezwa kwa manukuu yote:

(Hakikisha kuzima Pakia katika 4-bit Taggui inapofungua kwa mara ya kwanza - itatupa makosa wakati wa kuandika manukuu ikiwa hii itaachwa)

Chagua picha katika safu wima ya onyesho la kukagua ya kushoto na ubonyeze CTRL+A ili kuchagua picha zote. Kisha bonyeza kitufe cha Anzisha Manukuu Kiotomatiki upande wa kulia:

Utaona Taggui ikipakua modeli kwenye CLI ndogo kwenye safu wima ya kulia, lakini ikiwa ni mara ya kwanza unaendesha kinukuu. Vinginevyo utaona onyesho la kukagua manukuu.

Sasa, kila picha ina manukuu ya .txt yanayolingana na maelezo ya yaliyomo kwenye picha:

Unaweza kubofya Advanced vingine katika Taggui ili kuongeza urefu na mtindo wa manukuu, lakini hiyo ni nje ya upeo wa utekelezaji huu.

Achana na Taggui na tuendelee...

Uhifadhi Uliofichwa wa awali

Ili kuepuka mzigo mwingi wa GPU wakati wa mafunzo, ni muhimu kuunda aina mbili za faili zilizohifadhiwa awali - moja ili kuwakilisha picha fiche inayotokana na picha zenyewe, na nyingine kutathmini usimbaji wa maandishi unaohusiana na maudhui ya maelezo mafupi.

Ili kurahisisha michakato yote mitatu (2x kache + mafunzo), unaweza kutumia faili shirikishi za .BAT ambazo zitakuuliza maswali na kufanya michakato ukiwa umetoa taarifa muhimu.

Kwa uhifadhi fiche wa awali, nakili maandishi yafuatayo kwenye Notepad na uyahifadhi kama faili ya .BAT (yaani, ipe jina kama latent-precache.bat), kama hapo awali, kuhakikisha kuwa aina ya faili kwenye menyu ya kushuka kwenye Save As mazungumzo ni Files zote (tazama picha hapa chini):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the latent pre-caching script

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) else (

echo Operation canceled.

)

REM Keep the window open

pause

(Hakikisha unabadilisha [Jina la Wasifu Wako] na jina lako halisi la folda ya wasifu wa Windows)

Sasa unaweza kuendesha faili ya .BAT kwa uhifadhi fiche kiotomatiki:

Unapoombwa na maswali mbalimbali kutoka kwa faili ya BAT, bandika au chapa kwenye njia ya seti yako ya data, folda za kache na faili ya TOML.

Nakala Kabla ya Kuhifadhi

Tutaunda faili ya pili ya BAT, wakati huu kwa uakibishaji wa maandishi.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Use the python executable from the virtual environment

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) else (

echo Operation canceled.

)

REM Keep the window open

pause

Badilisha jina la wasifu wako wa Windows na uhifadhi hii kama maandishi-cache.bat (au jina lingine lolote unalopenda), katika eneo lolote linalofaa, kulingana na utaratibu wa faili ya BAT iliyotangulia.

Endesha faili hii mpya ya BAT, fuata maagizo, na faili zinazohitajika zilizosimbwa kwa maandishi zitaonekana kwenye faili ya cache folda:

Kufundisha Video ya Hunyuan Lora

Kufundisha LoRA halisi kutachukua muda mrefu zaidi kuliko michakato hii miwili ya maandalizi.

Ingawa pia kuna anuwai nyingi ambazo tunaweza kuwa na wasiwasi nazo (kama vile saizi ya kundi, marudio, nyakati, na ikiwa tutatumia mifano kamili au iliyokadiriwa, kati ya zingine), tutahifadhi mazingatio haya kwa siku nyingine, na kutazama kwa undani zaidi. utata wa uundaji wa LoRA.

Kwa sasa, hebu tupunguze chaguo kidogo na tufunze LoRA kwenye mipangilio ya 'wastani'.

Tutaunda faili ya tatu ya BAT, wakati huu ili kuanzisha mafunzo. Bandika hii kwenye Notepad na uihifadhi kama faili ya BAT, kama hapo awali, kama mafunzo.popo (au jina lolote unalotaka):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p DATASET_CONFIG=Enter the path to the dataset configuration file:

set /p EPOCHS=Enter the number of epochs to train:

set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):

set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):

if "%LEARNING_RATE%"=="1" set LR=1e-3

if "%LEARNING_RATE%"=="2" set LR=5e-3

if "%LEARNING_RATE%"=="" set LR=1e-3

set /p SAVE_STEPS=How often (in steps) to save preview images:

set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?

echo You entered:

echo Dataset configuration file: %DATASET_CONFIG%

echo Number of epochs: %EPOCHS%

echo Output name: %OUTPUT_NAME%

echo Learning rate: %LR%

echo Save preview images every %SAVE_STEPS% steps.

echo Text-prompt file: %SAMPLE_PROMPTS%

REM Prepare the command

set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_CONFIG% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOCHS% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^

--output_name %OUTPUT_NAME% ^

--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %SAMPLE_PROMPTS% ^

--sample_every_n_steps %SAVE_STEPS% ^

--sample_at_first

echo The following command will be executed:

echo %CMD%

set /p CONFIRM=Do you want to proceed with training (y/n)?

if /i "%CONFIRM%"=="y" (

%CMD%

) else (

echo Operation canceled.

)

REM Keep the window open

cmd /k

Kama kawaida, hakikisha kubadilisha hali zote of [Jina la Wasifu wako] na jina lako sahihi la wasifu wa Windows.

Hakikisha kuwa saraka C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\ ipo, na iunde katika eneo hilo ikiwa sivyo.

Muhtasari wa Mafunzo

Kuna kipengele cha kuchungulia cha msingi sana cha mafunzo ambacho kimewashwa hivi majuzi kwa mkufunzi wa Musubi, ambacho hukuruhusu kulazimisha kielelezo cha mafunzo kusitisha na kutoa picha kulingana na vidokezo ambavyo umehifadhi. Hizi zimehifadhiwa kwenye folda iliyoundwa kiotomatiki inayoitwa Sampuli, katika saraka sawa ambayo mifano iliyofunzwa imehifadhiwa.

Ili kuwezesha hili, utahitaji kuhifadhi kidokezo kimoja katika faili ya maandishi. BAT ya mafunzo tuliyounda itakuuliza uingize eneo la faili hii; kwa hivyo unaweza kutaja faili ya haraka kuwa chochote unachopenda, na uihifadhi popote.

Hapa kuna mifano ya haraka ya faili ambayo itatoa picha tatu tofauti inapoombwa na utaratibu wa mafunzo:

Kama unavyoona kwenye mfano hapo juu, unaweza kuweka bendera mwishoni mwa arifa ambayo itaathiri picha:

-w ni upana (chaguo-msingi hadi 256px ikiwa haijawekwa, kulingana na hati)
-h ni urefu (chaguo-msingi hadi 256px ikiwa haijawekwa)
-f ndio idadi ya muafaka. Ikiwa imewekwa kwa 1, picha inatolewa; zaidi ya moja, video.
-d ni mbegu. Ikiwa haijawekwa, ni ya nasibu; lakini unapaswa kuiweka ili kuona haraka moja ikibadilika.
-s ni idadi ya hatua katika uzalishaji, chaguo-msingi hadi 20.

Kuona nyaraka rasmi kwa bendera za ziada.

Ingawa muhtasari wa mafunzo unaweza kufichua kwa haraka masuala kadhaa ambayo yanaweza kukusababishia kughairi mafunzo na kufikiria upya data au usanidi, hivyo basi kuokoa muda, kumbuka kuwa kila onyesho la ziada hupunguza kasi ya mafunzo zaidi.

Pia, kadri upana wa picha ya onyesho la kuchungulia inavyokuwa kubwa na urefu (kama ilivyowekwa kwenye bendera zilizoorodheshwa hapo juu), ndivyo itakavyopunguza kasi ya mafunzo.

Zindua faili yako ya mafunzo ya BAT.

Swali #1 ni 'Ingiza njia ya usanidi wa seti ya data. Bandika au charaza njia sahihi ya faili yako ya TOML.

Swali #2 ni 'Ingiza idadi ya nyakati za kutoa mafunzo'. Hiki ni kigezo cha majaribio na hitilafu, kwa kuwa kinaathiriwa na kiasi na ubora wa picha, pamoja na manukuu na vipengele vingine. Kwa ujumla, ni bora kuiweka juu sana kuliko chini sana, kwa kuwa unaweza daima kuacha mafunzo na Ctrl + C kwenye dirisha la mafunzo ikiwa unahisi kuwa mtindo umeendelea kutosha. Weka kwa 100 kwa mara ya kwanza, na uone jinsi inavyoendelea.

Swali #3 ni 'Ingiza jina la mfano wa pato'. Taja mfano wako! Huenda ikawa bora kuweka jina fupi na rahisi.

Swali #4 ni 'Chagua kiwango cha kujifunza', ambacho kinabadilika kuwa 1e-3 (chaguo la 1). Hapa ni pazuri pa kuanzia, tukisubiri matumizi zaidi.

Swali #5 ni 'Ni mara ngapi (katika hatua) kuhifadhi picha za onyesho la kukagua. Ukiweka hii chini sana, utaona maendeleo kidogo kati ya hifadhi za picha za onyesho la kukagua, na hii itapunguza kasi ya mafunzo.

Swali #6 ni 'Mahali pa faili ya dodoso-maandishi kwa muhtasari wa mafunzo?'. Bandika au charaza kwenye njia ya faili yako ya maandishi ya vidokezo.

BAT kisha inakuonyesha amri itakayotuma kwa Mfano wa Hunyuan, na kukuuliza ikiwa ungependa kuendelea, y/n.

Nenda mbele na uanze mafunzo:

Wakati huu, ukiangalia sehemu ya GPU ya kichupo cha Utendaji cha Windows Task Manager, utaona mchakato unachukua takriban 16GB ya VRAM.

Huenda hii isiwe takwimu ya kiholela, kwa kuwa hiki ni kiasi cha VRAM kinachopatikana kwenye kadi chache za picha za NVIDIA, na msimbo wa juu wa mkondo unaweza kuwa umeboreshwa ili kutosheleza majukumu katika GB 16 kwa manufaa ya wale wanaomiliki kadi kama hizo.

Hiyo ilisema, ni rahisi sana kuongeza utumiaji huu, kwa kutuma bendera kubwa zaidi kwa amri ya mafunzo.

Wakati wa mafunzo, utaona katika upande wa chini kulia wa dirisha la CMD takwimu ya muda gani umepita tangu mafunzo yaanze, na makadirio ya jumla ya muda wa mafunzo (ambayo yatatofautiana sana kutegemea bendera zilizowekwa, idadi ya picha za mafunzo. , idadi ya picha za onyesho la kukagua mafunzo, na vipengele vingine kadhaa).

Muda wa kawaida wa mafunzo ni takribani saa 3-4 kwenye mipangilio ya wastani, kulingana na maunzi yanayopatikana, idadi ya picha, mipangilio ya bendera na vipengele vingine.

Kutumia Miundo Yako ya LoRA Uliofunzwa katika Video ya Hunyuan

Kuchagua Vituo vya ukaguzi

Mafunzo yanapohitimishwa, utakuwa na kielelezo cha ukaguzi kwa kila enzi ya mafunzo.

Masafa haya ya kuokoa yanaweza kubadilishwa na mtumiaji ili kuokoa zaidi au chini ya mara kwa mara, kama unavyotaka, kwa kurekebisha --save_every_n_epochs [N] nambari katika faili ya BAT ya mafunzo. Ikiwa umeongeza takwimu ya chini ya kuokoa-kwa-hatua wakati wa kuanzisha mafunzo na BAT, kutakuwa na idadi kubwa ya faili za ukaguzi zilizohifadhiwa.

Ni kituo gani cha ukaguzi cha kuchagua?

Kama ilivyoelezwa hapo awali, miundo ya awali iliyofunzwa itakuwa rahisi zaidi, wakati vituo vya ukaguzi vya baadaye vinaweza kutoa maelezo zaidi. Njia pekee ya kufanyia majaribio mambo haya ni kuendesha baadhi ya LoRA na kutoa video chache. Kwa njia hii unaweza kujua ni vituo gani vya ukaguzi vina tija zaidi, na kuwakilisha usawa bora kati ya kubadilika na uaminifu.

ComfyUI

Mazingira maarufu zaidi (ingawa sio pekee) ya kutumia Hunyuan Video LoRAs, kwa sasa, ni ComfyUI, kihariri chenye msingi wa nodi na kiolesura cha kina cha Gradio ambacho hutumika katika kivinjari chako cha wavuti.

Chanzo: https://github.com/comfyanonymous/ComfyUI

Maagizo ya ufungaji ni moja kwa moja na inapatikana kwenye hazina rasmi ya GitHub (mifano ya ziada italazimika kupakuliwa).

Kubadilisha Miundo ya ComfyUI

Miundo yako iliyofunzwa imehifadhiwa katika umbizo la (diffusers) ambalo halioani na utekelezaji mwingi wa ComfyUI. Musubi inaweza kubadilisha muundo hadi umbizo linalooana na ComfyUI. Hebu tusanidi faili ya BAT ili kutekeleza hili.

Kabla ya kuendesha BAT hii, unda faili ya C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\ folda ambayo hati inatarajia.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

:START

REM Get user input

set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):

REM Exit if the user types "exit"

if /i "%INPUT_PATH%"=="exit" goto END

REM Extract the file name from the input path and append 'converted' to it

for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF

set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors

set TARGET=other

echo You entered:

echo Input file: %INPUT_PATH%

echo Output file: %OUTPUT_PATH%

echo Target format: %TARGET%

set /p CONFIRM=Do you want to proceed with the conversion (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the conversion script with correctly quoted paths

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%

echo Conversion complete.

) else (

echo Operation canceled.

)

REM Return to start for another file

goto START

:END

REM Keep the window open

echo Exiting the script.

pause

Kama ilivyo kwa faili za BAT zilizopita, hifadhi hati kama 'Faili zote' kutoka Notepad, ukiipa jina badilisha.bat (au chochote unachopenda).

Mara baada ya kuhifadhiwa, bofya mara mbili faili mpya ya BAT, ambayo itauliza eneo la faili ili kubadilisha.

Bandika au charaza njia ya faili iliyofunzwa unayotaka kubadilisha, bofya y, na ubonyeze ingiza.

Baada ya kuhifadhi LoRA iliyobadilishwa hadi WALIOONGOKA folda, hati itauliza ikiwa ungependa kubadilisha faili nyingine. Ikiwa ungependa kujaribu vituo vingi vya ukaguzi katika ComfyUI, badilisha uteuzi wa miundo.

Unapobadilisha vituo vya ukaguzi vya kutosha, funga dirisha la amri ya BAT.

Sasa unaweza kunakili miundo yako iliyogeuzwa kuwa folda za modeli\loras katika usakinishaji wako wa ComfyUI.

Kwa kawaida eneo sahihi ni kitu kama:

C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\

Kuunda LoRA za Video za Hunyuan katika ComfyUI

Ingawa utiririshaji wa msingi wa nodi wa ComfyUI unaonekana kuwa mgumu mwanzoni, mipangilio ya watumiaji wengine waliobobea zaidi inaweza kupakiwa kwa kuburuta picha (iliyoundwa na ComfyUI ya mtumiaji mwingine) moja kwa moja kwenye dirisha la ComfyUI. Mitiririko ya kazi inaweza pia kutumwa kama faili za JSON, ambazo zinaweza kuingizwa mwenyewe, au kuburutwa hadi kwenye dirisha la ComfyUI.

Baadhi ya mitiririko ya kazi iliyoletwa itakuwa na vitegemezi ambavyo vinaweza visiwepo katika usakinishaji wako. Kwa hiyo kufunga Meneja wa ComfyUI, ambayo inaweza kuleta moduli zinazokosekana kiotomatiki.

Chanzo: https://github.com/ltdrdata/ComfyUI-Manager

Ili kupakia mojawapo ya mitiririko ya kazi inayotumika kutengeneza video kutoka kwa miundo katika mafunzo haya, pakua faili hii ya JSON na uiburute kwenye dirisha lako la ComfyUI (ingawa kuna mifano bora zaidi ya mtiririko wa kazi inayopatikana katika jamii mbalimbali za Reddit na Discord ambazo zimepitisha Video ya Hunyuan, na yangu mwenyewe imechukuliwa kutoka kwa mojawapo ya hizi).

Hapa sio mahali pa mafunzo yaliyopanuliwa katika matumizi ya ComfyUI, lakini inafaa kutaja vigezo vichache muhimu ambavyo vitaathiri matokeo yako ikiwa utapakua na kutumia mpangilio wa JSON ambao niliunganisha hapo juu.

1) Upana na Urefu

Kadiri picha yako inavyokuwa kubwa, ndivyo kizazi kitachukua muda mrefu, na ndivyo hatari ya kutokea kwa kosa la nje ya kumbukumbu (OOM) inavyoongezeka.

2) Urefu

Hii ndiyo thamani ya nambari kwa idadi ya fremu. Inaongeza sekunde ngapi kutegemea kasi ya fremu (imewekwa kwa 30fps katika mpangilio huu). Unaweza kubadilisha sekunde>fremu kulingana na ramprogrammen kwenye Omnicalculator.

3) Ukubwa wa kundi

Kadiri unavyoweka ukubwa wa kundi, ndivyo matokeo yanaweza kuja haraka, lakini ndivyo mzigo wa VRAM unavyoongezeka. Weka hii juu sana na unaweza kupata OOM.

4) Udhibiti Baada ya Kuzalisha

Hii inadhibiti mbegu za nasibu. Chaguzi za nodi hii ndogo ni fasta, nyongeza, kupungua na badilisha. Ukiiacha fasta na usibadilishe haraka ya maandishi, utapata picha sawa kila wakati. Ukirekebisha kidokezo cha maandishi, picha itabadilika kwa kiwango kidogo. The nyongeza na kupungua mipangilio hukuruhusu kuchunguza thamani za mbegu zilizo karibu, wakati badilisha hukupa tafsiri mpya kabisa ya haraka.

5) Jina la Lora

Utahitaji kuchagua muundo wako mwenyewe uliosakinishwa hapa, kabla ya kujaribu kutengeneza.

6) Ishara

Ikiwa umefunza mfano wako kusababisha wazo na ishara, (kama vile 'mtu wa mfano'), weka neno hilo la kichochezi katika arifa yako.

7) Hatua

Hii inawakilisha hatua ngapi mfumo utatumika kwa mchakato wa uenezaji. Hatua za juu zaidi zinaweza kupata maelezo bora, lakini kuna dari juu ya jinsi njia hii inavyofaa, na kizingiti hicho kinaweza kuwa ngumu kupata. Kiwango cha kawaida cha hatua ni karibu 20-30.

8) Ukubwa wa Tile

Hii inafafanua ni kiasi gani cha habari kinashughulikiwa kwa wakati mmoja wakati wa uzalishaji. Imewekwa kwa 256 kwa chaguo-msingi. Kuiinua kunaweza kuharakisha kizazi, lakini kuinua juu sana kunaweza kusababisha uzoefu wa kukatisha tamaa wa OOM, kwani inakuja mwishoni mwa mchakato mrefu.

9) Mwingiliano wa Muda

Uzalishaji wa Video wa Hunyuan wa watu unaweza kusababisha 'mzimu', au harakati zisizoshawishi ikiwa hii imewekwa chini sana. Kwa ujumla, hekima ya sasa ni kwamba hii inapaswa kuwekwa kwa thamani ya juu kuliko idadi ya fremu, ili kuzalisha harakati bora.

Hitimisho

Ingawa uchunguzi zaidi wa matumizi ya ComfyUI uko nje ya upeo wa kifungu hiki, uzoefu wa jamii huko Reddit na Discords unaweza kurahisisha mkondo wa kujifunza, na kuna kadhaa. mwongozo mkondoni ambayo inatambulisha mambo ya msingi.

Ilichapishwa kwa mara ya kwanza Alhamisi, Januari 23, 2025

Kisha Ifuatayo

Upendeleo wa Magharibi katika AI: Kwa Nini Mitazamo ya Ulimwenguni Inakosekana

Usikose

Trump Atangaza Uwekezaji wa Miundombinu ya AI katika Sekta ya Kibinafsi ya $500 Bilioni

Martin Anderson

Mwandishi juu ya kujifunza kwa mashine, mtaalamu wa kikoa katika usanisi wa picha za binadamu. Mkuu wa zamani wa maudhui ya utafiti katika Metaphysic.ai.
Tovuti ya kibinafsi: martinanderson.ai
Wasiliana na: [barua pepe inalindwa]
Twitter: @manders_ai

Unganisha.AI

Jinsi ya Kufunza na Kutumia Miundo ya Hunyuan Video LoRA

Meza ya Yaliyomo

Mahitaji

WARNING

mazingatio

Je, Njia Hii Bado Ni halali?

Kwa nini Sakinisha Kitu chochote kwenye Bare Metal?

Kufunga Vifurushi na Programu za Mahitaji

1: Pakua Microsoft Redistributable

2: Sakinisha Visual Studio 2022

3: Sakinisha Visual Studio 2019

4: Sakinisha CUDA 11 + 12 Toolkits

Sakinisha NVIDIA CUDA Toolkit V11+

Sakinisha NVIDIA CUDA Toolkit V12+

5: Weka GIT

Kuingia kwa GitHub

6: Weka CMake

7: Weka Python 3.10

Angalia Njia

Inaweka Musubi

Boresha PIP

Mwinuko

Weka Mwenge

Sakinisha Triton kwa Windows

Unda Mazingira Yanayoonekana kwa Musubi

Funga Hifadhi

Mahitaji ya Kufunga

Ufikiaji wa Kiotomatiki kwa Video ya Hunyuan Venv

Kwa kutumia Musubi Tuner

Inapakua Miundo

Maandalizi ya Seti ya Data

Maandalizi ya Picha

Orodha ya ndoo

Faili za TOML

Vichwa

Uhifadhi Uliofichwa wa awali

Nakala Kabla ya Kuhifadhi

Kufundisha Video ya Hunyuan Lora

Muhtasari wa Mafunzo

Kutumia Miundo Yako ya LoRA Uliofunzwa katika Video ya Hunyuan

Kuchagua Vituo vya ukaguzi

Ni kituo gani cha ukaguzi cha kuchagua?

ComfyUI

Kubadilisha Miundo ya ComfyUI

Kuunda LoRA za Video za Hunyuan katika ComfyUI

1) Upana na Urefu

2) Urefu

3) Ukubwa wa kundi

4) Udhibiti Baada ya Kuzalisha

5) Jina la Lora

6) Ishara

7) Hatua

8) Ukubwa wa Tile

9) Mwingiliano wa Muda

Hitimisho

Unaweza kupenda