Хиймэл оюун
Hunyuan видео LoRA загваруудыг хэрхэн сургах, ашиглах талаар

Энэ нийтлэлд та Windows-д суурилсан программ хангамжийг хэрхэн суулгах, ашиглахыг харуулах болно Hunyuan видео LoRA загварууд, хэрэглэгчдэд Hunyuan Video суурийн загварт хувийн зан чанарыг бий болгох боломжийг олгодог:
Тоглуулахын тулд товшино уу. Саяхан civit.ai нийгэмлэгийн алдарт Хуньюан ЛоРА-гийн дэлбэрэлтийн жишээ.
Одоогийн байдлаар Hunyuan LoRA загварыг орон нутагт үйлдвэрлэх хамгийн алдартай хоёр арга нь:
1) diffusion-pipe-ui Docker-д суурилсан хүрээ, үүнд тулгуурладаг Линуксд зориулсан Windows Дэд систем (WSL) зарим үйл явцыг зохицуулах.
2) Musubi тааруулагч, алдартай шинэ нэмэлт Кохя сс тархалтын сургалтын архитектур. Musubi Tuner нь Docker-г шаарддаггүй бөгөөд WSL эсвэл бусад Линукс дээр суурилсан прокси-ээс хамаардаггүй - гэхдээ Windows дээр ажиллахад хэцүү байж болно.
Иймээс энэхүү гүйлт нь Musubi Tuner дээр төвлөрч, Runpod гэх мэт API-д суурилсан вэбсайтууд эсвэл арилжааны GPU түрээслэх процессыг ашиглахгүйгээр Hunyuan LoRA-г сургах, бүтээхэд бүрэн орон нутгийн шийдлийг өгөх болно.
Тоглуулахын тулд товшино уу. Энэ нийтлэлд зориулсан Musubi Tuner дээрх LoRA сургалтын жишээ. Энэ өгүүллийг харуулах зорилгоор дүрсэлсэн хүнээс олгосон бүх зөвшөөрлүүд.
ШААРДЛАГА
Суулгахад дор хаяж 10 ГБ VRAM багтаамжтай, 30+/40+ цуврал NVIDIA карттай Windows 12 компьютер шаардлагатай (гэхдээ 16 ГБ байхыг зөвлөж байна). Энэ нийтлэлд ашигласан суулгацыг 64 ГБ багтаамжтай машин дээр туршсан систем RAM болон 3090 ГБ VRAM бүхий NVIDIA 24 график карт. Үүнийг Windows 10 Professional-ийн шинэ суулгацыг ашиглан 600+ГБ-ын нөөц дискний зай бүхий тусгай зориулалтын систем дээр туршсан.
АНХААРУУЛГА
Musubi Tuner болон түүний урьдчилсан нөхцөлийг суулгах нь хөгжүүлэгч рүү чиглэсэн программ хангамж, багцуудыг компьютерийн үндсэн Windows суулгац дээр шууд суулгах шаардлагатай. ComfyUI суулгацыг харгалзан үзэхэд эцсийн шатанд энэ төсөлд 400-500 гигабайт дискний зай шаардлагатай болно. Хэдийгээр би шинээр суулгасан Windows 10 үйлдлийн системд энэ журмыг хэд хэдэн удаа осол авааргүйгээр туршиж үзсэн ч би болон unite.ai аль аль нь эдгээр зааврыг дагаснаас болж системд учирсан хохирлыг хариуцахгүй. Ийм төрлийн суулгах процедурыг оролдохын өмнө ямар нэгэн чухал өгөгдлийг нөөцлөхийг танд зөвлөж байна.
анхаарах зүйлс
Энэ арга хүчинтэй хэвээр байна уу?
Хиймэл оюун ухааны үүсгүүр маш хурдацтай хөгжиж байгаа бөгөөд энэ жил бид Hunyuan Video LoRA хүрээний илүү сайн, илүү оновчтой аргуудыг хүлээж байна.
... эсвэл бүр энэ долоо хоногт! Намайг энэ нийтлэлийг бичиж байх хооронд Kohya/Musubi-ийн хөгжүүлэгч бэлтгэсэн musubi-tuner-gui, Musubi Tuner-д зориулсан боловсронгуй Gradio GUI:
Musubi-tuner-gui ажиллаж байх үед миний энэ функцэд ашигладаг BAT файлуудаас хэрэглэгчдэд ээлтэй GUI нь илүү дээр байх нь ойлгомжтой. Би бичиж байхдаа энэ нь ердөө тавхан хоногийн өмнө онлайн болсон бөгөөд хэн ч үүнийг амжилттай ашиглаж байсан бүртгэлийг олж чадаагүй байна.
Хадгалах газар дахь нийтлэлүүдийн дагуу шинэ GUI-г аль болох хурдан Musubi Tuner төсөл рүү шууд оруулахаар төлөвлөж байгаа бөгөөд энэ нь одоогийн бие даасан GitHub репозиторыг дуусгах болно.
Одоогийн суулгах заавар дээр үндэслэн шинэ GUI нь одоо байгаа Musubi виртуал орчинд шууд хувилагдсан болно; олон хүчин чармайлт гаргасан ч би үүнийг одоо байгаа Musubi суулгацтай холбож чадахгүй байна. Энэ нь ажиллахад хөдөлгүүргүй болохыг олж мэдэх болно гэсэн үг юм!
GUI-г Musubi Tuner-д нэгтгэсний дараа энэ төрлийн асуудлууд шийдэгдэх нь гарцаагүй. Хэдийгээр зохиолч шинэ төсөл "үнэхээр бүдүүлэг" гэдгийг хүлээн зөвшөөрч байна, тэр үүнийг хөгжүүлж, Musubi Tuner-д шууд нэгтгэнэ гэж өөдрөгөөр харж байна.
Эдгээр асуудлуудыг харгалзан үзвэл (мөн суулгах үеийн анхдагч замууд, мөн UV Python багц, энэ нь шинэ хувилбарт тодорхой процедурыг хүндрүүлдэг), бид Hunyuan Video LoRA-ийн сургалтыг илүү зөөлөн болгохын тулд бага зэрэг хүлээх хэрэгтэй болно. Энэ нь маш ирээдүйтэй харагдаж байна гэж хэлсэн!
Харин та хүлээж чадахгүй, мөн ханцуй шамлан ороход бэлэн байгаа бол яг одоо орон нутагт явагдаж байгаа Hunyuan видео LoRA сургалтыг авах боломжтой.
Эхэлцгээе.
Яагаад суулгах ямар нэг зүйл Bare Metal дээр?
(Хэрэв та ахисан түвшний хэрэглэгч биш бол энэ догол мөрийг алгасах)
Дэвшилтэт хэрэглэгчид яагаад би виртуал орчинд биш, нүцгэн металл Windows 10 суулгац дээр ийм их хэмжээний програм суулгахаар шийдсэнийг гайхах болно. Үүний шалтгаан нь Линукс дээр суурилсан Windows-ийн чухал порт юм Тритон багц виртуал орчинд ажиллахад илүү хэцүү байдаг. Сургалтын бусад бүх нүцгэн металл суурилуулалтыг виртуал орчинд суулгах боломжгүй, учир нь тэдгээр нь орон нутгийн техник хангамжтай шууд холбогдох ёстой.
Урьдчилсан багц болон програмуудыг суулгаж байна
Анх суулгах шаардлагатай программууд болон багцуудын хувьд суулгах дараалал чухал. Эхэлцгээе.
1: Microsoft Redistributable програмыг татаж авна уу
Microsoft-ын дахин хуваарилагдах багцыг эндээс татаж аваад суулгана уу https://aka.ms/vs/17/release/vc_redist.x64.exe.
Энэ бол энгийн бөгөөд хурдан суурилуулалт юм.
2: Visual Studio 2022 суулгана уу
Microsoft Visual Studio 2022 нийгэмлэгийн хувилбарыг эндээс татаж авна уу https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta
Татаж авсан суулгагчийг эхлүүлнэ үү:
Бидэнд бэлэн багц бүр хэрэггүй бөгөөд энэ нь хүнд бөгөөд урт суулгац болно. Эхний үед Ажлын ачаалал нээгдэж буй хуудсанд тэмдэг тавина Ширээний компьютерийг C++ ашиглан хөгжүүлнэ (доорх зургийг үзнэ үү).
Дараа нь Бие даасан бүрэлдэхүүн хэсгүүд Интерфэйсийн зүүн дээд буланд байгаа таб руу ороод "Windows SDK"-г олохын тулд хайлтын талбарыг ашиглана уу.
Анхдагч байдлаар, зөвхөн Windows 11 SDK тэмдэглэгдсэн байна. Хэрэв та Windows 10 дээр байгаа бол (энэ суулгах процедурыг Windows 11 дээр би туршиж үзээгүй) дээрх зурган дээр заасан Windows 10-ийн хамгийн сүүлийн хувилбарыг чагтална уу.
'C++ CMake' гэж хайж олоод шалгана уу Windows-д зориулсан C++ CMake хэрэгслүүд шалгаж байна.
Энэ суулгац дор хаяж 13 ГБ зай эзэлнэ.
Visual Studio суулгасны дараа энэ нь таны компьютер дээр ажиллахыг оролдох болно. Үүнийг бүрэн нээгээрэй. Visual Studio-ийн бүтэн дэлгэцийн интерфейс эцэст нь харагдах үед програмыг хаа.
3: Visual Studio 2019 суулгана уу
Musubi-д зориулсан дараагийн багцуудын зарим нь Microsoft Visual Studio-ийн хуучин хувилбарыг хүлээж байгаа бол заримд нь илүү сүүлийн үеийн хувилбар хэрэгтэй болно.
Тиймээс Visual Studio 19-ийн олон нийтийн үнэгүй хувилбарыг Microsoft-оос татаж аваарай (https://visualstudio.microsoft.com/vs/older-downloads/ – данс шаардлагатай) эсвэл Techspot (https://www.techspot.com/downloads/7241-visual-studio-2019.html).
Үүнийг Visual Studio 2022-тэй ижил сонголтоор суулгаарай (дээрх процедурыг харна уу, эс тооцвол Windows SDK Visual Studio 2019 суулгагч дээр аль хэдийн тэмдэглэгдсэн байна).
Visual Studio 2019 суулгагч нь суулгаж байхдаа шинэ хувилбарыг аль хэдийн мэддэг болохыг та харах болно:
Суулгац дуусч, суулгасан Visual Studio 2019 програмыг нээж хаасны дараа Windows командын мөрийг нээнэ үү (Төрөл CMD Start Search хэсэгт) гэж бичээд дараахыг оруулна уу:
where cl
Үр дүн нь суулгасан хоёр Visual Studio хувилбарын мэдэгдэж буй байршил байх ёстой.
Хэрэв та оронд нь ав INFO: Could not find files for the given pattern(s)
, үзнэ үү Замыг шалгана уу Энэ нийтлэлийн доорх хэсгийг нээгээд Windows орчинд холбогдох Visual Studio замыг нэмэхийн тулд эдгээр зааврыг ашиглана уу.
-ийн дагуу хийсэн өөрчлөлтийг хадгална уу Замуудыг шалгана уу доорх хэсгийг сонгоод, хаана cl командыг дахин оролдоно уу.
4: CUDA 11 + 12 Toolkits суулгана уу
Musubi-д суулгасан янз бүрийн багцуудад өөр өөр хувилбар хэрэгтэй NVIDIA CUDA, энэ нь NVIDIA график картуудын сургалтыг хурдасгаж, оновчтой болгодог.
Бид Visual Studio хувилбаруудыг суулгасан шалтгаан эхний Энэ нь NVIDIA CUDA суулгагчид одоо байгаа Visual Studio суулгацуудыг хайж хайж, тэдгээртэй нэгтгэдэг.
11+ цуврал CUDA суулгах багцыг дараахаас татаж авна уу:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (татаж авах 'exe (орон нутгийн') )
12+ цуврал CUDA Toolkit суулгах багцыг дараахаас татаж авна уу:
https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64
Суулгах процесс нь хоёр суулгагчийн хувьд ижил байна. Windows орчны хувьсагчдад суулгах зам байгаа эсвэл байхгүй байгаа тухай анхааруулгыг үл тоомсорло - бид үүнийг дараа нь гараар хийх болно.
NVIDIA CUDA Toolkit V11+ суулгана уу
CUDA хэрэгслийн 11+ цувралын суулгагчийг эхлүүлнэ үү.
At Суулгацын сонголтуудсонгох Тусгай (Нарийвчилсан) үргэлжлүүлээрэй.
NVIDIA GeForce Experience сонголтыг арилгаад дарна уу Дараа нь.
үлдээгээрэй Суулгах байршлыг сонгоно уу анхдагчаар (энэ нь чухал):
Дарах Дараа нь мөн суулгацыг дуусгая.
Суулгагчийн өгсөн анхааруулга, тэмдэглэлийг үл тоомсорло Nsight Visual Studio интеграци, энэ нь бидний хэрэглээний тохиолдолд шаардлагагүй юм.
NVIDIA CUDA Toolkit V12+ суулгана уу
Таны татаж авсан тусдаа 12+ NVIDIA Toolkit суулгагчийн бүх процессыг давтана уу:
Энэ хувилбарыг суулгах процесс нь дээр дурдсан (11+ хувилбар)-тай адил бөгөөд хүрээлэн буй орчны замуудын талаарх нэг анхааруулгыг эс тооцвол та үүнийг үл тоомсорлож болно:
CUDA-ийн 12+ хувилбарыг суулгаж дуусмагц Windows дээр командын мөрийг нээж дараахыг бичээд оруулна уу:
nvcc --version
Энэ нь суулгасан драйверын хувилбарын талаарх мэдээллийг баталгаажуулах ёстой:
Таны карт танигдсан эсэхийг шалгахын тулд дараахийг бичээд оруулна уу:
nvidia-smi
5: GIT суулгана уу
GIT нь таны локал машин дээр Musubi репозиторыг суулгах ажлыг хариуцна. GIT суулгагчийг дараах хаягаар татаж авна уу:
https://git-scm.com/downloads/win ('Windows тохиргоонд зориулсан 64-бит Git')
Суулгагчийг ажиллуулна уу:
өгөгдмөл тохиргоог ашиглана уу Бүрэлдэхүүн хэсгүүдийг сонгоно уу:
Өгөгдмөл засварлагчийг хаягаар үлдээнэ үү VIM:
Салбарын нэрийг GIT-д шийднэ үү:
Санал болгож буй тохиргоог ашиглана уу Зам Хүрээлэн буй орчин:
SSH-д санал болгож буй тохиргоог ашиглана уу:
Санал болгож буй тохиргоог ашиглана уу HTTPS Transport backend:
Мөр төгсгөлийн хөрвүүлэлтийг хийхдээ санал болгож буй тохиргоог ашиглана уу:
Терминал эмулятор болгон Windows үндсэн консолыг сонгоно уу:
Өгөгдмөл тохиргоог ашиглах (Хурдан урагшлуулах эсвэл нэгтгэх) Git Pull-д:
Credential Helper-д Git-Credential Manager (үндсэн тохиргоо) ашиглана уу:
In Нэмэлт сонголтуудыг тохируулж байна, явах Файлын системийн кэшийг идэвхжүүлэх тэмдэглэсэн ба Симбол холбоосыг идэвхжүүлнэ тэмдэглэгээгүй (хэрэв та төвлөрсөн загварын репозиторын хатуу холбоосыг ашиглаж байгаа ахисан түвшний хэрэглэгч биш бол).
Суулгацыг дуусгаад Git-г зөв суулгасан эсэхийг CMD цонхыг нээж дараахийг бичээд оруулна уу.
git --version
GitHub нэвтрэх
Дараа нь та GitHub репозиторуудыг хувилах гэж оролдох үед GitHub-н итгэмжлэлийг авахаар сорьж магадгүй. Үүнийг урьдчилан харахын тулд Windows систем дээрээ суулгасан дурын хөтөч дээр GitHub данс руугаа (шаардлагатай бол үүсгэнэ үү) нэвтэрнэ үү. Ийм байдлаар 0Auth баталгаажуулалтын арга (попап цонх) нь аль болох бага хугацаа шаардагдах ёстой.
Энэ анхны сорилын дараа та автоматаар баталгаажуулсан хэвээр байх ёстой.
6: CMake суулгана уу
Musubi суулгах процессын зарим хэсэгт CMake 3.21 буюу түүнээс дээш хувилбар шаардлагатай. CMake бол олон төрлийн хөрвүүлэгчийг зохион байгуулах, эх кодоос программ хангамжийг эмхэтгэх чадвартай платформ хоорондын хөгжүүлэлтийн архитектур юм.
Татаж авах:
https://cmake.org/download/ ('Windows x64 суулгагч')
Суулгагчийг ажиллуулна уу:
хангах Cmake-г PATH орчны хувьсагч руу нэмнэ үү шалгаж байна.
Press Дараа нь.
Windows командын мөрөнд энэ тушаалыг бичээд оруулна уу:
cmake --version
Хэрэв CMake амжилттай суулгасан бол дараах зүйлийг харуулах болно.
cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).
7: Python 3.10 суулгана уу
Python орчуулагч нь энэ төслийн гол төв юм. 3.10 хувилбарыг (Musubi багцын өөр өөр шаардлагуудын хоорондох хамгийн сайн тохирол) татаж авна уу:
https://www.python.org/downloads/release/python-3100/ ('Windows суулгагч (64-бит)')
Татаж авах суулгагчийг ажиллуулаад өгөгдмөл тохиргоог орхино уу:
Суулгах процессын төгсгөлд товшино уу Замын уртын хязгаарыг идэвхгүй болгох (UAC админы баталгаажуулалтыг шаарддаг):
Windows командын мөрөнд бичээд дараахыг оруулна уу:
python --version
Үүний үр дүнд хүрэх ёстой Python 3.10.0
Замуудыг шалгана уу
Musubi фреймворкуудыг клончлох, суулгах, мөн суулгасны дараа хэвийн ажиллах нь түүний бүрэлдэхүүн хэсгүүд нь Windows-ийн хэд хэдэн чухал гадаад бүрэлдэхүүн хэсгүүд, ялангуяа CUDA-д хүрэх замыг мэддэг байхыг шаарддаг.
Тиймээс бид замын орчныг нээж, тэнд шаардлагатай бүх зүйл байгаа эсэхийг шалгах хэрэгтэй.
Windows Environment-ийн удирдлага руу нэвтрэх хурдан арга бол бичих явдал юм Системийн орчны хувьсагчуудыг засварлах Windows хайлтын талбарт.
Үүнийг дарахад энэ нь нээгдэх болно Системийн шинж чанарууд хяналтын самбар. Баруун доод буланд Системийн шинж чанарууддээр дарна уу Байгаль орчны хувьсагч товчийг дарж, цонх гарч ирнэ Байгаль орчны хувьсагч нээгддэг. -д Системийн хувьсагчид Энэ цонхны доод тал дахь самбарыг доош гүйлгэ Зам болон давхар товшино уу. Энэ нь нэртэй цонхыг нээнэ Орчны хувьсагчдыг засах. Хувьсагчдын замыг бүрэн харахын тулд энэ цонхны өргөнийг илүү өргөн чирнэ үү:
Энд чухал оруулгууд байна:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin
Ихэнх тохиолдолд зөв зам хувьсагчид аль хэдийн байх ёстой.
Дутуу замуудыг дарж нэмнэ үү Шинэ зүүн талд Орчны хувьсагчийг засах цонх болон зөв замд наах:
Дээр дурдсан замуудаас зүгээр л хуулж буулгах хэрэггүй; Өөрийн Windows суулгацанд ижил төстэй зам бүр байгаа эсэхийг шалгана уу.
Хэрэв замын бага зэргийн өөрчлөлтүүд (ялангуяа Visual Studio суулгацтай) байвал дээр дурдсан замыг ашиглан зөв зорилтот фолдеруудыг (өөрөөр хэлбэл, x64 in Хөтлөгч64 өөрийн суурилуулалтанд. Дараа нь буулгана эдгээр руу орох замууд Орчны хувьсагчийг засах цонх.
Үүний дараа компьютераа дахин эхлүүлнэ үү.
Musubi суулгаж байна
PIP-г шинэчлэх
PIP суулгагчийн хамгийн сүүлийн хувилбарыг ашиглах нь суулгах зарим үе шатыг жигдрүүлж чадна. Администраторын эрхтэй Windows командын мөрөнд (харна уу Elevation, доор), бичээд оруулна уу:
pip install --upgrade pip
Elevation
Зарим тушаалууд нь өндөр эрх (өөрөөр хэлбэл администратороор ажиллах) шаардаж болно. Хэрэв та дараах үе шатуудад зөвшөөрлийн талаар алдааны мессеж хүлээн авбал тушаал хүлээх цонхыг хааж, администраторын горимд дахин нээнэ үү. CMD Windows хайлтын талбарт хулганы баруун товчийг дарна уу Коммандын шугам ба сонгох Администратороор ажиллуул:
Дараагийн үе шатанд бид Windows тушаалын мөрийн оронд Windows Powershell-ийг ашиглах болно. Та үүнийг оруулснаар олж болно PowerShell Windows хайлтын талбарт оруулаад (шаардлагатай бол) хулганы баруун товчийг дарна уу Администратороор ажиллуул:
Бамбар суулгана уу
Powershell дээр бичээд дараахыг оруулна уу:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Олон багцыг суулгахад тэвчээртэй байгаарай.
Дууссаны дараа та GPU-г идэвхжүүлсэн PyTorch суулгацыг дараахийг бичиж, оруулах замаар баталгаажуулах боломжтой.
python -c "import torch; print(torch.cuda.is_available())"
Үүний үр дүнд:
C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True
Windows-д зориулсан Triton програмыг суулгана уу
Дараа нь суурилуулах ажил Windows-д зориулсан Triton бүрэлдэхүүн хэсэг. Өргөгдсөн Powershell-д (нэг мөрөнд) оруулна уу:
pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl
(Суулгагч triton-3.1.0-cp310-cp310-win_amd64.whl
Архитектур нь 64 бит, орчин нь Python хувилбартай таарч байвал Intel болон AMD CPU-ийн аль алинд нь ажиллана)
Гүйлтийн дараа энэ нь дараах үр дүнд хүргэнэ.
Successfully installed triton-3.1.0
Бид Тритон ажиллаж байгаа эсэхийг Python дээр импортлох замаар шалгаж болно. Энэ тушаалыг оруулна уу:
python -c "import triton; print('Triton is working')"
Энэ нь гарах ёстой:
Triton is working
Triton нь GPU-г идэвхжүүлсэн эсэхийг шалгахын тулд дараахыг оруулна уу:
python -c "import torch; print(torch.cuda.is_available())"
Үүний үр дүнд хүрэх ёстой True
:
Musubi-д зориулсан виртуал орчинг бий болго
Одооноос эхлэн бид өөр программ хангамжийг a Python виртуал орчин (эсвэл венв). Энэ нь дараах бүх програмыг устгахын тулд venv-ийн суулгацын хавтсыг хогийн сав руу чирэхэд л хангалттай гэсэн үг юм.
Суулгацын хавтсыг үүсгэцгээе: нэртэй хавтас үүсгэ Мусуби таны ширээний компьютер дээр. Дараах жишээнүүд нь энэ хавтас байгаа гэж таамаглаж байна: C:\Users\[Your Profile Name]\Desktop\Musubi\
.
Powershell дээр дараахыг оруулан тухайн фолдер руу очно уу:
cd C:\Users\[Your Profile Name]\Desktop\Musubi
Виртуал орчин нь бидний суулгасан зүйлд (ялангуяа Тритон) хандахыг хүсч байгаа тул бид үүнийг ашиглах болно --system-site-packages
туг. Үүнийг оруулна уу:
python -m venv --system-site-packages musubi
Хүрээлэн буй орчин үүсэхийг хүлээгээд дараахыг оруулан идэвхжүүлнэ үү.
.\musubi\Scripts\activate
Энэ мөчөөс эхлэн та бүх санал хүсэлтийн эхэнд (musubi) гарч ирснээр идэвхжсэн виртуал орчинд байгаа гэдгээ мэдэж болно.
Хадгалах газрыг клон хийх
Шинээр үүсгэсэн зүйл рүү шилжих musubi хавтас (энэ нь дотор байгаа Мусуби таны ширээний компьютер дээрх хавтас):
cd musubi
Одоо бид зөв газартаа байгаа тул дараах тушаалыг оруулна уу:
git clone https://github.com/kohya-ss/musubi-tuner.git
Клончлол дуустал хүлээнэ үү (энэ нь удаан хугацаа шаардахгүй).
Суулгахад тавигдах шаардлага
Суулгах хавтас руу очно уу:
cd musubi-tuner
Оруулна уу:
pip install -r requirements.txt
Олон суулгацыг дуусгахыг хүлээнэ үү (энэ нь илүү их хугацаа шаардагдах болно).
Hunyuan Video Venv руу нэвтрэх автоматжуулалт
Ирээдүйн сессүүдэд зориулж шинэ venv-г хялбархан идэвхжүүлж, нэвтрэхийн тулд дараах зүйлийг Notepad-д буулгаж, нэрээр нь хадгална уу. идэвхжүүлэх.bat, ашиглан хадгалах Бүх файлууд сонголт (доорх зургийг үзнэ үү).
@echo off
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate
cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner
cmd
(Солих [Your Profile Name]
Windows хэрэглэгчийн профайлын жинхэнэ нэрээр)
Энэ файлыг аль байршилд хадгалах нь хамаагүй.
Одооноос эхлэн та хоёр дарж болно идэвхжүүлэх.bat тэгээд шууд ажилдаа ор.
Musubi тааруулагчийг ашиглах
Загваруудыг татаж авч байна
Hunyuan Video LoRA сургалтын үйл явц нь Hunyuan видео LoRA-г урьдчилан кэшлэх, сургах бүх боломжит хувилбаруудыг дэмжихийн тулд дор хаяж долоон загварыг татаж авах шаардлагатай. Эдгээр загварууд нийлээд 60 ГБ-аас их жинтэй.
Тэдгээрийг татаж авах одоогийн зааврыг эндээс олж болно https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download
Гэсэн хэдий ч эдгээр нь бичих үед татаж авах заавар юм:
clip_l.safetensors
болон
llava_llama3_fp16.safetensors
llava_llama3_fp8_scaled.safetensors
дээрээс татаж авах боломжтой:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
mp_rank_00_model_states.pt
болон
mp_rank_00_model_states_fp8.pt
mp_rank_00_model_states_fp8_map.pt
дээрээс татаж авах боломжтой:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers
pytorch_model.pt
дээрээс татаж авах боломжтой:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae
Хэдийгээр та эдгээрийг сонгосон дурын лавлахдаа байрлуулж болох ч, дараа нь скрипттэй нийцүүлэхийн тулд тэдгээрийг оруулъя:
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\
Энэ нь энэ цэгээс өмнөх лавлах зохицуулалттай нийцэж байна. Цаашид ямар нэгэн тушаал эсвэл заавар нь загварууд энд байрладаг гэж үзэх болно; [Таны профайлын нэр]-г өөрийн жинхэнэ Windows профайл хавтасны нэрээр солихоо бүү мартаарай.
Мэдээллийн багц бэлтгэх
Олон нийтийн маргааныг үл тоомсорлож, Hunyuan LoRA-д зориулсан сургалтын мэдээллийн багцад 10-100 зураг хэрэгтэй болно гэдгийг хэлэх нь зөв юм. Зургууд нь тэнцвэртэй, сайн чанартай байвал 15 зурагтай ч гэсэн маш сайн үр дүнд хүрч чадна.
Hunyuan LoRA-г зураг эсвэл маш богино, бага нягтралтай видео клип, тэр ч байтугай холимог хэлбэрээр хоёуланг нь сургаж болно, гэхдээ видео клипийг сургалтын өгөгдөл болгон ашиглах нь 24 ГБ картын хувьд ч хэцүү байдаг.
Гэсэн хэдий ч, видео клип нь зөвхөн таны дүрд үнэхээр хэрэгтэй болно Ийм ер бусын байдлаар хөдөлдөг тул Хүнюань Видео сангийн загвар үүнийг мэдэхгүй байж магадгүй юм. эсвэл таах чадвартай байх.
Жишээ нь: Рожер Туулай, ксеноморф, Маск, Хүн аалз, эсвэл бусад шинж чанаруудыг агуулдаг. өвөрмөц онцлог хөдөлгөөн.
Хүнюань Видео нь жирийн эрэгтэй, эмэгтэй хүмүүсийн хэрхэн хөдөлж байгааг аль хэдийн мэддэг тул Hunyuan Video LoRA хүний дүр төрхийг олж авахын тулд видео клип хийх шаардлагагүй. Тиймээс бид статик зургуудыг ашиглах болно.
Зураг бэлтгэх
Хадгалах сав
TLDR хувилбар:
Өгөгдлийн багцдаа бүгд ижил хэмжээтэй зураг ашиглах эсвэл 50x50px хэмжээтэй 10 зураг, 512x768px хэмжээтэй 10 зургийг хоёр өөр хэмжээтэй хооронд 768/512 хуваах нь дээр.
Та үүнийг хийхгүй байсан ч сургалт сайн явагдаж магадгүй - Hunyuan Video LoRAs нь гайхалтай уучлах чадвартай байдаг.
Урт хувилбар
Тогтвортой тархалт зэрэг статик үүсгэгч системд зориулсан Kohya-ss LoRAs-ийн нэгэн адил, шанага Энэ нь ажлын ачааллыг өөр өөр хэмжээтэй зургуудад хуваарилахад ашиглагддаг бөгөөд сургалтын үеэр санах ойн алдаа гаргахгүйгээр илүү том зургуудыг ашиглах боломжийг олгодог (өөрөөр хэлбэл хувинлах нь зургийг GPU-ийн ажиллах боломжтой хэсэг болгон 'тайрах' ба мөн чанарыг хадгалахын зэрэгцээ бүхэл бүтэн зургийн семантик бүрэн бүтэн байдал).
Таны сургалтын өгөгдлийн багцад оруулсан зургийн хэмжээ бүрийн хувьд (жишээ нь, 512x768px) тухайн хэмжээтэй хувин эсвэл "дэд даалгавар" үүсгэгдэнэ. Хэрэв танд дараах зургууд байгаа бол энэ нь таны анхаарал тэнцвэргүй болж, сургалтын явцад зарим зургийг бусдаас илүү анхаарч үзэх эрсдэлтэй.
2х 512x768px зураг
7х 768x512px зураг
1x 1000x600px зураг
3х 400x800px зураг
Эдгээр зургуудад хувингийн анхаарал тэгш бус хуваагдаж байгааг бид харж байна:
Тиймээс нэг форматын хэмжээг баримтлах эсвэл өөр өөр хэмжээтэй хуваарилалтыг харьцангуй тэнцүү байлгахыг хичээ.
Аль ч тохиолдолд маш том зургуудаас зайлсхий, учир нь энэ нь сургалтыг удаашруулж, ач холбогдол багатай байх болно.
Энгийн болгохын тулд би өгөгдлийн багц дахь бүх зурагнуудад 512x768px ашигласан.
Disclaimer: Өгөгдлийн багцад ашигласан загвар (хүн) надад эдгээр зургуудыг энэ зорилгоор ашиглах бүрэн зөвшөөрлийг өгсөн бөгөөд энэ нийтлэлд дурдсан түүний дүр төрхийг харуулсан хиймэл оюун ухаанд суурилсан бүх гаралтыг зөвшөөрсөн.
Миний өгөгдлийн багц нь PNG форматтай 40 зурагнаас бүрддэг (хэдийгээр JPG ч сайн). Миний зургууд энд хадгалагдсан C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman
Та үүсгэх ёстой кэш сургалтын зургийн хавтас доторх хавтас:
Одоо сургалтыг тохируулах тусгай файл үүсгэцгээе.
TOML файлууд
Hunyuan Video LoRAs-ийн сургалт, урьдчилан кэш хийх процессууд нь файлын замыг хавтгай текст файлаас авдаг. .toml өргөтгөл.
Миний тестийн хувьд TOML нь C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml дээр байрладаг.
Миний сургалтын TOML-ийн агуулга дараах байдалтай байна.
[general]
resolution = [512, 768]
caption_extension = ".txt"
batch_size = 1
enable_bucket = true
bucket_no_upscale = false
[[datasets]]
image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"
cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"
num_repeats = 1
(Зургийн болон кэшийн лавлахуудын давхар ташуу зураас нь үргэлж шаардлагатай байдаггүй, гэхдээ зам дээр хоосон зай байгаа тохиолдолд алдаа гарахаас зайлсхийхэд тусалдаг. Би дан урагшлах, дан-дагавчилсан файлуудыг ашигласан .toml файлтай загваруудыг сургасан. арын налуу зураас)
Бид дотроос харж болно resolution
512px ба 768px гэсэн хоёр нарийвчлалыг авч үзэх хэсэг. Та мөн үүнийг 512 дээр үлдээж, сайн үр дүнд хүрч болно.
Тайлбар толь
Хүнюань Видео нь a текст+алсын харааны суурь загвар, тиймээс бидэнд эдгээр зургийн тайлбартай тайлбар хэрэгтэй бөгөөд үүнийг сургалтын явцад анхаарч үзэх болно. Сургалтын үйл явц нь тайлбаргүйгээр бүтэлгүйтэх болно.
Энд байдаг олон түмэн Бид энэ даалгаварт ашиглаж болох нээлттэй эхийн тайлбарын системийг ашиглаж болох боловч үүнийг энгийн байлгаж, ашиглацгаая taggui систем. Хэдийгээр энэ нь GitHub-д хадгалагдаж байгаа бөгөөд эхний ээлжинд маш хүнд гүнзгий суралцах загваруудыг татаж авдаг ч Python сангуудыг ачаалах энгийн Windows-ын гүйцэтгэх программ болон энгийн GUI хэлбэрээр ирдэг.
Taggui-г эхлүүлсний дараа ашиглана уу Файл > Лавлахыг ачаалах өөрийн зургийн өгөгдлийн багц руу шилжихийн тулд тэмдэгт танигч (энэ тохиолдолд, үлгэр жишээ эмэгтэй) нь бүх тайлбарт нэмэгдэх болно:
(Унтраахаа мартуузай 4 битээр ачаална Taggui-г анх нээхэд – энэ нь асаалттай байвал тайлбар бичих явцад алдаа гаргах болно)
Зүүн талын урьдчилан харах баганад байгаа зургийг сонгоод CTRL+A дарж бүх зургийг сонгоно уу. Дараа нь баруун талд байрлах Автомат тайлбарыг эхлүүлэх товчийг дарна уу:
Та баруун гар талын баганад байгаа жижиг CLI хэсэгт Taggui загваруудыг татаж авч байгааг харах болно, гэхдээ та анх удаа тайлбарыг ажиллуулж байгаа тохиолдолд л болно. Үгүй бол та тайлбарыг урьдчилан харах болно.
Одоо зураг бүр өөрийн зургийн агуулгын тайлбар бүхий харгалзах .txt тайлбартай байна:
Та дарж болно Advanced Options Тайлбарын урт, хэв маягийг нэмэгдүүлэхийн тулд Taggui-д оруулсан боловч энэ нь энэхүү гүйлтийн хамрах хүрээнээс гадуур юм.
Taggui-г орхиод цаашаа…
Далд урьдчилсан кэш хийх
Сургалтын үеэр GPU-ийн хэт ачааллаас зайлсхийхийн тулд хоёр төрлийн урьдчилан хадгалсан файлуудыг үүсгэх шаардлагатай - нэг нь зургуудаас авсан далд дүрсийг илэрхийлэх, нөгөө нь тайлбарын агуулгатай холбоотой текст кодчилолыг үнэлэх.
Гурван процессыг хялбаршуулахын тулд (2х кэш + сургалт) та интерактив .BAT файлуудыг ашиглаж болно. Энэ файлууд нь танд асуулт асууж, шаардлагатай мэдээллийг өгөх үед процессыг хариуцах болно.
Урьдчилан далд кэш хийхдээ дараах текстийг Notepad руу хуулж, .BAT файл болгон хадгална уу (өөрөөр хэлбэл, ийм нэр өгнө үү). latent-precache.bat), өмнөх шигээ доош унах цэсэн дэх файлын төрлийг баталгаажуулах Хадгалах харилцан яриа юм Бүх файлууд (доорх зургийг үзнэ үү):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the latent pre-caching script
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling
) else (
echo Operation canceled.
)
REM Keep the window open
pause
(Та солих эсэхээ шалгаарай [Таны профайлын нэр] өөрийн жинхэнэ Windows профайл хавтасны нэрээр)
Одоо та автомат далд кэш хийх .BAT файлыг ажиллуулж болно:
BAT файлаас янз бүрийн асуулт гарч ирэхэд өгөгдлийн багц, кэш фолдерууд болон TOML файлын замыг буулгах буюу бичнэ үү.
Текстийн урьдчилсан кэш
Бид хоёр дахь BAT файлыг үүсгэх бөгөөд энэ удаад текстийг урьдчилан кэш хийх болно.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Use the python executable from the virtual environment
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16
) else (
echo Operation canceled.
)
REM Keep the window open
pause
Өөрийн Windows профайлын нэрийг сольж, үүнийг хадгална уу text-cache.bat (эсвэл таны дуртай өөр нэр), өмнөх BAT файлын журмын дагуу аль ч тохиромжтой байршилд.
Энэ шинэ BAT файлыг ажиллуулж, зааврыг дагана уу, шаардлагатай текстээр кодлогдсон файлууд гарч ирнэ кэш хавтас:
Хүнюань видео Лорагийн сургалт
Бодит LoRA-г сургах нь эдгээр хоёр бэлтгэл процессоос хамаагүй удаан үргэлжлэх болно.
Хэдийгээр бидний санаа зовоож болох олон хувьсагч (багцын хэмжээ, давталт, эрин үе, бүрэн эсвэл тоо хэмжээний загвар ашиглах эсэх гэх мэт) байгаа хэдий ч бид эдгээрийг дахин нэг өдөр хадгалан авч үзэх болно. LoRA бүтээлийн нарийн төвөгтэй байдал.
Одоохондоо сонголтоо бага зэрэг багасгаж, LoRA-г "медиан" тохиргоонд сургацгаая.
Бид гурав дахь BAT файлыг үүсгэх бөгөөд энэ удаад сургалтыг эхлүүлэх болно. Үүнийг Notepad-д буулгаж, өмнөх шигээ BAT файл болгон хадгална уу сургалт.бат (эсвэл таны хүссэн нэр):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p DATASET_CONFIG=Enter the path to the dataset configuration file:
set /p EPOCHS=Enter the number of epochs to train:
set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):
set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):
if "%LEARNING_RATE%"=="1" set LR=1e-3
if "%LEARNING_RATE%"=="2" set LR=5e-3
if "%LEARNING_RATE%"=="" set LR=1e-3
set /p SAVE_STEPS=How often (in steps) to save preview images:
set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?
echo You entered:
echo Dataset configuration file: %DATASET_CONFIG%
echo Number of epochs: %EPOCHS%
echo Output name: %OUTPUT_NAME%
echo Learning rate: %LR%
echo Save preview images every %SAVE_STEPS% steps.
echo Text-prompt file: %SAMPLE_PROMPTS%
REM Prepare the command
set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^
--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^
--dataset_config %DATASET_CONFIG% ^
--sdpa ^
--mixed_precision bf16 ^
--fp8_base ^
--optimizer_type adamw8bit ^
--learning_rate %LR% ^
--gradient_checkpointing ^
--max_data_loader_n_workers 2 ^
--persistent_data_loader_workers ^
--network_module=networks.lora ^
--network_dim=32 ^
--timestep_sampling sigmoid ^
--discrete_flow_shift 1.0 ^
--max_train_epochs %EPOCHS% ^
--save_every_n_epochs=1 ^
--seed 42 ^
--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^
--output_name %OUTPUT_NAME% ^
--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^
--vae_chunk_size 32 ^
--vae_spatial_tile_sample_min_size 128 ^
--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^
--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^
--sample_prompts %SAMPLE_PROMPTS% ^
--sample_every_n_steps %SAVE_STEPS% ^
--sample_at_first
echo The following command will be executed:
echo %CMD%
set /p CONFIRM=Do you want to proceed with training (y/n)?
if /i "%CONFIRM%"=="y" (
%CMD%
) else (
echo Operation canceled.
)
REM Keep the window open
cmd /k
Ердийнх шиг, бүх тохиолдлуудыг орлуулахаа мартуузай of [Таны профайлын нэр] Windows профайлын зөв нэрээр.
лавлах эсэхийг шалгаарай C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\
байгаа бөгөөд байхгүй бол тухайн байршилд үүсгэнэ үү.
Сургалтын урьдчилж харах
Musubi сургагч багшийн хувьд саяхан идэвхжүүлсэн маш энгийн сургалтын урьдчилан харах функц байгаа бөгөөд энэ нь сургалтын загварыг түр зогсоож, хадгалсан сануулгууд дээр үндэслэн зураг үүсгэх боломжийг олгодог. Эдгээр нь автоматаар үүсгэгдсэн хавтсанд хадгалагддаг Дээж, бэлтгэгдсэн загваруудыг хадгалсан ижил лавлахад.
Үүнийг идэвхжүүлэхийн тулд та текст файлд хамгийн сүүлд нэг сануулгыг хадгалах хэрэгтэй. Бидний үүсгэсэн сургалтын BAT нь танаас энэ файлын байршлыг оруулахыг хүсэх болно; тиймээс та хүссэн файлаа нэрлэж, хаана ч хадгалах боломжтой.
Сургалтын горимын хүсэлтээр гурван өөр зураг гаргах файлын зарим шуурхай жишээ энд байна:
Дээрх жишээн дээр харж байгаачлан, та зурганд нөлөөлөх мэдээллийн төгсгөлд тугуудыг тавьж болно:
-w байна өргөн (хэрэв тохируулаагүй бол өгөгдмөл нь 256px, дагуу баримт бичиг)
-х байна өндөр (хэрэв тохируулаагүй бол өгөгдмөл нь 256px)
–f нь хүрээний тоо. Хэрэв 1 гэж тохируулсан бол зураг гарна; нэгээс илүү видео.
-d бол үр юм. Хэрэв тохируулаагүй бол энэ нь санамсаргүй; гэхдээ та үүнийг нэг түлхэц болж байгааг харахаар тохируулах хэрэгтэй.
–s нь үеийн алхамуудын тоо бөгөөд анхдагчаар 20 байна.
үзнэ үү албан ёсны баримт бичиг нэмэлт тугуудын хувьд.
Сургалтыг урьдчилан харах нь таныг сургалтыг цуцалж, өгөгдөл эсвэл тохиргоог дахин авч үзэхэд хүргэж болзошгүй зарим асуудлыг хурдан илрүүлж, цаг хугацаа хэмнэж болох ч нэмэлт сануулга бүр сургалтыг бага зэрэг удаашруулдаг гэдгийг санаарай.
Түүнчлэн, сургалтын урьдчилан харах зургийн өргөн ба өндөр (дээр жагсаасан тугуудад тохируулсан) хэдий чинээ их байх тусам сургалтыг удаашруулна.
Сургалтын BAT файлаа ажиллуулна уу.
Асуулт 1 нь 'Өгөгдлийн багцын тохиргоонд хүрэх замыг оруулна уу. Өөрийн TOML файлын зөв замыг буулгах буюу бичнэ үү.
Асуулт 2 нь 'Бэлтгэл хийх эриний тоог оруулна уу'. Зургийн хэмжээ, чанар, тайлбар болон бусад хүчин зүйлс нөлөөлдөг тул энэ нь туршилт, алдааны хувьсагч юм. Ерөнхийдөө, хэрэв та загвар хангалттай ахисан гэж үзвэл сургалтын цонхонд Ctrl+C товчлуурын хослолыг ашиглан сургалтыг зогсоож болох тул хэт бага гэхээсээ хэт өндөр тохируулсан нь дээр. Эхний ээлжинд үүнийг 100 болгож, хэрхэн явагдаж байгааг хараарай.
Асуулт 3 'Гаралтын загварын нэрийг оруулна уу'. Загвараа нэрлэ! Нэрийг богино бөгөөд энгийн байлгах нь дээр.
Асуулт 4 нь "Сурах хурдыг сонгох" бөгөөд энэ нь анхдагчаар 1e-3 (сонголт 1). Энэ бол цаашдын туршлагаасаа эхлэхэд тохиромжтой газар юм.
Асуулт 5 нь ' Урьдчилан үзэх зургуудыг хэр олон удаа (алхамаар) хадгалах. Хэрэв та үүнийг хэт бага тохируулсан бол урьдчилан харах зураг хадгалах хооронд бага зэрэг ахиц гарах бөгөөд энэ нь сургалтыг удаашруулна.
Асуулт 6 нь 'Сургалтын урьдчилан үзэхэд зориулсан текст мөрийн файлын байршил юу вэ?'. Сануулах текст файлынхаа замыг буулгах буюу бичнэ үү.
Дараа нь BAT танд Hunyuan загвар руу илгээх командыг үзүүлж, цааш үргэлжлүүлэх эсэхийг асууна, y/n.
Үргэлжлүүлэн бэлтгэлээ эхлүүлээрэй:
Энэ хугацаанд та Windows Task Manager-ийн Гүйцэтгэлийн табын GPU хэсгийг шалгавал процесс 16 ГБ орчим VRAM авч байгааг харах болно.
Энэ нь олон тооны NVIDIA график картууд дээр байгаа VRAM-ийн хэмжээ бөгөөд ийм карт эзэмшдэг хүмүүст зориулж 16 ГБ багтаамжтай даалгавруудыг тохируулахын тулд дээд кодыг оновчтой болгосон байж магадгүй тул энэ нь дур зоргоороо тоо биш байж магадгүй юм.
Энэ нь сургалтын команд руу илүү өндөр дарцаг илгээх замаар энэ хэрэглээг нэмэгдүүлэхэд маш хялбар гэж хэлсэн.
Сургалтын үеэр та CMD цонхны баруун доод хэсэгт сургалт эхэлснээс хойш хэр их хугацаа өнгөрснийг харуулсан тоо, сургалтын нийт хугацааг (энэ нь тохируулсан туг, сургалтын зургийн тоо зэргээс шалтгаалж өөр өөр байх болно) харах болно. , сургалтын урьдчилан харах зургийн тоо болон бусад хэд хэдэн хүчин зүйл).
Боломжтой техник хангамж, зургийн тоо, тугны тохиргоо болон бусад хүчин зүйлээс хамааран сургалтын ердийн хугацаа нь дундаж тохиргоонд ойролцоогоор 3-4 цаг байдаг.
Таны бэлтгэгдсэн LoRA загваруудыг Хүнюань видео бичлэг дээр ашиглах
Шалгах цэгүүдийг сонгох
Сургалт дуусахад сургалтын үе бүрт загвар хяналтын цэгтэй болно.
Хадгаламжийн давтамжийг хэрэглэгч хүссэнээр нь өөрчлөх замаар илүү их эсвэл бага хэмжээгээр хадгалахын тулд өөрчилж болно --save_every_n_epochs [N]
сургалтын BAT файл дахь дугаар. Хэрэв та BAT-тай сургалтыг тохируулахдаа алхам тутамд хэмнэлт хийх гэсэн бага үзүүлэлтийг нэмбэл маш олон тооны хяналтын цэгийн файл хадгалагдах болно.
Аль хяналтын цэгийг сонгох вэ?
Өмнө дурьдсанчлан, хамгийн эрт бэлтгэгдсэн загварууд хамгийн уян хатан байх болно, харин хожмын хяналтын цэгүүд хамгийн нарийн ширийн зүйлийг санал болгож магадгүй юм. Эдгээр хүчин зүйлсийг шалгах цорын ганц арга бол зарим LoRA-г ажиллуулж, цөөн хэдэн видео үүсгэх явдал юм. Ингэснээр та аль хяналтын цэгүүд хамгийн бүтээмжтэй болохыг мэдэж, уян хатан байдал, үнэнч байдлын хоорондох хамгийн сайн тэнцвэрийг илэрхийлж чадна.
ComfyUI
Одоогийн байдлаар Hunyuan Video LoRA-г ашиглах хамгийн алдартай (ганц биш ч) орчин юм ComfyUI, таны вэб хөтөч дээр ажилладаг нарийн Gradio интерфэйс бүхий зангилаанд суурилсан засварлагч.

Эх сурвалж: https://github.com/comfyanonymous/ComfyUI
Суурилуулах заавар нь энгийн бөгөөд албан ёсны GitHub репозитороос авах боломжтой (нэмэлт загваруудыг татаж авах шаардлагатай болно).
ComfyUI-д зориулсан загваруудыг хөрвүүлэх
Таны бэлтгэгдсэн загваруудыг ComfyUI-ийн ихэнх хувилбаруудад тохирохгүй (диффузер) форматаар хадгалсан. Musubi нь загварыг ComfyUI-тэй нийцтэй формат руу хөрвүүлэх боломжтой. Үүнийг хэрэгжүүлэхийн тулд BAT файлыг тохируулъя.
Энэ BAT-г ажиллуулахын өмнө үүсгэнэ үү C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\
скриптийн хүлээж буй хавтас.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
:START
REM Get user input
set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):
REM Exit if the user types "exit"
if /i "%INPUT_PATH%"=="exit" goto END
REM Extract the file name from the input path and append 'converted' to it
for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF
set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors
set TARGET=other
echo You entered:
echo Input file: %INPUT_PATH%
echo Output file: %OUTPUT_PATH%
echo Target format: %TARGET%
set /p CONFIRM=Do you want to proceed with the conversion (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the conversion script with correctly quoted paths
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%
echo Conversion complete.
) else (
echo Operation canceled.
)
REM Return to start for another file
goto START
:END
REM Keep the window open
echo Exiting the script.
pause
Өмнөх BAT файлуудын нэгэн адил скриптийг Notepad-аас 'Бүх файлууд' нэрээр хадгалж, нэрлэнэ үү convert.bat (эсвэл таны дуртай зүйл).
Хадгалсны дараа шинэ BAT файл дээр давхар товшоод хөрвүүлэх файлын байршлыг асууна.
Хөрвүүлэхийг хүсэж буй бэлтгэгдсэн файлынхаа замыг оруулах буюу бичээд товшино уу y
, мөн enter дарна уу.
Хөрвүүлсэн LoRA-г хадгалсны дараа ХӨРВҮҮЛСЭН хавтас, скрипт таныг өөр файл хөрвүүлэх эсэхийг асуух болно. Хэрэв та ComfyUI-д олон хяналтын цэгийг шалгахыг хүсвэл загварыг сонгон хөрвүүлнэ үү.
Хангалттай хяналтын цэгүүдийг хөрвүүлсний дараа BAT командын цонхыг хаа.
Та одоо хөрвүүлсэн загваруудаа ComfyUI суулгацынхаа models\loras хавтсанд хуулж болно.
Ихэвчлэн зөв байршил нь дараах байдалтай байна.
C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\
ComfyUI дээр Hunyuan видео LoRAs үүсгэх
ComfyUI-ийн зангилаа дээр суурилсан ажлын урсгалууд нь эхлээд төвөгтэй мэт санагдаж байгаа ч илүү туршлагатай бусад хэрэглэгчдийн тохиргоог ComfyUI цонх руу шууд чирж (нөгөө хэрэглэгчийн ComfyUI-ээр хийсэн) зургийг татаж авч болно. Ажлын урсгалыг JSON файл хэлбэрээр экспортлох боломжтой бөгөөд гараар импортлох эсвэл ComfyUI цонх руу чирэх боломжтой.
Зарим импортын ажлын урсгал нь таны суулгацад байхгүй байж болох хамааралтай байх болно. Тиймээс суулгана уу ComfyUI-менежер, энэ нь алга болсон модулиудыг автоматаар татаж авах боломжтой.

Эх сурвалж: https://github.com/ltdrdata/ComfyUI-Manager
Энэ зааварт байгаа загваруудаас видео үүсгэхэд ашигладаг ажлын урсгалуудын аль нэгийг ачаалахын тулд татаж авна уу энэ JSON файл ComfyUI цонхондоо чирнэ үү (хэдийгээр Reddit болон Discord нийгэмлэгүүдэд Hunyuan Video-г нэвтрүүлсэн илүү сайн ажлын жишээнүүд байдаг бөгөөд миний өөрийнх нь аль нэгээс нь тохируулсан).
Энэ бол ComfyUI-г ашиглах талаар өргөтгөсөн зааварчилгаа өгөх газар биш боловч хэрэв та миний дээр дурдсан JSON байршлыг татаж аваад ашиглавал таны гаралтад нөлөөлөх хэд хэдэн чухал параметрүүдийг дурдах нь зүйтэй.
1) Өргөн ба өндөр
Таны зураг том байх тусам үүсэлт удаан үргэлжлэх бөгөөд санах ойгүй (OOM) алдаа гарах эрсдэл өндөр болно.
2) урт
Энэ нь хүрээний тооны тоон утга юм. Хэдэн секунд нэмэгдэх нь фрэймийн хурдаас хамаарна (энэ байршилд 30 кадр/с гэж тохируулсан). Та секунд>фрэймийг fps дээр үндэслэн хөрвүүлэх боломжтой Omnicalculator дээр.
3) Багцын хэмжээ
Багцын хэмжээг ихэсгэх тусам үр дүн нь хурдан гарах боловч VRAM-ийн ачаалал их байх болно. Үүнийг хэт өндөр болгосноор та OOM авах боломжтой.
4) Үүсгэсэний дараа хяналт
Энэ нь санамсаргүй үрийг хянадаг. Энэ дэд зангилааны сонголтууд нь Тогтмол, өсөлт, бууруулах болон санамсаргүй байдлаар. Хэрэв та үүнийг орхивол Тогтмол мөн текст хүлээх мөрийг бүү өөрчил, та тэр болгонд ижил зураг авах болно. Хэрэв та текстийн сануулгад өөрчлөлт оруулбал зураг хязгаарлагдмал хэмжээгээр өөрчлөгдөнө. The өсөлт болон бууруулах тохиргоо нь та ойролцоох үрийн утгыг судлах боломжийг олгодог, байхад санамсаргүй байдлаар Энэ нь танд мэдэгдлийн цоо шинэ тайлбарыг өгдөг.
5) Лора нэр
Үүсгэх оролдлого хийхээсээ өмнө энд суулгасан загвараа сонгох хэрэгтэй.
6) Токен
Хэрэв та загвараа жетоноор өдөөхөд сургасан бол (жишээ нь "Үлгэр жишээ хүн"), энэ гох үгийг өөрийн сануулгад оруулна уу.
7) Алхам
Энэ нь тархалтын процесст систем хэдэн алхам хэрэглэхийг илэрхийлнэ. Илүү өндөр алхмууд нь илүү дэлгэрэнгүй мэдээллийг олж авах боломжтой боловч энэ арга хэр үр дүнтэй болох талаар дээд хязгаар байдаг бөгөөд энэ босгыг олоход хэцүү байж болно. Нийтлэг алхам нь 20-30 орчим байна.
8) Хавтангийн хэмжээ
Энэ нь үүсгэх явцад нэг удаад хэр их мэдээлэлтэй ажиллахыг тодорхойлдог. Үүнийг анхдагчаар 256 гэж тохируулсан. Үүнийг өсгөх нь үүслийг хурдасгах боловч хэт өндөр өсгөх нь урт хугацааны үйл явцын төгсгөлд ирдэг тул ялангуяа урам хугарах OOM туршлагад хүргэж болзошгүй юм.
9) Түр зуурын давхцал
Хүнюань видео үеийн хүмүүс "хий үзэгдэл" буюу үүнийг хэт бага тохируулбал үнэмшилгүй хөдөлгөөнд хүргэж болзошгүй. Ерөнхийдөө одоогийн мэргэн ухаан бол илүү сайн хөдөлгөөнийг бий болгохын тулд үүнийг фрэймийн тооноос илүү өндөр утгыг тохируулах хэрэгтэй.
Дүгнэлт
Хэдийгээр ComfyUI-ийн хэрэглээг цаашид судлах нь энэ нийтлэлийн хамрах хүрээнээс гадуур боловч Reddit болон Discords дахь олон нийтийн туршлага нь суралцах муруйг хөнгөвчлөх боломжтой бөгөөд хэд хэдэн зүйл байдаг. онлайн гарын авлага үндсийг танилцуулдаг.
Анх 23 оны 2025-р сарын XNUMX-ны Пүрэв гарагт нийтлэгдсэн