కృత్రిమ మేధస్సు
హున్యువాన్ వీడియో లోరా మోడల్లకు శిక్షణ ఇవ్వడం మరియు ఉపయోగించడం ఎలా

శిక్షణ ఇవ్వగల Windows-ఆధారిత సాఫ్ట్వేర్ను ఎలా ఇన్స్టాల్ చేసి ఉపయోగించాలో ఈ కథనం మీకు చూపుతుంది Hunyuan వీడియో LoRA నమూనాలు, హున్యువాన్ వీడియో ఫౌండేషన్ మోడల్లో అనుకూల వ్యక్తిత్వాలను రూపొందించడానికి వినియోగదారుని అనుమతిస్తుంది:
ఆడటానికి క్లిక్ చేయండి. civit.ai కమ్యూనిటీకి చెందిన ప్రముఖ హున్యువాన్ లోరాస్ యొక్క ఇటీవలి పేలుడు నుండి ఉదాహరణలు.
ప్రస్తుతానికి స్థానికంగా Hunyuan LoRA మోడల్లను రూపొందించే రెండు అత్యంత ప్రజాదరణ పొందిన మార్గాలు:
1) ది diffusion-pipe-ui డాకర్-ఆధారిత ఫ్రేమ్వర్క్, ఇది ఆధారపడి ఉంటుంది Linux కోసం విండోస్ సబ్సిస్టమ్ (WSL) కొన్ని ప్రక్రియలను నిర్వహించడానికి.
2) ముసుబి ట్యూనర్, జనాదరణ పొందిన వాటికి కొత్త జోడింపు కోహ్యా ss వ్యాప్తి శిక్షణ నిర్మాణం. ముసుబి ట్యూనర్కు డాకర్ అవసరం లేదు మరియు WSL లేదా ఇతర Linux-ఆధారిత ప్రాక్సీలపై ఆధారపడదు - కానీ Windowsలో అమలు చేయడం కష్టం.
అందువల్ల ఈ రన్-త్రూ ముసుబి ట్యూనర్పై దృష్టి పెడుతుంది మరియు API-ఆధారిత వెబ్సైట్లు లేదా రన్పాడ్ వంటి వాణిజ్య GPU-అద్దె ప్రక్రియలను ఉపయోగించకుండా Hunyuan LoRA శిక్షణ మరియు ఉత్పత్తి కోసం పూర్తిగా స్థానిక పరిష్కారాన్ని అందించడంపై దృష్టి పెడుతుంది.
ఆడటానికి క్లిక్ చేయండి. ఈ కథనం కోసం ముసుబి ట్యూనర్పై LoRA శిక్షణ నుండి నమూనాలు. ఈ కథనాన్ని వివరించే ప్రయోజనాల కోసం చిత్రీకరించబడిన వ్యక్తి మంజూరు చేసిన అన్ని అనుమతులు.
అవసరాలనన్నింటినీ
ఇన్స్టాలేషన్కు కనీసం 10GB VRAM (30GB సిఫార్సు చేయబడినప్పటికీ) 40+/12+ సిరీస్ NVIDIA కార్డ్తో కనీసం Windows 16 PC అవసరం. ఈ కథనం కోసం ఉపయోగించిన ఇన్స్టాలేషన్ 64GB ఉన్న మెషీన్లో పరీక్షించబడింది వ్యవస్థ RAM మరియు 3090GB VRAMతో NVIDIA 24 గ్రాఫిక్స్ కార్డ్లు. ఇది 10+GB స్పేర్ డిస్క్ స్పేస్తో విభజనపై Windows 600 ప్రొఫెషనల్ యొక్క తాజా ఇన్స్టాల్ను ఉపయోగించి అంకితమైన టెస్ట్-బెడ్ సిస్టమ్లో పరీక్షించబడింది.
హెచ్చరిక
ముసుబి ట్యూనర్ మరియు దాని అవసరాలను ఇన్స్టాల్ చేయడం వలన డెవలపర్-ఫోకస్డ్ సాఫ్ట్వేర్ మరియు ప్యాకేజీలను నేరుగా PC యొక్క ప్రధాన విండోస్ ఇన్స్టాలేషన్లో ఇన్స్టాల్ చేస్తుంది. ComfyUI యొక్క ఇన్స్టాలేషన్ను పరిగణనలోకి తీసుకుంటే, ముగింపు దశల కోసం, ఈ ప్రాజెక్ట్కు దాదాపు 400-500 గిగాబైట్ల డిస్క్ స్థలం అవసరం అవుతుంది. నేను కొత్తగా ఇన్స్టాల్ చేసిన టెస్ట్ బెడ్ విండోస్ 10 ఎన్విరాన్మెంట్లలో సంఘటన లేకుండా ప్రక్రియను చాలాసార్లు పరీక్షించినప్పటికీ, ఈ సూచనలను అనుసరించడం వల్ల సిస్టమ్లకు జరిగే ఏదైనా నష్టానికి నేను లేదా unite.ai బాధ్యత వహించము. ఈ రకమైన ఇన్స్టాలేషన్ విధానాన్ని ప్రయత్నించే ముందు ఏదైనా ముఖ్యమైన డేటాను బ్యాకప్ చేయమని నేను మీకు సలహా ఇస్తున్నాను.
ప్రతిపాదనలు
ఈ పద్ధతి ఇప్పటికీ చెల్లుబాటులో ఉందా?
ఉత్పాదక AI దృశ్యం చాలా వేగంగా కదులుతోంది మరియు మేము ఈ సంవత్సరం Hunyuan Video LoRA ఫ్రేమ్వర్క్ల యొక్క మెరుగైన మరియు మరింత క్రమబద్ధీకరించిన పద్ధతులను ఆశించవచ్చు.
… లేదా ఈ వారం కూడా! నేను ఈ కథనాన్ని వ్రాస్తున్నప్పుడు, Kohya/Musubi డెవలపర్ రూపొందించారు musubi-tuner-gui, ముసుబి ట్యూనర్ కోసం ఒక అధునాతన Gradio GUI:
నేను ఈ ఫీచర్లో ఉపయోగించే BAT ఫైల్ల కంటే వినియోగదారు-స్నేహపూర్వక GUI ఉత్తమం - ఒకసారి musubi-tuner-gui పని చేస్తుంది. నేను వ్రాస్తున్నట్లుగా, ఇది ఐదు రోజుల క్రితం మాత్రమే ఆన్లైన్లోకి వెళ్లింది మరియు దాన్ని విజయవంతంగా ఉపయోగించిన వారి ఖాతా నాకు కనిపించలేదు.
రిపోజిటరీలోని పోస్ట్ల ప్రకారం, కొత్త GUIని వీలైనంత త్వరగా ముసుబి ట్యూనర్ ప్రాజెక్ట్లోకి నేరుగా రోల్ చేయడానికి ఉద్దేశించబడింది, ఇది స్వతంత్ర GitHub రిపోజిటరీగా దాని ప్రస్తుత ఉనికిని ముగించేస్తుంది.
ప్రస్తుత ఇన్స్టాలేషన్ సూచనల ఆధారంగా, కొత్త GUI ఇప్పటికే ఉన్న ముసుబి వర్చువల్ ఎన్విరాన్మెంట్లోకి నేరుగా క్లోన్ చేయబడుతుంది; మరియు, అనేక ప్రయత్నాలు చేసినప్పటికీ, నేను ఇప్పటికే ఉన్న ముసుబి ఇన్స్టాలేషన్తో అనుబంధించలేకపోయాను. అంటే అది రన్ అయినప్పుడు దానికి ఇంజన్ లేదని కనుక్కుంటుంది!
GUIని Musubi ట్యూనర్లో విలీనం చేసిన తర్వాత, ఈ రకమైన సమస్యలు ఖచ్చితంగా పరిష్కరించబడతాయి. రచయిత అయినప్పటికీ కొత్త ప్రాజెక్ట్ 'నిజంగా కఠినమైనది' అని అంగీకరిస్తుంది, అతను నేరుగా ముసుబి ట్యూనర్లో దాని అభివృద్ధి మరియు ఏకీకరణ కోసం ఆశాజనకంగా ఉన్నాడు.
ఈ సమస్యల కారణంగా (ఇన్స్టాల్-టైమ్లో డిఫాల్ట్ పాత్లు మరియు వినియోగానికి సంబంధించి కూడా UV పైథాన్ ప్యాకేజీ, ఇది కొత్త విడుదలలో నిర్దిష్ట విధానాలను క్లిష్టతరం చేస్తుంది), మేము బహుశా సున్నితమైన Hunyuan వీడియో LoRA శిక్షణ అనుభవం కోసం కొంచెం వేచి ఉండవలసి ఉంటుంది. ఇది చాలా ఆశాజనకంగా కనిపిస్తోంది!
కానీ మీరు వేచి ఉండలేకపోతే మరియు మీ స్లీవ్లను కొంచెం పైకి తిప్పడానికి సిద్ధంగా ఉంటే, మీరు ప్రస్తుతం స్థానికంగా నడుస్తున్న హున్యువాన్ వీడియో లోరా శిక్షణను పొందవచ్చు.
ప్రారంభిద్దాం.
ఎందుకు ఇన్స్టాల్ చేయాలి ఏదైనా బేర్ మెటల్ మీద?
(మీరు అధునాతన వినియోగదారు కాకపోతే ఈ పేరాను దాటవేయి)
నేను వర్చువల్ వాతావరణంలో కాకుండా బేర్ మెటల్ Windows 10 ఇన్స్టాలేషన్లో చాలా సాఫ్ట్వేర్లను ఇన్స్టాల్ చేయడానికి ఎందుకు ఎంచుకున్నాను అని అధునాతన వినియోగదారులు ఆశ్చర్యపోతారు. కారణం Linux ఆధారిత Windows పోర్ట్ అవసరమైనది ట్రిటాన్ ప్యాకేజీ వర్చువల్ వాతావరణంలో పని చేయడం చాలా కష్టం. ట్యుటోరియల్లోని అన్ని ఇతర బేర్-మెటల్ ఇన్స్టాలేషన్లు వర్చువల్ వాతావరణంలో ఇన్స్టాల్ చేయబడవు, ఎందుకంటే అవి స్థానిక హార్డ్వేర్తో నేరుగా ఇంటర్ఫేస్ చేయాలి.
ముందస్తు ప్యాకేజీలు మరియు ప్రోగ్రామ్లను ఇన్స్టాల్ చేస్తోంది
ప్రారంభంలో ఇన్స్టాల్ చేయవలసిన ప్రోగ్రామ్లు మరియు ప్యాకేజీల కోసం, ఇన్స్టాలేషన్ క్రమం ముఖ్యం. ప్రారంభిద్దాం.
1: Microsoft రీడిస్ట్రిబ్యూటబుల్ని డౌన్లోడ్ చేయండి
నుండి Microsoft Redistributable ప్యాకేజీని డౌన్లోడ్ చేసి, ఇన్స్టాల్ చేయండి https://aka.ms/vs/17/release/vc_redist.x64.exe.
ఇది సూటిగా మరియు వేగవంతమైన సంస్థాపన.
2: విజువల్ స్టూడియో 2022ని ఇన్స్టాల్ చేయండి
నుండి Microsoft Visual Studio 2022 కమ్యూనిటీ ఎడిషన్ను డౌన్లోడ్ చేయండి https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta
డౌన్లోడ్ చేసిన ఇన్స్టాలర్ను ప్రారంభించండి:
మాకు అందుబాటులో ఉన్న ప్రతి ప్యాకేజీ అవసరం లేదు, ఇది భారీ మరియు సుదీర్ఘమైన ఇన్స్టాల్ అవుతుంది. ప్రారంభంలో పనిభారం తెరుచుకునే పేజీ, టిక్ చేయండి C++తో డెస్క్టాప్ అభివృద్ధి (క్రింద ఉన్న చిత్రాన్ని చూడండి).
ఇప్పుడు క్లిక్ చేయండి వ్యక్తిగత భాగాలు ఇంటర్ఫేస్ యొక్క ఎగువ-ఎడమ వైపున ఉన్న ట్యాబ్ను మరియు 'Windows SDK'ని కనుగొనడానికి శోధన పెట్టెను ఉపయోగించండి.
డిఫాల్ట్గా, మాత్రమే Windows 11 SDK టిక్ చేయబడింది. మీరు Windows 10లో ఉన్నట్లయితే (ఈ ఇన్స్టాలేషన్ విధానాన్ని Windows 11లో నేను పరీక్షించలేదు), పై చిత్రంలో సూచించిన తాజా Windows 10 సంస్కరణను టిక్ చేయండి.
'C++ CMake' కోసం శోధించండి మరియు దాన్ని తనిఖీ చేయండి Windows కోసం C++ CMake సాధనాలు తనిఖీ చేయబడింది.
ఈ ఇన్స్టాలేషన్కు కనీసం 13 GB స్థలం పడుతుంది.
విజువల్ స్టూడియో ఇన్స్టాల్ చేసిన తర్వాత, అది మీ కంప్యూటర్లో రన్ చేయడానికి ప్రయత్నిస్తుంది. పూర్తిగా తెరవనివ్వండి. విజువల్ స్టూడియో యొక్క పూర్తి-స్క్రీన్ ఇంటర్ఫేస్ చివరకు కనిపించినప్పుడు, ప్రోగ్రామ్ను మూసివేయండి.
3: విజువల్ స్టూడియో 2019ని ఇన్స్టాల్ చేయండి
ముసుబి కోసం కొన్ని తదుపరి ప్యాకేజీలు మైక్రోసాఫ్ట్ విజువల్ స్టూడియో యొక్క పాత వెర్షన్ని ఆశిస్తున్నాయి, మరికొన్నింటికి మరింత ఇటీవలిది అవసరం.
అందువల్ల విజువల్ స్టూడియో 19 యొక్క ఉచిత కమ్యూనిటీ ఎడిషన్ను Microsoft నుండి డౌన్లోడ్ చేసుకోండి (https://visualstudio.microsoft.com/vs/older-downloads/ – ఖాతా అవసరం) లేదా టెక్స్పాట్ (https://www.techspot.com/downloads/7241-visual-studio-2019.html).
విజువల్ స్టూడియో 2022 కోసం అదే ఎంపికలతో దీన్ని ఇన్స్టాల్ చేయండి (పైన ఉన్న విధానాన్ని చూడండి, అది తప్ప Windows SDK విజువల్ స్టూడియో 2019 ఇన్స్టాలర్లో ఇప్పటికే టిక్ చేయబడింది).
విజువల్ స్టూడియో 2019 ఇన్స్టాలర్ ఇన్స్టాల్ చేస్తున్నప్పుడు కొత్త వెర్షన్ గురించి ఇప్పటికే తెలుసుకుంటున్నట్లు మీరు చూస్తారు:
ఇన్స్టాలేషన్ పూర్తయినప్పుడు మరియు మీరు ఇన్స్టాల్ చేసిన విజువల్ స్టూడియో 2019 అప్లికేషన్ను తెరిచి మూసివేసినప్పుడు, విండోస్ కమాండ్ ప్రాంప్ట్ (రకం) తెరవండి సిఎండి శోధనను ప్రారంభించులో) మరియు టైప్ చేసి నమోదు చేయండి:
where cl
ఫలితంగా ఇన్స్టాల్ చేయబడిన రెండు విజువల్ స్టూడియో ఎడిషన్ల యొక్క తెలిసిన స్థానాలు ఉండాలి.
మీరు బదులుగా పొందినట్లయితే INFO: Could not find files for the given pattern(s)
, చూడండి మార్గాన్ని తనిఖీ చేయండి దిగువన ఉన్న ఈ కథనం యొక్క విభాగం, మరియు సంబంధిత విజువల్ స్టూడియో పాత్లను Windows పర్యావరణానికి జోడించడానికి ఆ సూచనలను ఉపయోగించండి.
ప్రకారం చేసిన ఏవైనా మార్పులను సేవ్ చేయండి మార్గాలను తనిఖీ చేయండి క్రింద విభాగం, ఆపై ఎక్కడ cl ఆదేశాన్ని మళ్లీ ప్రయత్నించండి.
4: CUDA 11 + 12 టూల్కిట్లను ఇన్స్టాల్ చేయండి
ముసుబిలో ఇన్స్టాల్ చేయబడిన వివిధ ప్యాకేజీలకు విభిన్న వెర్షన్లు అవసరం ఎన్విడియా కుడా, ఇది NVIDIA గ్రాఫిక్స్ కార్డ్లపై శిక్షణను వేగవంతం చేస్తుంది మరియు ఆప్టిమైజ్ చేస్తుంది.
మేము విజువల్ స్టూడియో వెర్షన్లను ఇన్స్టాల్ చేయడానికి కారణం మొదటి NVIDIA CUDA ఇన్స్టాలర్లు ఇప్పటికే ఉన్న ఏవైనా విజువల్ స్టూడియో ఇన్స్టాలేషన్ల కోసం శోధిస్తాయి మరియు ఏకీకృతం చేస్తాయి.
దీని నుండి 11+ సిరీస్ CUDA ఇన్స్టాలేషన్ ప్యాకేజీని డౌన్లోడ్ చేయండి:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (డౌన్లోడ్ చేయండి 'exe (స్థానికం') )
దీని నుండి 12+ సిరీస్ CUDA టూల్కిట్ ఇన్స్టాలేషన్ ప్యాకేజీని డౌన్లోడ్ చేయండి:
https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64
ఇన్స్టాలేషన్ ప్రక్రియ రెండు ఇన్స్టాలర్లకు ఒకేలా ఉంటుంది. విండోస్ ఎన్విరాన్మెంట్ వేరియబుల్స్లో ఇన్స్టాలేషన్ పాత్ల ఉనికి లేదా ఉనికి గురించి ఏవైనా హెచ్చరికలను విస్మరించండి - మేము దీన్ని తర్వాత మాన్యువల్గా హాజరవ్వబోతున్నాము.
NVIDIA CUDA టూల్కిట్ V11+ని ఇన్స్టాల్ చేయండి
11+ సిరీస్ CUDA టూల్కిట్ కోసం ఇన్స్టాలర్ను ప్రారంభించండి.
At సంస్థాపన ఐచ్ఛికాలు, ఎంచుకోండి అనుకూల (అధునాతన) మరియు కొనసాగండి.
NVIDIA GeForce ఎక్స్పీరియన్స్ ఎంపికను అన్చెక్ చేసి, క్లిక్ చేయండి తరువాతి .
<span style="font-family: Mandali; "> లీవ్ ఇన్స్టాలేషన్ స్థానాన్ని ఎంచుకోండి డిఫాల్ట్లలో (ఇది ముఖ్యమైనది):
క్లిక్ చేయండి తరువాతి మరియు సంస్థాపనను ముగించనివ్వండి.
ఇన్స్టాలర్ ఇచ్చే ఏదైనా హెచ్చరిక లేదా గమనికలను విస్మరించండి Nsight విజువల్ స్టూడియో ఇంటిగ్రేషన్, ఇది మా ఉపయోగం విషయంలో అవసరం లేదు.
NVIDIA CUDA టూల్కిట్ V12+ని ఇన్స్టాల్ చేయండి
మీరు డౌన్లోడ్ చేసిన ప్రత్యేక 12+ NVIDIA టూల్కిట్ ఇన్స్టాలర్ కోసం మొత్తం ప్రక్రియను పునరావృతం చేయండి:
మీరు విస్మరించగల పర్యావరణ మార్గాల గురించి ఒక హెచ్చరిక మినహా, ఈ సంస్కరణ యొక్క ఇన్స్టాల్ ప్రక్రియ పైన జాబితా చేయబడిన (11+ సంస్కరణ)కి సమానంగా ఉంటుంది:
12+ CUDA వెర్షన్ ఇన్స్టాలేషన్ పూర్తయినప్పుడు, విండోస్లో కమాండ్ ప్రాంప్ట్ తెరిచి టైప్ చేసి ఎంటర్ చేయండి:
nvcc --version
ఇది ఇన్స్టాల్ చేయబడిన డ్రైవర్ వెర్షన్ గురించి సమాచారాన్ని నిర్ధారించాలి:
మీ కార్డ్ గుర్తించబడిందో లేదో తనిఖీ చేయడానికి, టైప్ చేసి నమోదు చేయండి:
nvidia-smi
5: GITని ఇన్స్టాల్ చేయండి
మీ స్థానిక మెషీన్లో ముసుబి రిపోజిటరీ యొక్క ఇన్స్టాలేషన్ను GIT నిర్వహిస్తుంది. GIT ఇన్స్టాలర్ను ఇక్కడ డౌన్లోడ్ చేయండి:
https://git-scm.com/downloads/win ('విండోస్ సెటప్ కోసం 64-బిట్ Git')
ఇన్స్టాలర్ను అమలు చేయండి:
కోసం డిఫాల్ట్ సెట్టింగ్లను ఉపయోగించండి భాగాలు ఎంచుకోండి:
డిఫాల్ట్ ఎడిటర్ను ఇక్కడ వదిలివేయండి vim:
శాఖ పేర్ల గురించి GIT నిర్ణయించనివ్వండి:
కోసం సిఫార్సు చేయబడిన సెట్టింగ్లను ఉపయోగించండి మార్గం వాతావరణం:
SSH కోసం సిఫార్సు చేయబడిన సెట్టింగ్లను ఉపయోగించండి:
కోసం సిఫార్సు చేయబడిన సెట్టింగ్లను ఉపయోగించండి HTTPS రవాణా బ్యాకెండ్:
లైన్-ఎండింగ్ కన్వర్షన్ల కోసం సిఫార్సు చేసిన సెట్టింగ్లను ఉపయోగించండి:
విండోస్ డిఫాల్ట్ కన్సోల్ను టెర్మినల్ ఎమ్యులేటర్గా ఎంచుకోండి:
డిఫాల్ట్ సెట్టింగ్లను ఉపయోగించండి (ఫాస్ట్ ఫార్వర్డ్ లేదా విలీనం) Git Pull కోసం:
క్రెడెన్షియల్ హెల్పర్ కోసం Git-క్రెడెన్షియల్ మేనేజర్ (డిఫాల్ట్ సెట్టింగ్) ఉపయోగించండి:
In అదనపు ఎంపికలను కాన్ఫిగర్ చేస్తోంది, వదిలివేయండి ఫైల్ సిస్టమ్ కాషింగ్ని ప్రారంభించండి టిక్, మరియు సింబాలిక్ లింక్లను ప్రారంభించండి ఎంపిక చేయబడలేదు (మీరు కేంద్రీకృత మోడల్ రిపోజిటరీ కోసం హార్డ్ లింక్లను ఉపయోగిస్తున్న అధునాతన వినియోగదారు అయితే తప్ప).
ఇన్స్టాలేషన్ను ముగించి, CMD విండోను తెరిచి, టైప్ చేసి ఎంటర్ చేయడం ద్వారా Git సరిగ్గా ఇన్స్టాల్ చేయబడిందో లేదో పరీక్షించండి:
git --version
GitHub లాగిన్
తర్వాత, మీరు GitHub రిపోజిటరీలను క్లోన్ చేయడానికి ప్రయత్నించినప్పుడు, మీ GitHub ఆధారాల కోసం మీరు సవాలు చేయబడవచ్చు. దీన్ని అంచనా వేయడానికి, మీ Windows సిస్టమ్లో ఇన్స్టాల్ చేయబడిన ఏదైనా బ్రౌజర్లలో మీ GitHub ఖాతాకు లాగిన్ చేయండి (అవసరమైతే ఒకదాన్ని సృష్టించండి). ఈ విధంగా, 0Auth ప్రమాణీకరణ పద్ధతి (పాప్-అప్ విండో) వీలైనంత తక్కువ సమయం పడుతుంది.
ఆ ప్రారంభ సవాలు తర్వాత, మీరు స్వయంచాలకంగా ప్రామాణీకరించబడాలి.
6: CMakeని ఇన్స్టాల్ చేయండి
ముసుబి ఇన్స్టాలేషన్ ప్రాసెస్లోని భాగాలకు CMake 3.21 లేదా కొత్తది అవసరం. CMake అనేది విభిన్న కంపైలర్లను ఆర్కెస్ట్రేట్ చేయగల మరియు సోర్స్ కోడ్ నుండి సాఫ్ట్వేర్ను కంపైల్ చేయగల క్రాస్-ప్లాట్ఫారమ్ డెవలప్మెంట్ ఆర్కిటెక్చర్.
దీన్ని ఇక్కడ డౌన్లోడ్ చేయండి:
https://cmake.org/download/ ('Windows x64 ఇన్స్టాలర్')
ఇన్స్టాలర్ను ప్రారంభించండి:
నిర్ధారించడానికి PATH పర్యావరణ వేరియబుల్కు Cmakeని జోడించండి తనిఖీ చేయబడింది.
ప్రెస్ తరువాతి .
విండోస్ కమాండ్ ప్రాంప్ట్లో ఈ ఆదేశాన్ని టైప్ చేసి నమోదు చేయండి:
cmake --version
CMake విజయవంతంగా ఇన్స్టాల్ చేయబడితే, అది ఇలాంటి వాటిని ప్రదర్శిస్తుంది:
cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).
7: పైథాన్ 3.10ని ఇన్స్టాల్ చేయండి
ఈ ప్రాజెక్ట్కు పైథాన్ ఇంటర్ప్రెటర్ ప్రధానమైనది. 3.10 వెర్షన్ను డౌన్లోడ్ చేయండి (ముసుబి ప్యాకేజీల యొక్క విభిన్న డిమాండ్ల మధ్య ఉత్తమమైన రాజీ)
https://www.python.org/downloads/release/python-3100/ ('Windows ఇన్స్టాలర్ (64-బిట్)')
డౌన్లోడ్ ఇన్స్టాలర్ను అమలు చేయండి మరియు డిఫాల్ట్ సెట్టింగ్లలో వదిలివేయండి:
ఇన్స్టాలేషన్ ప్రక్రియ ముగింపులో, క్లిక్ చేయండి మార్గం పొడవు పరిమితిని నిలిపివేయండి (UAC అడ్మిన్ నిర్ధారణ అవసరం):
విండోస్ కమాండ్ ప్రాంప్ట్లో టైప్ చేసి ఎంటర్ చేయండి:
python --version
ఇది ఫలితాన్ని ఇవ్వాలి Python 3.10.0
మార్గాలను తనిఖీ చేయండి
ముసుబి ఫ్రేమ్వర్క్ల క్లోనింగ్ మరియు ఇన్స్టాలేషన్, అలాగే ఇన్స్టాలేషన్ తర్వాత దాని సాధారణ ఆపరేషన్, దాని భాగాలు విండోస్లోని అనేక ముఖ్యమైన బాహ్య భాగాలకు, ముఖ్యంగా CUDAకి మార్గం తెలుసుకోవడం అవసరం.
కాబట్టి మనం పాత్ ఎన్విరాన్మెంట్ని తెరిచి, అన్ని అవసరాలు ఉన్నాయో లేదో తనిఖీ చేయాలి.
విండోస్ ఎన్విరాన్మెంట్ కోసం నియంత్రణలను పొందడానికి శీఘ్ర మార్గం టైప్ చేయడం సిస్టమ్ ఎన్విరాన్మెంట్ వేరియబుల్స్ను సవరించండి Windows శోధన పట్టీలోకి.
దీన్ని క్లిక్ చేయడం ద్వారా తెరవబడుతుంది సిస్టమ్ గుణాలు నియంత్రణ ప్యానెల్. దిగువ కుడివైపున సిస్టమ్ గుణాలు, క్లిక్ చేయండి ఎన్విరాన్మెంట్ వేరియబుల్స్ బటన్, మరియు అనే విండో ఎన్విరాన్మెంట్ వేరియబుల్స్ తెరుచుకుంటుంది. లో సిస్టమ్ వేరియబుల్స్ ఈ విండో దిగువ భాగంలో ప్యానెల్, క్రిందికి స్క్రోల్ చేయండి మార్గం మరియు దానిపై డబుల్ క్లిక్ చేయండి. ఇది అనే విండోను తెరుస్తుంది ఎన్విరాన్మెంట్ వేరియబుల్స్ సవరించండి. ఈ విండో వెడల్పును విస్తృతంగా లాగండి, తద్వారా మీరు వేరియబుల్స్ యొక్క పూర్తి మార్గాన్ని చూడవచ్చు:
ఇక్కడ ముఖ్యమైన ఎంట్రీలు:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin
చాలా సందర్భాలలో, సరైన పాత్ వేరియబుల్స్ ఇప్పటికే ఉండాలి.
క్లిక్ చేయడం ద్వారా తప్పిపోయిన ఏవైనా మార్గాలను జోడించండి కొత్త యొక్క ఎడమ వైపున ఎన్విరాన్మెంట్ వేరియబుల్ని సవరించండి విండో మరియు సరైన మార్గంలో అతికించడం:
ఎగువ జాబితా చేయబడిన మార్గాల నుండి కాపీ చేసి అతికించవద్దు; ప్రతి సమానమైన మార్గం మీ స్వంత Windows ఇన్స్టాలేషన్లో ఉందో లేదో తనిఖీ చేయండి.
చిన్న పాత్ వైవిధ్యాలు ఉంటే (ముఖ్యంగా విజువల్ స్టూడియో ఇన్స్టాలేషన్లతో), సరైన లక్ష్య ఫోల్డర్లను కనుగొనడానికి పైన జాబితా చేసిన మార్గాలను ఉపయోగించండి (అంటే, x64 in హోస్ట్64 మీ స్వంత సంస్థాపనలో. తర్వాత అతికించండి ఆ లోకి మార్గాలు ఎన్విరాన్మెంట్ వేరియబుల్ని సవరించండి కిటికీ.
దీని తరువాత, కంప్యూటర్ పునఃప్రారంభించండి.
ముసుబిని ఇన్స్టాల్ చేస్తోంది
PIPని అప్గ్రేడ్ చేయండి
PIP ఇన్స్టాలర్ యొక్క తాజా వెర్షన్ని ఉపయోగించడం వలన కొన్ని ఇన్స్టాలేషన్ దశలను సున్నితంగా చేయవచ్చు. అడ్మినిస్ట్రేటర్ అధికారాలతో విండోస్ కమాండ్ ప్రాంప్ట్లో (చూడండి ఎత్తు, క్రింద), టైప్ చేసి నమోదు చేయండి:
pip install --upgrade pip
ఎత్తు
కొన్ని కమాండ్లకు ఎలివేటెడ్ ప్రివిలేజ్లు అవసరం కావచ్చు (అంటే, అడ్మినిస్ట్రేటర్గా అమలు చేయడానికి). కింది దశల్లో అనుమతుల గురించి మీకు ఎర్రర్ మెసేజ్లు వస్తే, కమాండ్ ప్రాంప్ట్ విండోను మూసివేసి, టైప్ చేయడం ద్వారా అడ్మినిస్ట్రేటర్ మోడ్లో దాన్ని మళ్లీ తెరవండి సిఎండి Windows శోధన పెట్టెలో, కుడి-క్లిక్ చేయండి కమాండ్ ప్రాంప్ట్ మరియు ఎంచుకోవడం నిర్వాహకుని వలె అమలు చేయండి:
తదుపరి దశల కోసం, మేము Windows కమాండ్ ప్రాంప్ట్కు బదులుగా Windows Powershellని ఉపయోగించబోతున్నాము. మీరు దీన్ని నమోదు చేయడం ద్వారా కనుగొనవచ్చు PowerShell Windows శోధన పెట్టెలోకి, మరియు (అవసరమైతే) దానిపై కుడి-క్లిక్ చేయండి నిర్వాహకుని వలె అమలు చేయండి:
టార్చ్ ఇన్స్టాల్ చేయండి
పవర్షెల్లో, టైప్ చేసి ఎంటర్ చేయండి:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
అనేక ప్యాకేజీలను ఇన్స్టాల్ చేస్తున్నప్పుడు ఓపికపట్టండి.
పూర్తయిన తర్వాత, మీరు టైప్ చేసి ఎంటర్ చేయడం ద్వారా GPU-ప్రారంభించబడిన PyTorch ఇన్స్టాలేషన్ను ధృవీకరించవచ్చు:
python -c "import torch; print(torch.cuda.is_available())"
దీని ఫలితంగా ఉండాలి:
C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True
Windows కోసం ట్రిటాన్ను ఇన్స్టాల్ చేయండి
తరువాత, యొక్క సంస్థాపన Windows కోసం ట్రిటాన్ భాగం. ఎలివేటెడ్ పవర్షెల్లో, నమోదు చేయండి (ఒకే లైన్లో):
pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl
(ఇన్స్టాలర్ triton-3.1.0-cp310-cp310-win_amd64.whl
ఆర్కిటెక్చర్ 64-బిట్ మరియు పర్యావరణం పైథాన్ వెర్షన్తో సరిపోలినంత వరకు Intel మరియు AMD CPUలు రెండింటికీ పని చేస్తుంది)
అమలు చేసిన తర్వాత, దీని ఫలితంగా:
Successfully installed triton-3.1.0
పైథాన్లో దిగుమతి చేయడం ద్వారా ట్రైటాన్ పనిచేస్తుందో లేదో మనం తనిఖీ చేయవచ్చు. ఈ ఆదేశాన్ని నమోదు చేయండి:
python -c "import triton; print('Triton is working')"
ఇది అవుట్పుట్ చేయాలి:
Triton is working
ట్రైటాన్ GPU-ప్రారంభించబడిందో లేదో తనిఖీ చేయడానికి, నమోదు చేయండి:
python -c "import torch; print(torch.cuda.is_available())"
ఇది ఫలితాన్ని ఇవ్వాలి True
:
ముసుబి కోసం వర్చువల్ ఎన్విరాన్మెంట్ని సృష్టించండి
ఇప్పటి నుండి, మేము ఇంకా ఏదైనా సాఫ్ట్వేర్ను a లోకి ఇన్స్టాల్ చేస్తాము పైథాన్ వర్చువల్ పర్యావరణం (లేదా venv) కింది సాఫ్ట్వేర్లన్నింటినీ అన్ఇన్స్టాల్ చేయడానికి మీరు చేయాల్సిందల్లా venv యొక్క ఇన్స్టాలేషన్ ఫోల్డర్ను ట్రాష్కి లాగడం.
ఆ ఇన్స్టాలేషన్ ఫోల్డర్ని క్రియేట్ చేద్దాం: అనే ఫోల్డర్ని తయారు చేయండి ముసుబి మీ డెస్క్టాప్లో. ఈ ఫోల్డర్ ఉనికిలో ఉందని క్రింది ఉదాహరణలు ఊహిస్తాయి: C:\Users\[Your Profile Name]\Desktop\Musubi\
.
పవర్షెల్లో, నమోదు చేయడం ద్వారా ఆ ఫోల్డర్కి నావిగేట్ చేయండి:
cd C:\Users\[Your Profile Name]\Desktop\Musubi
మేము ఇప్పటికే ఇన్స్టాల్ చేసిన వాటికి (ముఖ్యంగా ట్రిటాన్) వర్చువల్ ఎన్విరాన్మెంట్ యాక్సెస్ ఉండాలని మేము కోరుకుంటున్నాము, కాబట్టి మేము దీనిని ఉపయోగిస్తాము --system-site-packages
జెండా. దీన్ని నమోదు చేయండి:
python -m venv --system-site-packages musubi
పర్యావరణం సృష్టించబడే వరకు వేచి ఉండి, ఆపై నమోదు చేయడం ద్వారా దాన్ని సక్రియం చేయండి:
.\musubi\Scripts\activate
ఈ సమయం నుండి, మీ అన్ని ప్రాంప్ట్ల ప్రారంభంలో (ముసుబి) కనిపించడం ద్వారా మీరు యాక్టివేట్ చేయబడిన వర్చువల్ వాతావరణంలో ఉన్నారని మీరు చెప్పగలరు.
రిపోజిటరీని క్లోన్ చేయండి
కొత్తగా సృష్టించిన వాటికి నావిగేట్ చేయండి musubi ఫోల్డర్ (ఇది లోపల ఉంది ముసుబి మీ డెస్క్టాప్లోని ఫోల్డర్):
cd musubi
ఇప్పుడు మనం సరైన స్థానంలో ఉన్నాము, కింది ఆదేశాన్ని నమోదు చేయండి:
git clone https://github.com/kohya-ss/musubi-tuner.git
క్లోనింగ్ పూర్తయ్యే వరకు వేచి ఉండండి (దీనికి ఎక్కువ సమయం పట్టదు).
సంస్థాపన అవసరాలు
ఇన్స్టాలేషన్ ఫోల్డర్కి నావిగేట్ చేయండి:
cd musubi-tuner
నమోదు చేయండి:
pip install -r requirements.txt
అనేక ఇన్స్టాలేషన్లు పూర్తయ్యే వరకు వేచి ఉండండి (దీనికి ఎక్కువ సమయం పడుతుంది).
హున్యువాన్ వీడియో వెన్వికి స్వయంచాలకంగా యాక్సెస్
భవిష్యత్ సెషన్ల కోసం కొత్త venvని సులభంగా యాక్టివేట్ చేయడానికి మరియు యాక్సెస్ చేయడానికి, కింది వాటిని నోట్ప్యాడ్లో అతికించి, పేరుతో సేవ్ చేయండి యాక్టివేట్.బ్యాట్, తో సేవ్ చేస్తోంది అన్ని ఫైళ్ళు ఎంపిక (క్రింద ఉన్న చిత్రాన్ని చూడండి).
@echo off
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate
cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner
cmd
(పునఃస్థాపించుము [Your Profile Name]
మీ Windows యూజర్ ప్రొఫైల్ యొక్క అసలు పేరుతో)
మీరు ఈ ఫైల్ని ఏ లొకేషన్లో సేవ్ చేస్తారనేది పట్టింపు లేదు.
ఇప్పటి నుండి మీరు డబుల్ క్లిక్ చేయవచ్చు యాక్టివేట్.బ్యాట్ మరియు వెంటనే పని ప్రారంభించండి.
ముసుబి ట్యూనర్ని ఉపయోగించడం
మోడల్లను డౌన్లోడ్ చేస్తోంది
హున్యువాన్ వీడియో లోరా శిక్షణ ప్రక్రియకు హున్యువాన్ వీడియో లోరాను ప్రీ-కాషింగ్ మరియు శిక్షణ కోసం సాధ్యమయ్యే అన్ని ఆప్టిమైజేషన్ ఎంపికలకు మద్దతు ఇవ్వడానికి కనీసం ఏడు మోడళ్లను డౌన్లోడ్ చేయడం అవసరం. మొత్తంగా, ఈ నమూనాలు 60GB కంటే ఎక్కువ బరువు కలిగి ఉంటాయి.
వాటిని డౌన్లోడ్ చేయడానికి ప్రస్తుత సూచనలను ఇక్కడ చూడవచ్చు https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download
అయితే, ఇవి వ్రాసే సమయంలో డౌన్లోడ్ సూచనలు:
clip_l.safetensors
మరియు
llava_llama3_fp16.safetensors
llava_llama3_fp8_scaled.safetensors
ఇక్కడ డౌన్లోడ్ చేసుకోవచ్చు:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
mp_rank_00_model_states.pt
మరియు
mp_rank_00_model_states_fp8.pt
mp_rank_00_model_states_fp8_map.pt
ఇక్కడ డౌన్లోడ్ చేసుకోవచ్చు:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers
pytorch_model.pt
ఇక్కడ డౌన్లోడ్ చేసుకోవచ్చు:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae
మీరు వీటిని మీరు ఎంచుకున్న ఏ డైరెక్టరీలో అయినా ఉంచవచ్చు, తర్వాత స్క్రిప్టింగ్తో అనుగుణ్యత కోసం, వీటిని ఉంచుదాం:
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\
ఇది ఈ పాయింట్కి ముందు ఉన్న డైరెక్టరీ అమరికకు అనుగుణంగా ఉంటుంది. ఇకపై ఏవైనా ఆదేశాలు లేదా సూచనలు మోడల్లు ఇక్కడే ఉన్నాయని ఊహిస్తారు; మరియు [మీ ప్రొఫైల్ పేరు]ని మీ నిజమైన Windows ప్రొఫైల్ ఫోల్డర్ పేరుతో భర్తీ చేయడం మర్చిపోవద్దు.
డేటాసెట్ తయారీ
కమ్యూనిటీ వివాదాన్ని విస్మరిస్తూ, మీ హున్యువాన్ లోరా కోసం శిక్షణా డేటాసెట్ కోసం మీకు 10-100 ఫోటోల మధ్య ఎక్కడైనా అవసరం అని చెప్పడం న్యాయమే. 15 చిత్రాలతో కూడా చాలా మంచి ఫలితాలు పొందవచ్చు, చిత్రాలు బాగా సమతుల్యంగా మరియు మంచి నాణ్యతతో ఉన్నంత వరకు.
24GB కార్డ్కి కూడా వీడియో క్లిప్లను శిక్షణ డేటాగా ఉపయోగించడం సవాలుగా ఉన్నప్పటికీ - Hunyuan LoRAకి ఇమేజ్లు లేదా చాలా చిన్న మరియు తక్కువ-రిస్ వీడియో క్లిప్లు లేదా ప్రతి ఒక్కటి మిశ్రమంపై కూడా శిక్షణ ఇవ్వవచ్చు.
అయితే, మీ పాత్ర ఉంటే మాత్రమే వీడియో క్లిప్లు నిజంగా ఉపయోగపడతాయి హున్యువాన్ వీడియో ఫౌండేషన్ మోడల్కు దాని గురించి తెలియని అసాధారణ రీతిలో కదులుతుంది, లేదా ఊహించగలరు.
ఉదాహరణలలో రోజర్ రాబిట్, జెనోమార్ఫ్, ది మాస్క్, స్పైడర్ మ్యాన్ లేదా ఇతర వ్యక్తులు ఏకైక లక్షణం ఉద్యమం.
సాధారణ పురుషులు మరియు మహిళలు ఎలా కదులుతారో హున్యువాన్ వీడియోకు ఇప్పటికే తెలుసు కాబట్టి, హున్యువాన్ వీడియో లోరా మానవ-రకం పాత్రను పొందేందుకు వీడియో క్లిప్లు అవసరం లేదు. కాబట్టి మేము స్టాటిక్ చిత్రాలను ఉపయోగిస్తాము.
చిత్రం తయారీ
ది బకెట్ లిస్ట్
TLDR వెర్షన్:
మీ డేటాసెట్కి ఒకే పరిమాణంలో ఉన్న చిత్రాలను ఉపయోగించడం లేదా రెండు వేర్వేరు పరిమాణాల మధ్య 50/50 స్ప్లిట్ని ఉపయోగించడం ఉత్తమం, అంటే 10x512px మరియు 768 చిత్రాలు 10x768px.
మీరు దీన్ని చేయకపోయినా శిక్షణ బాగానే ఉండవచ్చు - హున్యువాన్ వీడియో లోరాలు ఆశ్చర్యకరంగా క్షమించగలవు.
ది లాంగర్ వెర్షన్
స్థిరమైన వ్యాప్తి వంటి స్టాటిక్ ఉత్పాదక వ్యవస్థల కోసం Kohya-ss LoRAల వలె, బకెటింగ్ విభిన్న-పరిమాణ చిత్రాలలో పనిభారాన్ని పంపిణీ చేయడానికి ఉపయోగించబడుతుంది, శిక్షణ సమయంలో మెమరీ లోపాలు లేకుండా పెద్ద చిత్రాలను ఉపయోగించడానికి అనుమతిస్తుంది (అనగా, బకెట్ చేయడం ద్వారా GPU నిర్వహించగలిగే భాగాలుగా చిత్రాలను 'కట్ అప్' చేస్తుంది, మొత్తం చిత్రం యొక్క అర్థ సమగ్రత).
మీరు మీ శిక్షణ డేటాసెట్లో (అంటే, 512x768px) చేర్చిన ప్రతి చిత్రం పరిమాణం కోసం, ఆ పరిమాణం కోసం ఒక బకెట్ లేదా 'సబ్-టాస్క్' సృష్టించబడుతుంది. కాబట్టి మీరు ఈ క్రింది చిత్రాల పంపిణీని కలిగి ఉన్నట్లయితే, బకెట్ అటెన్షన్ ఈ విధంగా అసమతుల్యత చెందుతుంది మరియు శిక్షణలో కొన్ని ఫోటోలు ఇతరులకన్నా ఎక్కువగా పరిగణించబడే ప్రమాదం ఉంది:
2x 512x768px చిత్రాలు
7x 768x512px చిత్రాలు
1x 1000x600px చిత్రం
3x 400x800px చిత్రాలు
ఈ చిత్రాల మధ్య బకెట్ దృష్టి అసమానంగా విభజించబడిందని మనం చూడవచ్చు:
అందువల్ల ఒక ఫార్మాట్ పరిమాణానికి కట్టుబడి ఉండండి లేదా వివిధ పరిమాణాల పంపిణీని సాపేక్షంగా సమానంగా ఉంచడానికి ప్రయత్నించండి.
ఏ సందర్భంలోనైనా, చాలా పెద్ద చిత్రాలను నివారించండి, ఎందుకంటే ఇది శిక్షణను నెమ్మదిస్తుంది, స్వల్ప ప్రయోజనం పొందుతుంది.
సరళత కోసం, నేను నా డేటాసెట్లోని అన్ని ఫోటోల కోసం 512x768pxని ఉపయోగించాను.
తనది కాదను వ్యక్తి: డేటాసెట్లో ఉపయోగించిన మోడల్ (వ్యక్తి) ఈ ప్రయోజనం కోసం ఈ చిత్రాలను ఉపయోగించడానికి నాకు పూర్తి అనుమతిని అందించింది మరియు ఈ కథనంలో ప్రదర్శించబడిన ఆమె పోలికను వర్ణించే అన్ని AI- ఆధారిత అవుట్పుట్లకు ఆమోదం తెలిపింది.
నా డేటాసెట్ PNG ఆకృతిలో 40 చిత్రాలను కలిగి ఉంది (అయితే JPG కూడా బాగానే ఉంది). నా చిత్రాలు ఇక్కడ నిల్వ చేయబడ్డాయి C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman
మీరు a సృష్టించాలి కాష్ శిక్షణ చిత్రం ఫోల్డర్ లోపల ఫోల్డర్:
ఇప్పుడు శిక్షణను కాన్ఫిగర్ చేసే ప్రత్యేక ఫైల్ని క్రియేట్ చేద్దాం.
TOML ఫైల్లు
హున్యువాన్ వీడియో లోరాస్ యొక్క శిక్షణ మరియు ప్రీ-కాషింగ్ ప్రక్రియలు ఫ్లాట్ టెక్స్ట్ ఫైల్ నుండి ఫైల్ పాత్లను పొందుతాయి .toml పొడిగింపు.
నా పరీక్ష కోసం, TOML C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.tomlలో ఉంది
నా శిక్షణ TOML యొక్క కంటెంట్లు ఇలా ఉన్నాయి:
[general]
resolution = [512, 768]
caption_extension = ".txt"
batch_size = 1
enable_bucket = true
bucket_no_upscale = false
[[datasets]]
image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"
cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"
num_repeats = 1
(చిత్రం మరియు కాష్ డైరెక్టరీల కోసం డబుల్ బ్యాక్-స్లాష్లు ఎల్లప్పుడూ అవసరం లేదు, కానీ అవి మార్గంలో ఖాళీ ఉన్న సందర్భాల్లో లోపాలను నివారించడంలో సహాయపడతాయి. నేను సింగిల్-ఫార్వర్డ్ మరియు సింగిల్-ని ఉపయోగించే .toml ఫైల్లతో మోడల్లను శిక్షణ పొందాను. వెనుక స్లాష్లు)
లో మనం చూడవచ్చు resolution
రెండు రిజల్యూషన్లు పరిగణించబడే విభాగం - 512px మరియు 768px. మీరు దీన్ని 512 వద్ద వదిలివేయవచ్చు మరియు ఇప్పటికీ మంచి ఫలితాలను పొందవచ్చు.
శీర్షికలు
హున్యువాన్ వీడియో ఒక టెక్స్ట్+విజన్ ఫౌండేషన్ మోడల్, కాబట్టి ఈ చిత్రాల కోసం మాకు వివరణాత్మక శీర్షికలు అవసరం, ఇది శిక్షణ సమయంలో పరిగణించబడుతుంది. శీర్షికలు లేకుండా శిక్షణ ప్రక్రియ విఫలమవుతుంది.
ఒక ఉన్నాయి సమూహము ఈ టాస్క్ కోసం మనం ఉపయోగించగల ఓపెన్ సోర్స్ క్యాప్షనింగ్ సిస్టమ్లు, కానీ దానిని సరళంగా ఉంచి, ఉపయోగించుకుందాం taggui వ్యవస్థ. ఇది GitHubలో నిల్వ చేయబడినప్పటికీ, మొదటి రన్లో చాలా భారీ డీప్ లెర్నింగ్ మోడల్లను డౌన్లోడ్ చేసినప్పటికీ, ఇది పైథాన్ లైబ్రరీలను మరియు సరళమైన GUIని లోడ్ చేసే సాధారణ Windows ఎక్జిక్యూటబుల్ రూపంలో వస్తుంది.
Tagguiని ప్రారంభించిన తర్వాత, ఉపయోగించండి ఫైల్ > లోడ్ డైరెక్టరీ మీ చిత్ర డేటాసెట్కి నావిగేట్ చేయడానికి మరియు ఐచ్ఛికంగా టోకెన్ ఐడెంటిఫైయర్ను ఉంచండి (ఈ సందర్భంలో, ఉదాహరణ స్త్రీ) ఇది అన్ని శీర్షికలకు జోడించబడుతుంది:
(తప్పకుండా ఆఫ్ చేయండి 4-బిట్లో లోడ్ చేయండి Taggui మొదట తెరిచినప్పుడు – దీన్ని ఆన్లో ఉంచితే క్యాప్షన్ సమయంలో లోపాలు ఏర్పడతాయి)
అన్ని చిత్రాలను ఎంచుకోవడానికి ఎడమవైపు ప్రివ్యూ కాలమ్లో చిత్రాన్ని ఎంచుకోండి మరియు CTRL+A నొక్కండి. ఆపై కుడివైపున ఉన్న స్టార్ట్ ఆటో-క్యాప్షనింగ్ బటన్ను నొక్కండి:
మీరు కుడివైపు కాలమ్లోని చిన్న CLIలో Taggui మోడల్లను డౌన్లోడ్ చేయడాన్ని చూస్తారు, అయితే మీరు క్యాప్షనర్ను అమలు చేయడం ఇదే మొదటిసారి అయితే మాత్రమే. లేదంటే మీరు క్యాప్షన్ల ప్రివ్యూని చూస్తారు.
ఇప్పుడు, ప్రతి ఫోటో దాని చిత్ర విషయాల వివరణతో సంబంధిత .txt శీర్షికను కలిగి ఉంది:
మీరు క్లిక్ చేయవచ్చు అధునాతన ఎంపికలు శీర్షికల పొడవు మరియు శైలిని పెంచడానికి Tagguiలో, కానీ అది ఈ రన్-త్రూ పరిధికి మించినది.
Taggui నుండి నిష్క్రమించండి మరియు దీనికి కొనసాగండి…
గుప్త ప్రీ-కాషింగ్
శిక్షణ సమయంలో అధిక GPU లోడ్ను నివారించడానికి, రెండు రకాల ముందుగా కాష్ చేసిన ఫైల్లను సృష్టించడం అవసరం - ఒకటి ఇమేజ్ల నుండి వచ్చిన గుప్త చిత్రాన్ని సూచించడానికి మరియు మరొకటి క్యాప్షన్ కంటెంట్కు సంబంధించిన టెక్స్ట్ ఎన్కోడింగ్ను మూల్యాంకనం చేయడానికి.
మూడు ప్రక్రియలను (2x కాష్ + శిక్షణ) సులభతరం చేయడానికి, మీరు ఇంటరాక్టివ్ .BAT ఫైల్లను ఉపయోగించవచ్చు, అవి మిమ్మల్ని ప్రశ్నలు అడగవచ్చు మరియు మీరు అవసరమైన సమాచారాన్ని అందించినప్పుడు ప్రక్రియలను చేపట్టవచ్చు.
గుప్త ప్రీ-కాషింగ్ కోసం, కింది టెక్స్ట్ను నోట్ప్యాడ్లోకి కాపీ చేసి, దానిని .BAT ఫైల్గా సేవ్ చేయండి (అంటే, దీనికి పేరు పెట్టండి latent-precache.bat), మునుపటిలా, డ్రాప్ డౌన్ మెనులో ఫైల్ రకాన్ని నిర్ధారిస్తుంది ఇలా సేవ్ చేయండి డైలాగ్ ఉంది అన్ని ఫైళ్ళు (క్రింద ఉన్న చిత్రాన్ని చూడండి):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the latent pre-caching script
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling
) else (
echo Operation canceled.
)
REM Keep the window open
pause
(మీరు భర్తీ చేశారని నిర్ధారించుకోండి [మీ ప్రొఫైల్ పేరు] మీ నిజమైన Windows ప్రొఫైల్ ఫోల్డర్ పేరుతో)
ఇప్పుడు మీరు ఆటోమేటిక్ లాటెంట్ కాషింగ్ కోసం .BAT ఫైల్ని రన్ చేయవచ్చు:
BAT ఫైల్ నుండి వివిధ ప్రశ్నల ద్వారా ప్రాంప్ట్ చేయబడినప్పుడు, మీ డేటాసెట్, కాష్ ఫోల్డర్లు మరియు TOML ఫైల్కి పాత్ను అతికించండి లేదా టైప్ చేయండి.
టెక్స్ట్ ప్రీ-కాషింగ్
మేము రెండవ BAT ఫైల్ని సృష్టిస్తాము, ఈసారి టెక్స్ట్ ప్రీ-కాషింగ్ కోసం.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Use the python executable from the virtual environment
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16
) else (
echo Operation canceled.
)
REM Keep the window open
pause
మీ Windows ప్రొఫైల్ పేరును భర్తీ చేయండి మరియు దీన్ని ఇలా సేవ్ చేయండి text-cache.bat (లేదా మీకు నచ్చిన ఏదైనా ఇతర పేరు), మునుపటి BAT ఫైల్కు సంబంధించిన విధానం ప్రకారం ఏదైనా అనుకూలమైన ప్రదేశంలో.
ఈ కొత్త BAT ఫైల్ని అమలు చేయండి, సూచనలను అనుసరించండి మరియు అవసరమైన టెక్స్ట్-ఎన్కోడ్ ఫైల్లు లో కనిపిస్తాయి కాష్ ఫోల్డర్:
హున్యువాన్ వీడియో లోరా శిక్షణ
అసలు LoRAకి శిక్షణ ఇవ్వడానికి ఈ రెండు సన్నాహక ప్రక్రియల కంటే ఎక్కువ సమయం పడుతుంది.
మేము చింతించగల అనేక వేరియబుల్స్ కూడా ఉన్నప్పటికీ (బ్యాచ్ పరిమాణం, రిపీట్లు, యుగాలు మరియు ఇతర వాటితో పాటు పూర్తి లేదా పరిమాణాత్మక నమూనాలను ఉపయోగించాలా వద్దా అనేవి), మేము ఈ పరిగణనలను మరొక రోజు కోసం సేవ్ చేస్తాము మరియు మరింత లోతుగా పరిశీలిస్తాము LoRA సృష్టి యొక్క చిక్కులు.
ప్రస్తుతానికి, ఎంపికలను కొద్దిగా తగ్గించి, 'మధ్యస్థ' సెట్టింగ్లపై LoRAకి శిక్షణ ఇద్దాం.
మేము శిక్షణను ప్రారంభించడానికి ఈసారి మూడవ BAT ఫైల్ని సృష్టిస్తాము. దీన్ని నోట్ప్యాడ్లో అతికించి, మునుపటిలాగా, BAT ఫైల్గా సేవ్ చేయండి శిక్షణ.బ్యాట్ (లేదా మీరు ఇష్టపడే ఏదైనా పేరు):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p DATASET_CONFIG=Enter the path to the dataset configuration file:
set /p EPOCHS=Enter the number of epochs to train:
set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):
set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):
if "%LEARNING_RATE%"=="1" set LR=1e-3
if "%LEARNING_RATE%"=="2" set LR=5e-3
if "%LEARNING_RATE%"=="" set LR=1e-3
set /p SAVE_STEPS=How often (in steps) to save preview images:
set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?
echo You entered:
echo Dataset configuration file: %DATASET_CONFIG%
echo Number of epochs: %EPOCHS%
echo Output name: %OUTPUT_NAME%
echo Learning rate: %LR%
echo Save preview images every %SAVE_STEPS% steps.
echo Text-prompt file: %SAMPLE_PROMPTS%
REM Prepare the command
set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^
--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^
--dataset_config %DATASET_CONFIG% ^
--sdpa ^
--mixed_precision bf16 ^
--fp8_base ^
--optimizer_type adamw8bit ^
--learning_rate %LR% ^
--gradient_checkpointing ^
--max_data_loader_n_workers 2 ^
--persistent_data_loader_workers ^
--network_module=networks.lora ^
--network_dim=32 ^
--timestep_sampling sigmoid ^
--discrete_flow_shift 1.0 ^
--max_train_epochs %EPOCHS% ^
--save_every_n_epochs=1 ^
--seed 42 ^
--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^
--output_name %OUTPUT_NAME% ^
--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^
--vae_chunk_size 32 ^
--vae_spatial_tile_sample_min_size 128 ^
--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^
--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^
--sample_prompts %SAMPLE_PROMPTS% ^
--sample_every_n_steps %SAVE_STEPS% ^
--sample_at_first
echo The following command will be executed:
echo %CMD%
set /p CONFIRM=Do you want to proceed with training (y/n)?
if /i "%CONFIRM%"=="y" (
%CMD%
) else (
echo Operation canceled.
)
REM Keep the window open
cmd /k
ఎప్పటిలాగే, అన్ని సందర్భాలను భర్తీ చేయాలని నిర్ధారించుకోండి of [మీ ప్రొఫైల్ పేరు] మీ సరైన Windows ప్రొఫైల్ పేరుతో.
డైరెక్టరీ అని నిర్ధారించుకోండి C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\
ఉనికిలో ఉంది మరియు కాకపోతే ఆ స్థానంలో దాన్ని సృష్టించండి.
శిక్షణ ప్రివ్యూలు
Musubi ట్రైనర్ కోసం ఇటీవల చాలా ప్రాథమిక శిక్షణ ప్రివ్యూ ఫీచర్ ప్రారంభించబడింది, ఇది మీరు సేవ్ చేసిన ప్రాంప్ట్ల ఆధారంగా శిక్షణ మోడల్ను పాజ్ చేయడానికి మరియు రూపొందించడానికి బలవంతంగా అనుమతిస్తుంది. ఇవి స్వయంచాలకంగా సృష్టించబడిన ఫోల్డర్లో సేవ్ చేయబడతాయి నమూనా, శిక్షణ పొందిన మోడల్లు సేవ్ చేయబడిన అదే డైరెక్టరీలో.
దీన్ని ఎనేబుల్ చేయడానికి, మీరు టెక్స్ట్ ఫైల్లో చివరిగా ఒక ప్రాంప్ట్లో సేవ్ చేయాలి. మేము సృష్టించిన శిక్షణ BAT ఈ ఫైల్ యొక్క స్థానాన్ని ఇన్పుట్ చేయమని మిమ్మల్ని అడుగుతుంది; అందువల్ల మీరు ప్రాంప్ట్ ఫైల్కు మీకు నచ్చిన ఏదైనా పేరు పెట్టవచ్చు మరియు దానిని ఎక్కడైనా సేవ్ చేయవచ్చు.
శిక్షణ రొటీన్ ద్వారా అభ్యర్థించినప్పుడు మూడు వేర్వేరు చిత్రాలను అవుట్పుట్ చేసే ఫైల్ కోసం ఇక్కడ కొన్ని ప్రాంప్ట్ ఉదాహరణలు ఉన్నాయి:
పై ఉదాహరణలో మీరు చూడగలిగినట్లుగా, మీరు చిత్రాలను ప్రభావితం చేసే ప్రాంప్ట్ చివరిలో ఫ్లాగ్లను ఉంచవచ్చు:
-w ఉంది వెడల్పు (ప్రకారం సెట్ చేయకపోతే 256pxకి డిఫాల్ట్ అవుతుంది పత్రాలు)
-h ఉంది ఎత్తు (సెట్ చేయకపోతే డిఫాల్ట్గా 256px)
-f అనేది ఫ్రేమ్ల సంఖ్య. 1కి సెట్ చేస్తే, ఒక చిత్రం ఉత్పత్తి చేయబడుతుంది; ఒకటి కంటే ఎక్కువ, ఒక వీడియో.
-d అనేది విత్తనం. సెట్ చేయకపోతే, అది యాదృచ్ఛికంగా ఉంటుంది; కానీ మీరు ఒక ప్రాంప్ట్ అభివృద్ధి చెందుతున్నట్లు చూడటానికి దాన్ని సెట్ చేయాలి.
–s అనేది జనరేషన్లోని దశల సంఖ్య, 20కి డిఫాల్ట్ అవుతుంది.
చూడండి అధికారిక డాక్యుమెంటేషన్ అదనపు జెండాల కోసం.
శిక్షణ ప్రివ్యూలు మీరు శిక్షణను రద్దు చేయడానికి మరియు డేటా లేదా సెటప్ని పునఃపరిశీలించటానికి కారణమయ్యే కొన్ని సమస్యలను త్వరగా బహిర్గతం చేయగలవు, తద్వారా సమయం ఆదా అవుతుంది, ప్రతి అదనపు ప్రాంప్ట్ శిక్షణను కొంచెం నెమ్మదిస్తుందని గుర్తుంచుకోండి.
అలాగే, శిక్షణ ప్రివ్యూ చిత్రం యొక్క వెడల్పు మరియు ఎత్తు (పైన జాబితా చేయబడిన ఫ్లాగ్లలో సెట్ చేసినట్లు) పెద్దది, అది శిక్షణను నెమ్మదిస్తుంది.
మీ శిక్షణ BAT ఫైల్ను ప్రారంభించండి.
ప్రశ్న #1 అనేది 'డేటాసెట్ కాన్ఫిగరేషన్కు పాత్ను నమోదు చేయండి. మీ TOML ఫైల్కి సరైన మార్గంలో అతికించండి లేదా టైప్ చేయండి.
ప్రశ్న #2 'శిక్షణ కోసం యుగాల సంఖ్యను నమోదు చేయండి'. ఇది ట్రయల్-అండ్-ఎర్రర్ వేరియబుల్, ఎందుకంటే ఇది చిత్రాల మొత్తం మరియు నాణ్యత, అలాగే శీర్షికలు మరియు ఇతర కారకాల ద్వారా ప్రభావితమవుతుంది. సాధారణంగా, మోడల్ తగినంతగా అభివృద్ధి చెందిందని మీరు భావిస్తే, మీరు శిక్షణ విండోలో Ctrl+Cతో శిక్షణను ఎల్లప్పుడూ ఆపవచ్చు కాబట్టి, దీన్ని చాలా తక్కువగా కంటే చాలా ఎక్కువగా సెట్ చేయడం ఉత్తమం. మొదటి సందర్భంలో దాన్ని 100కి సెట్ చేయండి మరియు అది ఎలా జరుగుతుందో చూడండి.
ప్రశ్న #3 'అవుట్పుట్ మోడల్ పేరును నమోదు చేయండి'. మీ మోడల్కు పేరు పెట్టండి! పేరును చిన్నదిగా మరియు సరళంగా ఉంచడం ఉత్తమం.
ప్రశ్న #4 'లెర్నింగ్ రేట్ని ఎంచుకోండి', ఇది 1e-3కి డిఫాల్ట్ అవుతుంది (ఎంపిక 1). ప్రారంభించడానికి ఇది మంచి ప్రదేశం, తదుపరి అనుభవం పెండింగ్లో ఉంది.
ప్రశ్న #5 అనేది 'ప్రివ్యూ చిత్రాలను ఎంత తరచుగా (దశలలో) సేవ్ చేయాలి. మీరు దీన్ని చాలా తక్కువగా సెట్ చేస్తే, ప్రివ్యూ ఇమేజ్ సేవ్ల మధ్య మీరు కొంచెం పురోగతిని చూస్తారు మరియు ఇది శిక్షణను నెమ్మదిస్తుంది.
ప్రశ్న #6 'శిక్షణ ప్రివ్యూల కోసం టెక్స్ట్-ప్రాంప్ట్ ఫైల్ యొక్క స్థానం ఏమిటి?'. మీ ప్రాంప్ట్ల టెక్స్ట్ ఫైల్కి పాత్ను అతికించండి లేదా టైప్ చేయండి.
BAT అది హున్యువాన్ మోడల్కు పంపే ఆదేశాన్ని మీకు చూపుతుంది మరియు మీరు కొనసాగాలనుకుంటున్నారా అని అడుగుతుంది, y/n.
కొనసాగండి మరియు శిక్షణ ప్రారంభించండి:
ఈ సమయంలో, మీరు Windows Task Manager యొక్క పనితీరు ట్యాబ్లోని GPU విభాగాన్ని తనిఖీ చేస్తే, ప్రాసెస్ దాదాపు 16GB VRAMని తీసుకుంటున్నట్లు మీరు చూస్తారు.
ఇది చాలా తక్కువ NVIDIA గ్రాఫిక్స్ కార్డ్లలో అందుబాటులో ఉన్న VRAM మొత్తం కాబట్టి ఇది ఏకపక్ష సంఖ్య కాకపోవచ్చు మరియు అటువంటి కార్డ్లను కలిగి ఉన్న వారి ప్రయోజనం కోసం టాస్క్లను 16GBకి సరిపోయేలా అప్స్ట్రీమ్ కోడ్ ఆప్టిమైజ్ చేయబడి ఉండవచ్చు.
శిక్షణా కమాండ్కు మరిన్ని అధిక జెండాలను పంపడం ద్వారా ఈ వినియోగాన్ని పెంచడం చాలా సులభం అని పేర్కొంది.
శిక్షణ సమయంలో, మీరు CMD విండో యొక్క దిగువ-కుడి వైపున శిక్షణ ప్రారంభమైనప్పటి నుండి ఎంత సమయం గడిచిందో మరియు మొత్తం శిక్షణ సమయం యొక్క అంచనాను చూస్తారు (ఇది ఫ్లాగ్ల సెట్, శిక్షణ చిత్రాల సంఖ్యపై ఆధారపడి భారీగా మారుతుంది. , శిక్షణ ప్రివ్యూ చిత్రాల సంఖ్య మరియు అనేక ఇతర అంశాలు).
అందుబాటులో ఉన్న హార్డ్వేర్, చిత్రాల సంఖ్య, ఫ్లాగ్ సెట్టింగ్లు మరియు ఇతర కారకాలపై ఆధారపడి, మధ్యస్థ సెట్టింగ్లపై సాధారణ శిక్షణ సమయం సుమారు 3-4 గంటలు.
Hunyuan వీడియోలో మీ శిక్షణ పొందిన LoRA మోడల్లను ఉపయోగించడం
తనిఖీ కేంద్రాలను ఎంచుకోవడం
శిక్షణ ముగిసినప్పుడు, మీరు శిక్షణ యొక్క ప్రతి యుగానికి నమూనా తనిఖీ కేంద్రాన్ని కలిగి ఉంటారు.
ఈ సేవింగ్ ఫ్రీక్వెన్సీని సవరించడం ద్వారా, కావలసిన విధంగా ఎక్కువ లేదా తక్కువ తరచుగా సేవ్ చేయడానికి వినియోగదారు మార్చవచ్చు --save_every_n_epochs [N]
శిక్షణ BAT ఫైల్లోని సంఖ్య. మీరు BATతో శిక్షణను సెటప్ చేస్తున్నప్పుడు ఒక్కో దశకు ఆదా చేయడం కోసం తక్కువ సంఖ్యను జోడించినట్లయితే, అధిక సంఖ్యలో సేవ్ చేయబడిన చెక్పాయింట్ ఫైల్లు ఉంటాయి.
ఏ చెక్పాయింట్ ఎంచుకోవాలి?
ముందుగా చెప్పినట్లుగా, ప్రారంభ-శిక్షణ పొందిన మోడల్లు చాలా సరళంగా ఉంటాయి, అయితే తదుపరి తనిఖీ కేంద్రాలు చాలా వివరాలను అందించవచ్చు. ఈ కారకాల కోసం పరీక్షించడానికి ఏకైక మార్గం కొన్ని LoRAలను అమలు చేయడం మరియు కొన్ని వీడియోలను రూపొందించడం. ఈ విధంగా మీరు ఏ చెక్పాయింట్లు అత్యంత ఉత్పాదకతను కలిగి ఉంటాయో తెలుసుకోవచ్చు మరియు వశ్యత మరియు విశ్వసనీయత మధ్య అత్యుత్తమ సమతుల్యతను సూచిస్తాయి.
ComfyUI
ప్రస్తుతం హున్యువాన్ వీడియో లోరాలను ఉపయోగించడం కోసం అత్యంత ప్రజాదరణ పొందిన (అయితే మాత్రమే కాదు) పర్యావరణం ComfyUI, మీ వెబ్ బ్రౌజర్లో రన్ అయ్యే విస్తృతమైన Gradio ఇంటర్ఫేస్తో కూడిన నోడ్-ఆధారిత ఎడిటర్.

మూలం: https://github.com/comfyanonymous/ComfyUI
ఇన్స్టాలేషన్ సూచనలు సూటిగా ఉంటాయి మరియు అధికారిక GitHub రిపోజిటరీలో అందుబాటులో ఉంది (అదనపు నమూనాలు డౌన్లోడ్ చేయబడాలి).
ComfyUI కోసం మోడల్లను మారుస్తోంది
మీ శిక్షణ పొందిన మోడల్లు ComfyUI యొక్క చాలా అమలులకు అనుకూలంగా లేని (డిఫ్యూజర్లు) ఫార్మాట్లో సేవ్ చేయబడతాయి. Musubi మోడల్ను ComfyUI-అనుకూల ఆకృతికి మార్చగలదు. దీన్ని అమలు చేయడానికి BAT ఫైల్ను సెటప్ చేద్దాం.
ఈ BATని అమలు చేయడానికి ముందు, సృష్టించండి C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\
స్క్రిప్ట్ ఆశించే ఫోల్డర్.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
:START
REM Get user input
set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):
REM Exit if the user types "exit"
if /i "%INPUT_PATH%"=="exit" goto END
REM Extract the file name from the input path and append 'converted' to it
for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF
set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors
set TARGET=other
echo You entered:
echo Input file: %INPUT_PATH%
echo Output file: %OUTPUT_PATH%
echo Target format: %TARGET%
set /p CONFIRM=Do you want to proceed with the conversion (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the conversion script with correctly quoted paths
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%
echo Conversion complete.
) else (
echo Operation canceled.
)
REM Return to start for another file
goto START
:END
REM Keep the window open
echo Exiting the script.
pause
మునుపటి BAT ఫైల్ల మాదిరిగానే, నోట్ప్యాడ్ నుండి స్క్రిప్ట్ను 'అన్ని ఫైల్లు'గా సేవ్ చేయండి, దానికి పేరు పెట్టండి convert.bat (లేదా మీకు నచ్చినది).
సేవ్ చేసిన తర్వాత, కొత్త BAT ఫైల్పై డబుల్ క్లిక్ చేయండి, ఇది మార్చడానికి ఫైల్ స్థానాన్ని అడుగుతుంది.
మీరు మార్చాలనుకుంటున్న శిక్షణ పొందిన ఫైల్ను అతికించండి లేదా టైప్ చేయండి, క్లిక్ చేయండి y
, మరియు ఎంటర్ నొక్కండి.
మార్చబడిన LoRAని సేవ్ చేసిన తర్వాత మార్చబడింది ఫోల్డర్, మీరు మరొక ఫైల్ను మార్చాలనుకుంటున్నారా అని స్క్రిప్ట్ అడుగుతుంది. మీరు ComfyUIలో బహుళ చెక్పాయింట్లను పరీక్షించాలనుకుంటే, మోడల్ల ఎంపికను మార్చండి.
మీరు తగినంత చెక్పాయింట్లను మార్చినప్పుడు, BAT కమాండ్ విండోను మూసివేయండి.
మీరు ఇప్పుడు మీ ComfyUI ఇన్స్టాలేషన్లోని మోడల్స్\loras ఫోల్డర్లోకి మార్చబడిన మీ మోడల్లను కాపీ చేయవచ్చు.
సాధారణంగా సరైన స్థానం ఇలా ఉంటుంది:
C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\
ComfyUIలో Hunyuan వీడియో LoRAలను సృష్టిస్తోంది
ComfyUI యొక్క నోడ్-ఆధారిత వర్క్ఫ్లోలు మొదట్లో సంక్లిష్టంగా కనిపించినప్పటికీ, ఇతర నిపుణులైన వినియోగదారుల సెట్టింగ్లు నేరుగా ComfyUI విండోలోకి చిత్రాన్ని (ఇతర వినియోగదారు యొక్క ComfyUIతో తయారు చేయబడినవి) లాగడం ద్వారా లోడ్ చేయబడతాయి. వర్క్ఫ్లోలు JSON ఫైల్లుగా కూడా ఎగుమతి చేయబడతాయి, వీటిని మాన్యువల్గా దిగుమతి చేసుకోవచ్చు లేదా ComfyUI విండోలోకి లాగవచ్చు.
కొన్ని దిగుమతి చేయబడిన వర్క్ఫ్లోలు మీ ఇన్స్టాలేషన్లో లేని డిపెండెన్సీలను కలిగి ఉంటాయి. కాబట్టి ఇన్స్టాల్ చేయండి ComfyUI-మేనేజర్, ఇది తప్పిపోయిన మాడ్యూళ్లను స్వయంచాలకంగా పొందగలదు.

మూలం: https://github.com/ltdrdata/ComfyUI-Manager
ఈ ట్యుటోరియల్లోని మోడల్ల నుండి వీడియోలను రూపొందించడానికి ఉపయోగించే వర్క్ఫ్లోలలో ఒకదాన్ని లోడ్ చేయడానికి, డౌన్లోడ్ చేయండి ఈ JSON ఫైల్ మరియు దానిని మీ ComfyUI విండోలోకి లాగండి (Hunyuan వీడియోని స్వీకరించిన వివిధ Reddit మరియు డిస్కార్డ్ కమ్యూనిటీలలో చాలా మెరుగైన వర్క్ఫ్లో ఉదాహరణలు అందుబాటులో ఉన్నాయి మరియు నా స్వంతం వీటిలో ఒకదాని నుండి స్వీకరించబడింది).
ComfyUI ఉపయోగంలో పొడిగించిన ట్యుటోరియల్ కోసం ఇది స్థలం కాదు, కానీ మీరు నేను పైన లింక్ చేసిన JSON లేఅవుట్ను డౌన్లోడ్ చేసి, ఉపయోగిస్తే మీ అవుట్పుట్పై ప్రభావం చూపే కొన్ని కీలకమైన పారామితులను పేర్కొనడం విలువైనదే.
1) వెడల్పు మరియు ఎత్తు
మీ చిత్రం పెద్దదైతే, జనరేషన్ ఎక్కువ సమయం పడుతుంది మరియు మెమరీలో లేని (OOM) ఎర్రర్ వచ్చే ప్రమాదం ఎక్కువ.
2) పొడవు
ఫ్రేమ్ల సంఖ్యకు ఇది సంఖ్యా విలువ. ఫ్రేమ్ రేట్ (ఈ లేఅవుట్లో 30fpsకి సెట్ చేయబడింది)పై ఆధారపడి ఇది ఎన్ని సెకన్లు జోడిస్తుంది. మీరు fps ఆధారంగా సెకన్లు>ఫ్రేమ్లను మార్చవచ్చు ఓమ్నికల్క్యులేటర్ వద్ద.
3) బ్యాచ్ పరిమాణం
మీరు బ్యాచ్ పరిమాణాన్ని ఎంత ఎక్కువగా సెట్ చేస్తే, ఫలితం త్వరగా రావచ్చు, కానీ VRAM యొక్క భారం అంత ఎక్కువగా ఉంటుంది. దీన్ని చాలా ఎక్కువగా సెట్ చేయండి మరియు మీరు OOMని పొందవచ్చు.
4) ఉత్పత్తి తర్వాత నియంత్రణ
ఇది యాదృచ్ఛిక విత్తనాన్ని నియంత్రిస్తుంది. ఈ ఉప-నోడ్ కోసం ఎంపికలు స్థిర, ఇంక్రిమెంట్, తగ్గుదల మరియు యాదృచ్ఛికం. మీరు దానిని వదిలివేస్తే స్థిర మరియు టెక్స్ట్ ప్రాంప్ట్ను మార్చవద్దు, మీరు ప్రతిసారీ అదే చిత్రాన్ని పొందుతారు. మీరు టెక్స్ట్ ప్రాంప్ట్ని సవరిస్తే, ఇమేజ్ పరిమిత స్థాయిలో మారుతుంది. ది ఇంక్రిమెంట్ మరియు తగ్గుదల సెట్టింగ్లు సమీపంలోని విత్తన విలువలను అన్వేషించడానికి మిమ్మల్ని అనుమతిస్తాయి యాదృచ్ఛికం మీకు ప్రాంప్ట్కి పూర్తిగా కొత్త వివరణ ఇస్తుంది.
5) లోరా పేరు
ఉత్పత్తి చేయడానికి ప్రయత్నించే ముందు మీరు మీ స్వంత ఇన్స్టాల్ చేసిన మోడల్ని ఇక్కడ ఎంచుకోవాలి.
6) టోకెన్
టోకెన్తో కాన్సెప్ట్ను ట్రిగ్గర్ చేయడానికి మీరు మీ మోడల్కు శిక్షణనిచ్చి ఉంటే, (ఉదా 'ఉదాహరణ వ్యక్తి'), ఆ ట్రిగ్గర్ పదాన్ని మీ ప్రాంప్ట్లో ఉంచండి.
7) దశలు
వ్యవస్థ వ్యాప్తి ప్రక్రియకు ఎన్ని దశలను వర్తింపజేస్తుందో ఇది సూచిస్తుంది. ఉన్నత దశలు మెరుగైన వివరాలను పొందవచ్చు, కానీ ఈ విధానం ఎంత ప్రభావవంతంగా ఉంటుందనే దానిపై సీలింగ్ ఉంది మరియు ఆ థ్రెషోల్డ్ను కనుగొనడం కష్టంగా ఉంటుంది. సాధారణ దశల పరిధి 20-30.
8) టైల్ పరిమాణం
తరం సమయంలో ఒకేసారి ఎంత సమాచారం నిర్వహించబడుతుందో ఇది నిర్వచిస్తుంది. ఇది డిఫాల్ట్గా 256కి సెట్ చేయబడింది. దీన్ని పెంచడం వలన ఉత్పత్తిని వేగవంతం చేయవచ్చు, కానీ దానిని చాలా ఎక్కువగా పెంచడం అనేది ఒక సుదీర్ఘ ప్రక్రియ ముగింపులో వచ్చినందున, ప్రత్యేకించి నిరాశపరిచే OOM అనుభవానికి దారి తీస్తుంది.
9) తాత్కాలిక అతివ్యాప్తి
హున్యువాన్ వీడియో జనరేషన్ జనరేషన్ 'దెయ్యం' లేదా ఇది చాలా తక్కువగా సెట్ చేయబడితే నమ్మలేని కదలికకు దారి తీస్తుంది. సాధారణంగా, ఇది మెరుగైన కదలికను ఉత్పత్తి చేయడానికి ఫ్రేమ్ల సంఖ్య కంటే ఎక్కువ విలువకు సెట్ చేయబడాలనేది ప్రస్తుత జ్ఞానం.
ముగింపు
ComfyUI వినియోగం యొక్క తదుపరి అన్వేషణ ఈ కథనం యొక్క పరిధికి మించినది అయినప్పటికీ, Reddit మరియు డిస్కార్డ్స్లోని కమ్యూనిటీ అనుభవం నేర్చుకునే వక్రతను సులభతరం చేస్తుంది మరియు అనేకం ఉన్నాయి ఆన్లైన్ గైడ్లు అది ప్రాథమికాలను పరిచయం చేస్తుంది.
మొదట జనవరి 23, 2025న గురువారం ప్రచురించబడింది