కృత్రిమ మేధస్సు

హున్యువాన్ వీడియో లోరా మోడల్‌లకు శిక్షణ ఇవ్వడం మరియు ఉపయోగించడం ఎలా

ప్రచురణ

6 రోజుల క్రితం

జనవరి 23, 2025

ChatGPT-4o: 'నాకు 1792 x 1024 చిత్రాన్ని సృష్టించు'పై వేరియేషన్. ఇది థియోడర్ గెరికాల్ట్ శైలిలో ఉండాలి మరియు ల్యాప్‌టాప్ ముందు కూర్చున్న చీకటి మధ్యయుగ బొమ్మను వర్ణించాలి, స్క్రీన్ ద్వారా ప్రకాశిస్తుంది. మేము ఫిగర్‌ను ఎదుర్కొంటున్నాము మరియు ల్యాప్‌టాప్ మూత వెనుక భాగాన్ని మాత్రమే చూడగలుగుతాము. కూర్చున్న మధ్యయుగ బొమ్మ చుట్టూ అనేక ఇతర మధ్యయుగ పురుషులు మరియు మహిళలు ఉన్నారు, కంప్యూటర్ స్క్రీన్‌పై ఏమి జరుగుతుందో తెలుసుకోవాలనే ఆసక్తి ఉంది.

శిక్షణ ఇవ్వగల Windows-ఆధారిత సాఫ్ట్‌వేర్‌ను ఎలా ఇన్‌స్టాల్ చేసి ఉపయోగించాలో ఈ కథనం మీకు చూపుతుంది Hunyuan వీడియో LoRA నమూనాలు, హున్యువాన్ వీడియో ఫౌండేషన్ మోడల్‌లో అనుకూల వ్యక్తిత్వాలను రూపొందించడానికి వినియోగదారుని అనుమతిస్తుంది:

ఆడటానికి క్లిక్ చేయండి. civit.ai కమ్యూనిటీకి చెందిన ప్రముఖ హున్యువాన్ లోరాస్ యొక్క ఇటీవలి పేలుడు నుండి ఉదాహరణలు.

ప్రస్తుతానికి స్థానికంగా Hunyuan LoRA మోడల్‌లను రూపొందించే రెండు అత్యంత ప్రజాదరణ పొందిన మార్గాలు:

1) ది diffusion-pipe-ui డాకర్-ఆధారిత ఫ్రేమ్‌వర్క్, ఇది ఆధారపడి ఉంటుంది Linux కోసం విండోస్ సబ్సిస్టమ్ (WSL) కొన్ని ప్రక్రియలను నిర్వహించడానికి.

2) ముసుబి ట్యూనర్, జనాదరణ పొందిన వాటికి కొత్త జోడింపు కోహ్యా ss వ్యాప్తి శిక్షణ నిర్మాణం. ముసుబి ట్యూనర్‌కు డాకర్ అవసరం లేదు మరియు WSL లేదా ఇతర Linux-ఆధారిత ప్రాక్సీలపై ఆధారపడదు - కానీ Windowsలో అమలు చేయడం కష్టం.

అందువల్ల ఈ రన్-త్రూ ముసుబి ట్యూనర్‌పై దృష్టి పెడుతుంది మరియు API-ఆధారిత వెబ్‌సైట్‌లు లేదా రన్‌పాడ్ వంటి వాణిజ్య GPU-అద్దె ప్రక్రియలను ఉపయోగించకుండా Hunyuan LoRA శిక్షణ మరియు ఉత్పత్తి కోసం పూర్తిగా స్థానిక పరిష్కారాన్ని అందించడంపై దృష్టి పెడుతుంది.

ఆడటానికి క్లిక్ చేయండి. ఈ కథనం కోసం ముసుబి ట్యూనర్‌పై LoRA శిక్షణ నుండి నమూనాలు. ఈ కథనాన్ని వివరించే ప్రయోజనాల కోసం చిత్రీకరించబడిన వ్యక్తి మంజూరు చేసిన అన్ని అనుమతులు.

అవసరాలనన్నింటినీ

ఇన్‌స్టాలేషన్‌కు కనీసం 10GB VRAM (30GB సిఫార్సు చేయబడినప్పటికీ) 40+/12+ సిరీస్ NVIDIA కార్డ్‌తో కనీసం Windows 16 PC అవసరం. ఈ కథనం కోసం ఉపయోగించిన ఇన్‌స్టాలేషన్ 64GB ఉన్న మెషీన్‌లో పరీక్షించబడింది వ్యవస్థ RAM మరియు 3090GB VRAMతో NVIDIA 24 గ్రాఫిక్స్ కార్డ్‌లు. ఇది 10+GB స్పేర్ డిస్క్ స్పేస్‌తో విభజనపై Windows 600 ప్రొఫెషనల్ యొక్క తాజా ఇన్‌స్టాల్‌ను ఉపయోగించి అంకితమైన టెస్ట్-బెడ్ సిస్టమ్‌లో పరీక్షించబడింది.

హెచ్చరిక

ముసుబి ట్యూనర్ మరియు దాని అవసరాలను ఇన్‌స్టాల్ చేయడం వలన డెవలపర్-ఫోకస్డ్ సాఫ్ట్‌వేర్ మరియు ప్యాకేజీలను నేరుగా PC యొక్క ప్రధాన విండోస్ ఇన్‌స్టాలేషన్‌లో ఇన్‌స్టాల్ చేస్తుంది. ComfyUI యొక్క ఇన్‌స్టాలేషన్‌ను పరిగణనలోకి తీసుకుంటే, ముగింపు దశల కోసం, ఈ ప్రాజెక్ట్‌కు దాదాపు 400-500 గిగాబైట్‌ల డిస్క్ స్థలం అవసరం అవుతుంది. నేను కొత్తగా ఇన్‌స్టాల్ చేసిన టెస్ట్ బెడ్ విండోస్ 10 ఎన్విరాన్‌మెంట్‌లలో సంఘటన లేకుండా ప్రక్రియను చాలాసార్లు పరీక్షించినప్పటికీ, ఈ సూచనలను అనుసరించడం వల్ల సిస్టమ్‌లకు జరిగే ఏదైనా నష్టానికి నేను లేదా unite.ai బాధ్యత వహించము. ఈ రకమైన ఇన్‌స్టాలేషన్ విధానాన్ని ప్రయత్నించే ముందు ఏదైనా ముఖ్యమైన డేటాను బ్యాకప్ చేయమని నేను మీకు సలహా ఇస్తున్నాను.

ప్రతిపాదనలు

ఈ పద్ధతి ఇప్పటికీ చెల్లుబాటులో ఉందా?

ఉత్పాదక AI దృశ్యం చాలా వేగంగా కదులుతోంది మరియు మేము ఈ సంవత్సరం Hunyuan Video LoRA ఫ్రేమ్‌వర్క్‌ల యొక్క మెరుగైన మరియు మరింత క్రమబద్ధీకరించిన పద్ధతులను ఆశించవచ్చు.

… లేదా ఈ వారం కూడా! నేను ఈ కథనాన్ని వ్రాస్తున్నప్పుడు, Kohya/Musubi డెవలపర్ రూపొందించారు musubi-tuner-gui, ముసుబి ట్యూనర్ కోసం ఒక అధునాతన Gradio GUI:

నేను ఈ ఫీచర్‌లో ఉపయోగించే BAT ఫైల్‌ల కంటే వినియోగదారు-స్నేహపూర్వక GUI ఉత్తమం - ఒకసారి musubi-tuner-gui పని చేస్తుంది. నేను వ్రాస్తున్నట్లుగా, ఇది ఐదు రోజుల క్రితం మాత్రమే ఆన్‌లైన్‌లోకి వెళ్లింది మరియు దాన్ని విజయవంతంగా ఉపయోగించిన వారి ఖాతా నాకు కనిపించలేదు.

రిపోజిటరీలోని పోస్ట్‌ల ప్రకారం, కొత్త GUIని వీలైనంత త్వరగా ముసుబి ట్యూనర్ ప్రాజెక్ట్‌లోకి నేరుగా రోల్ చేయడానికి ఉద్దేశించబడింది, ఇది స్వతంత్ర GitHub రిపోజిటరీగా దాని ప్రస్తుత ఉనికిని ముగించేస్తుంది.

ప్రస్తుత ఇన్‌స్టాలేషన్ సూచనల ఆధారంగా, కొత్త GUI ఇప్పటికే ఉన్న ముసుబి వర్చువల్ ఎన్విరాన్‌మెంట్‌లోకి నేరుగా క్లోన్ చేయబడుతుంది; మరియు, అనేక ప్రయత్నాలు చేసినప్పటికీ, నేను ఇప్పటికే ఉన్న ముసుబి ఇన్‌స్టాలేషన్‌తో అనుబంధించలేకపోయాను. అంటే అది రన్ అయినప్పుడు దానికి ఇంజన్ లేదని కనుక్కుంటుంది!

GUIని Musubi ట్యూనర్‌లో విలీనం చేసిన తర్వాత, ఈ రకమైన సమస్యలు ఖచ్చితంగా పరిష్కరించబడతాయి. రచయిత అయినప్పటికీ కొత్త ప్రాజెక్ట్ 'నిజంగా కఠినమైనది' అని అంగీకరిస్తుంది, అతను నేరుగా ముసుబి ట్యూనర్‌లో దాని అభివృద్ధి మరియు ఏకీకరణ కోసం ఆశాజనకంగా ఉన్నాడు.

ఈ సమస్యల కారణంగా (ఇన్‌స్టాల్-టైమ్‌లో డిఫాల్ట్ పాత్‌లు మరియు వినియోగానికి సంబంధించి కూడా UV పైథాన్ ప్యాకేజీ, ఇది కొత్త విడుదలలో నిర్దిష్ట విధానాలను క్లిష్టతరం చేస్తుంది), మేము బహుశా సున్నితమైన Hunyuan వీడియో LoRA శిక్షణ అనుభవం కోసం కొంచెం వేచి ఉండవలసి ఉంటుంది. ఇది చాలా ఆశాజనకంగా కనిపిస్తోంది!

కానీ మీరు వేచి ఉండలేకపోతే మరియు మీ స్లీవ్‌లను కొంచెం పైకి తిప్పడానికి సిద్ధంగా ఉంటే, మీరు ప్రస్తుతం స్థానికంగా నడుస్తున్న హున్యువాన్ వీడియో లోరా శిక్షణను పొందవచ్చు.

ప్రారంభిద్దాం.

ఎందుకు ఇన్‌స్టాల్ చేయాలి ఏదైనా బేర్ మెటల్ మీద?

(మీరు అధునాతన వినియోగదారు కాకపోతే ఈ పేరాను దాటవేయి)
నేను వర్చువల్ వాతావరణంలో కాకుండా బేర్ మెటల్ Windows 10 ఇన్‌స్టాలేషన్‌లో చాలా సాఫ్ట్‌వేర్‌లను ఇన్‌స్టాల్ చేయడానికి ఎందుకు ఎంచుకున్నాను అని అధునాతన వినియోగదారులు ఆశ్చర్యపోతారు. కారణం Linux ఆధారిత Windows పోర్ట్ అవసరమైనది ట్రిటాన్ ప్యాకేజీ వర్చువల్ వాతావరణంలో పని చేయడం చాలా కష్టం. ట్యుటోరియల్‌లోని అన్ని ఇతర బేర్-మెటల్ ఇన్‌స్టాలేషన్‌లు వర్చువల్ వాతావరణంలో ఇన్‌స్టాల్ చేయబడవు, ఎందుకంటే అవి స్థానిక హార్డ్‌వేర్‌తో నేరుగా ఇంటర్‌ఫేస్ చేయాలి.

ముందస్తు ప్యాకేజీలు మరియు ప్రోగ్రామ్‌లను ఇన్‌స్టాల్ చేస్తోంది

ప్రారంభంలో ఇన్‌స్టాల్ చేయవలసిన ప్రోగ్రామ్‌లు మరియు ప్యాకేజీల కోసం, ఇన్‌స్టాలేషన్ క్రమం ముఖ్యం. ప్రారంభిద్దాం.

1: Microsoft రీడిస్ట్రిబ్యూటబుల్‌ని డౌన్‌లోడ్ చేయండి

నుండి Microsoft Redistributable ప్యాకేజీని డౌన్‌లోడ్ చేసి, ఇన్‌స్టాల్ చేయండి https://aka.ms/vs/17/release/vc_redist.x64.exe.

ఇది సూటిగా మరియు వేగవంతమైన సంస్థాపన.

2: విజువల్ స్టూడియో 2022ని ఇన్‌స్టాల్ చేయండి

నుండి Microsoft Visual Studio 2022 కమ్యూనిటీ ఎడిషన్‌ను డౌన్‌లోడ్ చేయండి https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta

డౌన్‌లోడ్ చేసిన ఇన్‌స్టాలర్‌ను ప్రారంభించండి:

మాకు అందుబాటులో ఉన్న ప్రతి ప్యాకేజీ అవసరం లేదు, ఇది భారీ మరియు సుదీర్ఘమైన ఇన్‌స్టాల్ అవుతుంది. ప్రారంభంలో పనిభారం తెరుచుకునే పేజీ, టిక్ చేయండి C++తో డెస్క్‌టాప్ అభివృద్ధి (క్రింద ఉన్న చిత్రాన్ని చూడండి).

ఇప్పుడు క్లిక్ చేయండి వ్యక్తిగత భాగాలు ఇంటర్‌ఫేస్ యొక్క ఎగువ-ఎడమ వైపున ఉన్న ట్యాబ్‌ను మరియు 'Windows SDK'ని కనుగొనడానికి శోధన పెట్టెను ఉపయోగించండి.

డిఫాల్ట్‌గా, మాత్రమే Windows 11 SDK టిక్ చేయబడింది. మీరు Windows 10లో ఉన్నట్లయితే (ఈ ఇన్‌స్టాలేషన్ విధానాన్ని Windows 11లో నేను పరీక్షించలేదు), పై చిత్రంలో సూచించిన తాజా Windows 10 సంస్కరణను టిక్ చేయండి.

'C++ CMake' కోసం శోధించండి మరియు దాన్ని తనిఖీ చేయండి Windows కోసం C++ CMake సాధనాలు తనిఖీ చేయబడింది.

ఈ ఇన్‌స్టాలేషన్‌కు కనీసం 13 GB స్థలం పడుతుంది.

విజువల్ స్టూడియో ఇన్‌స్టాల్ చేసిన తర్వాత, అది మీ కంప్యూటర్‌లో రన్ చేయడానికి ప్రయత్నిస్తుంది. పూర్తిగా తెరవనివ్వండి. విజువల్ స్టూడియో యొక్క పూర్తి-స్క్రీన్ ఇంటర్‌ఫేస్ చివరకు కనిపించినప్పుడు, ప్రోగ్రామ్‌ను మూసివేయండి.

3: విజువల్ స్టూడియో 2019ని ఇన్‌స్టాల్ చేయండి

ముసుబి కోసం కొన్ని తదుపరి ప్యాకేజీలు మైక్రోసాఫ్ట్ విజువల్ స్టూడియో యొక్క పాత వెర్షన్‌ని ఆశిస్తున్నాయి, మరికొన్నింటికి మరింత ఇటీవలిది అవసరం.

అందువల్ల విజువల్ స్టూడియో 19 యొక్క ఉచిత కమ్యూనిటీ ఎడిషన్‌ను Microsoft నుండి డౌన్‌లోడ్ చేసుకోండి (https://visualstudio.microsoft.com/vs/older-downloads/ – ఖాతా అవసరం) లేదా టెక్‌స్పాట్ (https://www.techspot.com/downloads/7241-visual-studio-2019.html).

విజువల్ స్టూడియో 2022 కోసం అదే ఎంపికలతో దీన్ని ఇన్‌స్టాల్ చేయండి (పైన ఉన్న విధానాన్ని చూడండి, అది తప్ప Windows SDK విజువల్ స్టూడియో 2019 ఇన్‌స్టాలర్‌లో ఇప్పటికే టిక్ చేయబడింది).

విజువల్ స్టూడియో 2019 ఇన్‌స్టాలర్ ఇన్‌స్టాల్ చేస్తున్నప్పుడు కొత్త వెర్షన్ గురించి ఇప్పటికే తెలుసుకుంటున్నట్లు మీరు చూస్తారు:

ఇన్‌స్టాలేషన్ పూర్తయినప్పుడు మరియు మీరు ఇన్‌స్టాల్ చేసిన విజువల్ స్టూడియో 2019 అప్లికేషన్‌ను తెరిచి మూసివేసినప్పుడు, విండోస్ కమాండ్ ప్రాంప్ట్ (రకం) తెరవండి సిఎండి శోధనను ప్రారంభించులో) మరియు టైప్ చేసి నమోదు చేయండి:

where cl

ఫలితంగా ఇన్‌స్టాల్ చేయబడిన రెండు విజువల్ స్టూడియో ఎడిషన్‌ల యొక్క తెలిసిన స్థానాలు ఉండాలి.

మీరు బదులుగా పొందినట్లయితే INFO: Could not find files for the given pattern(s), చూడండి మార్గాన్ని తనిఖీ చేయండి దిగువన ఉన్న ఈ కథనం యొక్క విభాగం, మరియు సంబంధిత విజువల్ స్టూడియో పాత్‌లను Windows పర్యావరణానికి జోడించడానికి ఆ సూచనలను ఉపయోగించండి.

ప్రకారం చేసిన ఏవైనా మార్పులను సేవ్ చేయండి మార్గాలను తనిఖీ చేయండి క్రింద విభాగం, ఆపై ఎక్కడ cl ఆదేశాన్ని మళ్లీ ప్రయత్నించండి.

4: CUDA 11 + 12 టూల్‌కిట్‌లను ఇన్‌స్టాల్ చేయండి

ముసుబిలో ఇన్‌స్టాల్ చేయబడిన వివిధ ప్యాకేజీలకు విభిన్న వెర్షన్‌లు అవసరం ఎన్విడియా కుడా, ఇది NVIDIA గ్రాఫిక్స్ కార్డ్‌లపై శిక్షణను వేగవంతం చేస్తుంది మరియు ఆప్టిమైజ్ చేస్తుంది.

మేము విజువల్ స్టూడియో వెర్షన్‌లను ఇన్‌స్టాల్ చేయడానికి కారణం మొదటి NVIDIA CUDA ఇన్‌స్టాలర్‌లు ఇప్పటికే ఉన్న ఏవైనా విజువల్ స్టూడియో ఇన్‌స్టాలేషన్‌ల కోసం శోధిస్తాయి మరియు ఏకీకృతం చేస్తాయి.

దీని నుండి 11+ సిరీస్ CUDA ఇన్‌స్టాలేషన్ ప్యాకేజీని డౌన్‌లోడ్ చేయండి:

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (డౌన్‌లోడ్ చేయండి 'exe (స్థానికం') )

దీని నుండి 12+ సిరీస్ CUDA టూల్‌కిట్ ఇన్‌స్టాలేషన్ ప్యాకేజీని డౌన్‌లోడ్ చేయండి:

https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64

ఇన్‌స్టాలేషన్ ప్రక్రియ రెండు ఇన్‌స్టాలర్‌లకు ఒకేలా ఉంటుంది. విండోస్ ఎన్విరాన్‌మెంట్ వేరియబుల్స్‌లో ఇన్‌స్టాలేషన్ పాత్‌ల ఉనికి లేదా ఉనికి గురించి ఏవైనా హెచ్చరికలను విస్మరించండి - మేము దీన్ని తర్వాత మాన్యువల్‌గా హాజరవ్వబోతున్నాము.

NVIDIA CUDA టూల్‌కిట్ V11+ని ఇన్‌స్టాల్ చేయండి

11+ సిరీస్ CUDA టూల్‌కిట్ కోసం ఇన్‌స్టాలర్‌ను ప్రారంభించండి.

At సంస్థాపన ఐచ్ఛికాలు, ఎంచుకోండి అనుకూల (అధునాతన) మరియు కొనసాగండి.

NVIDIA GeForce ఎక్స్‌పీరియన్స్ ఎంపికను అన్‌చెక్ చేసి, క్లిక్ చేయండి తరువాతి .

<span style="font-family: Mandali; "> లీవ్ ఇన్‌స్టాలేషన్ స్థానాన్ని ఎంచుకోండి డిఫాల్ట్‌లలో (ఇది ముఖ్యమైనది):

క్లిక్ చేయండి తరువాతి మరియు సంస్థాపనను ముగించనివ్వండి.

ఇన్‌స్టాలర్ ఇచ్చే ఏదైనా హెచ్చరిక లేదా గమనికలను విస్మరించండి Nsight విజువల్ స్టూడియో ఇంటిగ్రేషన్, ఇది మా ఉపయోగం విషయంలో అవసరం లేదు.

NVIDIA CUDA టూల్‌కిట్ V12+ని ఇన్‌స్టాల్ చేయండి

మీరు డౌన్‌లోడ్ చేసిన ప్రత్యేక 12+ NVIDIA టూల్‌కిట్ ఇన్‌స్టాలర్ కోసం మొత్తం ప్రక్రియను పునరావృతం చేయండి:

మీరు విస్మరించగల పర్యావరణ మార్గాల గురించి ఒక హెచ్చరిక మినహా, ఈ సంస్కరణ యొక్క ఇన్‌స్టాల్ ప్రక్రియ పైన జాబితా చేయబడిన (11+ సంస్కరణ)కి సమానంగా ఉంటుంది:

12+ CUDA వెర్షన్ ఇన్‌స్టాలేషన్ పూర్తయినప్పుడు, విండోస్‌లో కమాండ్ ప్రాంప్ట్ తెరిచి టైప్ చేసి ఎంటర్ చేయండి:

nvcc --version

ఇది ఇన్‌స్టాల్ చేయబడిన డ్రైవర్ వెర్షన్ గురించి సమాచారాన్ని నిర్ధారించాలి:

మీ కార్డ్ గుర్తించబడిందో లేదో తనిఖీ చేయడానికి, టైప్ చేసి నమోదు చేయండి:

nvidia-smi

5: GITని ఇన్‌స్టాల్ చేయండి

మీ స్థానిక మెషీన్‌లో ముసుబి రిపోజిటరీ యొక్క ఇన్‌స్టాలేషన్‌ను GIT నిర్వహిస్తుంది. GIT ఇన్‌స్టాలర్‌ను ఇక్కడ డౌన్‌లోడ్ చేయండి:

https://git-scm.com/downloads/win ('విండోస్ సెటప్ కోసం 64-బిట్ Git')

ఇన్‌స్టాలర్‌ను అమలు చేయండి:

కోసం డిఫాల్ట్ సెట్టింగ్‌లను ఉపయోగించండి భాగాలు ఎంచుకోండి:

డిఫాల్ట్ ఎడిటర్‌ను ఇక్కడ వదిలివేయండి vim:

శాఖ పేర్ల గురించి GIT నిర్ణయించనివ్వండి:

కోసం సిఫార్సు చేయబడిన సెట్టింగ్‌లను ఉపయోగించండి మార్గం వాతావరణం:

SSH కోసం సిఫార్సు చేయబడిన సెట్టింగ్‌లను ఉపయోగించండి:

కోసం సిఫార్సు చేయబడిన సెట్టింగ్‌లను ఉపయోగించండి HTTPS రవాణా బ్యాకెండ్:

లైన్-ఎండింగ్ కన్వర్షన్‌ల కోసం సిఫార్సు చేసిన సెట్టింగ్‌లను ఉపయోగించండి:

విండోస్ డిఫాల్ట్ కన్సోల్‌ను టెర్మినల్ ఎమ్యులేటర్‌గా ఎంచుకోండి:

డిఫాల్ట్ సెట్టింగ్‌లను ఉపయోగించండి (ఫాస్ట్ ఫార్వర్డ్ లేదా విలీనం) Git Pull కోసం:

క్రెడెన్షియల్ హెల్పర్ కోసం Git-క్రెడెన్షియల్ మేనేజర్ (డిఫాల్ట్ సెట్టింగ్) ఉపయోగించండి:

In అదనపు ఎంపికలను కాన్ఫిగర్ చేస్తోంది, వదిలివేయండి ఫైల్ సిస్టమ్ కాషింగ్‌ని ప్రారంభించండి టిక్, మరియు సింబాలిక్ లింక్‌లను ప్రారంభించండి ఎంపిక చేయబడలేదు (మీరు కేంద్రీకృత మోడల్ రిపోజిటరీ కోసం హార్డ్ లింక్‌లను ఉపయోగిస్తున్న అధునాతన వినియోగదారు అయితే తప్ప).

ఇన్‌స్టాలేషన్‌ను ముగించి, CMD విండోను తెరిచి, టైప్ చేసి ఎంటర్ చేయడం ద్వారా Git సరిగ్గా ఇన్‌స్టాల్ చేయబడిందో లేదో పరీక్షించండి:

git --version

GitHub లాగిన్

తర్వాత, మీరు GitHub రిపోజిటరీలను క్లోన్ చేయడానికి ప్రయత్నించినప్పుడు, మీ GitHub ఆధారాల కోసం మీరు సవాలు చేయబడవచ్చు. దీన్ని అంచనా వేయడానికి, మీ Windows సిస్టమ్‌లో ఇన్‌స్టాల్ చేయబడిన ఏదైనా బ్రౌజర్‌లలో మీ GitHub ఖాతాకు లాగిన్ చేయండి (అవసరమైతే ఒకదాన్ని సృష్టించండి). ఈ విధంగా, 0Auth ప్రమాణీకరణ పద్ధతి (పాప్-అప్ విండో) వీలైనంత తక్కువ సమయం పడుతుంది.

ఆ ప్రారంభ సవాలు తర్వాత, మీరు స్వయంచాలకంగా ప్రామాణీకరించబడాలి.

6: CMakeని ఇన్‌స్టాల్ చేయండి

ముసుబి ఇన్‌స్టాలేషన్ ప్రాసెస్‌లోని భాగాలకు CMake 3.21 లేదా కొత్తది అవసరం. CMake అనేది విభిన్న కంపైలర్‌లను ఆర్కెస్ట్రేట్ చేయగల మరియు సోర్స్ కోడ్ నుండి సాఫ్ట్‌వేర్‌ను కంపైల్ చేయగల క్రాస్-ప్లాట్‌ఫారమ్ డెవలప్‌మెంట్ ఆర్కిటెక్చర్.

దీన్ని ఇక్కడ డౌన్‌లోడ్ చేయండి:

https://cmake.org/download/ ('Windows x64 ఇన్‌స్టాలర్')

ఇన్‌స్టాలర్‌ను ప్రారంభించండి:

నిర్ధారించడానికి PATH పర్యావరణ వేరియబుల్‌కు Cmakeని జోడించండి తనిఖీ చేయబడింది.

ప్రెస్ తరువాతి .

విండోస్ కమాండ్ ప్రాంప్ట్‌లో ఈ ఆదేశాన్ని టైప్ చేసి నమోదు చేయండి:

cmake --version

CMake విజయవంతంగా ఇన్‌స్టాల్ చేయబడితే, అది ఇలాంటి వాటిని ప్రదర్శిస్తుంది:

cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).

7: పైథాన్ 3.10ని ఇన్‌స్టాల్ చేయండి

ఈ ప్రాజెక్ట్‌కు పైథాన్ ఇంటర్‌ప్రెటర్ ప్రధానమైనది. 3.10 వెర్షన్‌ను డౌన్‌లోడ్ చేయండి (ముసుబి ప్యాకేజీల యొక్క విభిన్న డిమాండ్‌ల మధ్య ఉత్తమమైన రాజీ)

https://www.python.org/downloads/release/python-3100/ ('Windows ఇన్‌స్టాలర్ (64-బిట్)')

డౌన్‌లోడ్ ఇన్‌స్టాలర్‌ను అమలు చేయండి మరియు డిఫాల్ట్ సెట్టింగ్‌లలో వదిలివేయండి:

ఇన్‌స్టాలేషన్ ప్రక్రియ ముగింపులో, క్లిక్ చేయండి మార్గం పొడవు పరిమితిని నిలిపివేయండి (UAC అడ్మిన్ నిర్ధారణ అవసరం):

విండోస్ కమాండ్ ప్రాంప్ట్‌లో టైప్ చేసి ఎంటర్ చేయండి:

python --version

ఇది ఫలితాన్ని ఇవ్వాలి Python 3.10.0

మార్గాలను తనిఖీ చేయండి

ముసుబి ఫ్రేమ్‌వర్క్‌ల క్లోనింగ్ మరియు ఇన్‌స్టాలేషన్, అలాగే ఇన్‌స్టాలేషన్ తర్వాత దాని సాధారణ ఆపరేషన్, దాని భాగాలు విండోస్‌లోని అనేక ముఖ్యమైన బాహ్య భాగాలకు, ముఖ్యంగా CUDAకి మార్గం తెలుసుకోవడం అవసరం.

కాబట్టి మనం పాత్ ఎన్విరాన్‌మెంట్‌ని తెరిచి, అన్ని అవసరాలు ఉన్నాయో లేదో తనిఖీ చేయాలి.

విండోస్ ఎన్విరాన్‌మెంట్ కోసం నియంత్రణలను పొందడానికి శీఘ్ర మార్గం టైప్ చేయడం సిస్టమ్ ఎన్విరాన్మెంట్ వేరియబుల్స్ను సవరించండి Windows శోధన పట్టీలోకి.

దీన్ని క్లిక్ చేయడం ద్వారా తెరవబడుతుంది సిస్టమ్ గుణాలు నియంత్రణ ప్యానెల్. దిగువ కుడివైపున సిస్టమ్ గుణాలు, క్లిక్ చేయండి ఎన్విరాన్మెంట్ వేరియబుల్స్ బటన్, మరియు అనే విండో ఎన్విరాన్మెంట్ వేరియబుల్స్ తెరుచుకుంటుంది. లో సిస్టమ్ వేరియబుల్స్ ఈ విండో దిగువ భాగంలో ప్యానెల్, క్రిందికి స్క్రోల్ చేయండి మార్గం మరియు దానిపై డబుల్ క్లిక్ చేయండి. ఇది అనే విండోను తెరుస్తుంది ఎన్విరాన్మెంట్ వేరియబుల్స్ సవరించండి. ఈ విండో వెడల్పును విస్తృతంగా లాగండి, తద్వారా మీరు వేరియబుల్స్ యొక్క పూర్తి మార్గాన్ని చూడవచ్చు:

ఇక్కడ ముఖ్యమైన ఎంట్రీలు:

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin

చాలా సందర్భాలలో, సరైన పాత్ వేరియబుల్స్ ఇప్పటికే ఉండాలి.

క్లిక్ చేయడం ద్వారా తప్పిపోయిన ఏవైనా మార్గాలను జోడించండి కొత్త యొక్క ఎడమ వైపున ఎన్విరాన్మెంట్ వేరియబుల్‌ని సవరించండి విండో మరియు సరైన మార్గంలో అతికించడం:

ఎగువ జాబితా చేయబడిన మార్గాల నుండి కాపీ చేసి అతికించవద్దు; ప్రతి సమానమైన మార్గం మీ స్వంత Windows ఇన్‌స్టాలేషన్‌లో ఉందో లేదో తనిఖీ చేయండి.

చిన్న పాత్ వైవిధ్యాలు ఉంటే (ముఖ్యంగా విజువల్ స్టూడియో ఇన్‌స్టాలేషన్‌లతో), సరైన లక్ష్య ఫోల్డర్‌లను కనుగొనడానికి పైన జాబితా చేసిన మార్గాలను ఉపయోగించండి (అంటే, x64 in హోస్ట్64 మీ స్వంత సంస్థాపనలో. తర్వాత అతికించండి ఆ లోకి మార్గాలు ఎన్విరాన్మెంట్ వేరియబుల్‌ని సవరించండి కిటికీ.

దీని తరువాత, కంప్యూటర్ పునఃప్రారంభించండి.

ముసుబిని ఇన్‌స్టాల్ చేస్తోంది

PIPని అప్‌గ్రేడ్ చేయండి

PIP ఇన్‌స్టాలర్ యొక్క తాజా వెర్షన్‌ని ఉపయోగించడం వలన కొన్ని ఇన్‌స్టాలేషన్ దశలను సున్నితంగా చేయవచ్చు. అడ్మినిస్ట్రేటర్ అధికారాలతో విండోస్ కమాండ్ ప్రాంప్ట్‌లో (చూడండి ఎత్తు, క్రింద), టైప్ చేసి నమోదు చేయండి:

pip install --upgrade pip

ఎత్తు

కొన్ని కమాండ్‌లకు ఎలివేటెడ్ ప్రివిలేజ్‌లు అవసరం కావచ్చు (అంటే, అడ్మినిస్ట్రేటర్‌గా అమలు చేయడానికి). కింది దశల్లో అనుమతుల గురించి మీకు ఎర్రర్ మెసేజ్‌లు వస్తే, కమాండ్ ప్రాంప్ట్ విండోను మూసివేసి, టైప్ చేయడం ద్వారా అడ్మినిస్ట్రేటర్ మోడ్‌లో దాన్ని మళ్లీ తెరవండి సిఎండి Windows శోధన పెట్టెలో, కుడి-క్లిక్ చేయండి కమాండ్ ప్రాంప్ట్ మరియు ఎంచుకోవడం నిర్వాహకుని వలె అమలు చేయండి:

తదుపరి దశల కోసం, మేము Windows కమాండ్ ప్రాంప్ట్‌కు బదులుగా Windows Powershellని ఉపయోగించబోతున్నాము. మీరు దీన్ని నమోదు చేయడం ద్వారా కనుగొనవచ్చు PowerShell Windows శోధన పెట్టెలోకి, మరియు (అవసరమైతే) దానిపై కుడి-క్లిక్ చేయండి నిర్వాహకుని వలె అమలు చేయండి:

టార్చ్ ఇన్స్టాల్ చేయండి

పవర్‌షెల్‌లో, టైప్ చేసి ఎంటర్ చేయండి:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

అనేక ప్యాకేజీలను ఇన్‌స్టాల్ చేస్తున్నప్పుడు ఓపికపట్టండి.

పూర్తయిన తర్వాత, మీరు టైప్ చేసి ఎంటర్ చేయడం ద్వారా GPU-ప్రారంభించబడిన PyTorch ఇన్‌స్టాలేషన్‌ను ధృవీకరించవచ్చు:

python -c "import torch; print(torch.cuda.is_available())"

దీని ఫలితంగా ఉండాలి:

C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True

Windows కోసం ట్రిటాన్‌ను ఇన్‌స్టాల్ చేయండి

తరువాత, యొక్క సంస్థాపన Windows కోసం ట్రిటాన్ భాగం. ఎలివేటెడ్ పవర్‌షెల్‌లో, నమోదు చేయండి (ఒకే లైన్‌లో):

pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl

(ఇన్‌స్టాలర్ triton-3.1.0-cp310-cp310-win_amd64.whl ఆర్కిటెక్చర్ 64-బిట్ మరియు పర్యావరణం పైథాన్ వెర్షన్‌తో సరిపోలినంత వరకు Intel మరియు AMD CPUలు రెండింటికీ పని చేస్తుంది)

అమలు చేసిన తర్వాత, దీని ఫలితంగా:

Successfully installed triton-3.1.0

పైథాన్‌లో దిగుమతి చేయడం ద్వారా ట్రైటాన్ పనిచేస్తుందో లేదో మనం తనిఖీ చేయవచ్చు. ఈ ఆదేశాన్ని నమోదు చేయండి:

python -c "import triton; print('Triton is working')"

ఇది అవుట్‌పుట్ చేయాలి:

Triton is working

ట్రైటాన్ GPU-ప్రారంభించబడిందో లేదో తనిఖీ చేయడానికి, నమోదు చేయండి:

python -c "import torch; print(torch.cuda.is_available())"

ఇది ఫలితాన్ని ఇవ్వాలి True:

ముసుబి కోసం వర్చువల్ ఎన్విరాన్‌మెంట్‌ని సృష్టించండి

ఇప్పటి నుండి, మేము ఇంకా ఏదైనా సాఫ్ట్‌వేర్‌ను a లోకి ఇన్‌స్టాల్ చేస్తాము పైథాన్ వర్చువల్ పర్యావరణం (లేదా venv) కింది సాఫ్ట్‌వేర్‌లన్నింటినీ అన్‌ఇన్‌స్టాల్ చేయడానికి మీరు చేయాల్సిందల్లా venv యొక్క ఇన్‌స్టాలేషన్ ఫోల్డర్‌ను ట్రాష్‌కి లాగడం.

ఆ ఇన్‌స్టాలేషన్ ఫోల్డర్‌ని క్రియేట్ చేద్దాం: అనే ఫోల్డర్‌ని తయారు చేయండి ముసుబి మీ డెస్క్‌టాప్‌లో. ఈ ఫోల్డర్ ఉనికిలో ఉందని క్రింది ఉదాహరణలు ఊహిస్తాయి: C:\Users\[Your Profile Name]\Desktop\Musubi\.

పవర్‌షెల్‌లో, నమోదు చేయడం ద్వారా ఆ ఫోల్డర్‌కి నావిగేట్ చేయండి:

cd C:\Users\[Your Profile Name]\Desktop\Musubi

మేము ఇప్పటికే ఇన్‌స్టాల్ చేసిన వాటికి (ముఖ్యంగా ట్రిటాన్) వర్చువల్ ఎన్విరాన్‌మెంట్ యాక్సెస్ ఉండాలని మేము కోరుకుంటున్నాము, కాబట్టి మేము దీనిని ఉపయోగిస్తాము --system-site-packages జెండా. దీన్ని నమోదు చేయండి:

python -m venv --system-site-packages musubi

పర్యావరణం సృష్టించబడే వరకు వేచి ఉండి, ఆపై నమోదు చేయడం ద్వారా దాన్ని సక్రియం చేయండి:

.\musubi\Scripts\activate

ఈ సమయం నుండి, మీ అన్ని ప్రాంప్ట్‌ల ప్రారంభంలో (ముసుబి) కనిపించడం ద్వారా మీరు యాక్టివేట్ చేయబడిన వర్చువల్ వాతావరణంలో ఉన్నారని మీరు చెప్పగలరు.

రిపోజిటరీని క్లోన్ చేయండి

కొత్తగా సృష్టించిన వాటికి నావిగేట్ చేయండి musubi ఫోల్డర్ (ఇది లోపల ఉంది ముసుబి మీ డెస్క్‌టాప్‌లోని ఫోల్డర్):

cd musubi

ఇప్పుడు మనం సరైన స్థానంలో ఉన్నాము, కింది ఆదేశాన్ని నమోదు చేయండి:

git clone https://github.com/kohya-ss/musubi-tuner.git

క్లోనింగ్ పూర్తయ్యే వరకు వేచి ఉండండి (దీనికి ఎక్కువ సమయం పట్టదు).

సంస్థాపన అవసరాలు

ఇన్‌స్టాలేషన్ ఫోల్డర్‌కి నావిగేట్ చేయండి:

cd musubi-tuner

నమోదు చేయండి:

pip install -r requirements.txt

అనేక ఇన్‌స్టాలేషన్‌లు పూర్తయ్యే వరకు వేచి ఉండండి (దీనికి ఎక్కువ సమయం పడుతుంది).

హున్యువాన్ వీడియో వెన్వికి స్వయంచాలకంగా యాక్సెస్

భవిష్యత్ సెషన్‌ల కోసం కొత్త venvని సులభంగా యాక్టివేట్ చేయడానికి మరియు యాక్సెస్ చేయడానికి, కింది వాటిని నోట్‌ప్యాడ్‌లో అతికించి, పేరుతో సేవ్ చేయండి యాక్టివేట్.బ్యాట్, తో సేవ్ చేస్తోంది అన్ని ఫైళ్ళు ఎంపిక (క్రింద ఉన్న చిత్రాన్ని చూడండి).

@echo off

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate

cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner

cmd

(పునఃస్థాపించుము [Your Profile Name]మీ Windows యూజర్ ప్రొఫైల్ యొక్క అసలు పేరుతో)

మీరు ఈ ఫైల్‌ని ఏ లొకేషన్‌లో సేవ్ చేస్తారనేది పట్టింపు లేదు.

ఇప్పటి నుండి మీరు డబుల్ క్లిక్ చేయవచ్చు యాక్టివేట్.బ్యాట్ మరియు వెంటనే పని ప్రారంభించండి.

ముసుబి ట్యూనర్‌ని ఉపయోగించడం

మోడల్‌లను డౌన్‌లోడ్ చేస్తోంది

హున్యువాన్ వీడియో లోరా శిక్షణ ప్రక్రియకు హున్యువాన్ వీడియో లోరాను ప్రీ-కాషింగ్ మరియు శిక్షణ కోసం సాధ్యమయ్యే అన్ని ఆప్టిమైజేషన్ ఎంపికలకు మద్దతు ఇవ్వడానికి కనీసం ఏడు మోడళ్లను డౌన్‌లోడ్ చేయడం అవసరం. మొత్తంగా, ఈ నమూనాలు 60GB కంటే ఎక్కువ బరువు కలిగి ఉంటాయి.

వాటిని డౌన్‌లోడ్ చేయడానికి ప్రస్తుత సూచనలను ఇక్కడ చూడవచ్చు https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download

అయితే, ఇవి వ్రాసే సమయంలో డౌన్‌లోడ్ సూచనలు:

clip_l.safetensorsllava_llama3_fp16.safetensors మరియు
llava_llama3_fp8_scaled.safetensors
ఇక్కడ డౌన్‌లోడ్ చేసుకోవచ్చు:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

mp_rank_00_model_states.ptmp_rank_00_model_states_fp8.pt మరియు
mp_rank_00_model_states_fp8_map.pt
ఇక్కడ డౌన్‌లోడ్ చేసుకోవచ్చు:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers

pytorch_model.pt
ఇక్కడ డౌన్‌లోడ్ చేసుకోవచ్చు:
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae

మీరు వీటిని మీరు ఎంచుకున్న ఏ డైరెక్టరీలో అయినా ఉంచవచ్చు, తర్వాత స్క్రిప్టింగ్‌తో అనుగుణ్యత కోసం, వీటిని ఉంచుదాం:

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\

ఇది ఈ పాయింట్‌కి ముందు ఉన్న డైరెక్టరీ అమరికకు అనుగుణంగా ఉంటుంది. ఇకపై ఏవైనా ఆదేశాలు లేదా సూచనలు మోడల్‌లు ఇక్కడే ఉన్నాయని ఊహిస్తారు; మరియు [మీ ప్రొఫైల్ పేరు]ని మీ నిజమైన Windows ప్రొఫైల్ ఫోల్డర్ పేరుతో భర్తీ చేయడం మర్చిపోవద్దు.

డేటాసెట్ తయారీ

కమ్యూనిటీ వివాదాన్ని విస్మరిస్తూ, మీ హున్యువాన్ లోరా కోసం శిక్షణా డేటాసెట్ కోసం మీకు 10-100 ఫోటోల మధ్య ఎక్కడైనా అవసరం అని చెప్పడం న్యాయమే. 15 చిత్రాలతో కూడా చాలా మంచి ఫలితాలు పొందవచ్చు, చిత్రాలు బాగా సమతుల్యంగా మరియు మంచి నాణ్యతతో ఉన్నంత వరకు.

24GB కార్డ్‌కి కూడా వీడియో క్లిప్‌లను శిక్షణ డేటాగా ఉపయోగించడం సవాలుగా ఉన్నప్పటికీ - Hunyuan LoRAకి ఇమేజ్‌లు లేదా చాలా చిన్న మరియు తక్కువ-రిస్ వీడియో క్లిప్‌లు లేదా ప్రతి ఒక్కటి మిశ్రమంపై కూడా శిక్షణ ఇవ్వవచ్చు.

అయితే, మీ పాత్ర ఉంటే మాత్రమే వీడియో క్లిప్‌లు నిజంగా ఉపయోగపడతాయి హున్యువాన్ వీడియో ఫౌండేషన్ మోడల్‌కు దాని గురించి తెలియని అసాధారణ రీతిలో కదులుతుంది, లేదా ఊహించగలరు.

ఉదాహరణలలో రోజర్ రాబిట్, జెనోమార్ఫ్, ది మాస్క్, స్పైడర్ మ్యాన్ లేదా ఇతర వ్యక్తులు ఏకైక లక్షణం ఉద్యమం.

సాధారణ పురుషులు మరియు మహిళలు ఎలా కదులుతారో హున్యువాన్ వీడియోకు ఇప్పటికే తెలుసు కాబట్టి, హున్యువాన్ వీడియో లోరా మానవ-రకం పాత్రను పొందేందుకు వీడియో క్లిప్‌లు అవసరం లేదు. కాబట్టి మేము స్టాటిక్ చిత్రాలను ఉపయోగిస్తాము.

చిత్రం తయారీ

ది బకెట్ లిస్ట్

TLDR వెర్షన్:

మీ డేటాసెట్‌కి ఒకే పరిమాణంలో ఉన్న చిత్రాలను ఉపయోగించడం లేదా రెండు వేర్వేరు పరిమాణాల మధ్య 50/50 స్ప్లిట్‌ని ఉపయోగించడం ఉత్తమం, అంటే 10x512px మరియు 768 చిత్రాలు 10x768px.

మీరు దీన్ని చేయకపోయినా శిక్షణ బాగానే ఉండవచ్చు - హున్యువాన్ వీడియో లోరాలు ఆశ్చర్యకరంగా క్షమించగలవు.

ది లాంగర్ వెర్షన్

స్థిరమైన వ్యాప్తి వంటి స్టాటిక్ ఉత్పాదక వ్యవస్థల కోసం Kohya-ss LoRAల వలె, బకెటింగ్ విభిన్న-పరిమాణ చిత్రాలలో పనిభారాన్ని పంపిణీ చేయడానికి ఉపయోగించబడుతుంది, శిక్షణ సమయంలో మెమరీ లోపాలు లేకుండా పెద్ద చిత్రాలను ఉపయోగించడానికి అనుమతిస్తుంది (అనగా, బకెట్ చేయడం ద్వారా GPU నిర్వహించగలిగే భాగాలుగా చిత్రాలను 'కట్ అప్' చేస్తుంది, మొత్తం చిత్రం యొక్క అర్థ సమగ్రత).

మీరు మీ శిక్షణ డేటాసెట్‌లో (అంటే, 512x768px) చేర్చిన ప్రతి చిత్రం పరిమాణం కోసం, ఆ పరిమాణం కోసం ఒక బకెట్ లేదా 'సబ్-టాస్క్' సృష్టించబడుతుంది. కాబట్టి మీరు ఈ క్రింది చిత్రాల పంపిణీని కలిగి ఉన్నట్లయితే, బకెట్ అటెన్షన్ ఈ విధంగా అసమతుల్యత చెందుతుంది మరియు శిక్షణలో కొన్ని ఫోటోలు ఇతరులకన్నా ఎక్కువగా పరిగణించబడే ప్రమాదం ఉంది:

2x 512x768px చిత్రాలు
7x 768x512px చిత్రాలు
1x 1000x600px చిత్రం
3x 400x800px చిత్రాలు

ఈ చిత్రాల మధ్య బకెట్ దృష్టి అసమానంగా విభజించబడిందని మనం చూడవచ్చు:

అందువల్ల ఒక ఫార్మాట్ పరిమాణానికి కట్టుబడి ఉండండి లేదా వివిధ పరిమాణాల పంపిణీని సాపేక్షంగా సమానంగా ఉంచడానికి ప్రయత్నించండి.

ఏ సందర్భంలోనైనా, చాలా పెద్ద చిత్రాలను నివారించండి, ఎందుకంటే ఇది శిక్షణను నెమ్మదిస్తుంది, స్వల్ప ప్రయోజనం పొందుతుంది.

సరళత కోసం, నేను నా డేటాసెట్‌లోని అన్ని ఫోటోల కోసం 512x768pxని ఉపయోగించాను.

తనది కాదను వ్యక్తి: డేటాసెట్‌లో ఉపయోగించిన మోడల్ (వ్యక్తి) ఈ ప్రయోజనం కోసం ఈ చిత్రాలను ఉపయోగించడానికి నాకు పూర్తి అనుమతిని అందించింది మరియు ఈ కథనంలో ప్రదర్శించబడిన ఆమె పోలికను వర్ణించే అన్ని AI- ఆధారిత అవుట్‌పుట్‌లకు ఆమోదం తెలిపింది.

నా డేటాసెట్ PNG ఆకృతిలో 40 చిత్రాలను కలిగి ఉంది (అయితే JPG కూడా బాగానే ఉంది). నా చిత్రాలు ఇక్కడ నిల్వ చేయబడ్డాయి C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman

మీరు a సృష్టించాలి కాష్ శిక్షణ చిత్రం ఫోల్డర్ లోపల ఫోల్డర్:

ఇప్పుడు శిక్షణను కాన్ఫిగర్ చేసే ప్రత్యేక ఫైల్‌ని క్రియేట్ చేద్దాం.

TOML ఫైల్‌లు

హున్యువాన్ వీడియో లోరాస్ యొక్క శిక్షణ మరియు ప్రీ-కాషింగ్ ప్రక్రియలు ఫ్లాట్ టెక్స్ట్ ఫైల్ నుండి ఫైల్ పాత్‌లను పొందుతాయి .toml పొడిగింపు.

నా పరీక్ష కోసం, TOML C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.tomlలో ఉంది

నా శిక్షణ TOML యొక్క కంటెంట్‌లు ఇలా ఉన్నాయి:

[general]

resolution = [512, 768]

caption_extension = ".txt"

batch_size = 1

enable_bucket = true

bucket_no_upscale = false

[[datasets]]

image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"

cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"

num_repeats = 1

(చిత్రం మరియు కాష్ డైరెక్టరీల కోసం డబుల్ బ్యాక్-స్లాష్‌లు ఎల్లప్పుడూ అవసరం లేదు, కానీ అవి మార్గంలో ఖాళీ ఉన్న సందర్భాల్లో లోపాలను నివారించడంలో సహాయపడతాయి. నేను సింగిల్-ఫార్వర్డ్ మరియు సింగిల్-ని ఉపయోగించే .toml ఫైల్‌లతో మోడల్‌లను శిక్షణ పొందాను. వెనుక స్లాష్‌లు)

లో మనం చూడవచ్చు resolution రెండు రిజల్యూషన్‌లు పరిగణించబడే విభాగం - 512px మరియు 768px. మీరు దీన్ని 512 వద్ద వదిలివేయవచ్చు మరియు ఇప్పటికీ మంచి ఫలితాలను పొందవచ్చు.

శీర్షికలు

హున్యువాన్ వీడియో ఒక టెక్స్ట్+విజన్ ఫౌండేషన్ మోడల్, కాబట్టి ఈ చిత్రాల కోసం మాకు వివరణాత్మక శీర్షికలు అవసరం, ఇది శిక్షణ సమయంలో పరిగణించబడుతుంది. శీర్షికలు లేకుండా శిక్షణ ప్రక్రియ విఫలమవుతుంది.

ఒక ఉన్నాయి సమూహము ఈ టాస్క్ కోసం మనం ఉపయోగించగల ఓపెన్ సోర్స్ క్యాప్షనింగ్ సిస్టమ్‌లు, కానీ దానిని సరళంగా ఉంచి, ఉపయోగించుకుందాం taggui వ్యవస్థ. ఇది GitHubలో నిల్వ చేయబడినప్పటికీ, మొదటి రన్‌లో చాలా భారీ డీప్ లెర్నింగ్ మోడల్‌లను డౌన్‌లోడ్ చేసినప్పటికీ, ఇది పైథాన్ లైబ్రరీలను మరియు సరళమైన GUIని లోడ్ చేసే సాధారణ Windows ఎక్జిక్యూటబుల్ రూపంలో వస్తుంది.

Tagguiని ప్రారంభించిన తర్వాత, ఉపయోగించండి ఫైల్ > లోడ్ డైరెక్టరీ మీ చిత్ర డేటాసెట్‌కి నావిగేట్ చేయడానికి మరియు ఐచ్ఛికంగా టోకెన్ ఐడెంటిఫైయర్‌ను ఉంచండి (ఈ సందర్భంలో, ఉదాహరణ స్త్రీ) ఇది అన్ని శీర్షికలకు జోడించబడుతుంది:

(తప్పకుండా ఆఫ్ చేయండి 4-బిట్‌లో లోడ్ చేయండి Taggui మొదట తెరిచినప్పుడు – దీన్ని ఆన్‌లో ఉంచితే క్యాప్షన్ సమయంలో లోపాలు ఏర్పడతాయి)

అన్ని చిత్రాలను ఎంచుకోవడానికి ఎడమవైపు ప్రివ్యూ కాలమ్‌లో చిత్రాన్ని ఎంచుకోండి మరియు CTRL+A నొక్కండి. ఆపై కుడివైపున ఉన్న స్టార్ట్ ఆటో-క్యాప్షనింగ్ బటన్‌ను నొక్కండి:

మీరు కుడివైపు కాలమ్‌లోని చిన్న CLIలో Taggui మోడల్‌లను డౌన్‌లోడ్ చేయడాన్ని చూస్తారు, అయితే మీరు క్యాప్షనర్‌ను అమలు చేయడం ఇదే మొదటిసారి అయితే మాత్రమే. లేదంటే మీరు క్యాప్షన్‌ల ప్రివ్యూని చూస్తారు.

ఇప్పుడు, ప్రతి ఫోటో దాని చిత్ర విషయాల వివరణతో సంబంధిత .txt శీర్షికను కలిగి ఉంది:

మీరు క్లిక్ చేయవచ్చు అధునాతన ఎంపికలు శీర్షికల పొడవు మరియు శైలిని పెంచడానికి Tagguiలో, కానీ అది ఈ రన్-త్రూ పరిధికి మించినది.

Taggui నుండి నిష్క్రమించండి మరియు దీనికి కొనసాగండి…

గుప్త ప్రీ-కాషింగ్

శిక్షణ సమయంలో అధిక GPU లోడ్‌ను నివారించడానికి, రెండు రకాల ముందుగా కాష్ చేసిన ఫైల్‌లను సృష్టించడం అవసరం - ఒకటి ఇమేజ్‌ల నుండి వచ్చిన గుప్త చిత్రాన్ని సూచించడానికి మరియు మరొకటి క్యాప్షన్ కంటెంట్‌కు సంబంధించిన టెక్స్ట్ ఎన్‌కోడింగ్‌ను మూల్యాంకనం చేయడానికి.

మూడు ప్రక్రియలను (2x కాష్ + శిక్షణ) సులభతరం చేయడానికి, మీరు ఇంటరాక్టివ్ .BAT ఫైల్‌లను ఉపయోగించవచ్చు, అవి మిమ్మల్ని ప్రశ్నలు అడగవచ్చు మరియు మీరు అవసరమైన సమాచారాన్ని అందించినప్పుడు ప్రక్రియలను చేపట్టవచ్చు.

గుప్త ప్రీ-కాషింగ్ కోసం, కింది టెక్స్ట్‌ను నోట్‌ప్యాడ్‌లోకి కాపీ చేసి, దానిని .BAT ఫైల్‌గా సేవ్ చేయండి (అంటే, దీనికి పేరు పెట్టండి latent-precache.bat), మునుపటిలా, డ్రాప్ డౌన్ మెనులో ఫైల్ రకాన్ని నిర్ధారిస్తుంది ఇలా సేవ్ చేయండి డైలాగ్ ఉంది అన్ని ఫైళ్ళు (క్రింద ఉన్న చిత్రాన్ని చూడండి):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the latent pre-caching script

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling

) else (

echo Operation canceled.

)

REM Keep the window open

pause

(మీరు భర్తీ చేశారని నిర్ధారించుకోండి [మీ ప్రొఫైల్ పేరు] మీ నిజమైన Windows ప్రొఫైల్ ఫోల్డర్ పేరుతో)

ఇప్పుడు మీరు ఆటోమేటిక్ లాటెంట్ కాషింగ్ కోసం .BAT ఫైల్‌ని రన్ చేయవచ్చు:

BAT ఫైల్ నుండి వివిధ ప్రశ్నల ద్వారా ప్రాంప్ట్ చేయబడినప్పుడు, మీ డేటాసెట్, కాష్ ఫోల్డర్‌లు మరియు TOML ఫైల్‌కి పాత్‌ను అతికించండి లేదా టైప్ చేయండి.

టెక్స్ట్ ప్రీ-కాషింగ్

మేము రెండవ BAT ఫైల్‌ని సృష్టిస్తాము, ఈసారి టెక్స్ట్ ప్రీ-కాషింగ్ కోసం.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p IMAGE_PATH=Enter the path to the image directory:

set /p CACHE_PATH=Enter the path to the cache directory:

set /p TOML_PATH=Enter the path to the TOML file:

echo You entered:

echo Image path: %IMAGE_PATH%

echo Cache path: %CACHE_PATH%

echo TOML file path: %TOML_PATH%

set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?

if /i "%CONFIRM%"=="y" (

REM Use the python executable from the virtual environment

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16

) else (

echo Operation canceled.

)

REM Keep the window open

pause

మీ Windows ప్రొఫైల్ పేరును భర్తీ చేయండి మరియు దీన్ని ఇలా సేవ్ చేయండి text-cache.bat (లేదా మీకు నచ్చిన ఏదైనా ఇతర పేరు), మునుపటి BAT ఫైల్‌కు సంబంధించిన విధానం ప్రకారం ఏదైనా అనుకూలమైన ప్రదేశంలో.

ఈ కొత్త BAT ఫైల్‌ని అమలు చేయండి, సూచనలను అనుసరించండి మరియు అవసరమైన టెక్స్ట్-ఎన్‌కోడ్ ఫైల్‌లు లో కనిపిస్తాయి కాష్ ఫోల్డర్:

హున్యువాన్ వీడియో లోరా శిక్షణ

అసలు LoRAకి శిక్షణ ఇవ్వడానికి ఈ రెండు సన్నాహక ప్రక్రియల కంటే ఎక్కువ సమయం పడుతుంది.

మేము చింతించగల అనేక వేరియబుల్స్ కూడా ఉన్నప్పటికీ (బ్యాచ్ పరిమాణం, రిపీట్‌లు, యుగాలు మరియు ఇతర వాటితో పాటు పూర్తి లేదా పరిమాణాత్మక నమూనాలను ఉపయోగించాలా వద్దా అనేవి), మేము ఈ పరిగణనలను మరొక రోజు కోసం సేవ్ చేస్తాము మరియు మరింత లోతుగా పరిశీలిస్తాము LoRA సృష్టి యొక్క చిక్కులు.

ప్రస్తుతానికి, ఎంపికలను కొద్దిగా తగ్గించి, 'మధ్యస్థ' సెట్టింగ్‌లపై LoRAకి శిక్షణ ఇద్దాం.

మేము శిక్షణను ప్రారంభించడానికి ఈసారి మూడవ BAT ఫైల్‌ని సృష్టిస్తాము. దీన్ని నోట్‌ప్యాడ్‌లో అతికించి, మునుపటిలాగా, BAT ఫైల్‌గా సేవ్ చేయండి శిక్షణ.బ్యాట్ (లేదా మీరు ఇష్టపడే ఏదైనా పేరు):

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

REM Get user input

set /p DATASET_CONFIG=Enter the path to the dataset configuration file:

set /p EPOCHS=Enter the number of epochs to train:

set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):

set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):

if "%LEARNING_RATE%"=="1" set LR=1e-3

if "%LEARNING_RATE%"=="2" set LR=5e-3

if "%LEARNING_RATE%"=="" set LR=1e-3

set /p SAVE_STEPS=How often (in steps) to save preview images:

set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?

echo You entered:

echo Dataset configuration file: %DATASET_CONFIG%

echo Number of epochs: %EPOCHS%

echo Output name: %OUTPUT_NAME%

echo Learning rate: %LR%

echo Save preview images every %SAVE_STEPS% steps.

echo Text-prompt file: %SAMPLE_PROMPTS%

REM Prepare the command

set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^

C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^

--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^

--dataset_config %DATASET_CONFIG% ^

--sdpa ^

--mixed_precision bf16 ^

--fp8_base ^

--optimizer_type adamw8bit ^

--learning_rate %LR% ^

--gradient_checkpointing ^

--max_data_loader_n_workers 2 ^

--persistent_data_loader_workers ^

--network_module=networks.lora ^

--network_dim=32 ^

--timestep_sampling sigmoid ^

--discrete_flow_shift 1.0 ^

--max_train_epochs %EPOCHS% ^

--save_every_n_epochs=1 ^

--seed 42 ^

--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^

--output_name %OUTPUT_NAME% ^

--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^

--vae_chunk_size 32 ^

--vae_spatial_tile_sample_min_size 128 ^

--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^

--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^

--sample_prompts %SAMPLE_PROMPTS% ^

--sample_every_n_steps %SAVE_STEPS% ^

--sample_at_first

echo The following command will be executed:

echo %CMD%

set /p CONFIRM=Do you want to proceed with training (y/n)?

if /i "%CONFIRM%"=="y" (

%CMD%

) else (

echo Operation canceled.

)

REM Keep the window open

cmd /k

ఎప్పటిలాగే, అన్ని సందర్భాలను భర్తీ చేయాలని నిర్ధారించుకోండి of [మీ ప్రొఫైల్ పేరు] మీ సరైన Windows ప్రొఫైల్ పేరుతో.

డైరెక్టరీ అని నిర్ధారించుకోండి C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\ ఉనికిలో ఉంది మరియు కాకపోతే ఆ స్థానంలో దాన్ని సృష్టించండి.

శిక్షణ ప్రివ్యూలు

Musubi ట్రైనర్ కోసం ఇటీవల చాలా ప్రాథమిక శిక్షణ ప్రివ్యూ ఫీచర్ ప్రారంభించబడింది, ఇది మీరు సేవ్ చేసిన ప్రాంప్ట్‌ల ఆధారంగా శిక్షణ మోడల్‌ను పాజ్ చేయడానికి మరియు రూపొందించడానికి బలవంతంగా అనుమతిస్తుంది. ఇవి స్వయంచాలకంగా సృష్టించబడిన ఫోల్డర్‌లో సేవ్ చేయబడతాయి నమూనా, శిక్షణ పొందిన మోడల్‌లు సేవ్ చేయబడిన అదే డైరెక్టరీలో.

దీన్ని ఎనేబుల్ చేయడానికి, మీరు టెక్స్ట్ ఫైల్‌లో చివరిగా ఒక ప్రాంప్ట్‌లో సేవ్ చేయాలి. మేము సృష్టించిన శిక్షణ BAT ఈ ఫైల్ యొక్క స్థానాన్ని ఇన్‌పుట్ చేయమని మిమ్మల్ని అడుగుతుంది; అందువల్ల మీరు ప్రాంప్ట్ ఫైల్‌కు మీకు నచ్చిన ఏదైనా పేరు పెట్టవచ్చు మరియు దానిని ఎక్కడైనా సేవ్ చేయవచ్చు.

శిక్షణ రొటీన్ ద్వారా అభ్యర్థించినప్పుడు మూడు వేర్వేరు చిత్రాలను అవుట్‌పుట్ చేసే ఫైల్ కోసం ఇక్కడ కొన్ని ప్రాంప్ట్ ఉదాహరణలు ఉన్నాయి:

పై ఉదాహరణలో మీరు చూడగలిగినట్లుగా, మీరు చిత్రాలను ప్రభావితం చేసే ప్రాంప్ట్ చివరిలో ఫ్లాగ్‌లను ఉంచవచ్చు:

-w ఉంది వెడల్పు (ప్రకారం సెట్ చేయకపోతే 256pxకి డిఫాల్ట్ అవుతుంది పత్రాలు)
-h ఉంది ఎత్తు (సెట్ చేయకపోతే డిఫాల్ట్‌గా 256px)
-f అనేది ఫ్రేమ్‌ల సంఖ్య. 1కి సెట్ చేస్తే, ఒక చిత్రం ఉత్పత్తి చేయబడుతుంది; ఒకటి కంటే ఎక్కువ, ఒక వీడియో.
-d అనేది విత్తనం. సెట్ చేయకపోతే, అది యాదృచ్ఛికంగా ఉంటుంది; కానీ మీరు ఒక ప్రాంప్ట్ అభివృద్ధి చెందుతున్నట్లు చూడటానికి దాన్ని సెట్ చేయాలి.
–s అనేది జనరేషన్‌లోని దశల సంఖ్య, 20కి డిఫాల్ట్ అవుతుంది.

చూడండి అధికారిక డాక్యుమెంటేషన్ అదనపు జెండాల కోసం.

శిక్షణ ప్రివ్యూలు మీరు శిక్షణను రద్దు చేయడానికి మరియు డేటా లేదా సెటప్‌ని పునఃపరిశీలించటానికి కారణమయ్యే కొన్ని సమస్యలను త్వరగా బహిర్గతం చేయగలవు, తద్వారా సమయం ఆదా అవుతుంది, ప్రతి అదనపు ప్రాంప్ట్ శిక్షణను కొంచెం నెమ్మదిస్తుందని గుర్తుంచుకోండి.

అలాగే, శిక్షణ ప్రివ్యూ చిత్రం యొక్క వెడల్పు మరియు ఎత్తు (పైన జాబితా చేయబడిన ఫ్లాగ్‌లలో సెట్ చేసినట్లు) పెద్దది, అది శిక్షణను నెమ్మదిస్తుంది.

మీ శిక్షణ BAT ఫైల్‌ను ప్రారంభించండి.

ప్రశ్న #1 అనేది 'డేటాసెట్ కాన్ఫిగరేషన్‌కు పాత్‌ను నమోదు చేయండి. మీ TOML ఫైల్‌కి సరైన మార్గంలో అతికించండి లేదా టైప్ చేయండి.

ప్రశ్న #2 'శిక్షణ కోసం యుగాల సంఖ్యను నమోదు చేయండి'. ఇది ట్రయల్-అండ్-ఎర్రర్ వేరియబుల్, ఎందుకంటే ఇది చిత్రాల మొత్తం మరియు నాణ్యత, అలాగే శీర్షికలు మరియు ఇతర కారకాల ద్వారా ప్రభావితమవుతుంది. సాధారణంగా, మోడల్ తగినంతగా అభివృద్ధి చెందిందని మీరు భావిస్తే, మీరు శిక్షణ విండోలో Ctrl+Cతో శిక్షణను ఎల్లప్పుడూ ఆపవచ్చు కాబట్టి, దీన్ని చాలా తక్కువగా కంటే చాలా ఎక్కువగా సెట్ చేయడం ఉత్తమం. మొదటి సందర్భంలో దాన్ని 100కి సెట్ చేయండి మరియు అది ఎలా జరుగుతుందో చూడండి.

ప్రశ్న #3 'అవుట్‌పుట్ మోడల్ పేరును నమోదు చేయండి'. మీ మోడల్‌కు పేరు పెట్టండి! పేరును చిన్నదిగా మరియు సరళంగా ఉంచడం ఉత్తమం.

ప్రశ్న #4 'లెర్నింగ్ రేట్‌ని ఎంచుకోండి', ఇది 1e-3కి డిఫాల్ట్ అవుతుంది (ఎంపిక 1). ప్రారంభించడానికి ఇది మంచి ప్రదేశం, తదుపరి అనుభవం పెండింగ్‌లో ఉంది.

ప్రశ్న #5 అనేది 'ప్రివ్యూ చిత్రాలను ఎంత తరచుగా (దశలలో) సేవ్ చేయాలి. మీరు దీన్ని చాలా తక్కువగా సెట్ చేస్తే, ప్రివ్యూ ఇమేజ్ సేవ్‌ల మధ్య మీరు కొంచెం పురోగతిని చూస్తారు మరియు ఇది శిక్షణను నెమ్మదిస్తుంది.

ప్రశ్న #6 'శిక్షణ ప్రివ్యూల కోసం టెక్స్ట్-ప్రాంప్ట్ ఫైల్ యొక్క స్థానం ఏమిటి?'. మీ ప్రాంప్ట్‌ల టెక్స్ట్ ఫైల్‌కి పాత్‌ను అతికించండి లేదా టైప్ చేయండి.

BAT అది హున్యువాన్ మోడల్‌కు పంపే ఆదేశాన్ని మీకు చూపుతుంది మరియు మీరు కొనసాగాలనుకుంటున్నారా అని అడుగుతుంది, y/n.

కొనసాగండి మరియు శిక్షణ ప్రారంభించండి:

ఈ సమయంలో, మీరు Windows Task Manager యొక్క పనితీరు ట్యాబ్‌లోని GPU విభాగాన్ని తనిఖీ చేస్తే, ప్రాసెస్ దాదాపు 16GB VRAMని తీసుకుంటున్నట్లు మీరు చూస్తారు.

ఇది చాలా తక్కువ NVIDIA గ్రాఫిక్స్ కార్డ్‌లలో అందుబాటులో ఉన్న VRAM మొత్తం కాబట్టి ఇది ఏకపక్ష సంఖ్య కాకపోవచ్చు మరియు అటువంటి కార్డ్‌లను కలిగి ఉన్న వారి ప్రయోజనం కోసం టాస్క్‌లను 16GBకి సరిపోయేలా అప్‌స్ట్రీమ్ కోడ్ ఆప్టిమైజ్ చేయబడి ఉండవచ్చు.

శిక్షణా కమాండ్‌కు మరిన్ని అధిక జెండాలను పంపడం ద్వారా ఈ వినియోగాన్ని పెంచడం చాలా సులభం అని పేర్కొంది.

శిక్షణ సమయంలో, మీరు CMD విండో యొక్క దిగువ-కుడి వైపున శిక్షణ ప్రారంభమైనప్పటి నుండి ఎంత సమయం గడిచిందో మరియు మొత్తం శిక్షణ సమయం యొక్క అంచనాను చూస్తారు (ఇది ఫ్లాగ్‌ల సెట్, శిక్షణ చిత్రాల సంఖ్యపై ఆధారపడి భారీగా మారుతుంది. , శిక్షణ ప్రివ్యూ చిత్రాల సంఖ్య మరియు అనేక ఇతర అంశాలు).

అందుబాటులో ఉన్న హార్డ్‌వేర్, చిత్రాల సంఖ్య, ఫ్లాగ్ సెట్టింగ్‌లు మరియు ఇతర కారకాలపై ఆధారపడి, మధ్యస్థ సెట్టింగ్‌లపై సాధారణ శిక్షణ సమయం సుమారు 3-4 గంటలు.

Hunyuan వీడియోలో మీ శిక్షణ పొందిన LoRA మోడల్‌లను ఉపయోగించడం

తనిఖీ కేంద్రాలను ఎంచుకోవడం

శిక్షణ ముగిసినప్పుడు, మీరు శిక్షణ యొక్క ప్రతి యుగానికి నమూనా తనిఖీ కేంద్రాన్ని కలిగి ఉంటారు.

ఈ సేవింగ్ ఫ్రీక్వెన్సీని సవరించడం ద్వారా, కావలసిన విధంగా ఎక్కువ లేదా తక్కువ తరచుగా సేవ్ చేయడానికి వినియోగదారు మార్చవచ్చు --save_every_n_epochs [N] శిక్షణ BAT ఫైల్‌లోని సంఖ్య. మీరు BATతో శిక్షణను సెటప్ చేస్తున్నప్పుడు ఒక్కో దశకు ఆదా చేయడం కోసం తక్కువ సంఖ్యను జోడించినట్లయితే, అధిక సంఖ్యలో సేవ్ చేయబడిన చెక్‌పాయింట్ ఫైల్‌లు ఉంటాయి.

ఏ చెక్‌పాయింట్ ఎంచుకోవాలి?

ముందుగా చెప్పినట్లుగా, ప్రారంభ-శిక్షణ పొందిన మోడల్‌లు చాలా సరళంగా ఉంటాయి, అయితే తదుపరి తనిఖీ కేంద్రాలు చాలా వివరాలను అందించవచ్చు. ఈ కారకాల కోసం పరీక్షించడానికి ఏకైక మార్గం కొన్ని LoRAలను అమలు చేయడం మరియు కొన్ని వీడియోలను రూపొందించడం. ఈ విధంగా మీరు ఏ చెక్‌పాయింట్‌లు అత్యంత ఉత్పాదకతను కలిగి ఉంటాయో తెలుసుకోవచ్చు మరియు వశ్యత మరియు విశ్వసనీయత మధ్య అత్యుత్తమ సమతుల్యతను సూచిస్తాయి.

ComfyUI

ప్రస్తుతం హున్యువాన్ వీడియో లోరాలను ఉపయోగించడం కోసం అత్యంత ప్రజాదరణ పొందిన (అయితే మాత్రమే కాదు) పర్యావరణం ComfyUI, మీ వెబ్ బ్రౌజర్‌లో రన్ అయ్యే విస్తృతమైన Gradio ఇంటర్‌ఫేస్‌తో కూడిన నోడ్-ఆధారిత ఎడిటర్.

మూలం: https://github.com/comfyanonymous/ComfyUI

ఇన్‌స్టాలేషన్ సూచనలు సూటిగా ఉంటాయి మరియు అధికారిక GitHub రిపోజిటరీలో అందుబాటులో ఉంది (అదనపు నమూనాలు డౌన్‌లోడ్ చేయబడాలి).

ComfyUI కోసం మోడల్‌లను మారుస్తోంది

మీ శిక్షణ పొందిన మోడల్‌లు ComfyUI యొక్క చాలా అమలులకు అనుకూలంగా లేని (డిఫ్యూజర్‌లు) ఫార్మాట్‌లో సేవ్ చేయబడతాయి. Musubi మోడల్‌ను ComfyUI-అనుకూల ఆకృతికి మార్చగలదు. దీన్ని అమలు చేయడానికి BAT ఫైల్‌ను సెటప్ చేద్దాం.

ఈ BATని అమలు చేయడానికి ముందు, సృష్టించండి C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\ స్క్రిప్ట్ ఆశించే ఫోల్డర్.

@echo off

REM Activate the virtual environment

call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat

:START

REM Get user input

set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):

REM Exit if the user types "exit"

if /i "%INPUT_PATH%"=="exit" goto END

REM Extract the file name from the input path and append 'converted' to it

for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF

set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors

set TARGET=other

echo You entered:

echo Input file: %INPUT_PATH%

echo Output file: %OUTPUT_PATH%

echo Target format: %TARGET%

set /p CONFIRM=Do you want to proceed with the conversion (y/n)?

if /i "%CONFIRM%"=="y" (

REM Run the conversion script with correctly quoted paths

python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%

echo Conversion complete.

) else (

echo Operation canceled.

)

REM Return to start for another file

goto START

:END

REM Keep the window open

echo Exiting the script.

pause

మునుపటి BAT ఫైల్‌ల మాదిరిగానే, నోట్‌ప్యాడ్ నుండి స్క్రిప్ట్‌ను 'అన్ని ఫైల్‌లు'గా సేవ్ చేయండి, దానికి పేరు పెట్టండి convert.bat (లేదా మీకు నచ్చినది).

సేవ్ చేసిన తర్వాత, కొత్త BAT ఫైల్‌పై డబుల్ క్లిక్ చేయండి, ఇది మార్చడానికి ఫైల్ స్థానాన్ని అడుగుతుంది.

మీరు మార్చాలనుకుంటున్న శిక్షణ పొందిన ఫైల్‌ను అతికించండి లేదా టైప్ చేయండి, క్లిక్ చేయండి y, మరియు ఎంటర్ నొక్కండి.

మార్చబడిన LoRAని సేవ్ చేసిన తర్వాత మార్చబడింది ఫోల్డర్, మీరు మరొక ఫైల్‌ను మార్చాలనుకుంటున్నారా అని స్క్రిప్ట్ అడుగుతుంది. మీరు ComfyUIలో బహుళ చెక్‌పాయింట్‌లను పరీక్షించాలనుకుంటే, మోడల్‌ల ఎంపికను మార్చండి.

మీరు తగినంత చెక్‌పాయింట్‌లను మార్చినప్పుడు, BAT కమాండ్ విండోను మూసివేయండి.

మీరు ఇప్పుడు మీ ComfyUI ఇన్‌స్టాలేషన్‌లోని మోడల్స్\loras ఫోల్డర్‌లోకి మార్చబడిన మీ మోడల్‌లను కాపీ చేయవచ్చు.

సాధారణంగా సరైన స్థానం ఇలా ఉంటుంది:

C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\

ComfyUIలో Hunyuan వీడియో LoRAలను సృష్టిస్తోంది

ComfyUI యొక్క నోడ్-ఆధారిత వర్క్‌ఫ్లోలు మొదట్లో సంక్లిష్టంగా కనిపించినప్పటికీ, ఇతర నిపుణులైన వినియోగదారుల సెట్టింగ్‌లు నేరుగా ComfyUI విండోలోకి చిత్రాన్ని (ఇతర వినియోగదారు యొక్క ComfyUIతో తయారు చేయబడినవి) లాగడం ద్వారా లోడ్ చేయబడతాయి. వర్క్‌ఫ్లోలు JSON ఫైల్‌లుగా కూడా ఎగుమతి చేయబడతాయి, వీటిని మాన్యువల్‌గా దిగుమతి చేసుకోవచ్చు లేదా ComfyUI విండోలోకి లాగవచ్చు.

కొన్ని దిగుమతి చేయబడిన వర్క్‌ఫ్లోలు మీ ఇన్‌స్టాలేషన్‌లో లేని డిపెండెన్సీలను కలిగి ఉంటాయి. కాబట్టి ఇన్స్టాల్ చేయండి ComfyUI-మేనేజర్, ఇది తప్పిపోయిన మాడ్యూళ్లను స్వయంచాలకంగా పొందగలదు.

మూలం: https://github.com/ltdrdata/ComfyUI-Manager

ఈ ట్యుటోరియల్‌లోని మోడల్‌ల నుండి వీడియోలను రూపొందించడానికి ఉపయోగించే వర్క్‌ఫ్లోలలో ఒకదాన్ని లోడ్ చేయడానికి, డౌన్‌లోడ్ చేయండి ఈ JSON ఫైల్ మరియు దానిని మీ ComfyUI విండోలోకి లాగండి (Hunyuan వీడియోని స్వీకరించిన వివిధ Reddit మరియు డిస్కార్డ్ కమ్యూనిటీలలో చాలా మెరుగైన వర్క్‌ఫ్లో ఉదాహరణలు అందుబాటులో ఉన్నాయి మరియు నా స్వంతం వీటిలో ఒకదాని నుండి స్వీకరించబడింది).

ComfyUI ఉపయోగంలో పొడిగించిన ట్యుటోరియల్ కోసం ఇది స్థలం కాదు, కానీ మీరు నేను పైన లింక్ చేసిన JSON లేఅవుట్‌ను డౌన్‌లోడ్ చేసి, ఉపయోగిస్తే మీ అవుట్‌పుట్‌పై ప్రభావం చూపే కొన్ని కీలకమైన పారామితులను పేర్కొనడం విలువైనదే.

1) వెడల్పు మరియు ఎత్తు

మీ చిత్రం పెద్దదైతే, జనరేషన్ ఎక్కువ సమయం పడుతుంది మరియు మెమరీలో లేని (OOM) ఎర్రర్ వచ్చే ప్రమాదం ఎక్కువ.

2) పొడవు

ఫ్రేమ్‌ల సంఖ్యకు ఇది సంఖ్యా విలువ. ఫ్రేమ్ రేట్ (ఈ లేఅవుట్‌లో 30fpsకి సెట్ చేయబడింది)పై ఆధారపడి ఇది ఎన్ని సెకన్లు జోడిస్తుంది. మీరు fps ఆధారంగా సెకన్లు>ఫ్రేమ్‌లను మార్చవచ్చు ఓమ్నికల్క్యులేటర్ వద్ద.

3) బ్యాచ్ పరిమాణం

మీరు బ్యాచ్ పరిమాణాన్ని ఎంత ఎక్కువగా సెట్ చేస్తే, ఫలితం త్వరగా రావచ్చు, కానీ VRAM యొక్క భారం అంత ఎక్కువగా ఉంటుంది. దీన్ని చాలా ఎక్కువగా సెట్ చేయండి మరియు మీరు OOMని పొందవచ్చు.

4) ఉత్పత్తి తర్వాత నియంత్రణ

ఇది యాదృచ్ఛిక విత్తనాన్ని నియంత్రిస్తుంది. ఈ ఉప-నోడ్ కోసం ఎంపికలు స్థిర, ఇంక్రిమెంట్, తగ్గుదల మరియు యాదృచ్ఛికం. మీరు దానిని వదిలివేస్తే స్థిర మరియు టెక్స్ట్ ప్రాంప్ట్‌ను మార్చవద్దు, మీరు ప్రతిసారీ అదే చిత్రాన్ని పొందుతారు. మీరు టెక్స్ట్ ప్రాంప్ట్‌ని సవరిస్తే, ఇమేజ్ పరిమిత స్థాయిలో మారుతుంది. ది ఇంక్రిమెంట్ మరియు తగ్గుదల సెట్టింగ్‌లు సమీపంలోని విత్తన విలువలను అన్వేషించడానికి మిమ్మల్ని అనుమతిస్తాయి యాదృచ్ఛికం మీకు ప్రాంప్ట్‌కి పూర్తిగా కొత్త వివరణ ఇస్తుంది.

5) లోరా పేరు

ఉత్పత్తి చేయడానికి ప్రయత్నించే ముందు మీరు మీ స్వంత ఇన్‌స్టాల్ చేసిన మోడల్‌ని ఇక్కడ ఎంచుకోవాలి.

6) టోకెన్

టోకెన్‌తో కాన్సెప్ట్‌ను ట్రిగ్గర్ చేయడానికి మీరు మీ మోడల్‌కు శిక్షణనిచ్చి ఉంటే, (ఉదా 'ఉదాహరణ వ్యక్తి'), ఆ ట్రిగ్గర్ పదాన్ని మీ ప్రాంప్ట్‌లో ఉంచండి.

7) దశలు

వ్యవస్థ వ్యాప్తి ప్రక్రియకు ఎన్ని దశలను వర్తింపజేస్తుందో ఇది సూచిస్తుంది. ఉన్నత దశలు మెరుగైన వివరాలను పొందవచ్చు, కానీ ఈ విధానం ఎంత ప్రభావవంతంగా ఉంటుందనే దానిపై సీలింగ్ ఉంది మరియు ఆ థ్రెషోల్డ్‌ను కనుగొనడం కష్టంగా ఉంటుంది. సాధారణ దశల పరిధి 20-30.

8) టైల్ పరిమాణం

తరం సమయంలో ఒకేసారి ఎంత సమాచారం నిర్వహించబడుతుందో ఇది నిర్వచిస్తుంది. ఇది డిఫాల్ట్‌గా 256కి సెట్ చేయబడింది. దీన్ని పెంచడం వలన ఉత్పత్తిని వేగవంతం చేయవచ్చు, కానీ దానిని చాలా ఎక్కువగా పెంచడం అనేది ఒక సుదీర్ఘ ప్రక్రియ ముగింపులో వచ్చినందున, ప్రత్యేకించి నిరాశపరిచే OOM అనుభవానికి దారి తీస్తుంది.

9) తాత్కాలిక అతివ్యాప్తి

హున్యువాన్ వీడియో జనరేషన్ జనరేషన్ 'దెయ్యం' లేదా ఇది చాలా తక్కువగా సెట్ చేయబడితే నమ్మలేని కదలికకు దారి తీస్తుంది. సాధారణంగా, ఇది మెరుగైన కదలికను ఉత్పత్తి చేయడానికి ఫ్రేమ్‌ల సంఖ్య కంటే ఎక్కువ విలువకు సెట్ చేయబడాలనేది ప్రస్తుత జ్ఞానం.

ముగింపు

ComfyUI వినియోగం యొక్క తదుపరి అన్వేషణ ఈ కథనం యొక్క పరిధికి మించినది అయినప్పటికీ, Reddit మరియు డిస్కార్డ్స్‌లోని కమ్యూనిటీ అనుభవం నేర్చుకునే వక్రతను సులభతరం చేస్తుంది మరియు అనేకం ఉన్నాయి ఆన్‌లైన్ గైడ్‌లు అది ప్రాథమికాలను పరిచయం చేస్తుంది.

మొదట జనవరి 23, 2025న గురువారం ప్రచురించబడింది

సంబంధిత టాపిక్స్:AI వీడియో AI వీడియో సృష్టి టెక్స్ట్-టు-వీడియో జనరేటర్వీడియో వ్యాప్తి

తదుపరి

AIలో పాశ్చాత్య పక్షపాతం: ప్రపంచ దృక్పథాలు ఎందుకు లేవు

మిస్ లేదు

ప్రైవేట్ సెక్టార్ $500 బిలియన్ AI ఇన్‌ఫ్రాస్ట్రక్చర్ పెట్టుబడిని ట్రంప్ ప్రకటించారు

మార్టిన్ ఆండర్సన్

మెషీన్ లెర్నింగ్‌పై రైటర్, హ్యూమన్ ఇమేజ్ సింథసిస్‌లో డొమైన్ స్పెషలిస్ట్. Metaphysic.aiలో రీసెర్చ్ కంటెంట్ మాజీ హెడ్.
వ్యక్తిగత సైట్: మార్టినాండర్సన్.ఐ
సంప్రదించండి: [ఇమెయిల్ రక్షించబడింది]
ట్విట్టర్: @manders_ai