인공 지능
Hunyuan Video LoRA 모델을 훈련하고 사용하는 방법

이 문서에서는 Windows 기반 소프트웨어를 설치하고 사용하는 방법을 보여줍니다. Hunyuan 비디오 LoRA 모델, 사용자가 Hunyuan Video 기반 모델에서 사용자 정의 개성을 생성할 수 있도록 합니다.
클릭하여 재생합니다. 최근 civit.ai 커뮤니티에서 유명인 Hunyuan LoRA가 폭발적으로 증가한 사례입니다.
현재 Hunyuan LoRA 모델을 로컬로 생성하는 가장 인기 있는 두 가지 방법은 다음과 같습니다.
1)를 diffusion-pipe-ui Docker 기반 프레임워크에 의존하는 Linux 용 Windows 서브 시스템 (WSL)이 일부 프로세스를 처리합니다.
2) 무수비 튜너, 인기 있는 새로운 추가 기능 코야 ss 확산 훈련 아키텍처. Musubi Tuner는 Docker를 필요로 하지 않으며 WSL이나 다른 Linux 기반 프록시에 의존하지 않지만 Windows에서 실행하기 어려울 수 있습니다.
따라서 이 연습에서는 Musubi Tuner에 초점을 맞추고, API 기반 웹사이트나 Runpod와 같은 상용 GPU 임대 프로세스를 사용하지 않고 Hunyuan LoRA 학습 및 생성을 위한 완전히 로컬한 솔루션을 제공하는 데 중점을 둘 것입니다.
클릭하여 재생합니다. 이 기사의 Musubi Tuner에 대한 LoRA 훈련 샘플입니다. 이 기사를 설명하기 위해 묘사된 사람이 부여한 모든 허가입니다.
요구 사항
설치에는 최소 10GB의 VRAM(30GB 권장)이 있는 40+/12+ 시리즈 NVIDIA 카드가 장착된 Windows 16 PC가 필요합니다. 이 문서에 사용된 설치는 64GB의 VRAM이 있는 컴퓨터에서 테스트되었습니다. 체계 RAM과 3090GB VRAM이 있는 NVIDIA 24 그래픽 카드. 10GB 이상의 여유 디스크 공간이 있는 파티션에서 Windows 600 Professional을 새로 설치하여 전용 테스트 베드 시스템에서 테스트했습니다.
경고
Musubi Tuner와 필수 구성 요소를 설치하려면 개발자 중심 소프트웨어와 패키지를 PC의 기본 Windows 설치에 직접 설치해야 합니다. ComfyUI 설치를 고려할 때 최종 단계에서는 이 프로젝트에 약 400~500기가바이트의 디스크 공간이 필요합니다. 새로 설치한 테스트 베드 Windows 10 환경에서 여러 번 문제 없이 절차를 테스트했지만, 저나 unite.ai는 이러한 지침을 따름으로써 시스템에 발생한 손상에 대해 책임을 지지 않습니다. 이러한 종류의 설치 절차를 시도하기 전에 중요한 데이터를 백업하는 것이 좋습니다.
고려
이 방법은 아직도 유효한가?
생성 AI 분야는 매우 빠르게 움직이고 있으며, 올해에는 Hunyuan Video LoRA 프레임워크의 더 나은, 더 간소화된 방식을 기대할 수 있습니다.
…또는 이번 주에도! 이 기사를 쓰는 동안 Kohya/Musubi 개발자가 제작했습니다. 무수비 튜너 GUI, Musubi Tuner를 위한 정교한 Gradio GUI:
분명히 사용자 친화적인 GUI가 내가 이 기능에서 사용하는 BAT 파일보다 더 바람직합니다. musubi-tuner-gui가 작동하면 말입니다. 내가 이 글을 쓰는 동안, 그것은 불과 5일 전에 온라인에 올라왔고, 그것을 성공적으로 사용한 사람에 대한 이야기를 찾을 수 없습니다.
저장소의 게시물에 따르면, 새로운 GUI는 가능한 한 빨리 Musubi Tuner 프로젝트에 직접 적용될 예정이며, 현재 독립형 GitHub 저장소로서의 존재는 종료될 예정입니다.
현재 설치 지침에 따르면, 새로운 GUI는 기존 Musubi 가상 환경에 직접 복제됩니다. 그리고 많은 노력에도 불구하고, 기존 Musubi 설치와 연관시킬 수 없습니다. 즉, 실행하면 엔진이 없다는 것을 알게 됩니다!
GUI가 Musubi Tuner에 통합되면 이런 종류의 문제는 확실히 해결될 것입니다. 저자는 새로운 프로젝트가 '정말 거칠다'는 것을 인정한다그는 이것이 무수비 튜너에 직접 개발되고 통합되는 것에 대해 낙관적입니다.
이러한 문제(설치 시 기본 경로 및 사용과 관련된 문제 포함)를 감안할 때 UV 파이썬 패키지, 새로운 릴리스에서 특정 절차를 복잡하게 만듭니다.) 우리는 아마도 더 매끄러운 Hunyuan Video LoRA 훈련 경험을 위해 조금 기다려야 할 것입니다. 그렇긴 하지만, 매우 유망해 보입니다!
하지만 기다릴 수 없고, 소매를 걷어붙일 의향이 있다면 지금 당장 Hunyuan 비디오 LoRA 훈련을 현지에서 실행할 수 있습니다.
시작하자.
설치해야 하는 이유 아무것도 베어메탈에 대해서요?
(고급 사용자가 아니라면 이 문단을 건너뛰세요)
고급 사용자는 내가 왜 가상 환경 대신 베어 메탈 Windows 10 설치에 많은 소프트웨어를 설치하기로 했는지 궁금해할 것입니다. 그 이유는 Linux 기반 Windows 포트의 필수 Windows 포트가 트리톤 패키지 가상 환경에서 작동하도록 하는 것은 훨씬 더 어렵습니다. 튜토리얼의 다른 모든 베어 메탈 설치는 로컬 하드웨어와 직접 인터페이스해야 하므로 가상 환경에 설치할 수 없습니다.
필수 패키지 및 프로그램 설치
처음에 설치해야 하는 프로그램과 패키지의 경우 설치 순서가 중요합니다. 시작해 봅시다.
1: Microsoft 재배포 가능 파일 다운로드
Microsoft 재배포 가능 패키지를 다운로드하여 설치하세요. https://aka.ms/vs/17/release/vc_redist.x64.exe.
이는 간단하고 빠른 설치입니다.
2: Visual Studio 2022 설치
Microsoft Visual Studio 2022 Community Edition을 다음에서 다운로드하세요. https://visualstudio.microsoft.com/downloads/?cid=learn-onpage-download-install-visual-studio-page-cta
다운로드한 설치 프로그램을 시작합니다.
사용 가능한 모든 패키지가 필요하지는 않습니다. 설치가 무겁고 오래 걸릴 것입니다. 초기에 워크로드 열리는 페이지에 체크를 해주세요 C++를 사용한 데스크톱 개발 (아래 이미지 참조).
이제 개별 구성 요소 인터페이스 왼쪽 상단의 탭을 클릭하고 검색창을 사용해 'Windows SDK'를 찾으세요.
기본적으로 윈도우 11 SDK 체크 표시가 되어 있습니다. Windows 10을 사용 중이라면(이 설치 절차는 Windows 11에서 제가 테스트하지 않았습니다), 위 이미지에 표시된 최신 Windows 10 버전을 체크 표시하세요.
'C++ CMake'를 검색하여 확인하세요. Windows용 C++ CMake 도구 확인됩니다.
이 설치에는 최소 13GB의 공간이 필요합니다.
Visual Studio가 설치되면 컴퓨터에서 실행을 시도합니다. 완전히 열도록 두세요. Visual Studio의 전체 화면 인터페이스가 마침내 보이면 프로그램을 닫습니다.
3: Visual Studio 2019 설치
Musubi의 후속 패키지 중 일부는 이전 버전의 Microsoft Visual Studio를 필요로 하지만, 다른 패키지는 최신 버전이 필요합니다.
따라서 Microsoft에서 Visual Studio 19의 무료 커뮤니티 버전을 다운로드하세요.https://visualstudio.microsoft.com/vs/older-downloads/ – 계정 필요) 또는 Techspot(https://www.techspot.com/downloads/7241-visual-studio-2019.html).
Visual Studio 2022의 경우와 동일한 옵션으로 설치합니다(위의 절차 참조, 단, 윈도우 SDK (Visual Studio 2019 설치 관리자에서 이미 선택되어 있습니다).
Visual Studio 2019 설치 관리자가 설치하면서 이미 새 버전을 인식하고 있는 것을 확인할 수 있습니다.
설치가 완료되고 설치된 Visual Studio 2019 애플리케이션을 열고 닫은 후 Windows 명령 프롬프트를 엽니다(입력 CMD 검색 시작에서)를 입력하고 다음을 입력합니다.
where cl
결과는 설치된 두 Visual Studio 버전의 알려진 위치여야 합니다.
대신에 당신이 얻는다면 INFO: Could not find files for the given pattern(s)
,를 참조하십시오 경로 확인 아래 문서의 섹션을 참조하여 해당 지침을 사용하여 관련 Visual Studio 경로를 Windows 환경에 추가하세요.
변경 사항을 저장하세요. 경로 확인 아래 섹션을 참조한 후 where cl 명령을 다시 시도해 보세요.
4: CUDA 11 + 12 툴킷 설치
Musubi에 설치된 다양한 패키지에는 서로 다른 버전이 필요합니다. NVIDIA CUDANVIDIA 그래픽 카드에 대한 학습을 가속화하고 최적화합니다.
Visual Studio 버전을 설치한 이유 먼저 NVIDIA CUDA 설치 프로그램은 기존 Visual Studio 설치를 검색하여 통합한다는 것입니다.
11+ 시리즈 CUDA 설치 패키지를 다음에서 다운로드하세요:
https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local (다운로드 'exe(로컬)' )
12+ 시리즈 CUDA 툴킷 설치 패키지를 다음에서 다운로드하세요:
https://developer.nvidia.com/cuda-downloads?target_os=Windows&target_arch=x86_64
두 설치 프로그램의 설치 프로세스는 동일합니다. Windows 환경 변수에서 설치 경로의 존재 또는 부재에 대한 경고는 무시하세요. 나중에 수동으로 처리할 것입니다.
NVIDIA CUDA 툴킷 V11+ 설치
11+ 시리즈 CUDA 툴킷 설치 프로그램을 시작합니다.
At 설치 옵션선택한다. 맞춤 (고급) 진행하십시오.
NVIDIA GeForce Experience 옵션의 선택을 취소하고 클릭하세요. 다음 보기.
휴가 설치 위치 선택 기본값에서(이것은 중요함):
다음 보기 설치를 마무리합니다.
설치 프로그램에서 제공하는 경고나 참고 사항은 무시하십시오. 엔사이트 비주얼 스튜디오 우리의 사용 사례에는 필요하지 않은 통합입니다.
NVIDIA CUDA 툴킷 V12+ 설치
다운로드한 별도의 12개 이상의 NVIDIA Toolkit 설치 프로그램에 대해 전체 프로세스를 반복합니다.
이 버전의 설치 과정은 위에 나열된 과정(11+ 버전)과 동일하지만, 환경 경로에 대한 경고 하나가 있는데 이 경고는 무시해도 됩니다.
12+ CUDA 버전 설치가 완료되면 Windows에서 명령 프롬프트를 열고 다음을 입력하세요.
nvcc --version
설치된 드라이버 버전에 대한 정보를 확인하세요.
카드가 인식되는지 확인하려면 다음을 입력하세요.
nvidia-smi
5: GIT 설치
GIT는 로컬 머신에서 Musubi 저장소 설치를 처리합니다. 다음에서 GIT 설치 프로그램을 다운로드하세요.
https://git-scm.com/downloads/win ('Windows용 64비트 Git 설치')
설치 프로그램을 실행하십시오.
기본 설정을 사용합니다. 구성 요소 선택:
기본 편집기를 그대로 두십시오. 정력:
GIT에서 브랜치 이름을 결정하게 하세요.
권장 설정을 사용하세요 경로 환경:
SSH에 권장되는 설정을 사용하세요:
권장 설정을 사용하세요 HTTPS 전송 백엔드:
줄바꿈 변환에 권장되는 설정을 사용하세요.
터미널 에뮬레이터로 Windows 기본 콘솔을 선택하세요:
기본 설정 사용 (빨리 감기 또는 병합) Git Pull의 경우:
Credential Helper에 대해 Git-Credential Manager(기본 설정)를 사용하세요.
In 추가 옵션 구성, 떠나다 파일 시스템 캐싱 활성화 체크 표시하고, 심볼릭 링크 활성화 (중앙 모델 저장소에 대한 하드 링크를 사용하는 고급 사용자가 아닌 한) 선택 취소.
설치를 마치고 CMD 창을 열고 다음을 입력하여 Git이 제대로 설치되었는지 테스트합니다.
git --version
GitHub 로그인
나중에 GitHub 저장소를 복제하려고 하면 GitHub 자격 증명에 대한 질문을 받을 수 있습니다. 이를 예상하려면 Windows 시스템에 설치된 모든 브라우저에서 GitHub 계정에 로그인합니다(필요한 경우 하나 만듭니다). 이런 식으로 0Auth 인증 방법(팝업 창)은 가능한 한 짧은 시간이 걸립니다.
첫 번째 인증 후에는 자동으로 인증 상태가 유지됩니다.
6: CMake 설치
Musubi 설치 프로세스의 일부에는 CMake 3.21 이상이 필요합니다. CMake는 다양한 컴파일러를 조정하고 소스 코드에서 소프트웨어를 컴파일할 수 있는 크로스 플랫폼 개발 아키텍처입니다.
다운로드:
https://cmake.org/download/ ('Windows x64 설치 프로그램')
설치 프로그램을 실행합니다:
확인 PATH 환경 변수에 Cmake 추가 확인됩니다.
PR 기사 다음 보기.
Windows 명령 프롬프트에 다음 명령을 입력하세요.
cmake --version
CMake가 성공적으로 설치되면 다음과 같은 내용이 표시됩니다.
cmake version 3.31.4
CMake suite maintained and supported by Kitware (kitware.com/cmake).
7: Python 3.10 설치
파이썬 인터프리터는 이 프로젝트의 핵심입니다. Musubi 패키지의 다양한 요구 사항 사이에서 최상의 절충안인 3.10 버전을 다음에서 다운로드하세요.
https://www.python.org/downloads/release/python-3100/ ('Windows 설치 프로그램(64비트)')
다운로드 설치 프로그램을 실행하고 기본 설정을 그대로 둡니다.
설치 과정이 끝나면 클릭하세요 경로 길이 제한 비활성화 (UAC 관리자 확인이 필요합니다):
Windows 명령 프롬프트에 다음을 입력하고 Enter를 누릅니다.
python --version
이것은 다음과 같은 결과를 가져올 것입니다. Python 3.10.0
경로 확인
무수비 프레임워크의 복제와 설치, 그리고 설치 후의 정상적인 작동을 위해서는 프레임워크의 구성 요소가 Windows의 여러 중요한 외부 구성 요소, 특히 CUDA에 대한 경로를 알아야 합니다.
따라서 경로 환경을 열고 모든 필수 조건이 충족되는지 확인해야 합니다.
Windows 환경의 컨트롤에 접근하는 빠른 방법은 다음을 입력하는 것입니다. 시스템 환경 변수 편집 Windows 검색창에 입력합니다.
이것을 클릭하면 열립니다 시스템 속성 제어판. 오른쪽 아래에 시스템 속성클릭 환경 변수 버튼과 창이라고 불리는 환경 변수 열립니다. 시스템 변수 이 창의 하단 절반에 있는 패널에서 아래로 스크롤하세요. 경로 그리고 더블클릭합니다. 그러면 라는 창이 열립니다. 환경 변수 편집. 이 창의 너비를 더 넓게 드래그하여 변수의 전체 경로를 볼 수 있습니다.
중요한 항목은 다음과 같습니다.
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\libnvvp
C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.42.34433\bin\Hostx64\x64
C:\Program Files\Git\cmd
C:\Program Files\CMake\bin
대부분의 경우, 올바른 경로 변수가 이미 존재해야 합니다.
누락된 경로를 추가하려면 클릭하세요. 신제품 왼쪽에 환경 변수 편집 창을 열고 올바른 경로를 붙여넣습니다.
위에 나열된 경로를 그대로 복사하여 붙여 넣지 마세요. 각각의 동일 경로가 자신의 Windows 설치에 있는지 확인하세요.
경로에 사소한 차이가 있는 경우(특히 Visual Studio 설치의 경우) 위에 나열된 경로를 사용하여 올바른 대상 폴더를 찾으세요(예: x64 in Host64 자신의 설치에서. 그런 다음 붙여넣기 그 경로로 환경 변수 편집 창.
그런 다음 컴퓨터를 다시 시작하세요.
무수비 설치하기
PIP 업그레이드
최신 버전의 PIP 설치 프로그램을 사용하면 일부 설치 단계를 원활하게 진행할 수 있습니다. 관리자 권한이 있는 Windows 명령 프롬프트에서(참조 높이, 아래), 입력하고 엔터:
pip install --upgrade pip
높이
일부 명령에는 높은 권한이 필요할 수 있습니다(예: 관리자 권한으로 실행). 다음 단계에서 권한에 대한 오류 메시지가 나타나면 명령 프롬프트 창을 닫고 다음을 입력하여 관리자 모드로 다시 엽니다. CMD Windows 검색창에서 마우스 오른쪽 버튼을 클릭하여 명령 프롬프트 및 관리자 권한으로 실행:
다음 단계에서는 Windows 명령 프롬프트 대신 Windows Powershell을 사용합니다. 다음을 입력하여 찾을 수 있습니다. 파워 쉘 Windows 검색 상자에 입력하고(필요한 경우) 마우스 오른쪽 버튼을 클릭합니다. 관리자 권한으로 실행:
토치 설치
PowerShell에서 다음을 입력합니다.
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
많은 패키지가 설치되는 동안 인내심을 가지세요.
완료되면 다음을 입력하여 GPU 지원 PyTorch 설치를 확인할 수 있습니다.
python -c "import torch; print(torch.cuda.is_available())"
그 결과는 다음과 같습니다.
C:\WINDOWS\system32>python -c "import torch;
print(torch.cuda.is_available())"
True
Windows용 Triton 설치
다음으로, 설치 윈도우용 트리톤 구성 요소. 상승된 Powershell에서 (한 줄에) 다음을 입력합니다.
pip install https://github.com/woct0rdho/triton-windows/releases/download/v3.1.0-windows.post8/triton-3.1.0-cp310-cp310-win_amd64.whl
(설치 프로그램 triton-3.1.0-cp310-cp310-win_amd64.whl
(아키텍처가 64비트이고 환경이 Python 버전과 일치하는 한 Intel 및 AMD CPU 모두에서 작동합니다.)
실행 후 결과는 다음과 같습니다.
Successfully installed triton-3.1.0
Triton이 작동하는지 Python으로 임포트하여 확인할 수 있습니다. 다음 명령을 입력하세요:
python -c "import triton; print('Triton is working')"
이렇게 출력되어야 합니다:
Triton is working
Triton이 GPU를 지원하는지 확인하려면 다음을 입력하세요.
python -c "import torch; print(torch.cuda.is_available())"
이것은 다음과 같은 결과를 가져올 것입니다. True
:
무수비의 가상 환경 만들기
이제부터는 추가 소프트웨어를 설치하겠습니다. 파이썬 가상 환경 (또는 venv). 즉, 다음 소프트웨어를 모두 제거하기 위해 해야 할 일은 venv 설치 폴더를 휴지통으로 끌어다 놓는 것뿐입니다.
설치 폴더를 만들어 보겠습니다. 다음과 같은 폴더를 만드세요. 무수비 바탕 화면에 있습니다. 다음 예에서는 이 폴더가 존재한다고 가정합니다. C:\Users\[Your Profile Name]\Desktop\Musubi\
.
PowerShell에서 다음을 입력하여 해당 폴더로 이동합니다.
cd C:\Users\[Your Profile Name]\Desktop\Musubi
우리는 가상 환경이 우리가 이미 설치한 것(특히 Triton)에 액세스할 수 있기를 원하므로 다음을 사용할 것입니다. --system-site-packages
플래그. 다음을 입력하세요:
python -m venv --system-site-packages musubi
환경이 생성될 때까지 기다린 후 다음을 입력하여 활성화합니다.
.\musubi\Scripts\activate
이 시점부터는 모든 프롬프트의 시작 부분에 (musubi)가 표시되어 활성화된 가상 환경에 있다는 것을 알 수 있습니다.
저장소 복제
새로 생성된 곳으로 이동 musubi 폴더(내부에 있음) 무수비 바탕 화면의 폴더):
cd musubi
이제 올바른 위치에 있으므로 다음 명령을 입력하세요.
git clone https://github.com/kohya-ss/musubi-tuner.git
복제가 완료될 때까지 기다리세요(오래 걸리지 않습니다).
설치 요구 사항
설치 폴더로 이동합니다.
cd musubi-tuner
입력 :
pip install -r requirements.txt
많은 설치가 완료될 때까지 기다리세요(시간이 더 오래 걸립니다).
Hunyuan Video Venv에 대한 액세스 자동화
향후 세션에서 새 venv를 쉽게 활성화하고 액세스하려면 다음을 메모장에 붙여넣고 이름으로 저장하세요. 활성화.bat, 그것을 저장 모든 파일 옵션(아래 이미지 참조).
@echo off
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate
cd C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner
cmd
(바꾸다 [Your Profile Name]
Windows 사용자 프로필의 실제 이름 사용)
이 파일을 어느 위치에 저장하는지는 중요하지 않습니다.
이제부터 더블클릭이 가능합니다. 활성화.bat 즉시 일을 시작하세요.
무수비 튜너 사용하기
모델 다운로드
Hunyuan Video LoRA 훈련 프로세스는 Hunyuan 비디오 LoRA를 사전 캐싱하고 훈련하기 위한 모든 가능한 최적화 옵션을 지원하기 위해 최소 60개의 모델을 다운로드해야 합니다. 이러한 모델을 합치면 XNUMXGB가 넘습니다.
현재 다운로드 지침은 다음에서 찾을 수 있습니다. https://github.com/kohya-ss/musubi-tuner?tab=readme-ov-file#model-download
하지만 이 글을 쓸 당시의 다운로드 지침은 다음과 같습니다.
clip_l.safetensors
and
llava_llama3_fp16.safetensors
llava_llama3_fp8_scaled.safetensors
다음에서 다운로드할 수 있습니다.
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders
mp_rank_00_model_states.pt
and
mp_rank_00_model_states_fp8.pt
mp_rank_00_model_states_fp8_map.pt
다음에서 다운로드할 수 있습니다.
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/transformers
pytorch_model.pt
다음에서 다운로드할 수 있습니다.
https://huggingface.co/tencent/HunyuanVideo/tree/main/hunyuan-video-t2v-720p/vae
나중에 스크립팅할 때 일관성을 유지하기 위해 원하는 디렉토리에 저장할 수 있지만 여기서는 다음과 같이 저장하겠습니다.
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\
이것은 이 지점 이전의 디렉토리 배열과 일치합니다. 이후의 모든 명령이나 지침은 모델이 여기에 있다고 가정합니다. [Your Profile Name]을 실제 Windows 프로필 폴더 이름으로 바꾸는 것을 잊지 마세요.
데이터세트 준비
이 지점에서 커뮤니티의 논란을 무시하더라도, Hunyuan LoRA의 훈련 데이터 세트에 10~100장의 사진이 필요하다고 말하는 것이 타당합니다. 이미지가 잘 균형 잡히고 품질이 좋은 한, 15장의 이미지로도 매우 좋은 결과를 얻을 수 있습니다.
Hunyuan LoRA는 이미지나 매우 짧고 해상도가 낮은 비디오 클립, 또는 두 가지를 혼합한 형태로 학습할 수 있습니다. 하지만 24GB 카드라 하더라도 비디오 클립을 학습 데이터로 사용하는 것은 어렵습니다.
하지만 비디오 클립은 캐릭터가 Hunyuan Video 재단 모델이 알지 못할 정도로 특이한 방식으로 움직입니다. 또는 추측할 수 있어야 합니다.
예로는 Roger Rabbit, Xenomorph, The Mask, Spider-Man 또는 기타 성격을 가진 사람이 있습니다. 유일한 특징적인 움직임.
Hunyuan Video는 이미 일반 남성과 여성이 어떻게 움직이는지 알고 있기 때문에, 설득력 있는 Hunyuan Video LoRA 인간형 캐릭터를 얻기 위해 비디오 클립이 필요하지 않습니다. 그래서 우리는 정적 이미지를 사용할 것입니다.
이미지 준비
버킷리스트
TLDR 버전:
데이터 세트에 모두 동일한 크기의 이미지를 사용하거나 두 가지 크기를 50/50으로 나누어 사용하는 것이 가장 좋습니다. 즉, 10x512px 이미지 768개와 10x768px 이미지 512개를 사용하는 것이 좋습니다.
이렇게 하지 않아도 훈련이 잘 진행될 수 있습니다. Hunyuan Video LoRA는 놀라울 정도로 관대할 수 있습니다.
더 긴 버전
안정 확산과 같은 정적 생성 시스템의 경우 Kohya-ss LoRA와 마찬가지로 버켓팅 워크로드를 서로 다른 크기의 이미지에 분산시키는 데 사용되며, 학습 시점에 메모리 부족 오류가 발생하지 않고 더 큰 이미지를 사용할 수 있습니다(즉, 버킷팅은 전체 이미지의 의미적 무결성을 유지하면서 GPU가 처리할 수 있는 청크로 이미지를 '잘라냅니다').
훈련 데이터 세트에 포함하는 각 이미지 크기(예: 512x768px)에 대해 해당 크기에 대한 버킷 또는 '하위 작업'이 생성됩니다. 따라서 다음과 같은 이미지 분포가 있는 경우 버킷 주의가 불균형해지고 일부 사진이 다른 사진보다 훈련에서 더 많이 고려될 위험이 있습니다.
2x 512x768px 이미지
7x 768x512px 이미지
1x 1000x600px 이미지
3x 400x800px 이미지
버킷 어텐션이 이러한 이미지들 사이에 불평등하게 분배된다는 것을 알 수 있습니다.
따라서 하나의 포맷 크기를 고수하거나, 다양한 크기를 비교적 균등하게 분포시키는 것이 좋습니다.
어느 경우든, 너무 큰 이미지는 피하세요. 학습 속도가 느려질 수 있고 이점도 거의 없습니다.
단순화를 위해 데이터 세트의 모든 사진에 512x768px를 사용했습니다.
부인 성명: 데이터 세트에 사용된 모델(인물)은 이 목적을 위해 이러한 사진을 사용하는 데 대한 전면적인 허가를 제공했으며, 이 기사에 실린 그녀의 모습을 묘사한 모든 AI 기반 출력을 승인했습니다.
내 데이터 세트는 PNG 형식의 40개 이미지로 구성되어 있습니다(JPG도 괜찮습니다). 내 이미지는 다음 위치에 저장되었습니다. C:\Users\Martin\Desktop\DATASETS_HUNYUAN\examplewoman
당신은 캐시 훈련 이미지 폴더 내부의 폴더:
이제 훈련을 구성할 특수 파일을 만들어 보겠습니다.
TOML 파일
Hunyuan Video LoRA의 교육 및 사전 캐싱 프로세스는 다음과 같은 일반 텍스트 파일에서 파일 경로를 가져옵니다. .톰 확대.
내 테스트의 경우 TOML은 C:\Users\Martin\Desktop\DATASETS_HUNYUAN\training.toml에 있습니다.
제 TOML 교육 내용은 다음과 같습니다.
[general]
resolution = [512, 768]
caption_extension = ".txt"
batch_size = 1
enable_bucket = true
bucket_no_upscale = false
[[datasets]]
image_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman"
cache_directory = "C:\\Users\\Martin\\Desktop\\DATASETS_HUNYUAN\\examplewoman\\cache"
num_repeats = 1
(이미지 및 캐시 디렉토리에 대한 이중 백슬래시는 항상 필요하지는 않지만 경로에 공백이 있는 경우 오류를 방지하는 데 도움이 될 수 있습니다. 단일 정방향 및 단일 역방향 슬래시를 사용하는 .toml 파일로 모델을 훈련했습니다.)
우리는에서 볼 수 있습니다 resolution
두 가지 해상도가 고려될 섹션 - 512px와 768px. 이것을 512로 두고도 여전히 좋은 결과를 얻을 수 있습니다.
캡션
훈위안 비디오는 본문+vision foundation 모델이므로 이러한 이미지에 대한 설명적 캡션이 필요하며, 이는 훈련 중에 고려됩니다. 캡션이 없으면 훈련 프로세스가 실패합니다.
있다 다수 이 작업에 사용할 수 있는 오픈 소스 캡션 시스템에는 여러 가지가 있지만 간단하게 유지하고 다음을 사용하겠습니다. 태그귀 시스템. GitHub에 저장되어 있고, 첫 번째 실행 시 매우 무거운 딥 러닝 모델을 다운로드하지만, Python 라이브러리를 로드하는 간단한 Windows 실행 파일과 간단한 GUI 형태로 제공됩니다.
Taggui를 시작한 후 사용하세요 파일 > 디렉토리 로드 이미지 데이터세트로 이동하고 선택적으로 토큰 식별자를 입력합니다(이 경우, 예시여자) 모든 캡션에 추가될 내용:
(반드시 꺼주세요 4비트로 로드 Taggui가 처음 열릴 때 - 이것이 켜져 있으면 캡션을 입력하는 동안 오류가 발생합니다.
왼쪽 미리보기 열에서 이미지를 선택하고 CTRL+A를 눌러 모든 이미지를 선택합니다. 그런 다음 오른쪽에 있는 자동 캡션 시작 버튼을 누릅니다.
오른쪽 열의 작은 CLI에서 Taggui가 모델을 다운로드하는 것을 볼 수 있지만, 캡셔너를 처음 실행한 경우에만 그렇습니다. 그렇지 않으면 캡션의 미리보기가 표시됩니다.
이제 각 사진에는 해당 이미지 내용에 대한 설명이 포함된 .txt 캡션이 있습니다.
클릭 할 수 있습니다. 고급 옵션 Taggui에서 캡션의 길이와 스타일을 늘리는 것이 목적이지만, 이는 이 연습의 범위를 벗어납니다.
Taggui를 종료하고 다음으로 넘어가자…
잠재 사전 캐싱
학습 시간에 과도한 GPU 부하가 걸리는 것을 피하려면 두 가지 유형의 사전 캐시된 파일을 만들어야 합니다. 하나는 이미지 자체에서 파생된 잠복 이미지를 나타내는 파일이고, 다른 하나는 캡션 콘텐츠와 관련된 텍스트 인코딩을 평가하는 파일입니다.
세 가지 프로세스(2x 캐시 + 학습)를 모두 단순화하려면, 필요한 정보를 제공하면 질문을 하고 프로세스를 수행하는 대화형 .BAT 파일을 사용할 수 있습니다.
잠재적 사전 캐싱의 경우 다음 텍스트를 메모장에 복사하여 .BAT 파일로 저장합니다(예: 다음과 같은 이름 지정) 잠재-사전 캐시.bat), 이전과 마찬가지로 드롭다운 메뉴에서 파일 유형을 확인합니다. 다른 이름으로 저장 대화는 모든 파일 (아래 이미지 참조):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with latent pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the latent pre-caching script
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_latents.py --dataset_config %TOML_PATH% --vae C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\pytorch_model.pt --vae_chunk_size 32 --vae_tiling
) else (
echo Operation canceled.
)
REM Keep the window open
pause
(반드시 교체하세요. [프로필 이름] 실제 Windows 프로필 폴더 이름 사용)
이제 자동 잠복 캐싱을 위해 .BAT 파일을 실행할 수 있습니다.
BAT 파일에서 다양한 질문이 표시되면 데이터 세트, 캐시 폴더 및 TOML 파일의 경로를 붙여넣거나 입력합니다.
텍스트 사전 캐싱
이번에는 텍스트 사전 캐싱을 위해 두 번째 BAT 파일을 만들겠습니다.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p IMAGE_PATH=Enter the path to the image directory:
set /p CACHE_PATH=Enter the path to the cache directory:
set /p TOML_PATH=Enter the path to the TOML file:
echo You entered:
echo Image path: %IMAGE_PATH%
echo Cache path: %CACHE_PATH%
echo TOML file path: %TOML_PATH%
set /p CONFIRM=Do you want to proceed with text encoder output pre-caching (y/n)?
if /i "%CONFIRM%"=="y" (
REM Use the python executable from the virtual environment
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\cache_text_encoder_outputs.py --dataset_config %TOML_PATH% --text_encoder1 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\llava_llama3_fp16.safetensors --text_encoder2 C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\clip_l.safetensors --batch_size 16
) else (
echo Operation canceled.
)
REM Keep the window open
pause
Windows 프로필 이름을 바꾸고 이것을 다음과 같이 저장하세요. 텍스트 캐시.bat (또는 원하는 다른 이름)을 이전 BAT 파일에 대한 절차에 따라 편리한 위치에 저장합니다.
이 새로운 BAT 파일을 실행하고 지침을 따르면 필요한 텍스트 인코딩 파일이 나타납니다. 캐시 폴더 :
Hunyuan 비디오 로라 훈련
실제 LoRA를 훈련하는 데는 이 두 가지 준비 과정보다 훨씬 더 오랜 시간이 걸릴 것입니다.
배치 크기, 반복, 에포크, 전체 모델이나 양자화된 모델을 사용할지 여부 등 우리가 걱정해야 할 변수도 여러 가지 있지만, 이러한 고려 사항은 다른 날에 다루어 LoRA 생성의 복잡한 사항을 더 자세히 살펴보겠습니다.
지금은 선택 사항을 최대한 줄이고 '중간값' 설정으로 LoRA를 훈련시켜 보겠습니다.
이번에는 훈련을 시작하기 위해 세 번째 BAT 파일을 만들 것입니다. 이것을 메모장에 붙여넣고 이전과 마찬가지로 BAT 파일로 저장합니다. 훈련.bat (또는 원하시는 이름으로):
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
REM Get user input
set /p DATASET_CONFIG=Enter the path to the dataset configuration file:
set /p EPOCHS=Enter the number of epochs to train:
set /p OUTPUT_NAME=Enter the output model name (e.g., example0001):
set /p LEARNING_RATE=Choose learning rate (1 for 1e-3, 2 for 5e-3, default 1e-3):
if "%LEARNING_RATE%"=="1" set LR=1e-3
if "%LEARNING_RATE%"=="2" set LR=5e-3
if "%LEARNING_RATE%"=="" set LR=1e-3
set /p SAVE_STEPS=How often (in steps) to save preview images:
set /p SAMPLE_PROMPTS=What is the location of the text-prompt file for training previews?
echo You entered:
echo Dataset configuration file: %DATASET_CONFIG%
echo Number of epochs: %EPOCHS%
echo Output name: %OUTPUT_NAME%
echo Learning rate: %LR%
echo Save preview images every %SAVE_STEPS% steps.
echo Text-prompt file: %SAMPLE_PROMPTS%
REM Prepare the command
set CMD=accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 ^
C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\hv_train_network.py ^
--dit C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\models\mp_rank_00_model_states.pt ^
--dataset_config %DATASET_CONFIG% ^
--sdpa ^
--mixed_precision bf16 ^
--fp8_base ^
--optimizer_type adamw8bit ^
--learning_rate %LR% ^
--gradient_checkpointing ^
--max_data_loader_n_workers 2 ^
--persistent_data_loader_workers ^
--network_module=networks.lora ^
--network_dim=32 ^
--timestep_sampling sigmoid ^
--discrete_flow_shift 1.0 ^
--max_train_epochs %EPOCHS% ^
--save_every_n_epochs=1 ^
--seed 42 ^
--output_dir "C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models" ^
--output_name %OUTPUT_NAME% ^
--vae C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/pytorch_model.pt ^
--vae_chunk_size 32 ^
--vae_spatial_tile_sample_min_size 128 ^
--text_encoder1 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/llava_llama3_fp16.safetensors ^
--text_encoder2 C:/Users/[Your Profile Name]/Desktop/Musubi/musubi/musubi-tuner/models/clip_l.safetensors ^
--sample_prompts %SAMPLE_PROMPTS% ^
--sample_every_n_steps %SAVE_STEPS% ^
--sample_at_first
echo The following command will be executed:
echo %CMD%
set /p CONFIRM=Do you want to proceed with training (y/n)?
if /i "%CONFIRM%"=="y" (
%CMD%
) else (
echo Operation canceled.
)
REM Keep the window open
cmd /k
평소와 같이 모든 인스턴스를 교체해야 합니다.f [프로필 이름] 올바른 Windows 프로필 이름을 입력하세요.
디렉토리를 확인하세요 C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\
존재하는지 확인하고, 존재하지 않으면 해당 위치에 생성합니다.
훈련 미리보기
Musubi Trainer에 최근 활성화된 매우 기본적인 훈련 미리보기 기능이 있는데, 이를 통해 훈련 모델을 일시 중지하고 저장한 프롬프트에 따라 이미지를 생성할 수 있습니다. 이러한 이미지는 자동으로 생성된 폴더인 견본학습된 모델이 저장된 동일한 디렉토리에 있습니다.
이를 활성화하려면 텍스트 파일에 적어도 하나의 프롬프트를 저장해야 합니다. 우리가 만든 훈련 BAT는 이 파일의 위치를 입력하라고 요청할 것입니다. 따라서 프롬프트 파일의 이름을 원하는 대로 지정하고 어디에나 저장할 수 있습니다.
다음은 훈련 루틴에서 요청 시 세 가지 다른 이미지를 출력하는 파일에 대한 몇 가지 즉각적인 예입니다.
위의 예에서 볼 수 있듯이, 이미지에 영향을 줄 플래그를 프롬프트 끝에 넣을 수 있습니다.
–w는 폭 (설정하지 않으면 기본값은 256px입니다. 문서)
-그의 신장 (설정하지 않으면 기본값은 256px)
–f는 프레임 수. 1로 설정하면 이미지가 생성되고, 두 개 이상 설정하면 비디오가 생성됩니다.
–d는 시드입니다. 설정하지 않으면 랜덤입니다. 하지만 한 프롬프트가 진화하는 것을 보려면 설정해야 합니다.
-s는 생성 단계 수이며 기본값은 20입니다.
공식 문서 추가 플래그를 보려면 클릭하세요.
훈련 미리보기를 통해 훈련을 취소하고 데이터나 설정을 재고해야 할 만한 몇 가지 문제를 빠르게 파악해 시간을 절약할 수 있지만, 추가 프롬프트가 표시될 때마다 훈련 속도가 조금 더 느려진다는 점을 기억하세요.
또한, 훈련 미리보기 이미지의 너비와 높이가 클수록(위에 나열된 플래그에서 설정한 대로) 훈련 속도가 더 느려집니다.
훈련 BAT 파일을 실행합니다.
질문 #1 '데이터셋 구성 경로를 입력하세요. TOML 파일에 올바른 경로를 붙여넣거나 입력하세요.
질문 #2 '훈련할 에포크 수를 입력하세요'입니다. 이것은 이미지의 양과 품질, 캡션 및 기타 요인의 영향을 받기 때문에 시행착오 변수입니다. 일반적으로 모델이 충분히 진행되었다고 생각되면 훈련 창에서 Ctrl+C로 언제든지 훈련을 중지할 수 있으므로 너무 낮게 설정하는 것보다 너무 높게 설정하는 것이 가장 좋습니다. 처음에는 100으로 설정하고 어떻게 되는지 살펴보세요.
질문 #3 '출력 모델 이름을 입력하세요'입니다. 모델 이름을 지정하세요! 이름은 비교적 짧고 간단하게 유지하는 것이 가장 좋습니다.
질문 #4 '학습률 선택'은 기본적으로 1e-3(옵션 1)으로 설정됩니다. 추가 경험이 있을 경우 시작하기에 좋은 곳입니다.
질문 #5 '미리보기 이미지를 저장할 빈도(단계)'입니다. 이 값을 너무 낮게 설정하면 미리 보기 이미지 저장 사이에 진전이 거의 보이지 않으며, 이로 인해 훈련 속도가 느려집니다.
질문 #6 '훈련 미리보기용 텍스트 프롬프트 파일의 위치는 어디입니까?'입니다. 프롬프트 텍스트 파일에 대한 경로를 붙여넣거나 입력합니다.
그러면 BAT는 Hunyuan Model에 보낼 명령을 보여주고 계속 진행할지 여부를 묻습니다(y/n).
계속해서 훈련을 시작하세요.
이때 Windows 작업 관리자의 성능 탭에서 GPU 섹션을 확인하면 해당 프로세스가 약 16GB의 VRAM을 차지하고 있는 것을 확인할 수 있습니다.
이는 임의적인 수치가 아닐 수 있습니다. 이는 상당수의 NVIDIA 그래픽 카드에서 사용할 수 있는 VRAM 용량이며, 이러한 카드를 소유한 사용자의 편의를 위해 업스트림 코드가 작업을 16GB에 맞추도록 최적화되었을 수 있습니다.
그런데 훈련 명령에 더욱 엄청난 플래그를 보내면 이 사용량을 매우 쉽게 늘릴 수 있습니다.
훈련 중에는 CMD 창의 오른쪽 하단에 훈련이 시작된 이후 경과한 시간이 표시된 수치와 총 훈련 시간 추정치가 표시됩니다(이는 플래그 설정, 훈련 이미지 수, 훈련 미리보기 이미지 수 등 여러 요인에 따라 크게 달라집니다).
일반적인 교육 시간은 중간 설정에서 약 3~4시간인데, 이는 사용 가능한 하드웨어, 이미지 수, 플래그 설정 및 기타 요소에 따라 달라집니다.
Hunyuan Video에서 훈련된 LoRA 모델 사용
체크포인트 선택
훈련이 끝나면 훈련의 각 에포크에 대한 모델 체크포인트가 생깁니다.
이 저장 빈도는 사용자가 원하는 대로 더 자주 또는 덜 자주 저장하도록 변경할 수 있습니다. --save_every_n_epochs [N]
훈련 BAT 파일에 있는 숫자입니다. BAT로 훈련을 설정할 때 단계당 저장에 대한 낮은 수치를 추가한 경우 저장된 체크포인트 파일의 수가 많아집니다.
어떤 체크포인트를 선택해야 하나요?
앞서 언급했듯이 가장 먼저 훈련된 모델은 가장 유연하고, 나중의 체크포인트는 가장 많은 세부 정보를 제공할 수 있습니다. 이러한 요소를 테스트하는 유일한 방법은 일부 LoRA를 실행하고 몇 개의 비디오를 생성하는 것입니다. 이런 식으로 가장 생산적인 체크포인트를 알 수 있으며, 유연성과 충실도 간의 최상의 균형을 나타낼 수 있습니다.
ComfyUI
현재 Hunyuan Video LoRA를 사용하는 데 가장 인기 있는 (유일한 것은 아니지만) 환경은 다음과 같습니다. ComfyUI웹 브라우저에서 실행되는 정교한 Gradio 인터페이스를 갖춘 노드 기반 편집기입니다.

출처: https://github.com/comfyanonymous/ComfyUI
설치 지침은 간단하고 공식 GitHub 저장소에서 사용 가능 (추가 모델을 다운로드해야 합니다).
ComfyUI를 위한 모델 변환
훈련된 모델은 대부분 ComfyUI 구현과 호환되지 않는 (diffusers) 형식으로 저장됩니다. Musubi는 모델을 ComfyUI 호환 형식으로 변환할 수 있습니다. 이를 구현하기 위해 BAT 파일을 설정해 보겠습니다.
이 BAT를 실행하기 전에 다음을 생성하세요. C:\Users\[Your Profile Name]\Desktop\Musubi\CONVERTED\
스크립트가 예상하는 폴더입니다.
@echo off
REM Activate the virtual environment
call C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\Scripts\activate.bat
:START
REM Get user input
set /p INPUT_PATH=Enter the path to the input Musubi safetensors file (or type "exit" to quit):
REM Exit if the user types "exit"
if /i "%INPUT_PATH%"=="exit" goto END
REM Extract the file name from the input path and append 'converted' to it
for %%F in ("%INPUT_PATH%") do set FILENAME=%%~nF
set OUTPUT_PATH=C:\Users\[Your Profile Name]\Desktop\Musubi\Output Models\CONVERTED\%FILENAME%_converted.safetensors
set TARGET=other
echo You entered:
echo Input file: %INPUT_PATH%
echo Output file: %OUTPUT_PATH%
echo Target format: %TARGET%
set /p CONFIRM=Do you want to proceed with the conversion (y/n)?
if /i "%CONFIRM%"=="y" (
REM Run the conversion script with correctly quoted paths
python C:\Users\[Your Profile Name]\Desktop\Musubi\musubi\musubi-tuner\convert_lora.py --input "%INPUT_PATH%" --output "%OUTPUT_PATH%" --target %TARGET%
echo Conversion complete.
) else (
echo Operation canceled.
)
REM Return to start for another file
goto START
:END
REM Keep the window open
echo Exiting the script.
pause
이전 BAT 파일과 마찬가지로 메모장에서 스크립트를 '모든 파일'로 저장하고 이름을 다음과 같이 지정합니다. 변환.bat (또는 원하시는 대로).
저장한 후 새 BAT 파일을 두 번 클릭하면 변환할 파일의 위치를 묻는 메시지가 표시됩니다.
변환하려는 학습된 파일의 경로를 붙여넣거나 입력하고 클릭하세요. y
, Enter 키를 누릅니다.
변환된 LoRA를 저장한 후 변환됨 폴더에서 스크립트는 다른 파일을 변환할지 묻습니다. ComfyUI에서 여러 체크포인트를 테스트하려면 모델을 선택하여 변환합니다.
충분한 체크포인트를 변환했으면 BAT 명령 창을 닫습니다.
이제 변환된 모델을 ComfyUI 설치의 models\loras 폴더로 복사할 수 있습니다.
일반적으로 올바른 위치는 다음과 같습니다.
C:\Users\[Your Profile Name]\Desktop\ComfyUI\models\loras\
ComfyUI에서 Hunyuan 비디오 LoRA 생성
ComfyUI의 노드 기반 워크플로는 처음에는 복잡해 보이지만, 다른 더 전문적인 사용자의 설정은 다른 사용자의 ComfyUI로 만든 이미지를 ComfyUI 창으로 직접 끌어서 로드할 수 있습니다. 워크플로는 JSON 파일로 내보내서 수동으로 가져오거나 ComfyUI 창으로 끌어올 수도 있습니다.
일부 가져온 워크플로에는 설치에 존재하지 않을 수 있는 종속성이 있습니다. 따라서 설치 ComfyUI 관리자자동으로 누락된 모듈을 가져올 수 있습니다.

출처: https://github.com/ltdrdata/ComfyUI-Manager
이 튜토리얼의 모델에서 비디오를 생성하는 데 사용된 워크플로 중 하나를 로드하려면 다음을 다운로드하세요. 이 JSON 파일 ComfyUI 창으로 끌어다 놓으세요(다양한 Reddit과 Discord 커뮤니티에서 Hunyuan Video를 채택하고 훨씬 더 나은 워크플로우 예시를 볼 수 있지만, 제 예시는 이 중 하나에서 따온 것입니다).
여기는 ComfyUI 사용에 대한 자세한 튜토리얼을 제공하는 곳은 아니지만, 위에서 링크한 JSON 레이아웃을 다운로드하여 사용할 경우 출력에 영향을 미치는 몇 가지 중요한 매개변수를 언급하는 것이 좋습니다.
1) 너비와 높이
이미지가 클수록 생성하는 데 걸리는 시간이 길어지고, OOM(메모리 부족) 오류가 발생할 위험이 커집니다.
2) 길이
이것은 프레임 수에 대한 수치 값입니다. 프레임 속도(이 레이아웃에서는 30fps로 설정)에 따라 몇 초가 추가되는지가 달라집니다. fps를 기준으로 초>프레임을 변환할 수 있습니다. Omnicalculator에서.
3) 배치 크기
배치 크기를 높게 설정할수록 결과가 더 빨리 나올 수 있지만 VRAM의 부담이 커집니다. 너무 높게 설정하면 OOM이 발생할 수 있습니다.
4) 생성 후 제어
이것은 랜덤 시드를 제어합니다. 이 하위 노드에 대한 옵션은 다음과 같습니다. 고정, 증가, 감소 and 무작위 화. 그대로 두면 고정 그리고 텍스트 프롬프트를 변경하지 않으면 매번 같은 이미지가 표시됩니다. 텍스트 프롬프트를 수정하면 이미지가 제한적으로 변경됩니다. 증가 and 감소 설정을 사용하면 근처의 시드 값을 탐색할 수 있습니다. 무작위 화 프롬프트에 대한 완전히 새로운 해석을 제공합니다.
5) 로라 이름
생성을 시도하기 전에 여기에서 설치된 모델을 직접 선택해야 합니다.
6) 토큰
토큰을 사용하여 개념을 트리거하도록 모델을 훈련한 경우(예: '예시-인물'), 그 트리거 단어를 프롬프트에 넣으세요.
7) 단계
이는 시스템이 확산 과정에 적용할 단계 수를 나타냅니다. 단계가 높을수록 더 나은 세부 정보를 얻을 수 있지만 이 접근 방식이 얼마나 효과적인지에는 한계가 있으며 그 임계값을 찾기 어려울 수 있습니다. 일반적인 단계 범위는 약 20-30입니다.
8) 타일 크기
이것은 생성 중에 한 번에 얼마나 많은 정보를 처리하는지 정의합니다. 기본적으로 256으로 설정됩니다. 이를 높이면 생성 속도가 빨라질 수 있지만 너무 높이면 긴 프로세스의 맨 마지막에 발생하기 때문에 특히 실망스러운 OOM 경험으로 이어질 수 있습니다.
9) 시간적 중복
Hunyuan 사람의 비디오 생성은 너무 낮게 설정하면 '고스팅' 또는 설득력 없는 움직임으로 이어질 수 있습니다. 일반적으로 현재의 지혜는 더 나은 움직임을 생성하기 위해 프레임 수보다 더 높은 값으로 설정해야 한다는 것입니다.
결론
ComfyUI 사용에 대한 추가 탐색은 이 문서의 범위를 벗어나지만 Reddit 및 Discord의 커뮤니티 경험을 통해 학습 곡선을 완화할 수 있으며 여러 가지가 있습니다. 온라인 가이드 기본을 소개합니다.
23년 2025월 XNUMX일 목요일 첫 게시