Connect with us

Hunyuan 비디오 Deepfakes의 부상

인공지능

Hunyuan 비디오 Deepfakes의 부상

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

여기서 논의되는 일부 자료의 특성으로 인해 이 기사는 일반적으로보다 적은 참조 링크와 일러스트레이션이 포함됩니다.

AI 합성 커뮤니티에서 주목할 만한 일이 현재 진행 중이며, 그 중요성은 조금 시간이 지나면 분명해질 것입니다. 취미로 AI를 다루는 사람들은 사람들의 외모를 재현하기 위해 생성적 AI 비디오 모델을 훈련시키고 있으며, 텐센트에서 최근 공개한 오픈 소스 Hunyuan Video 프레임워크에서 비디오 기반 LoRAs를 사용하고 있습니다.*

재생을 위해 클릭하세요. Civit 커뮤니티에서 Hunyuan 기반의 LoRA 사용자 정의 버전의 다양한 결과입니다. 저ランク 적응 모델(LoRAs)을 훈련함으로써 2년 동안 AI 비디오 생성을 괴롭혀 온 시간적 안정성 문제가 크게 줄어듭니다. 출처: civit.ai

위에서 보여지는 비디오에서, 여배우 나탈리 포트만, 크리스티나 헨드릭스, 스칼렛 요한슨 및 테크 리더 엘론 머스크의 외모가 Hunyuan 생성 비디오 시스템용으로 비교적 작은 추가 파일로 훈련되어 있으며, 콘텐츠 필터(예: 성인 콘텐츠 필터)없이 사용자의 컴퓨터에 설치할 수 있습니다.

위에서 보여지는 크리스티나 헨드릭스 LoRA의 제작자는 매드 맨 TV 쇼의 16개 이미지만으로 모델을 개발하는 데 필요한 것이라고 말했으며(이것은 307mb 다운로드에 불과함), Reddit 및 Discord의 Stable Diffusion 커뮤니티에서 여러 게시글은 이러한 종류의 LoRAs가 대부분의 경우에大量의 훈련 데이터나 긴 훈련 시간을 필요로 하지 않는다고 확인합니다.

Click을 클릭하세요. 아널드 슈워제네거가 Civit에서 다운로드할 수 있는 Hunyuan 비디오 LoRA에서 살아납니다. 추가적인 아르니 예시는 https://www.youtube.com/watch?v=1D7B9g9rY68에서 AI 애호가 밥 도일에서 볼 수 있습니다.

Hunyuan LoRAs는 정적 이미지 또는 비디오에서 훈련될 수 있지만 비디오에서 훈련하는 경우에는 더 많은 하드웨어 자원과 더 긴 훈련 시간이 필요합니다.

Hunyuan Video 모델은 13억 개의 매개변수를 특징으로 하며, Sora의 12억 개 매개변수를 초과하며, 2024년 여름에 오픈 소스로 공개된 훨씬 더 능력이 떨어지는 Hunyuan-DiT 모델보다 훨씬 더 능력이 뛰어난데, 후者の 경우에는 15억 개의 매개변수만 있습니다.

Stable Diffusion 및 LoRA(여기서 Stable Diffusion 1.5의 ‘네이티브’ 유명인 예시를 참조하세요 여기)와 마찬가지로 2년 반 전과 같이, 관련 기초 모델은 유명인 성격에 대한 이해가 훨씬 더 제한적입니다. 이는 ‘ID 주입’ LoRA 구현을 통해 얻을 수 있는 충실도 수준과 비교할 때입니다.

실제로, 사용자 정의된, 성격에 초점을 둔 LoRA는 기초 Hunyuan 모델의 중요한 합성 능력을 이용하여, 2017년 시대 오토인코더 Deepfakes 또는 LivePortrait와 같은 시스템을 통해 정적 이미지에 운동을 추가하는 것보다 훨씬 더 효과적인 인간 합성을 제공합니다.

여기서 보여지는 모든 LoRAs는 Civit 커뮤니티에서 무료로 다운로드할 수 있으며, 더 많은 수의 오래된 사용자 정의 ‘정적 이미지’ LoRAs는 Hunyuan Video의 이미지에서 비디오 생성 프로세스(i.e., 이미지에서 비디오, Hunyuan Video에서 예정된 릴리즈임)에 대한 ‘시드’ 이미지를 만들 수 있습니다(현재는 대안이 가능함).

재생을 위해 클릭하세요. 위에는 Flux LoRA의 샘플이 있으며, 아래에는 음악가 테일러 스위프트를 특징으로 하는 Hunyuan 비디오 LoRA의 예가 있습니다. 이 두 LoRAs는 Civit 커뮤니티에서 무료로 사용할 수 있습니다.

저는 이 글을 쓰고 있는 동안, Civit 웹사이트는 ‘Hunyuan’에 대한 128개의 검색 결과를 제공합니다*. 거의 모두가 어떤 방식으로든 성인 모델이며, 22개는 유명인들을 묘사하며, 18개는 하드코어 포르노그래피 생성을 용이하게 하기 위해 설계되었으며, 7개만이 여성보다 남성을 묘사합니다.

새로운 점은 무엇인가?

Deepfake라는 용어의 진화하는 특성과, 기존 AI 인간 비디오 합성 프레임워크의 (상당히 심각한) 제한으로 인해, Hunyuan LoRA의 중요성은 경쟁적인 AI 생성 장면을 따라가는 사람에게 쉽게 이해되지는 않습니다. Hunyuan LoRAs와 이전의 ID 기반 AI 비디오 생성 접근 방식 간의 몇 가지 주요 차이점을 검토해 보겠습니다.

1: 제약 없는 로컬 설치

Hunyuan Video의 가장 중요한 측면은 그것이 로컬에서 다운로드할 수 있으며, 매우 강력하고 검열되지 않은 AI 비디오 생성 시스템을 사소한 사용자와 VFX 커뮤니티(지리적 지역에서 라이선스가 허용하는 범위 내에서)의 손에 넣는다는 것입니다.

이전에는 2022년 여름에 Stability.ai의 Stable Diffusion 모델이 오픈 소스로 릴리즈된 때와 마찬가지로, 이런 일이 발생했습니다. 그 때, OpenAI의 DALL-E2는 공개 상상력을 사로잡았으며, DALLE-2는 유료 서비스로 주목할 만한 제한이 있었으며(시간이 지나면서 증가함) 있습니다.

Stable Diffusion이 사용 가능해지자마자, Low-Rank Adaptation을 통해 어떤 사람의 ID를 생성할 수 있게 되자, 개발자와 소비자의 관심이 Stable Diffusion을 따라잡으며, DALLE-2의 인기를 추월했습니다. 그러나 DALLE-2는 더 능력있는 시스템이었으며, 그 센서링 루틴은 많은 사용자에게 부담으로 여겨졌으며, 사용자 정의가 불가능했습니다.

논쟁의 여지는 있지만, 동일한 시나리오가 현재 Sora와 Hunyuan – 또는 더 정확하게는, Sora 등급의 제한된 생성 비디오 시스템과 Hunyuan과 같은 오픈 소스 라이벌 사이에서 발생하고 있습니다(여기서 Flux가 결국 Stable Diffusion을 따라잡을 것이라는 점을 고려하세요).

사용자가 Hunyuan LoRA 출력을 생성하려는 경우 nhưng 효과적으로 강력한 장비가 부족한 경우, 사용자는 언제나 온라인 컴퓨팅 서비스 예를 들어 RunPod에 훈련의 GPU 측면을 오프로드할 수 있습니다. 이것은 Kaiber 또는 Kling과 같은 플랫폼에서 AI 비디오를 생성하는 것과 다릅니다. 여기에는 의미적 또는 이미지 기반 필터링(검열)이 포함되지 않습니다.

2: ‘호스트’ 비디오 및 높은 노력의 필요 없음

Deepfakes가 2017년 말에 등장했을 때, 익명으로 게시된 코드는 주류 포크 DeepFaceLabFaceSwap(以及 DeepFaceLive 실시간 Deepfaking 시스템)으로 발전했습니다.

이 방법은 각 ID에 대한 수천 개의 얼굴 이미지를 신중하게 큐레이팅하는 것이 필요했으며, 이 단계에 투입된 노력에 따라 모델의 효능이 달라졌습니다. 또한 훈련 시간은 사용 가능한 하드웨어에 따라 2~14일 사이로 달라졌으며, 장기적으로 능력있는 시스템을 스트레스를 주었습니다.

모델이终于 준비되면, 그것은 기존 비디오에 얼굴을 넣을 수만 있었으며, 일반적으로 실제 ID와 유사한 외모의 ‘타겟’이 필요했습니다.

最近, ROOP, LivePortrait 및 유사한 프레임워크는 훨씬 더 적은 노력으로 비슷한 기능을 제공했으며, 종종 더 나은 결과를 제공했습니다. 그러나, 정확한 전체 바디 Deepfakes를 생성할 수 있는 능력은 없었으며, 얼굴 이외의 다른 요소는 생성할 수 없었습니다.

Examples of ROOP Unleashed and LivePortrait (inset lower left), from Bob Doyle's content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

ROOP Unleashed와 LivePortrait(inset lower left)의 예, Bob Doyle의 YouTube 콘텐츠 스트림에서. 출처: https://www.youtube.com/watch?v=i39xeYPBAAM 및 https://www.youtube.com/watch?v=QGatEItg2Ns

반면에, Hunyuan LoRAs(그리고 결국 따라올 유사한 시스템)는 전체 세계의 무제한 생성을 허용합니다. 이는 전체 바디 시뮬레이션을 포함하여 사용자 훈련 LoRA ID를 허용합니다.

3: 대폭 개선된 시간적 일관성

시간적 일관성은 여러 해 동안 확산 비디오의 성배였습니다. LoRA와 적절한 프롬프트를 사용하면 Hunyuan 비디오 생성에恒定的 ID 참조를 제공합니다. 이론적으로(이것은 초기 단계입니다), 특정 의류를 착용한 특정 ID의 여러 LoRAs를 훈련할 수 있습니다.

이러한 조건下에서, 의류도 비디오 생성 과정 전체에 걸쳐 ‘돌연변이’할 가능성이 낮습니다(생성 시스템은 이전 프레임의 매우 제한된 창을 기반으로 다음 프레임을 생성하기 때문입니다).

(또는 이미지 기반 LoRA 시스템과 마찬가지로, 단일 비디오 생성에 여러 LoRAs, 예를 들어 ID + 의류 LoRAs를 적용할 수 있습니다)

4: ‘인간 실험’에 대한 접근

최근에私は 관찰했듯이, 제한된 생성 AI 분야의 주요 프로젝트에 대한 실제 사람이 거의 나타나지 않는다는 사실은, 해당 분야가 인간 합성 능력에 대한 잠재적인 비판에 대해 매우 경계적이라는 것을 나타냅니다. 대신, 관련 홍보 문헌은 합성 결과에 점점 더 ‘かわいい’하고 기타 ‘위협적이지 않은’ 주제를 보여주게 됩니다.

Hunyuan LoRAs의 등장으로, 커뮤니티는 처음으로 LDM 기반 인간 비디오 합성을 매우 능력있는 시스템에서 탐색할 수 있는 기회를 가지며, 우리 대부분에게 가장 관심 있는 주제인 사람에 대해 탐험할 수 있습니다.

임팩트

Hunyuan LoRAs의 등장으로 인해 가장중요한 임팩트는 실제 사람(유명인 및 미지의 사람 포함)에 대한 AI 포르노그래픽(또는 기타 비방) 비디오를 생성하는 데 사용될 것이라는 것입니다.

준수 목적으로, Hunyuan LoRAs를 생성하고 다양한 Discord 서버에서 실험하는 취미 개발자들은 실제 사람의 예를 게시하는 것을 금지합니다. 그러나 현실은 이미 이미지 기반 Deepfakes가 심각하게 무기화되었으며, 실제로 현실적인 비디오를 혼합하면 지난 7년 동안 반복적으로 미디어에서 두려워했던 것을终于 정당화할 수 있습니다. 그리고 이는 새로운 규제를 촉발했습니다.

추진력

항상 그렇듯이, 포르노는 진보의 원동력입니다. 이러한 사용에 대한 우리의 견해와 상관없이, 이러한 추진력은 궁극적으로보다 주류적인 채택을 이익으로 하는 기술의 발전에 기여하는 발전을 추진합니다.

이 경우, 비용은 평소보다 더 높을 수 있습니다. 왜냐하면 초실제적인 비디오 생성의 오픈 소싱은明显한 범죄적, 정치적, 윤리적 남용의 가능성을 내포하고 있기 때문입니다.

한 Reddit 그룹(여기서 이름을 명시하지 않습니다)은 AI 생성 NSFW 비디오 콘텐츠에 전념하며, 관련 오픈 Discord 서버가 있습니다. 여기서 사용자들은 Hunyuan 기반 비디오 포르노 생성을 지원하는 ComfyUI 워크플로를 정교화하고 있습니다. 매일, 사용자들은 NSFW 클립의 예를 게시하며, 많은 경우에 합리적으로 ‘극단적’이라고 간주되거나, 적어도 포럼 규칙에 명시된 제한을 벗어납니다.

이 커뮤니티는 또한 새로운 모델에 대한 훈련 데이터를 제공하기 위해 포르노그래픽 비디오를 다운로드하고 처리할 수 있는 도구를 특징으로 하는 상당한 GitHub 리포지토리를 유지하고 있습니다.

가장 인기 있는 LoRA 트레이너인 Kohya-ss가 이제 Hunyuan LoRA 훈련을 지원함에 따라, 무제한 생성 비디오 훈련에 대한 장벽은 매일 낮아지고 있으며, 하드웨어 요구 사항도 함께 낮아지고 있습니다.

포르노 기반 AI(즉, 유명인과 같은 ID 모델과는 반대로)에 대한 전용 훈련 方案의 결정적인 측면은 표준 기초 모델인 Hunyuan이 성인 콘텐츠 출력에 특히 훈련되지 않았으며, 따라서 성인 콘텐츠를 생성하도록 요청될 때 성능이 좋지 않을 수 있거나, 수행적인 또는 설득력 있는 방식으로 학습된 개념과 연관성을 분리하지 못할 수 있다는 것입니다.

전용된 성인 콘텐츠 기초 모델과 LoRAs를 개발함으로써, 훈련된 ID를 전용 ‘포르노’ 비디오 도메인에 투영하는 것이 점점 더 가능해질 것입니다.毕竟, 이것은 이미 2년 반 동안 정적 이미지에 대해 발생한 것의 비디오 버전입니다.

VFX

Hunyuan Video LoRAs가 제공하는巨大的 시간적 일관성 향상은 AI 시각 효과 산업에明显한 도움이 됩니다. 이 산업은 오픈 소스 소프트웨어를 적응하는 데 크게 의존합니다.

Hunyuan Video LoRA 접근 방식은 전체 프레임과 환경을 생성하지만, VFX 회사들은 이미 Hunyuan Video 방법을 통해 얻을 수 있는 시간적으로 일관된 인간 얼굴을 분리하여 실제 소스 비디오에 얼굴을 중첩하거나 통합하기 위해 실험을 시작했습니다.

취미 커뮤니티와 마찬가지로, VFX 회사들은 Hunyuan Video의 이미지에서 비디오 및 비디오에서 비디오 기능을 기다려야 합니다. 이는 LoRA 기반 ‘Deepfake’ 콘텐츠와 가장 유용한 다리입니다. 그렇지 않으면 즉흥적으로 사용하거나, Hunyuan Video의 외부 능력과 잠재적인 적응, 그리고 심지어 Hunyuan Video의专有 내부 포크를 조사하기 위해 간격을 사용할 수 있습니다.

Hunyuan Video의 라이선스 조건은 기술적으로 실제 개인을 묘사하는 것을 허용하지만, 허가가 있는 경우에만 허용합니다. 그러나 EU, 영국 및 한국에서 사용을 금지합니다. 이것은 반드시 Hunyuan Video가 이러한 지역에서 사용되지 않을 것이라는 것을 의미하지는 않습니다. 그러나 외부 데이터 감사를 통해 생성 AI에 대한 규제를 시행할 수 있으므로, 이러한 지역에서 불법 사용은 위험할 수 있습니다.

라이선스 조건의 또 다른 잠재적으로 모호한 영역은 다음과 같습니다:

라이선스 발급일 현재, 라이선サー가 제공하는 모든 제품 또는 서비스의 월간 활성 사용자 수가 전월에 1억 명을 초과하는 경우, 텐센트에 라이선스를 요청해야 하며, 텐센트는独自의 재량으로 라이선스를 부여할 수 있으며, 텐센트가 명시적으로 라이선스를 부여하지 않는 한, 본 협약下的 권리를 행사할 수 없습니다.

이 조항은 Hunyuan Video를 중간자로서의 많은 회사에针对적입니다. 이러한 회사는 비교적 기술적으로 무지한 사용자 집단을 대상으로 하며, 사용자 수가 특정 한계를 초과하는 경우 텐센트에 라이선스를 청구해야 합니다.

라이선스 조건의 광범위한 언어는 간접 사용(즉, 인기 있는 영화 및 TV에서 Hunyuan으로 활성화된 시각 효과 출력 제공)을 다루는지 여부는 명확하지 않으며, 명확성이 필요할 수 있습니다.

결론

Deepfake 비디오는 오래전부터 존재해 왔기 때문에, Hunyuan Video LoRA가 ID 합성 및 Deepfaking에 대한 접근 방식으로서의 중요성을 과소평가하고, Civit 커뮤니티 및 관련 Discord 및 subreddit에서 나타나는 현재의 개발이 실제로 인간 비디오 합성을 제어하는 데 필요한 단순한 증분 단계를 나타낸다고 가정할 수 있습니다.

더 가능성은 현재의 노력이 Hunyuan Video의 완전히 설득력 있는 전체 바디 및 전체 환경 Deepfakes를 생성할 수 있는 잠재력을 나타내는 것의 일부에 불과하며, 이미지에서 비디오 구성 요소가 릴리즈되면(이번 달에 발생할 것으로 예상됨), 훨씬 더 세분화된 생성 능력이 커뮤니티와 전문가에게 사용 가능해질 것입니다.

Stability.ai가 2022년에 Stable Diffusion을 릴리즈했을 때, 많은 관찰자는 왜 회사가 당시에는 så 유용한 생성 시스템을 그냥 주는지 이해할 수 없었습니다. Hunyuan Video의 경우, 이익 동기는 라이선스에 직접적으로 내장되어 있습니다. 텐센트가 언제 회사에 수익 공유 체계를 트리거하는지 결정하는 것이 어렵게 될 수 있습니다.

어떤 경우에든, 결과는 2022년과 동일합니다. 헌신적인 개발 커뮤니티가 Hunyuan Video 릴리즈를 둘러싸고 즉시 그리고 열렬한 열정을 가지고 형성되었습니다. 이러한 노력의 일부는 다음 12개월 동안 새로운 헤드라인을 유발할 것입니다.

 

* 게시 시점에는 136개입니다.

2025년 1월 7일 화요일에 처음 게시됨

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai