Anderson의 관점

개념 얽힘은 왜 당신이 AI 비디오를 ‘당신의 방식’으로 가질 수 없게 하는가

Published March 23, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

AI 비디오 도구는 총제어를 약속하지만, 숨겨진 ‘개념 얽힘’은 정체성, 표현, 행동을 함께 결합시켜서, 해킹과 템플릿 트릭을 강요하며, 노력없는 GenAI 마법의 신화를 파괴한다.

의견 내가 이 주제에 대해 자세히 다룬 지 5년이 지난 지금, 훈련된 AI 시스템에서 ‘개념 얽힘’ 문제는 더 많은 사용자에게 확장되었지만, 여전히 제대로 이해되지 않고 있다.

그 당시에, 오토인코더 딥페이크 시스템(예를 들어, 현재는 더 이상 사용되지 않는 DeepFaceLab과 더 적게 포르노 중심인 FaceSwap, 둘 다 2017년 레딧에서 발표된 코드에서 파생됨)은 상대적으로 사진실적 인 딥페이크를 생성하는唯一한 게임이었다.

이 시스템은 광범위한 얼굴 훈련 데이터셋에 의존했으며, AI 모델에 대한 정보를 제공하기 위한 것이었다. A) 사람이 휴식 중에 어떻게 보이는지(참조 임베딩)와 B) 얼굴이 반영할 수 있는 다양한 상황에서 어떻게 보이는지(예를 들어, 수면에서 웃음, 공포, 지루함, 냉소, 슬픔 등)。

정체성은 단독으로 오지 않고, 얼굴 표현과 함께 온다. 또한, 특정 감정은 특정 극단적인 각도에서만 얼굴 데이터가 उपलब할 수 있으므로, 각도와 감정이 연관될 수 있다.

문제는 표준적인 정체성이 일반적으로 중립적이지 않은 얼굴 캡처에서 추론되어야 했기 때문에, 데이터셋의 대부분이 미소와 웃음으로 구성되어 있었기 때문에, 분포가 ‘미소 기본값’으로 이동했다. 이것은 웹에서 스크래핑한 훈련 데이터가 이러한 모델을 정보하는 일반적인 이유였으며, 데이터셋이 한 종류의 이미지로 편향된 다른 이유였다.

다시 말해, 오토인코더 시스템은 수천 개의 이미지에서 ‘중립’ 정체성 개념을 추출하려고 시도해야 했으며, 얼굴 특징이 정상적인 얼굴 표현으로歪曲되었다.

그것은 또한 다양한 감정의 의미적인 얼굴 개념을 얼굴이 촬영된 각도에서 분리하려고 시도해야 했다. 즉, 만약 ‘공포’ 얼굴 표현이 프로파일 뷰에서만 उपलब했다면, 훈련된 시스템은 그 감정을 최적으로 재현하기 위해 그 角度에서만 가능했다.

앞을 향해

2022년부터 확산 기반 접근 방식이 생성적 AI 이미지(그리고 나중에 비디오) 장면을 장악했을 때, 생성 시스템은 제한된 얼굴 데이터를 제공할 때 정확한 얼굴 표현을 추출하는 데 훨씬 더 능숙해졌다.

심지어 매우 어려운 도전인 프로파일 뷰를 생성하는 것도 거의 극복되었다. 현재 상태에서, 표현 데이터는 정체성에서 효과적으로 분리되었다. 즉, 오토인코더 구동 DeepFaceLive 스트리밍 시스템에서 선구적인 라이브 딥페이크 인형 구동은 오프라인 확산 응용 프로그램에서 많은 효과적인 응용 프로그램을 가지고 있으며, 실시간 구현은 미래의 개발 가능성이다:

재생하기. ‘FlashPortrait’ 프로젝트에서, 다양한 소스 비디오를 통해 아바타를 구동하는 예시. 이 경우, ‘실제적인’ 도메인이 어느 쪽에 있든 중요하지 않다. 소스

그러나 생성적 AI의 캔버스가 넓어지고 출력이 더 정교해짐에 따라, 얽힘 문제는 단순히 다른 여러 영역으로 확장되었으며, 현재는 비교적 저렴하고 구식 기술로 ‘수정’되고 있다. 만약 당신이 그 기술이 무엇인지 모른다면, 당신은 AI 비디오와 이미지 기술이 얼마나 빠르게 발전하고 과거의 문제를 극복하는지에 대해 더 긍정적인 견해를 가질 수 있다.

수다스러운 고양이

2017년 옛 오토인코더 시스템에서 정체성과 감정을 분리하는 것이 어려웠던 이유가 명확하다. 그것은 A) 데이터가 너무 많거나, 너무 구체적인 데이터였기 때문이다. 또는 B) 모델 아키텍처가 이러한 품질을 분리하는 데 충분하지 않았으며, 사용자가 데이터셋의 균형을 유지하기 위해 특별한 주의를 기울이지 않는 한, 추론 시간에 이러한 품질을 ‘붙여놓았다’는 사실이었다.

同じ 이유로, 최근 몇 년 동안 여러 오픈 소스 및 사유 비디오 모델에서 유사한 문제가 발생했지만, 환각, 검열 부족 및 기타 주제에 대한 비판으로 인해 그 문제는 상대적으로 덜 주목을 받았다.

예를 들어, Wan2.+ 시스템에서 많은 사용자가 생성된 문자가 계속해서 말한다는 것을 중단하는 것이 매우 어렵다는 것을 발견했으며, 종종 카메라를 보는 것을 중단하는 것도 어렵다.

카메라를 보는 문제(4번째 벽을 깨는)는 비디오 합성 시스템의 등장 이전에 이미 이미지 전용 확산 시스템에서 발생했으며, 웹에서 스크래핑한 데이터셋인 LAION에 카메라를 보는 사진이 많기 때문이다.

문장이 많은 문자 문제는 유튜브의 ‘인플루언서’ 비디오의 풍부한 존재에서 비롯되며, 천 시간의 직면 디스크에 대한 논의를 제공하며, 종종 큐레이션되어 연구 과학자들이 학술적 맥락을 제공하여 웹 스크래핑을 세탁할 수 있다.

그러나 원래 또는 이후 큐레이터가 이러한 유형의 비디오의 수를 제한하고, 더 다양한 유형의 영상과 균형을 유지하지 않는 한, 비디오 모델에서 심각한 편향이 발생한다. 이는 프롬프트 기반 처방과 다양한 제3자 보조 시스템을 통해 해결되어야 한다.

Wan의 ‘수다스러움’ 문제에 직면하여, Reddit 사용자 u/Several-Estimate-681은 Wan 2.1 Infinite Talk V2V 시스템의 설정을 활용하는 작업을 발견했으며, 이 프레임워크는 인플루언서 스타일의 수다스러움을 권장하기 위한 것이다. 이 설정을 통해 사용자는 렌더링된 문자를 침묵시킬 수 있다:

재생하기 단지 청취 – Wan2.+에서 문자의 주의를 얻기 위한 작업이다. 소스

명백히, 이러한 종류의捷径은 저수준 구조적 해결책을 나타내지 않으며, 진정한 해결책을 찾고 구현하는 것은 기초 모델의 제작자들의 몫이다(캐주얼한 취미주의자는 이러한 작업을 재현하거나 미세 조정하기 위해 수백만 달러를 사용할 수 없다). 이는 개념 얽힘 ‘뿌리 치기’ 게임이 다음 버전 릴리즈에서 다시 0으로 초기화될 가능성이 있다.

저렴하고 취약한

확산 아키텍처 자체에는 이러한 문제를 불가피하게 만드는 것은 없다. 실제로, 만약 데이터셋에 대한キュ레이션, 트라이어지 및 높은 품질의 캡션 및 주석을 적용할 수 있다면, 거의 모든 이러한 문제가 사라질 것이다.

그러나, 이러한 수준의 세부 사항은 매너하탄 프로젝트와 같은 로지스틱스, 범위, 필요한 자원 및 장기 노력과 같은 것을 필요로 할 것이다. 새로운 아키텍처 또는 아키텍처 버전이 이러한 노력을 무효화할 수 있는 상황에서, 이러한 종류의 약속을 하는 의지는 없다.

따라서, 모델을 사용할 수 있게 하는 것과 일치하는 범위 내에서, 가장 저렴한 접근 방식이 선호된다. 이러한 ‘けちけち함’의 예는 데이터 증강이며, 이는 잘못된 데이터셋 비디오 클립에 적용될 때, 유쾌한 결과를 초래할 수 있다:

데이터 증강은 종종 데이터셋의 소스 비디오를 반전시키므로, AI 모델은 가끔 ‘불가능한’ 동작을 학습할 수 있다. – 소스

그러나, 총합적으로, 바위가 언덕을 올라가는 것과 사람們이 인플루언서 모드를 켜는 것과 같은 Rocks는 생성 시스템의 충돌 피해로 간주되며, 이러한 시스템은 이러한 고장과 아킬레스건에도 불구하고 인상적인 결과와 충분히 감동적인 헤드라인을 생성할 수 있다.

보일러플레이트 솔루션

현재, 수백 개의 생성 비디오 도메인이 거의 모두 新的 법률 및 반발에 의해 생성적 AI에 대한 반대에 직면하여, 그들이 상업 서비스를 제공하는 동안 즐기고 있다.

이러한 유형의 더 큰 및 잘 알려진 사이트는 Kling 및 Grok와 같은 사이트가 일반적으로 자체 검열을遵守하거나(결국), 비판에 대한 반응으로 사용자에게 제공하는 콘텐츠 유형을 변경한다.

그러나 이러한 큰 이름 뒤에는 수백 개의 다른 일시적인 작업이 있으며, 새로운 및 종종 더 극단적인 콘텐츠에 대한 수요에 대응한다.

이러한 종류의 저노력 공급은 기초 모델을 처음부터 훈련하는极めて 높은 비용과 노력을 배제한다. 또한, 훨씬 더 저렴한 미세 조정을 허용하지 않는다.

따라서 이러한 사이트는 ‘템플릿’을 제공하며, 실제로는 사용자 정의로 훈련된 LoRAs와 100% 동일하게 작동하며, 이는 4년 이상 동안 AI 취미주의자들이 원하는 정체성, 스타일, 객체 및(비디오의 경우) 동작 또는 행동을 전용 LoRA 보조로 훈련하는 데 사용되었다.

LoRA가 기초 모델과 사용자 사이에 있으면, 결과는 LoRA가 훈련된 내용에 매우 특정하며, 일반적으로 모델의 더 넓은 성능은 LoRA의 영향을 받는다. LoRA는 자신의 주제를 매우 잘 재현하지만, 요청에 상관없이 그 자료를 삽입할 것이다(만약 비행기 사이트가 이러한 수준의 제어를 허용한다면; 하지만 허용하지 않는다. 그냥 [당신이 선택한 동작] 템플릿을 제공한다).

당연한 이유로, 나는 이 기사에 웹사이트 샘플을 삽입할 수 없다. 그러나 연구 문헌은 최근에 유사한 예를 제공했다. 여기, 예를 들어, EffectMaker 프로젝트는 사용자 제공 이미지에 특정 동작을 적용하는 원리를 보여준다:

재생하기. EffectMaker에서 미세 조정된 특정 효과를 사용자 정의 입력에 적용할 수 있다. 소스

이러한 매우キュ레이션되고 타겟팅된 상황에서조차, 사용자들은 종종 좋은 결과를 얻으려면 여러 번 시도를 해야 한다고 주장하며, 우리는 제공자에 대한 탐욕이나 날카로운 관행에 대한 비난보다, 더 вероят적으로 ‘hit-and-miss’ DiT 생성적 AI 프레임워크의 결함을 탓해야 한다.

より 넓은 대중은, 대표성이 아닌 체리 피킹된 예시에서 생성적 AI의 능력에 대한 인상을 얻을 수 있다. 사용자가 템플릿(즉, AI 웹사이트에서 제공되는 LoRA)에 6번 시도를 한다면(즉, 최고의 결과를 얻으려면), 그들은 최고의 결과를 게시하고 칭찬할 것이다. 이는 사용자가 기초 모델을 쿼리하여 이러한 결과를 얻을 수 있다는 인상을 주며, 생성적 기초 모델이 실제보다 훨씬 더 분리되어 있다고 전달한다.