Anderson의 관점

보이지 않으면 마음에서도 사라진다: AI 비디오의 가장 큰 문제 해결하기

Published March 27, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

최고의 AI 비디오 생성기조차 가진 가장 큰 문제는 만성적인 기억 상실증인데, 중국의 새로운 연구가 이제 이 문제에 도전하고 있다.

최고이자 가장 첨단인 AI 비디오 생성 시스템조차 가진 가장 큰 문제는 바로 모두 만성적인 기억 상실증을 가지고 있다는 점입니다: 카메라가 초점을 맞춘 대상에서 벗어나 다른 곳을 비추다가 다시 돌아오면, 시작할 때 있던 것을 절대 찾지 못합니다 – 등장인물은 사라지거나, 외모와/또는 움직임의 유형이 변했을 것이며, 배경 역시 달라졌을 가능성이 높습니다.

이는 확산 기반 생성 시스템이 제한된 롤링 주의 창을 가지고 있으며, 항상 그 순간에 볼 수 있는 것만을 다루기 때문입니다; 유아론을 진정으로 구현하듯, 프레임 밖에 있는 것은 생성 AI에게 존재하지 않는 것입니다 – 말 그대로 기억에서 버려집니다.

이는 기존의 전통적인 CGI에서는 결코 문제가 되지 않았습니다. CGI는 렌더링된 비디오에서 다시 필요해질 수 있는 어떤 지점에서도 항상 대상을 참조하고 외모와 동작을 정확하게 재현할 수 있습니다:

Traditional CGI meshes and bitmapped textures can always be drawn into a render, providing consistent appearance – a trick that is much harder to achieve in AI approaches, because there is no equivalent 'flat reference'.

전통적인 CGI 메쉬와 비트맵 텍스처는 항상 렌더링으로 다시 불러올 수 있어 일관된 외관을 제공합니다 – AI 접근법에서는 이 트릭을 달성하기가 훨씬 어렵습니다. 왜냐하면 동등한 ‘평면 참조’ 파일이나 관련 파일 모음이 없기 때문입니다.

이는 CGI의 구성 요소들, 예를 들어 메쉬와 텍스처(위 이미지 참조), 그리고 움직임 파일 및 기타 동적 행동들이 디스크에 개별적으로 존재하며 언제든지 컴포지션으로 불러올 수 있기 때문입니다.

생성 비디오 AI에는 그런 ‘평면 저장소’가 없습니다; 이 기능에 가장 가까운 것은 LoRA입니다 – 소비자용 장비에서 훈련될 수 있는 특별히 훈련된 보조 파일로, 새로운 캐릭터와 특정 의상을 비디오에 ‘강제로 주입’할 수 있게 합니다:

재생하려면 클릭하세요. LoRA를 사용하면 AI 비디오의 유아론 문제를 어느 정도 완화할 수 있지만, 결과가 압도적일 수 있습니다.

그러나 이것은 이상적인 해결책이 아닙니다. 첫째, LoRA는 기반 모델의 정확한 특정 버전(예: Wan2+ 또는 Hunyuan Video)에 묶여 있으며, 기본 모델이 변경될 때마다 재생성해야 합니다. 둘째, LoRA는 기반 모델의 가중치를 왜곡하는 경향이 있어, LoRA가 훈련된 정체성이 장면의 모든 캐릭터에 강요됩니다. 게다가, 이런 종류의 미세 조정 방법은 제대로 관리되지 않은 데이터셋에 매우 민감합니다.

정확한 앙코르

이제, 중국의 새로운 학계/산업 협력이 이 문제에 대해 3년 이상 보고해 오면서 내가 주목한 첫 번째 중요한 해결책을 제시하고 있습니다. 이 방법은 연구자들이 하이브리드 메모리라고 부르는 것을 사용하여 화면 밖 캐릭터와 그 주변 환경을 모델의 잠재 공간에서 활성화되고 정확하게 유지하도록 해, 우리의 시점이 그들에게 돌아왔을 때 효과가 일관되게 나타나도록 합니다:

재생하려면 클릭하세요. 새로운 논문의 프로젝트 사이트에서, AI 생성(WAN) 캐릭터들이 프레임을 벗어나 정확하게 다시 들어오는 두 가지 예시. 출처

이것은 서로 다른 샷 간의 캐릭터 일관성을 달성하는 것과는 다르다는 점을 강조해야 합니다 – 이는 1년 전 Runway의 Gen 4 출시에서 달성되었다고 주장된 바 있으며, 연구 문헌에서 여전히 진행 중인 추구 목표입니다.

오히려, 여기서 해결된 것은 제가 본 어떤 상용 또는 실험적 프레임워크도 달성하지 못한 것 – 화면 밖 캐릭터의 이전 모습, 동작 및 환경의 시각적으로 일관된 재등장입니다:

재생하려면 클릭하세요. 새로운 계획의 프로젝트 사이트에 제시된 다른 두 가지 주요 예시.

분명히 여기서 작동하는 원리는 도시 탐험, POV 운전, 또는 다른 종류의 비캐릭터 렌더링과 같은 다른 영역에도 동일하게 적용될 수 있습니다.

또한 이 새로운 접근법은 Runway Gen4 및 기타 폐쇄형 플랫폼들이 서로 다른 샷에 걸쳐 캐릭터를 재생성함으로써 해결했다고 주장하는 문제를 해결하거나 다루지 않는다는 점도 강조해야 합니다; 대신 그것은 그들 중 누구도 아직 성공하지 못한 일 – 캐릭터와 환경을 시청자가 항상 볼 수 있도록 유지할 필요 없이 메모리에 지속시키는 일을 합니다.

이 새로운 작업은 Unreal Engine을 통해 생성된 전용 데이터셋, 유아론 문제*를 위한 맞춤형 메트릭, 그리고 WAN 위에 구축된 맞춤형 생성 프레임워크로 구성됩니다. 사용 가능한 몇 가지 유사 시스템과의 테스트에서, 저자들은 최첨단 결과를 주장하며 다음과 같이 논평합니다:

‘[메모리] 메커니즘은 생성된 콘텐츠의 공간적 및 시간적 일관성을 메모리 용량이 결정하기 때문에, 세계 모델을 발전시키는 데 있어 중요한 전선으로 부상했습니다.

‘구체적으로, 그것은 모델이 시점 이동이나 장기 외삽 중에 역사적 맥락을 유지할 수 있게 하는 인지적 닻입니다.

‘견고한 메모리 없이는, 시뮬레이션된 세계는 빠르게 단절되고 혼란스러운 프레임으로 풀어져 버립니다.’

새 논문은 Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models이라는 제목이며, 화중과기대(Huazhong University of Science and Technology)와 쿠아이쇼우 테크놀로지(Kuaishou Technology)의 Kling 팀 소속 7명의 연구자들로부터 나왔습니다.

방법

새 작업의 중심 기둥은 하이브리드 메모리로, 이는 ‘시야 밖 외삽’ – 시청자가 ‘다른 곳을 볼 때'(또는 캐릭터 자신이 시야에서 벗어날 때) 캐릭터와 그들의 맥락을 유지하는 것을 용이하게 합니다. 이 시나리오에서 프레임워크는 시공간적 분리를 수행해야 합니다. 즉, 시청자가 볼 수 있는 생성과 화면 밖에 있는 캐릭터의 존재에 동시에 집중합니다.

Examples of entry/exit camera motion. In these instances, it is the camera's movement that causes the character to exit the frame, but in diverse samples we can also observe the character themselves temporarily propelling themselves offscreen. Source - https://arxiv.org/pdf/2603.25716

진입/이탈 카메라 모션의 예시. 이 경우에는 카메라의 움직임이 캐릭터가 프레임을 벗어나게 만들지만, 다양한 샘플에서 캐릭터 자신이 일시적으로 자신을 화면 밖으로 밀어내는 것도 관찰할 수 있습니다. 출처

저자들은 확산 잠재 임베딩에서 추출되어 사용되어야 할 특징들이 다른 특징 및 속성들과 심하게 뒤엉켜 있다는 점을 지적하며, 그것들을 추출하려고 시도하면 대상이 배경에 ‘얼어붙는’ 현상이 종종 발생한다고 말합니다. 따라서 그들은 하이브리드 메모리를 훈련시키기 위해 특별히 고안하고 관리한 HM-World 데이터셋**을 고안했습니다:

From the paper, samples from the four categories contained in the HM-World dataset.

논문에서, HM-World 데이터셋에 포함된 네 가지 범주의 샘플들.

이 컬렉션은 네 가지 차원을 따라 구성됩니다: 주체 궤적, 카메라 궤적, 장면, 그리고 주체.

HM-World의 합성 데이터는 17개의 장면과 49개의 주체를 특징으로 하며, 다양한 외모의 사람들과 여러 종의 동물들을 포함합니다. 이들의 조합은 절차적 방식으로 Unreal Engine을 통해 장면에 배치되고, 각각 고유한 동작 애니메이션을 가지며, 무작위로 선택된 궤적에 따라 움직입니다.

저자들은 데이터셋에 다양한 이탈-진입 이벤트들이 묘사되어 있으며, 28개의 서로 다른 카메라 궤적이 포함되어 있고 각각 여러 시작점을 가지고 있다고 말합니다.

최종 컬렉션은 59,225개의 비디오 클립으로 구성되며, 각 클립은 MiniCPM-V 멀티모달 대규모 언어 모델(MLLM)에 의해 주석이 달렸습니다.

연구자들은 그들의 컬렉션이 기존 데이터셋 WorldScore; Context-As-Memory; Multi-Cam Video; 그리고 360° Motion에 비해 통계적 이점을 가진다고 지적합니다:

Comparison between existing datasets and the HM-World dataset, where 'Dynamic Subject' indicates the presence of moving entities, 'Subject Exit-Enter' denotes clips containing subjects leaving and re-entering the frame, and 'Subject Pose' refers to the inclusion of annotated 3D poses. 기존 데이터셋과 HM-World 데이터셋 간의 비교. 여기서 ‘Dynamic Subject’는 움직이는 개체의 존재를 나타내고, ‘Subject Exit-Enter’는 주체가 프레임을 떠나고 다시 들어오는 클립을 의미하며, ‘Subject Pose

Related Topics:AI video ai video production ai video tools generative ai

Martin Anderson

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai

Unite.AI

보이지 않으면 마음에서도 사라진다: AI 비디오의 가장 큰 문제 해결하기

정확한 앙코르

방법

You may like