Anderson의 관점

시야에서 벗어난 것, 마음에서 벗어난 것: AI 비디오의 가장 큰 문제 해결

Published March 27, 2026

Updated May 16, 2026

Martin Anderson

Detail from the first page of the March 2026 paper 'Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models'. Source - https://arxiv.org/pdf/2603.25716

가장 좋은 AI 비디오 생성기조차도 만성 기억상실증을 가지고 있는 문제 – 중국의 새로운 연구가 이 문제를 해결하기 위해 노력하고 있습니다.

가장 좋은 그리고 가장 최신의 AI 비디오 생성 시스템조차도 모두 만성 기억상실증을 가지고 있습니다. 카메라가 어떤 것을 집중하고 있다가 다른 곳으로 이동한 후 다시 돌아오면, 처음에 있던 것은 사라지거나 외모나 움직임이 변경되거나 배경이 변경될 것입니다.

이것은 확산 기반 생성 시스템이 제한된 롤링 창을 가지고 있으며, 현재의 순간에만 집중하고 있기 때문입니다. 진정한 solipsism의 예시로, 프레임 밖의 것은 생성 AI에게는 존재하지 않습니다. 그것은 실제로 메모리에서 삭제됩니다.

이것은 전통적인 CGI에서 결코 문제가되지 않았습니다. 전통적인 CGI는 언제든지 주체를 참조하고 정확하게 재현할 수 있습니다.

전통적인 CGI 메시와 비트맵 텍스처는 언제든지 렌더링에 그려질 수 있습니다. 이는 AI 접근 방식에서는 더 어려운 일입니다.

이것은 CGI의 구성 요소인 메시와 텍스처(위의 이미지 참조) 및 움직임 파일과 다른 동적 동작이 디스크에 별도로 저장되어 있으며, 언제든지 구성에 그려질 수 있기 때문입니다.

생성 AI 비디오에는 이러한 ‘평면 저장소’가 없습니다. 가장 가까운 것은 LoRAs입니다. 소비자 장비에서 훈련할 수 있는 특별한 보조 파일로, 새로운 캐릭터와 특정 의류를 비디오에 ‘강제’로 넣을 수 있습니다.

재생

이것은 이상적인 해결책은 아닙니다. LoRAs는 특정 버전의 기초 모델(예: Wan2+ 또는 Hunyuan Video)에 묶여 있으며, 기초 모델이 변경될 때마다 다시 생성해야 합니다. 또한 LoRAs는 기초 모델의 가중치를 왜곡하여 LoRA의 훈련된 정체성이 장면의 모든 캐릭터에 영향을 미칩니다. 또한 이러한 종류의 미세 조정 방법은 데이터셋의 품질에 매우 민감합니다.

정확한 앙코르

이제 중국의 새로운 학술/산업 협력은 3년 이상의 보고 기간 동안 제가 주목한 첫 번째重大한 해결책을 제공하고 있습니다. 이 방법은 연구자들이 ‘하이브리드 메모리’라고 부르는 것을 사용하여 카메라 밖의 캐릭터와 직접 환경을 모델의 잠재 공간에 활성화하고 정확하게 유지하여, 관점이 돌아올 때 일관된 효과를 얻습니다.

재생

이것은 캐릭터 일관성을 다른 샷 전체에 걸쳐 달성하는 것과는 다릅니다. 이것은 1년 전에 Runway의 Gen 4 릴리즈에서 달성되었다고 주장되었으며, 여전히 연구 문헌에서 진행 중인 추구입니다.

방법

새로운 연구의 핵심은 ‘하이브리드 메모리’입니다. 이것은 ‘카메라 밖으로 나가기’를 가능하게 하며, 캐릭터와 그 환경을 모델의 잠재 공간에 유지하고 일관성을 제공합니다.

카메라 동작의 입출력 예시

길을 덜 걸어온 길

여러 이전 프레임과 알려진 카메라 경로가 주어졌을 때, 관점이 변경됨에 따라 미래의 뷰를 예측하는任务는 이동하는 주체를 고려하여 일관성을 유지하는 것입니다. 이것은 안정적인 배경을 유지하는 것보다 더 필요한데, 모델은 이동하는 주체의 내부 기록을 유지해야 하며, 주체가 보이지 않는 기간에도 유지해야 합니다.

연구자들의 ‘하이브리드 동적 검색 주의’ 방법은 이 문제를 해결합니다. 이것은 전용 메모리 경로를 도입하여 동적 주체를 정적 장면 표현에서 분리하여, 주체가 시간이 지남에 따라 지속되도록 하고, 일관된 외모와 동작으로 재등장하도록 합니다.

HyDRA 모델의 개념적 스키마

토큰화

HyDRA는 3D-컨볼루션 기반의 메모리 토큰화기를 사용하여 공간과 시간을 함께 처리합니다. 이것은 전체 잠재적 역사를 전달하는 대신, 컴팩트하고 움직임을 인식하는 메모리 토큰으로 압축하여, 주체가 어떻게 보이고 움직이는지 유지합니다.

HyDRA 개요

동적 검색 주의

HyDRA의 이중 메모리 메커니즘은 또한 ‘동적 검색 주의’를 사용하여, 카메라 밖의 주체를 선택적으로 회상하여, 주체가 일관된 외모와 동작으로 재등장하도록 합니다.

메모리 토큰화는 과거의 잠재적 표현을 컴팩트하고 움직임을 인식하는 토큰으로 압축하여, 동적 주체를 정적 장면 내용에서 분리합니다. 이것은 노이즈를 필터링하면서도 장거리 동작을 유지합니다.

데이터와 테스트

테스트에서, HyDRA 시스템은 77개의 컨텍스트 프레임을 인코딩하고 다운샘플링하여, 3D 변분 오토인코더(VAE)를 사용하여 파싱했습니다. 메모리 토큰화기는 3D 컨볼루션을 사용하여 컴팩트하고 움직임을 인식하는 메모리 토큰을 생성했습니다.

모델은 HW-World에서 10,000번의 반복으로 32개의 GPU에서 훈련되었습니다. 배치 크기는 32였습니다.

테스트에서는 여러 가지 메트릭이 사용되었습니다. PSNR, SSIM, LPIPS 외에도, 저자는 ‘주체 일관성’과 ‘배경 일관성’을 사용하여 프레임 수준의 일관성을 평가했습니다.

저자는 또한 ‘동적 주체 일관성’이라는 사용자 정의 메트릭을 사용하여, YOLO V11의 바운딩 박스를 사용하여 이동하는 주체의 지역을 자르고, 의미 있는 특징을 추출하여 그 유사성을 계산했습니다.

HyDRA는 Diffusion Forcing Transformer와 Context-As-Memory와 비교하여 테스트되었습니다. 모든 모델은 HW-World에서 훈련되었으며, WorldPlay도 보조 테스트 컬렉션으로 사용되었습니다.

초기 양적 비교에서, HyDRA는 모든 기준을 초과했습니다. PSNR은 18.696에서 20.357로 증가했으며, SSIM은 0.517에서 0.606으로 증가했습니다. 또한 최고의 컨텍스트와 그라운드 트루스 다이스 스코어를 얻었습니다.

초기 양적 비교 결과

결론

어떤 시도든 AI 비디오 생성의 가장 큰 문제를 해결하기 위해 환영할 만합니다. 그러나 이 문제를 해결하는 최적의 해결책은 CGI와 마찬가지로, 별도의 참조 자료를 사용하여 편집하고 컴포지트 공간에 넣는 것입니다.

임의로 그리고 즉석에서 임베딩을 유지하려고 하는 것은 지치고, 또한 앞으로 나아갈 방법이 명확하지 않습니다. 만약 후속 샷이 이전 샷의 잠재 공간에 접근해야 한다면, 두 인스턴스 모두 별도의 캐릭터 임베딩을 넣는 것이 좋습니다.

* 아무도 그것을 명명하지 않았으며, 공통된 용어가 없으면 논의가 어려울 것입니다.

** 현재 프로젝트 페이지에서 ‘ 곧 출시 ‘로 보고됩니다.

처음 게시된 날: 2026년 3월 27일

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

시야에서 벗어난 것, 마음에서 벗어난 것: AI 비디오의 가장 큰 문제 해결

정확한 앙코르

방법

길을 덜 걸어온 길

토큰화

동적 검색 주의

데이터와 테스트

결론

You may like