인공지능

일관된 AI 비디오 콘텐츠 편집을 위한 텍스트 가이드 입력

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

전문 VFX 커뮤니티는 이미지 및 비디오 합성의 새로운 혁신에 매료되고 있지만, 때때로 조금 위협을 느끼고 있습니다. 그러나 대부분의 AI 기반 비디오 편집 프로젝트에서 시간적 연속성이 부족하여 이러한 노력은 ‘사이키델릭’ 영역으로 격하되어, 빛나는 빠르게 변경되는 텍스처와 구조, 일관되지 않은 효과 및 photochemical 시대의 시각적 효과를 회상하는 것과 같은 粗한 기술 다루기와 같은 특징을 보입니다.

만약 당신이 비디오에서 매우 구체적인 것을 변경하고 싶지만, deepfakes (즉, 기존 사람의 영상을 새로운 신원으로 대체하는 것) 영역에 속하지 않는 경우, 대부분의 현재 솔루션은 생산품質 비주얼 효과에 필요한 정밀도 측면에서 상당히 심각한 제한을 받습니다.

한 가지 예외는 Weizmann 과학 연구소의 학者の 느슨한 협회에서 진행 중인 연구입니다. 2021년에, 3명의 연구자들은 Adobe와 협력하여, 새로운 방법을 발표했습니다. 이 방법은 비디오를 분해하고 일관된 내부 매핑 – 층화된 신경 지도 – 를 구성된 출력으로 합성하고, 알파 채널과 시간적으로 일관된 출력을 생성합니다.

2021년 논문에서: 소스 클립의 완전한 트래버설에 대한 추정은 전통적으로 광범위한 rotoscoping 및 match-moving을 필요로 하는 방식으로 신경망을 통해 편집됩니다. 배경 및 전경 요소가 다른 네트워크에 의해 처리되므로 마스크는真正로 ‘자동’입니다. 출처: https://layered-neural-atlases.github.io/

이러한 atlas는 전통적인 CGI 워크플로우에서 직접적인 등가가 없으며, 본질적으로 ‘시간적 텍스처 맵’으로 구성되어 있으며, 전통적인 소프트웨어 방법을 통해 생성되고 편집될 수 있습니다. 위의 두 번째 이미지에서, 도로 표면의 배경은 비디오의 전체 런타임에 걸쳐서 표현됩니다(비유적으로). 이 기본 이미지를 변경하면(위의 세 번째 이미지에서 왼쪽에서 세 번째 이미지) 일관된 변경이 배경에서 발생합니다.

위의 ‘unfolded’ atlas 이미지는 개별 해석된 프레임만을 나타냅니다. 대상 비디오 프레임의 일관된 변경은 원래 프레임으로 매핑되며, 필요한 occlusions 및 기타 요구되는 장면 효과(예: 그림자 또는 반사)를 유지합니다.

核心 아키텍처는 Multilayer Perceptron (MLP)을 사용하여 unfolded atlases, 알파 채널 및 매핑을 나타내며, 모두 2D 공간에서 최적화되어 NeRF 스타일의 3D 기하학적 점, 깊이 맵 및 유사한 CGI 스타일의 장식이 필요 없습니다.

개별 객체의 참조 atlas도 신뢰성 있게 변경될 수 있습니다:

2021 프레임워크에서 움직이는 객체에 대한 일관된 변경. 출처: https://www.youtube.com/watch?v=aQhakPFC4oQ

본질적으로 2021 시스템은 기하학적 정렬, 매칭 이동, 매핑, 재 텍스처화 및 rotoscoping을离散 신경 과정으로 결합합니다.

Text2Live

2021년 논문의 세 명의 원래 연구자와 NVIDIA 연구를 포함한 여러 기여자가 새로운 혁신을 제시했습니다. 이 기술은 층화된 atlas의 힘을 CLIP 기술과 결합하여, OpenAI의 DALL-E 2 프레임워크의 출시와 함께 다시 주목받고 있습니다.

새로운 아키텍처인 Text2Live는 사용자가 텍스트 프롬프트를 기반으로 실제 비디오 콘텐츠에 대한 지역 편집을 생성할 수 있습니다:

<img class="wp-image-180962 size-full" src="https://www.unite.ai/wp-content/uploads/2022/04/edited-giraffe.gif" alt="전경 편집의 두 가지 예시. 더 나은 해상도 및 정의를 위해, 원본 비디오를 확인하십시오.” width=”800″ height=”194″ /> 전경 편집의 두 가지 예시. 더 나은 해상도 및 정의를 위해, 원본 비디오를 확인하십시오.

Text2Live는 사전 훈련된 생성기를 사용하지 않고, 내부 데이터베이스를 사용하여 비디오 클립에 대한 의미적이고 지역 편집을 제공합니다.

Text2Live에서 배경 및 전경(객체) 변환. 출처: https://text2live.github.io/sm/pages/video_results_atlases.html

이 기술은 사용자 제공 마스크(예: 전통적인 rotoscoping 또는 그린스크린 워크플로우)가 필요하지 않지만, 2021년 연구에서 개발된 부트스트래핑 기술을 기반으로 관련 맵을 추정합니다.

트랜스포머 기반의 일반적인 주의 모델에서 생성된 출력 맵.

새로운 논문은 Text2LIVE: 텍스트 주도 층화된 이미지 및 비디오 편집이라고 제목이 붙여졌습니다. 2021년 원래 팀은 Weizmann의 Omer Bar-Tal 및 NVIDIA Research의 Yoni Kasten과 함께 참여했습니다.

아키텍처

Text2Live는 단일 입력 이미지와 대상 텍스트 프롬프트에 대한 생성기를 포함합니다. 4억 개의 텍스트/이미지 쌍에 대한 사전 훈련된 CLIP 모델은 사용자 입력 변환을 해석하기 위한 관련 시각적 자료를 제공합니다.

생성기는 입력 이미지(프레임)를 받아서 RGBA 레이어를 출력하며, 색상 및 불투명도 정보를 포함합니다. 이 레이어는 추가로 aumentations과 함께 원래 영사에 합성됩니다.

생성된 RGBA 레이어의 알파 채널은 전통적인 파이프라인을 필요로 하는 After Effects와 같은 픽셀 기반 소프트웨어를 사용하지 않고 내부 합성 함수를 제공합니다.

Text2Live는 내부 이미지에 대한 훈련을 통해, 입력 이미지를 GAN의 잠재 공간으로逆変換하거나, 더 정밀하고 구성 가능한 확산 모델을 사용하는 것을 피합니다. 그러나 이러한 접근법은 생산품質 비디오 편집 요구 사항에 아직 충분하지 않습니다.

Text2Live의 프롬프트 기반 변환 편집의 예시.

이전 접근법은 전파 기반 방법이나 광학 흐름 기반 접근법을 사용했습니다. 이러한 기술은 어느 정도 프레임 기반으로 작동하므로, 출력 비디오에서 변경의 일관된 시간적 모양을 생성할 수 없습니다. 층화된 신경 지도는 변경 사항을 처리하기 위한 단일 공간을 제공하며, 이는 비디오가 진행됨에 따라 변경 사항에忠実하게 유지할 수 있습니다.

문자열 ‘rusty jeep’에 대한 해석을 얻고, 이를 비디오의 신경 지도에 적용하여, 각 해석된 프레임에서 변환을 재시작하지 않고 일관된 결과를 얻습니다.

Text2Live의 일관된 변환 워크플로우: Jeep를 녹슬게 만듭니다.

Text2Live는 AI 기반 컴포지팅에서 돌파구에 더 가깝습니다. OpenAI의 DALL-E 2 프레임워크의 출시와 함께 주목받고 있는 텍스트-이미지 공간과는 다릅니다. Text2Live는 사용자가 atlas를 추출하고, 높은 제어 픽셀 기반 환경에서 편집한 다음, 올바른 방향으로 된 환경으로 다시 피드백할 수 있습니다.

さらに, Text2Live는 자동으로 마스킹 및 컴포지팅을 수행하는 최초의 비교 가능한 프레임워크라고 주장합니다.

最初에 2022년 4월 7일에 게시되었습니다.

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

일관된 AI 비디오 콘텐츠 편집을 위한 텍스트 가이드 입력

Text2Live

아키텍처

You may like