인공지능

장면을 이해하는 AI 이미지 매칭

Published April 24, 2022

Updated April 28, 2026

Martin Anderson

2003년 DVD 출시와 함께 제공된 에일리언 3(1992)의 특별 다큐멘터리에서 비주얼 이펙트 전설 리처드 에들런드(Richard Edlund)는 1930년대 후반부터 1980년대 후반까지 비주얼 이펙트 작업을 지배한 사진화학적 매트 추출의 ‘서모 레슬링’을 회상하며恐怖를 느꼈다. 에들런드는 이 프로세스의 命中率이 낮은 성질을 ‘서모 레슬링’으로 비교했는데, 이는 1990년대 초에 등장한 디지털 블루/그린 스크린 기술과 비교했을 때 그렇다(그는 이후에도 이 비유를 사용했다).

전경 요소(예: 사람이나 우주선 모델)를 배경에서 추출하여 컷아웃 이미지를 배경 플레이트에 합성할 수 있도록 하는 작업은 원래 전경 객체를 균일한 파란색 또는 녹색 배경 앞에서 촬영함으로써 이루어졌다.

ILM이 ‘제다이의 귀환’ (1983) için VFX 샷을 위한 노동 집약적인 화학적 추출 과정. 출처: https://www.youtube.com/watch?v=qwMLOjqPmbQ

결과 영상을 통해 배경색은 이후 화학적으로 분리되어 전경 객체(또는 사람)를 광학 프린터에서 투명한 필름 셀에 있는 ‘부유’ 객체로 재인쇄하는 데 사용되는 템플릿으로 사용되었다.

이 프로세스는 색상 분리 오버레이(CSO)로 알려졌지만, 이 용어는 나중에 1970년대와 1980년대의 저예산 텔레비전 출력에서 粗略한 ‘크로마키’ 비디오 이펙트와 더 많이 관련이 있게 되었다. 이는 아날로그 방법으로 디지털 또는 화학적 방법이 아닌 방법으로 이루어졌다.

1970년 영국 아동 프로그램 ‘블루 피터’에서 색상 분리 오버레이를 示す 예. 출처: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

어떤 경우에든, 영화 또는 비디오 요소의 경우, 추출된 영상을 이후에 다른 영사에 삽입할 수 있었다.

디즈니의 훨씬 더 비싼 고유의 소디움 증기 프로세스(특히 노란색을 키로 사용했으며, 또한 사용된 알프레드 히치콕의 1963년 공포 영화 새)는 더 나은 정의와 더 선명한 매트를 제공했지만, 화학적 추출은 여전히 힘들고 불안정했다.

디즈니의 고유한 소디움 증기 추출 프로세스는 노란색 근처의 스펙트럼 배경을 필요로 했다. 여기서 앵글라 랜스버리는 ‘브룸스틱과 마녀’ (1971) VFX가 포함된 시퀀스의 제작 중에 와이어에 의지하고 있다. 출처

디지털 매칭을 넘어서

1990년대에 디지털 혁명은 화학 물질을 없애주었지만, 그린 스크린의 필요는 여전히 남아 있었다. 이제 그린 스크린(또는 다른 색상)의 배경을 제거하는 것이 가능해졌는데, 이는 픽셀 편집 소프트웨어인 Photoshop과 비디오 합성 소프트웨어에서 특정 색상의 픽셀을 검색하여 가능했다.

거의 즉시, 60년간의 광학 인쇄 산업은 역사 속으로 사라졌다.

마지막 10년간의 GPU 가속 컴퓨터 비전 연구는 매트 추출을 세 번째 시대로 이끌고 있으며, 연구자들은 그린 스크린 없이도 높은 품질의 매트를 추출할 수 있는 시스템을 개발하는 것을 목표로 하고 있다. Arxiv에서만 머신 러닝 기반 전경 추출과 관련된 논문은 주간 기능이다.

우리를 그림에 넣다

이 학술 및 산업 관심의 초점은 이미 소비자 공간에 영향을 미쳤는데, Zoom과 Skype 필터와 같은 粗略하지만 작동하는 구현은 우리에게 비디오 회의 호출에서 우리의 거실 배경을 열대 섬 등으로 대체할 수 있는 기능을 제공한다.

그러나 여전히 최고의 매트는 그린 스크린이 필요하다. Zoom은 지난 수요일에 언급한 바와 같이.

왼쪽, 그린 스크린 앞의 남자, Zoom의 Virtual Background 기능을 통해 잘 추출된 머리카락. 왼쪽, 일반 가정 장면 앞의 여자, 알고리즘적으로 추출된 머리카락, 정확도가 낮고 컴퓨팅 요구 사항이 높다. 출처: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

왼쪽, 그린 스크린 앞의 남자, Zoom의 Virtual Background 기능을 통해 잘 추출된 머리카락. 오른쪽, 일반 가정 장면 앞의 여자, 알고리즘적으로 추출된 머리카락, 정확도가 낮고 컴퓨팅 요구 사항이 높다. 출처: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

Zoom 지원 플랫폼의 추가 게시글은 비그린 스크린 추출도 캡처 장치에서 더 많은 컴퓨팅 파워를 필요로 한다고 경고한다.

잘라내기의 필요성

품질, 이동성 및 자원 경제성의 향상을 위한 ‘야생’ 매트 추출 시스템(즉, 그린 스크린 없이 사람을 분리하는 시스템)은 비디오 회의 필터 외에도 많은 더 많은 부문과 추구에 관련이 있다.

데이터셋 개발을 위한 얼굴, 머리, 전체 신체 인식의 향상은 전경 요소가 컴퓨터 비전 모델에 훈련되지 않도록 보장하는 가능성을 제공한다. 더 정확한 분리는 의미론적 분할 기술을 크게 개선할 수 있으며, VAE 및 트랜스포머 기반 이미지 합성 시스템의 개선도 가능하다. 또한 비싼 수동 로토스코핑의 필요성을 줄일 수 있다.

사실, 다중 모달(通常 텍스트/이미지) 방법론의 상승은 이미 이미지 처리에 영향을 미치고 있다. 최근의 예는 텍스트/이미지 훈련을 통해 비디오를 생성하는 Text2Live 아키텍처이다.

장면 인식 AI 매칭

많은 연구가 이미지 또는 비디오 프레임 내의 픽셀 기반 그룹화의 경계 인식 및 평가에 중점을 둔 자동 매칭에 관한 것이다. 그러나 중국의 새로운 연구는 장면을 설명하는 텍스트 기반 설명(최근 3-4년 동안 컴퓨터 비전 연구 부문에서 인기를 얻은 다중 모달 접근 방식)을 활용하여 매트의 품질과輪郭를 개선하는 추출 파이프라인을 제공한다.

SPG-IM 추출의 예(아래쪽 오른쪽), 이전 방법과 비교. 출처: https://arxiv.org/pdf/2204.09276.pdf

挑戰은 최소한의 수동 주석 및 인간 개입이 필요한 워크플로우를 생성하는 것이다. 이상적으로는 전혀 없다. 비용 구현 외에도 연구자들은 주석 및 수동 분할이 다양한 문화를 거쳐 아웃소싱된 크라우드 워커에 의해 수행될 수 있으며, 이는 이미지에 일관되지 않거나 만족스럽지 않은 알고리즘을 생성할 수 있다고 관찰한다.

예를 들어, ‘전경 객체’를 정의하는 주관적인 해석이 있다.

새로운 논문에서: 이전 방법 LFM과 MODNet( ‘GT’는 이상적인 결과를 나타내며, souvent 수동 또는 비알고리즘 방법으로 얻음), 전경 내용의 정의에 대해 서로 다른 접근 방식을 가지고 있으며, 새로운 SPG-IM 방법은 장면 컨텍스트를 통해 ‘근접 내용’을 더 효과적으로 구분한다.

이를 해결하기 위해 연구자들은 두 단계 파이프라인인 상황 인식 가이드 이미지 매칭(SPG-IM)을 개발했다. 두 단계 인코더/디코더 아키텍처는 상황 인식 증류(SPD)와 상황 인식 가이드 매칭(SPGM)을 포함한다.

SPG-IM 아키텍처.

첫째, SPD는 시각적-텍스트적 특징 변환을 사전 훈련시키며, 관련 이미지에 대한 캡션을 생성한다. 이후 전경 마스크 예측은 새로운 주목 예측 기술에 연결되어 가능해진다.

그런 다음 SPGM은 원시 RGB 이미지 입력과 첫 번째 모듈에서 얻은 마스크를 기반으로 추정된 알파 매트를 출력한다.

목표는 상황 인식 가이드인 컨텍스트 이해를 통해 시스템이 이미지의 구성 요소를 이해할 수 있도록 하는 것이다. 예를 들어, 배경에서 복잡한 머리카락을 추출하는挑戰을 정의하는已知 특성에 대한 이해를 프레임할 수 있다.

아래의 예에서 SPG-IM은 파라슈트가 ‘파라슈트’에 내재된 코드를 이해하지만, MODNet은 이러한 세부 사항을 유지하지 못한다. 또한 위의 예에서, MODNet은 놀이기구의 전체 구조를 임의로 잃어버린다.

새로운 논문은 상황 인식 가이드 이미지 매칭으로 제목이 붙여졌으며, OPPO 연구소, PicUp.ai, Xmotors의 연구자들이 참여했다.

지능형 자동 매트

SPG-IM은 또한 로컬 세부 사항과 글로벌 컨텍스트를 별도로 처리할 수 있는 적응형 포컬 변환(AFT) 정련 네트워크를 제공한다. 이는 ‘지능형 매트’를 가능하게 한다.

장면 컨텍스트를 이해하는 경우, 예를 들어 ‘소녀와 말’, 전경 추출을 이전 방법보다 더 쉽게 할 수 있다.

논문은 다음과 같이述한다:

‘우리는 시각적-텍스트적 과제, 즉 이미지 캡션에서 학습된 시각적 표현이 전경 객체와 배경 환경 사이의 더 의미론적으로 포괄적인 신호에 중점을 둔다고 믿는다. 또한, 이미지 매칭의 픽셀 주석과 비교하여 텍스트 레이블은 매우 낮은 비용으로大量으로 수집할 수 있다.’

SPD 아키텍처의 가지에서는 미시간 대학교의 VirTex 트랜스포머 기반 텍스트 디코더와 함께 사전 훈련되며, 이는 시각적-텍스트적 특징 변환을 생성한다.

VirTex는 ConvNet과 트랜스포머를 이미지-캡션 쌍을 통해 공동으로 훈련시키고, 얻은 통찰력을 하위 비전 작업으로 전달한다. 출처: https://arxiv.org/pdf/2006.06666.pdf

다른 테스트와 절단 연구 중에서, 연구자들은 SPG-IM을 상태-of-the-아트 트리맵 기반 방법 트리맵, Deep Image Matting(DIM), IndexNet, Context-Aware Image Matting(CAM), Guided Contextual Attention(GCA), FBA, Semantic Image Mapping(SIM)과 비교했다.

다른 이전 프레임워크에는 트리맵이 없는 접근 방식 LFM, HAttMatting, MODNet이 포함되었다. 공정한 비교를 위해, 테스트 방법은 서로 다른 방법론에 따라 적응되었다. 코드가 없는 경우, 논문의 기술에서 기술된 아키텍처를 재현했다.

새로운 논문은 다음과 같이述한다:

‘우리의 SPG-IM은 모든 경쟁 트리맵이 없는 방법([LFM], [HAttMatting], [MODNet])을 큰 차이로超过한다. 또한, 우리의 모델은 공공 데이터셋(즉, Composition-1K, Distinction-646, Human-2K)와 우리의 Multi-Object-1K 벤치마크에서 트리맵 기반 및 마스크 가이드 방법의 상태-of-the-아트(SOTA)보다 모든 네 가지 지표에서 현저한 우수성을 보여준다.’

그리고 다음과 같이 계속한다:

‘우리의 방법이 트리맵 없이도 미세한 세부 사항(예: 머리카락 끝, 투명한 텍스처, 경계)을 보존하는 것이 명확하게 관찰될 수 있다. 또한, 다른 경쟁 트리맵이 없는 모델과 비교하여, 우리의 SPG-IM은 더好的 전역 의미론적 완전성을 유지한다.’