증강현실

TikTok 개발자, 증강 현실 애플리케이션을 위한 얼굴 지우기

Published September 27, 2021

Updated April 28, 2026

Martin Anderson

TikTok의 중국 다국적 인터넷 회사인 ByteDance는 증강 현실 애플리케이션에서 사람들의 신원 왜곡 및 기타 기이한 효과를 부과할 수 있도록 비디오에서 얼굴을 지우는 새로운 방법을 개발했습니다. 회사는 이 기술이 이미 상업용 모바일 제품에 통합되었지만 어느 제품인지 언급하지 않았습니다.

비디오에서 얼굴을 ‘제로’하면 충격적인 왜곡을 생성할 수 있는 충분한 ‘얼굴 캔버스’가 있으며 다른 신원을 겹치거나 다른 신원을 겹쳐서 다른 신원을 생성할 수 있습니다. ByteDance 연구자들이 제공한 새로운 논문에 포함된 예는 다양한 코믹하고(그리고 확실히 일부 괴상한) 구성으로 ‘지워진’ 특징을 복원하는 것을 포함합니다:

ByteDance 논문에 포함된 얼굴 재구성의 일부 가능성. 출처: https://arxiv.org/pdf/2109.10760.pdf

8월 말, TikTok이 첫 번째 비-페이스북 앱으로 30억 개의 설치를 달성한 후, TikTok Effect Studio(현재 클로즈드 베타)를 출시하여 증강 현실(AR) 개발자가 TikTok 콘텐츠 스트림을 위한 AR 효과를 생성할 수 있는 플랫폼을 제공했습니다.

본질적으로, 회사는 Facebook의 AR Studio 및 Snap AR와 유사한 개발자 커뮤니티에 따라가고 있으며, Apple의 유명한 AR R&D 커뮤니티도 곧 새 하드웨어로 활성화될 예정입니다.

빈 表情

논문은 FaceEraser: Augmented Reality를 위한 얼굴 부분 제거라는 제목으로, 기존의 in-painting/infill 알고리즘은 NVIDIA의 SPADE와 같이 이미지의 일부를 완성하는 데 더 적합하며, 이러한 ‘블랭킹’ 절차를 수행하는 데 적합하지 않으며, 따라서 기존 데이터셋이 예상대로 희박하다고 언급합니다.

얼굴이 ‘제로’되면 충분한 ‘얼굴 캔버스’가 생성되어 충격적인 왜곡을 생성할 수 있으며, 다른 신원을 겹치거나 다른 신원을 생성할 수 있습니다. ByteDance 연구자들이 제공한 새로운 논문에 포함된 예는 다양한 코믹하고(그리고 확실히 일부 괴상한) 구성으로 ‘지워진’ 특징을 복원하는 것을 포함합니다:

새 파이프라인의 pixel-clone 일반 워크플로.

모델을 ‘빈’ 얼굴로 훈련시키기 위해, 연구자들은 안경이나 이마를 가리는 머리카락이 있는 이미지들을 제외시켰습니다. 이는 이마와 눈썹 사이의 영역이 일반적으로 중앙 특징을 제공할 수 있는 가장 큰 픽셀 그룹이기 때문입니다.

훈련 이미지 준비. 이마 영역은 얼굴 정렬 인식의 주요 점에 따라 자르며, 수직으로 뒤집고縫合합니다.

256×256 픽셀 이미지는 신경망의 잠재 공간에 충분히 작은 크기이며, 충분히 큰 배치로 일반화할 수 있습니다. 이후의 알고리즘 업스케일링은 AR 공간에서 작동하는 데 필요한 해상도를 복원할 것입니다.

아키텍처

네트워크는 에지 완성, 픽셀 클론, 그리고 세부 네트워크로 구성된 세 개의 내부 네트워크로 구성됩니다. 에지 완성 네트워크는 EdgeConnect(위 참조)와 두 가지 가장 인기 있는 딥페이크 애플리케이션에서 사용되는 것과 같은 인코더-디코더 아키텍처를 사용합니다. 인코더는 이미지 내용을 두 번 다운샘플링하고 디코더는 원래 이미지 차원을 복원합니다.

픽셀 클론은 수정된 인코더-디코더 방법론을 사용하며, 세부 레이어는 U-Net 아키텍처를 사용합니다. 이는 원래 생물 의학 이미징을 위해 개발되었으며, 이미지 합성 연구 프로젝트에서 자주 사용됩니다.

훈련 워크플로우 동안, 변환의 정확성을 평가하고, 필요한 경우 반복적으로 시도하여 수렴할 때까지 평가해야 합니다. 이를 위해 PatchGAN 기반의 두 개의 판별기가 사용되며, 각 판별기는 70×70 픽셀 패치의 현지적 실감을 평가하며, 이미지 전체의 실감 값을 할인합니다.

훈련 및 데이터

에지 완성 네트워크는 처음에 독립적으로 훈련되며, 다른 두 개의 네트워크는 에지 완성 훈련에서 결과로 얻은 가중치를 기반으로 함께 훈련됩니다. 이 가중치는 이 절차 동안 고정되고 동결됩니다.

논문은 중앙 목표가 최종 특징 왜곡의 예라는 것을 명시적으로 언급하지 않지만, 시스템의 내구성을 테스트하기 위해 다양한 코믹 효과를 구현합니다. 이는眉삭 제거, 입 크기 증가, 축소된 하위 얼굴 및 ‘투니화’ 효과(위의 이전 이미지에서 보여짐)를 포함합니다.

논문은 ‘지워진 얼굴은 사용자 지정된 요소를 배치해야 하는 다양한 증강 현실 애플리케이션을 가능하게 합니다’라고 주장하며, 얼굴을 제3자 제공 요소로 사용자 지정할 수 있는 가능성을 나타냅니다.

모델은 NVIDIA가 생성한 FFHQ 데이터셋의 마스크에서 훈련되며, 이는 유용한 일반화를 달성하기 위해 충분한年龄, 민족, 조명 및 얼굴 姿势와 스타일의 다양성을 포함합니다. 데이터셋에는 35,000개의 이미지와 10,000개의 훈련 마스크가 포함되어 있으며, 4000개의 이미지와 1000개의 마스크는 검증 목적으로 설정되어 있습니다.

훈련 데이터 샘플.

훈련된 모델은 2017年的 CelebA-HQ 및 VoxCeleb와 같은 FFHQ의 보이지 않는 얼굴, 그리고 다른 제한 없는 보이지 않는 얼굴에 대한 추론을 수행할 수 있습니다. 256×256 픽셀 이미지는 PyTorch에서 구현된 Adam 옵티마이저와 함께 Tesla V100 GPU에서 ‘2000,000 에포크’ 동안 네트워크에 큰 배치로 피드됩니다.

실제 얼굴에서 얻은 추론 결과.

顔 기반 이미지 합성 연구에서 흔히 있는 것처럼, 시스템은 머리카락, 주변 기기, 안경, 수염과 같은 장애물이나 가리기 때문에 가끔 실패할 수 있습니다.

보고서는 다음과 같이 결론을 맺습니다:

‘우리의 접근 방식은 상업화되었으며, 제한 없는 사용자 입력에 대한 제품에서 잘 작동합니다.’

Martin Anderson

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai

Unite.AI

TikTok 개발자, 증강 현실 애플리케이션을 위한 얼굴 지우기

빈 表情

아키텍처

훈련 및 데이터

You may like