부본 SofGAN: 더 뛰어난 제어 기능을 제공하는 GAN 얼굴 생성기 - Unite.AI
Rescale 미팅 예약

인공 지능

SofGAN: 더 나은 제어를 제공하는 GAN 얼굴 생성기

mm
업데이트 on

상하이와 미국의 연구원들은 사용자가 머리카락, 눈, 안경, 질감 및 색상과 같은 개별 측면에 대해 지금까지 사용할 수 없었던 수준의 제어로 새로운 얼굴을 만들 수 있는 GAN 기반 초상화 생성 시스템을 개발했습니다.

시스템의 다양성을 입증하기 위해 제작자는 사용자가 사실적인 이미지로 재해석될 의미론적 분할 요소를 직접 그릴 수 있고 기존 사진 위에 직접 그려서 얻을 수도 있는 Photoshop 스타일의 인터페이스를 제공했습니다.

아래 예에서는 배우 Daniel Radcliffe의 사진이 추적 템플릿으로 사용됩니다(목표는 그를 닮은 것이 아니라 일반적으로 사실적인 이미지를 만드는 것입니다). 사용자가 안경과 같은 이산면을 포함하여 다양한 요소를 채울 때 출력 드로잉 이미지에서 식별되고 해석됩니다.

하나의 이미지를 SofGAN에서 생성된 초상화의 추적 자료로 사용합니다. 출처: https://www.youtube.com/watch?v=xig8ZA3DVZ8

하나의 이미지를 SofGAN에서 생성된 초상화의 추적 자료로 사용. 출처: https://www.youtube.com/watch?v=xig8ZA3DVZ8

XNUMXD덴탈의 종이 명명되었다 SofGAN: 다이내믹 스타일링이 적용된 세로 이미지 생성기, Anpei Chen과 Ruiyang Liu가 ShanghaiTech University의 다른 연구원 XNUMX명과 샌디에이고 캘리포니아 대학의 연구원 XNUMX명과 함께 이끌고 있습니다.

얽힘 해제 기능

이 작업의 주요 기여는 사용자 친화적인 UX를 제공하는 것이 아니라 포즈 및 텍스처와 같은 학습된 얼굴 특징의 '분리' 특성에 있습니다. 카메라 시점.

Generative Adversarial Networks를 기반으로 하는 얼굴 생성기 중에서 특이한 SofGAN은 훈련 데이터에 있는 각도 배열의 한계 내에서 시야각을 마음대로 변경할 수 있습니다. 출처: https://arxiv.org/pdf/2007.03780.pdf

Generative Adversarial Networks를 기반으로 하는 얼굴 생성기 중에서 특이한 SofGAN은 훈련 데이터에 있는 각도 배열의 한계 내에서 시야각을 마음대로 변경할 수 있습니다. 출처 : https://arxiv.org/pdf/2007.03780.pdf

이제 텍스처가 지오메트리에서 분리되었으므로 면 모양과 텍스처를 별도의 엔터티로 조작할 수도 있습니다. 실제로 이것은 소스 얼굴의 인종 변경을 허용합니다. 수치스러운 관행 이제 잠재적으로 유용한 응용 프로그램이 있습니다. 창조 인종적으로 균형잡힌 머신러닝 데이터세트.

SofGAN은 NVIDIA와 같은 유사한 세분화>이미지 시스템에서 볼 수 없는 세분화된 수준에서 인공 노화 및 속성 일치 스타일 조정도 지원합니다. 고간 인텔의 게임 기반 신경 렌더링 체계.

SofGAN은 에이징을 반복 스타일로 구현할 수 있습니다.

SofGAN은 에이징을 반복 스타일로 구현할 수 있습니다.

SofGAN의 방법론에 대한 또 다른 돌파구는 훈련에 분할 분할/실제 이미지가 필요하지 않고 짝이 없는 실세계 이미지에서 직접 훈련될 수 있다는 것입니다.

연구원들은 SofGAN의 '분리' 아키텍처가 이미지의 개별 측면을 분해하는 전통적인 이미지 렌더링 시스템에서 영감을 얻었다고 말합니다. 시각 효과 워크플로에서 합성 요소는 일상적으로 각 구성 요소에 전담하는 전문가와 함께 가장 미세한 구성 요소로 분류됩니다.

시맨틱 점유 필드(SOF)

기계 학습 이미지 합성 프레임워크에서 이를 달성하기 위해 연구원들은 시맨틱 점유 필드 (SOF)는 얼굴 초상화의 구성 요소를 개별화하는 전통적인 점유 필드의 확장입니다. SOF는 보정된 다중 뷰 의미론적 분할 맵에 대해 교육을 받았지만 실측 감독은 없었습니다.

단일 세분화 맵에서 여러 번 반복(왼쪽 아래).

단일 세분화 맵에서 여러 번 반복(왼쪽 아래).

또한 GAN 생성기에 의해 텍스처링되기 전에 SOF의 출력을 광선 추적하여 2D 분할 맵을 얻습니다. '합성' 의미론적 분할 맵도 관점이 변경될 때 출력의 연속성을 보장하기 위해 XNUMX계층 인코더를 통해 저차원 공간에서 인코딩됩니다.

학습 체계는 각 의미 영역에 대해 두 가지 임의 스타일을 공간적으로 혼합합니다.

SofGAN의 아키텍처.

SofGAN의 아키텍처.

연구원들은 SofGAN이 더 낮은 Frechet Inception Distance를 달성한다고 주장합니다(FID) 현재의 SOTA(alternative state of the art) 접근법보다 더 높은 학습된 지각 이미지 패치 유사성(립스) 메트릭.

이전 StyleGAN 접근 방식은 이미지를 구성하는 요소가 서로 복구 불가능하게 결합되어 원하지 않는 요소가 원하는 요소와 함께 표시되는 기능 얽힘으로 인해 자주 방해를 받았습니다(예: 귀 모양이 렌더링될 때 귀걸이가 나타날 수 있음) 훈련 시간에 귀걸이가 있는 그림으로 알림).

레이 마칭은 시맨틱 분할 맵의 양을 계산하는 데 사용되어 여러 관점을 가능하게 합니다.

레이 행진 시맨틱 분할 맵의 양을 계산하는 데 사용되어 여러 관점을 가능하게 합니다.

데이터 세트 및 교육

SofGAN의 다양한 구현을 개발하는 데 세 가지 데이터 세트가 사용되었습니다. CelebAmask-HQ, CelebA-HQ 데이터 세트에서 가져온 30,000개의 고해상도 이미지 저장소 NVIDIA의 Flickr-Faces-HQ(FFHQ)에는 70,000개의 이미지가 포함되어 있으며 연구원은 사전 훈련된 얼굴 파서로 이미지에 레이블을 지정했습니다. 수동으로 레이블이 지정된 의미 영역이 있는 122개의 세로 스캔으로 구성된 자체 제작 그룹입니다.

SOF는 하이퍼넷, 레이 마처(위 이미지 참조) 및 분류기의 세 가지 훈련 가능한 하위 모듈로 구성됩니다. 프로젝트의 SIW(Semantic Instance Wised) StyleGAN 생성기는 특정 측면에서 StyleGAN2와 유사하게 구성됩니다. 데이터 증대는 무작위 스케일링 및 자르기를 통해 적용되며 훈련은 22단계마다 경로 정규화를 특징으로 합니다. 전체 교육 절차는 CUDA 800,000을 통해 2080개의 RTX 10.1 Ti GPU에서 XNUMX 반복에 도달하는 데 XNUMX일이 걸렸습니다.

이 백서는 각각 2080GB-11GB VRAM을 수용할 수 있는 22 카드의 구성을 언급하지 않습니다. 즉, SofGAN을 트레이닝하기 위해 한 달 중 가장 좋은 시간에 사용되는 총 VRAM은 44GB에서 88GB 사이입니다.

연구원들은 훈련 1500일 후 XNUMX회 반복에서 훈련 초기에 받아들일 수 있는 일반화된 높은 수준의 결과가 나타나기 시작했음을 관찰했습니다. 훈련의 나머지 부분은 예측 가능하고 머리카락과 눈 모양과 같은 미세한 디테일을 얻기 위해 천천히 기어가는 것으로 채워졌습니다.

SofGAN은 일반적으로 NIVDIA와 같은 경쟁 방법보다 단일 분할 맵에서 더 현실적인 결과를 얻습니다. 스페이드Pix2PixHD.

아래는 연구원들이 공개한 영상입니다. 추가 자체 호스팅 비디오는 다음에서 사용할 수 있습니다. 프로젝트 페이지.

[TOG 2021] SofGAN: 동적 스타일링을 적용한 세로 이미지 생성기