부본 휴먼 이미지 합성에서 '머리가 좋지 않은 날' 해결 - Unite.AI
Rescale 미팅 예약

인공 지능

휴먼 이미지 합성에서 '나쁜 머리 날' 해결

mm
업데이트 on

로마 조각상의 황금기 이후로 인간의 머리카락을 묘사하는 것은 어려운 도전이었습니다. 평균적인 인간의 머리는 100,000개의 가닥을 포함하고 색상에 따라 다양한 굴절률을 가지며 특정 길이를 초과하면 복잡한 물리 모델 – 현재까지는 '전통적인' CGI 방법론을 통해서만 적용할 수 있습니다.

Disney의 2017년 연구에서 물리 기반 모델은 CGI 워크플로우에서 유동적인 헤어 스타일에 사실적인 움직임을 적용하려고 합니다. 출처: https://www.youtube.com/watch?v=-6iF3mufDW0

~ 2017 연구 Disney의 물리 기반 모델은 CGI 워크플로우에서 유동적인 헤어 스타일에 사실적인 움직임을 적용하려고 시도합니다. 출처: https://www.youtube.com/watch?v=-6iF3mufDW0

이 문제는 현대의 대중적인 딥페이크 방법으로는 제대로 해결되지 않습니다. 몇 년 동안 최고의 패키지 딥페이스랩 짧은(일반적으로 남성) 헤어스타일의 엄격한 구현만 캡처할 수 있는 '풀 헤드' 모델이 있습니다. 그리고 최근 DFL 스테이블메이트 페이스 스왑 (두 패키지 모두 논란의 여지가 있는 2017 DeepFakes 소스 코드에서 파생됨) 비세넷 시맨틱 분할 모델을 통해 사용자가 딥페이크 출력에 귀와 머리카락을 포함할 수 있습니다.

매우 짧은 헤어스타일을 묘사할 때에도 결과는 매우 제한된 품질, 풀 헤드가 영상에 통합되지 않고 영상에 중첩되어 나타납니다.

간 헤어

인간 시뮬레이션에 대한 두 가지 주요 경쟁 접근 방식은 Neural Radiance Fields(NeRF), 여러 관점에서 장면을 캡처하고 탐색 가능한 신경망에서 이러한 관점의 3D 표현을 캡슐화할 수 있습니다. 및 생성적 적대 네트워크(), 인간 이미지 합성 측면에서 특히 더 발전했습니다(적어도 NeRF가 2020년에 등장했기 때문에).

3D 형상에 대한 NeRF의 추론된 이해는 현재 물리 모델을 부과할 범위가 거의 없거나 전혀 없는 경우에도 매우 충실하고 일관성 있는 장면을 복제할 수 있게 합니다. 카메라 시점 변경과 관련 없는 데이터. 현재 NeRF는 매우 제한된 기능 인간의 머리카락 움직임을 재현하는 측면에서.

NeRF와 동등한 GAN 기반은 NeRF와 달리 거의 치명적인 단점에서 시작합니다. 잠재 공간 GAN은 기본적으로 3D 정보에 대한 이해를 포함하지 않습니다. 따라서 3D 인식 GAN 얼굴 이미지 합성은 최근 몇 년 동안 이미지 생성 연구에서 뜨거운 추구가 되었습니다. 인터페이스GAN 주요 혁신 중 하나입니다.

그러나 InterFaceGAN의 전시 및 선별된 결과조차도 신경 모발 일관성이 잠재적인 VFX 워크플로에 대해 시간적 일관성 측면에서 어려운 과제로 남아 있음을 보여줍니다.

InterFaceGAN의 포즈 변환에서 '지글지글' 머리카락. 출처: https://www.youtube.com/watch?v=uoftpl3Bj6w

InterFaceGAN의 포즈 변환에서 '지글지글' 머리카락. 출처: https://www.youtube.com/watch?v=uoftpl3Bj6w

잠재 공간의 조작만으로 일관된 뷰 생성이 연금술과 같은 추구일 수 있음이 분명해짐에 따라 점점 더 많은 논문이 등장하고 있습니다. CGI 기반 3D 정보 통합 안정화 및 정규화 제약 조건으로 GAN 워크플로에 포함됩니다.

CGI 요소는 다음과 같은 중간 3D 프리미티브로 표현될 수 있습니다. 껍질을 벗긴 다중 사람 선형 모델 (SMPL) 또는 NeRF와 유사한 방식으로 3D 추론 기술을 채택하여 소스 이미지 또는 비디오에서 기하학을 평가합니다.

이 라인을 따라 하나의 새로운 작업, 이번 주에 발표이다 3D 인식 이미지 합성을 위한 Multi-View Consistent Generative Adversarial Networks (MVCGAN), ReLER, AAII, University of Technology Sydney, Alibaba Group의 DAMO Academy 및 Zhejiang University 간의 협력.

CELEBA-HQ 데이터 세트에서 파생된 이미지에서 MVCGAN이 생성한 그럴듯하고 강력한 참신한 얼굴 포즈. 출처: https://arxiv.org/pdf/2204.06307.pdf

CELEBA-HQ 데이터 세트에서 파생된 이미지에서 MVCGAN이 생성한 그럴듯하고 강력한 참신한 얼굴 포즈.  출처 : https://arxiv.org/pdf/2204.06307.pdf

MVCGAN은 생성 복사 필드 네트워크 (GRAF)는 Generative Adversarial Network에서 기하학적 제약 조건을 제공할 수 있으며, 유사한 GAN 기반 접근 방식의 가장 확실한 포징 기능 중 일부를 달성할 수 있습니다.

MVCGAN과 이전 방법인 GRAF, GIRAFFE 및 pi-GAN의 비교.

MVCGAN과 이전 방법인 GRAF, GIRAFFE 및 pi-GAN의 비교.

그러나 MVCGAN의 보충 자료는 모발 볼륨, 배치, 배치 및 동작 일관성을 얻는 것이 외부에서 부과된 3D 형상을 기반으로 하는 제약 조건을 통해 쉽게 해결되지 않는 문제임을 보여줍니다.

작성 시점에 공개되지 않은 보충 자료에서 우리는 MVCGAN의 얼굴 포즈 합성이 현재 기술 상태에서 주목할 만한 발전을 나타내지만 일시적인 모발 일관성이 문제로 남아 있음을 알 수 있습니다.

작성 시점에 공개되지 않은 보충 자료에서 우리는 MVCGAN의 얼굴 포즈 합성이 현재 기술 상태에서 주목할 만한 발전을 나타내지만 일시적인 모발 일관성이 문제로 남아 있음을 알 수 있습니다.

'간단한' CGI 워크플로는 여전히 일시적인 모발 재구성과 같은 문제를 발견하기 때문에 이러한 특성의 기존 기하학 기반 접근 방식이 곧 잠재 공간에 일관된 모발 합성을 가져올 것이라고 믿을 이유가 없습니다.

컨벌루션 신경망으로 머리카락 안정화

그러나 스웨덴 찰머스 공과대학(Chalmers Institute of Technology)의 세 연구원이 곧 발표할 논문은 신경 모발 시뮬레이션에서 추가적인 발전을 제공할 수 있습니다.

왼쪽은 CNN 안정화 헤어 표현이고 오른쪽은 실측입니다. 더 나은 해상도와 추가 예를 보려면 기사 끝에 포함된 비디오를 참조하십시오. 출처: https://www.youtube.com/watch?v=AvnJkwCmsT4

왼쪽은 CNN 안정화 헤어 표현이고 오른쪽은 실측입니다. 더 나은 해상도와 추가 예를 보려면 기사 끝에 포함된 비디오를 참조하십시오. 출처: https://www.youtube.com/watch?v=AvnJkwCmsT4

라는 제목의 합성곱 신경망을 사용한 실시간 헤어 필터링, 논문은 다음을 위해 출판될 것입니다. i3D 심포지엄 XNUMX 월 초에

이 시스템은 OpenGL 지오메트리에 의해 시드된 제한된 수의 확률적 샘플을 기반으로 셀프 섀도잉 및 모발 두께 고려를 포함하여 모발 해상도를 실시간으로 평가할 수 있는 오토인코더 기반 네트워크로 구성됩니다.

이 접근법은 제한된 수의 샘플을 확률적 투명성 그런 다음 유넷 원본 이미지를 재구성합니다.

MVCGAN에서 CNN은 확률적으로 샘플링된 색상 요소, 하이라이트, 탄젠트, 깊이 및 알파를 필터링하여 합성된 결과를 합성 이미지로 조합합니다.

MVCGAN에서 CNN은 확률적으로 샘플링된 색상 요소, 하이라이트, 탄젠트, 깊이 및 알파를 필터링하여 합성된 결과를 합성 이미지로 조합합니다.

네트워크는 네트워크 볼륨과 입력 기능의 수에 따라 XNUMX~XNUMX시간 동안 수렴되는 PyTorch에서 훈련됩니다. 훈련된 매개변수(가중치)는 시스템의 실시간 구현에 사용됩니다.

훈련 데이터는 다양한 조명 조건뿐만 아니라 임의의 거리와 포즈를 사용하여 직선 및 웨이브 헤어스타일에 대한 수백 개의 이미지를 렌더링하여 생성됩니다.

교육 입력의 다양한 예.

교육 입력의 다양한 예.

샘플 전체의 모발 반투명도는 수퍼샘플링된 해상도에서 확률적 투명도로 렌더링된 이미지의 평균입니다. 원본 고해상도 데이터는 네트워크 및 하드웨어 제한을 수용하기 위해 다운샘플링되고 나중에 일반적인 오토인코더 작업 흐름에서 업샘플링됩니다.

실시간 추론 애플리케이션(훈련된 모델에서 파생된 알고리즘을 활용하는 '라이브' 소프트웨어)은 NVIDIA CUDA와 cuDNN 및 OpenGL을 함께 사용합니다. 초기 입력 기능은 OpenGL 멀티샘플링된 색상 버퍼에 덤프되고 결과는 CNN에서 처리되기 전에 cuDNN 텐서로 전환됩니다. 그런 다음 이러한 텐서는 최종 이미지에 적용하기 위해 '라이브' OpenGL 텍스처로 다시 복사됩니다.

실시간 시스템은 NVIDIA RTX 2080에서 작동하며 1024×1024 픽셀의 해상도를 생성합니다.

헤어 컬러 값은 네트워크에서 얻은 최종 값에서 완전히 풀리기 때문에 헤어 컬러를 변경하는 것은 간단한 작업이지만 그라디언트 및 줄무늬와 같은 효과는 향후 과제로 남아 있습니다.

저자는 논문 평가에 사용된 코드를 공개했습니다. 깃랩에서. 아래에서 MVCGA에 대한 보충 비디오를 확인하십시오.

합성곱 신경망을 사용한 실시간 헤어 필터링

결론

오토인코더 또는 GAN의 잠재 공간을 탐색하는 것은 여전히 ​​정밀 운전보다 항해에 더 가깝습니다. NeRF, GAN 및 non-deepfake(2017) 오토인코더 프레임워크와 같은 접근 방식에서 얼굴과 같은 '단순한' 형상의 포즈 생성에 대한 신뢰할 수 있는 결과를 보기 시작한 것은 바로 이 최근 기간입니다.

현재 이미지 합성 접근 방식이 제공하지 않는 물리적 모델 및 기타 특성을 통합해야 할 필요성과 결합된 인간 모발의 상당한 구조적 복잡성은 모발 합성이 일반적인 안면 합성에서 통합된 구성 요소로 남을 것 같지는 않지만 일부 정교함의 전용 및 별도 네트워크 – 그러한 네트워크가 결국 더 광범위하고 더 복잡한 안면 합성 프레임워크에 통합될 수 있더라도 말입니다.

 

15년 2022월 XNUMX일에 처음 게시되었습니다.