부본 여러 NeRF를 결합하여 전신 딥페이크 생성 - Unite.AI
Rescale 미팅 예약

인공 지능

여러 NeRF를 결합하여 전신 딥페이크 생성

mm
업데이트 on

이미지 합성 연구 부문은 다양한 유형의 복장을 한 젊은 사람들(주로 젊은 여성)의 전신 비디오와 사진을 만들 수 있는 시스템에 대한 새로운 제안으로 가득 차 있습니다. 주로 생성된 이미지 정적이다; 때때로 표현은 움직이기도 하지만 일반적으로 그다지 좋지는 않습니다.

이 특정 연구 분야의 속도는 잠재 확산 모델; 그러나 아시아의 대다수인 연구 그룹은 계속해서 문제에 끈질기게 접근하고 있습니다.

지난 10~15년 동안 제안되거나 반출시된 '가상 입어보기' 시스템은 수백 개는 아니더라도 수십 개 중 하나이며, 기계 학습 기반 물체 인식을 통해 신체를 평가하고 제안된 의류 항목에 맞게 조정합니다. 출처: https://www.youtube.com/watch?v=0ZXrgGyhbak

지난 10~15년 동안 제안되거나 반 출시된 수백 개의 '가상 시착' 시스템 중 하나입니다. 이 시스템에서는 기계 학습 기반 개체 인식을 통해 신체를 평가하고 제안된 의류 항목에 적용합니다. 출처: https://www.youtube.com/watch?v=2ZXrgGyhbak

목표는 패션 및 의류 시장을 위한 '가상 입어보기'를 가능하게 하는 새로운 시스템을 만드는 것입니다. 이 시스템은 고객과 현재 사용 가능하거나 곧 출시될 특정 제품 모두에 적응할 수 있으며 실제 제품의 투박함 없이 적용할 수 있습니다. -시간 중첩 of 의류또는 고객에게 요청해야 할 필요성 약간 NSFW 사진 보내기 ML 기반 렌더링 파이프라인용.

인기 있는 합성 아키텍처 중 어느 것도 이 작업에 쉽게 적응할 수 없는 것 같습니다. 잠재 공간 GAN(Generative Adversarial Networks)은 설득력 있는 시간적 움직임을 생성하는 데 부적합합니다(또는 심지어 편집을 위해 일반적으로); 그렇지만 유능한 사실적인 인간의 움직임을 생성하는 것, 뉴럴 래디언스 필드 (NeRF)는 일반적으로 자연적으로 저항하는 사람이나 의복을 마음대로 '교체'하는 데 필요한 종류의 편집; 자동 인코더는 부담스러운 개인/의복 관련 교육이 필요합니다. GAN과 같은 잠재 확산 모델은 비디오 생성을 위한 기본 시간 메커니즘이 없습니다.

EVA3D

그럼에도 불구하고 논문과 제안은 계속됩니다. 최신 연구는 차별화되지 않고 독점적으로 비즈니스 지향적인 연구 라인에 대한 특별한 관심입니다.

EVA3D, 싱가포르 난양 공과 대학의 는 오랜 시간이 지난 접근 방식의 첫 번째 징후입니다. 여러 Neural Radiance Field 네트워크는 각각 신체의 별도 부분에 할당된 다음 조립되고 응집력 있는 시각화로 구성됩니다.

EVA3D용으로 여러 NeRF 네트워크에서 합성된 모바일 젊은 여성. 출처: https://hongfz16.github.io/projects/EVA3D.html

EVA3D용으로 여러 NeRF 네트워크에서 합성된 모바일 젊은 여성. 출처: https://hongfz16.github.io/projects/EVA3D.html

움직임 측면에서 결과는… EVA3D의 시각화가 불쾌한 골짜기를 벗어나지는 않지만 최소한 자신이 서 있는 곳에서 진출로를 볼 수 있습니다.

EVA3D를 뛰어난 것으로 만드는 것은 전신 이미지 합성 분야에서 거의 유일하게 그 배후의 연구원들이 단일 네트워크(GAN, NeRF 또는 기타)가 편집 가능하고 유연한 인간 전신 이미지 합성을 처리할 수 없다는 것을 깨달았다는 것입니다. 부분적으로는 연구 속도 때문이고 부분적으로는 하드웨어 및 기타 물류 제한 때문입니다.

따라서 Nanyang 팀은 16개의 네트워크와 여러 기술에 걸쳐 작업을 세분화했습니다. 블록-NeRF도시NeRF, 이는 새로운 개념이나 하드웨어 개발이 진행되는 동안 향후 5년 내에 전신 딥페이크를 달성하기 위한 점점 더 흥미롭고 잠재적으로 유익한 중간 조치가 될 것으로 보입니다.

이러한 종류의 '가상 시도'를 만드는 데 존재하는 모든 과제가 기술적이거나 논리적인 것은 아니며, 이 논문에서는 특히 비지도 학습과 관련된 일부 데이터 문제를 간략하게 설명합니다.

'[패션] 데이터 세트는 대부분 매우 제한된 인간 포즈(대부분 유사한 서 있는 포즈)와 매우 불균형한 시야각(대부분 정면 보기)을 가지고 있습니다. 이 불균형한 2D 데이터 분포는 3D GAN의 감독되지 않은 학습을 방해하여 새로운 보기/포즈 합성에 어려움을 초래할 수 있습니다. 따라서 문제를 완화하기 위해서는 적절한 교육 전략이 필요합니다.'

EVA3D 워크플로는 인체를 16개의 개별 부분으로 분할하며 각 부분은 자체 NeRF 네트워크를 통해 생성됩니다. 분명히 이것은 모션 캡처 또는 다른 유형의 모션 데이터를 통해 그림에 아연 도금을 할 수 있도록 충분한 '고정되지 않은' 섹션을 생성합니다. 그러나 이러한 이점 외에도 시스템이 전체 인상을 '판매'하는 신체 부위에 최대 리소스를 할당할 수 있습니다.

예를 들어, 인간의 발은 조음 범위가 매우 제한적이며, 일반적으로 전체 신체 동작의 품질 외에 얼굴과 머리의 진위 여부가 렌더링의 진위 여부에 대한 초점 토큰이 될 가능성이 높습니다.

EVA3D와 이전 방법 간의 정성적 비교. 저자는 이와 관련하여 SOTA 결과를 주장합니다.

EVA3D와 이전 방법 간의 정성적 비교. 저자는 이와 관련하여 SOTA 결과를 주장합니다.

접근 방식은 개념적으로 관련된 NeRF 중심 프로젝트(2021's)와 근본적으로 다릅니다. A-NeRF, 브리티시 컬럼비아 대학과 Reality Labs Research에서 기존의 '원피스' NeRF 표현에 내부 제어 골격을 추가하여 필요에 따라 신체의 다른 부분에 처리 리소스를 할당하는 것을 더 어렵게 만들었습니다. .

이전 동작 – A-NeRF는 VFX 업계에서 CGI 캐릭터를 애니메이션화하기 위해 오랫동안 사용해 온 것과 동일한 종류의 연성 및 연결식 중앙 리깅을 '구운' NeRF에 장착합니다. 출처: https://lemonatsu.github.io/anerf/

이전 동작 – A-NeRF는 VFX 업계에서 오랫동안 CGI 캐릭터를 애니메이션화하는 데 사용해 온 것과 동일한 종류의 연성 및 연결식 중앙 리깅을 '구운' NeRF에 제공합니다. 출처: https://lemonatsu.github.io/anerf/

다양한 인기 있는 접근 방식의 잠재 공간을 활용하려는 대부분의 유사한 인간 중심 프로젝트와 마찬가지로 EVA3D는 Skinned Multi-Person Linear Model(SMPL), 현재 합성 방법의 일반적인 추상화에 수단을 추가하기 위한 '전통적인' CGI 기반 방법입니다. 올해 초, 이번에는 항저우 절강 대학교와 홍콩 시립 대학교 크리에이티브 미디어 스쿨의 또 다른 논문에서 이러한 방법을 사용하여 수행했습니다. 신경체 재형성.

DeepFashion에 대한 EVA3D의 정성적 결과.

DeepFashion에 대한 EVA3D의 정성적 결과.

방법

프로세스에 사용된 SMPL 모델은 인간 '이전'에 맞춰져 있습니다. 즉, 본질적으로 EVA3D에 의해 자발적으로 딥 페이크되는 사람과 스키닝 가중치는 표준 공간(즉, '휴식' 또는 ' SMPL 모델의 중립' 포즈) 및 최종 모양이 렌더링되는 방식입니다.

EVA3D의 개념적 워크플로입니다. 출처: https://arxiv.org/pdf/2210.04888.pdf

EVA3D의 개념적 워크플로입니다. 출처 : https://arxiv.org/pdf/2210.04888.pdf

위의 그림에서 볼 수 있듯이 SMPL의 경계 상자는 결국 바디를 구성할 16개의 네트워크에 대한 경계 정의로 사용됩니다. 역 선형 블렌드 스키닝 그런 다음 SMPL의 (LBS) 알고리즘을 사용하여 가시 광선을 표준(수동 포즈) 공간으로 전송합니다. 그런 다음 이러한 구성을 기반으로 16개의 하위 네트워크가 쿼리되고 궁극적으로 최종 렌더링에 맞춰집니다.

그런 다음 전체 NeRF 합성물을 사용하여 3D 인간 GAN 프레임워크를 구성합니다.

2단계 GAN 프레임워크의 렌더링은 궁극적으로 인간/패션의 진정한 XNUMXD 이미지 컬렉션에 대해 훈련될 것입니다.

2단계 GAN 프레임워크의 렌더링은 궁극적으로 인간/패션의 진정한 XNUMXD 이미지 컬렉션에 대해 훈련될 것입니다.

인체의 일부를 나타내는 각 하위 네트워크는 적층된 MLP(다층 퍼셉트론)로 구성되며 SIREN (Sinusoidal Representation Networks) 활성화. SIREN은 이와 같은 워크플로우 및 유사한 프로젝트에서 많은 문제를 해결하지만 일반화하기보다는 과대적합하는 경향이 있으며 연구자들은 대체 라이브러리를 미래에 사용할 수 있다고 제안합니다(기사 끝 참조).

데이터, 교육 및 테스트

EVA3D는 패션 기반 데이터 세트에서 사용할 수 있는 포즈의 제한 및 템플릿 스타일로 인해 특이한 데이터 문제에 직면하고 있습니다. 이러한 포즈는 대안적 또는 참신한 보기가 부족한 경향이 있으며 주의를 집중시키기 위해 아마도 의도적으로 반복적일 수 있습니다. 사람이 입는 것보다 옷이.

이 불균형한 포즈 분포로 인해 EVA3D는 SMPL 템플릿 지오메트리를 기반으로 인간 사전(위 참조)을 사용한 다음 Signed Distance Field를 예측합니다(위 참조).SDF) 간단한 대상 포즈가 아니라 이 포즈의 오프셋입니다.

지원 실험을 위해 연구원들은 XNUMX개의 데이터 세트를 활용했습니다. 딥패션; SHHQ; UBC패션; 그리고 AIST 댄스 비디오 데이터베이스 (AIST 댄스 DB).

후자의 두 개는 처음 두 개보다 더 다양한 포즈를 포함하지만 동일한 개인을 반복적으로 나타내므로 이 유용한 다양성을 상쇄합니다. 요컨대, 데이터는 과제를 고려할 때 그 이상입니다.

SSHQ의 예. 출처: https://arxiv.org/pdf/2204.11823.pdf

SSHQ의 예. 출처 : https://arxiv.org/pdf/2204.11823.pdf

사용된 베이스라인은 에나프-간, 2D 이미지 데이터 세트에서 NeRF 비주얼을 렌더링하는 첫 번째 프로젝트; 스탠포드와 엔비디아의 EG3D스타일SDF, 워싱턴 대학교, Adobe Research 및 Stanford University 간의 협력 – 기본에서 고해상도로 확장하기 위해 초고해상도 라이브러리가 필요한 모든 방법.

채택된 측정항목은 논쟁의 프레셰 시작 거리(FID) 및 커널 시작 거리(아이), 올바른 키포인트의 백분율([이메일 보호]).

정량적 평가에서 EVA3D는 다음 네 가지 데이터 세트의 모든 지표에서 선두를 차지했습니다.

정량적 결과.

정량적 결과.

연구원들은 EVA3D가 이러한 유형의 프로젝트에서 중요한 요소인 형상 렌더링에 대해 가장 낮은 오류율을 달성한다는 점에 주목합니다. 그들은 또한 그들의 시스템이 생성된 포즈를 제어할 수 있고 더 높은 목표를 달성할 수 있음을 관찰합니다 [이메일 보호] EG3D와 달리 한 범주에서 더 높은 점수를 얻은 유일한 경쟁 방법입니다.

EVA3D는 기본적으로 현재 표준 512x512px 해상도에서 작동하지만 Google이 최근 1024 해상도의 텍스트-비디오 제공으로 수행한 것처럼 업스케일 레이어를 쌓아 HD 해상도로 쉽고 효과적으로 업스케일링할 수 있습니다. Imagen 비디오.

방법에는 제한이 없습니다. 이 논문은 SIREN 활성화로 인해 원형 아티팩트가 발생할 수 있으며, 이는 3D 디코더와 함께 EG2D와 같은 대체 기본 표현을 사용하여 향후 버전에서 해결할 수 있다고 설명합니다. 또한 SMPL을 패션 데이터 소스에 정확하게 맞추는 것은 어렵습니다.

마지막으로, 시스템은 큰 드레스와 같이 더 크고 유동적인 의류 품목을 쉽게 수용할 수 없습니다. 이러한 유형의 의복은 신경 렌더링된 모발 생성을 만드는 동일한 종류의 유체 역학을 나타냅니다. 그런 도전. 아마도 적절한 솔루션이 두 가지 문제를 모두 해결하는 데 도움이 될 수 있습니다.

EVA3D용 데모 비디오: 3D 이미지 컬렉션에서 컴포지션 2D 인간 생성

 

12년 2022월 XNUMX일에 처음 게시되었습니다.