인공지능
AI로 더 나은 몸 만들기

Alibaba DAMO 아카데미의 새로운 연구는 컴퓨터 비전 분야에서 얼굴 기반 조작에 집중하고 있는 현재 상황에서 몸의 이미지 재구성을 자동화하기 위한 AI 기반 워크플로우를 제공합니다. 이 연구는 얼굴 합성과 GAN 기반 얼굴 편집과 같은 얼굴 기반 조작에 주로 집중하고 있는 컴퓨터 비전 분야에서 드문 시도입니다.

결과 열에 생성된 주의 맵이 표시됩니다. 수정할 영역을 정의합니다. 출처: https://arxiv.org/pdf/2203.04670.pdf
연구자들의 아키텍처는 골격 姿勢 추정(skeleton pose estimation)을 사용하여 이미지 합성 및 편집 시스템이 기존 몸 이미지의 개념화와 매개변수화의 복잡성을 해결합니다.

추정된 골격 맵은 수정할 가능성이 높은 신체 부위(예: 상완부)에 대한 주의를 개별화하고 집중시킵니다.
시스템은 궁극적으로 사용자가 몸의 무게, 근육량 또는 무게 분포의外観을 변경할 수 있는 매개변수를 설정할 수 있도록 하며, 옷을 입은 또는 벗은 신체 부위를 임의로 변환할 수 있습니다.

왼쪽, 입력 이미지; 중간, 파생된 주의 영역의 히트맵; 오른쪽, 변환된 이미지.
이 연구의 동기는 사진가와 프로덕션 그래픽 아티스트들이 패션, 잡지 스타일 출력 및 홍보 자료와 같은 미디어의 다양한 분야에서 수행하는 어려운 디지털 조작을 대체하기 위한 자동화 워크플로우의 개발입니다.
일반적으로 저자들은 이러한 변환은 Photoshop 및 기타 전통적인 비트맵 편집기에서 ‘와ープ’ 기술로 적용되며 주로 여성 이미지에 사용된다고 인정합니다. 따라서 새로운 프로세스를 용이하게 하기 위해 개발된 사용자 정의 데이터셋은 대부분 여성 사진으로 구성됩니다:
신체 보정은 주로 여성들이 원하기 때문에 우리의 컬렉션은 주로 여성 사진으로 구성되며, 연령, 인종(아프리카:아시아:코카서스인 = 0.33:0.35:0.32), 포즈 및 의복의 다양성을 고려합니다.
논문의 제목은 인간 신체 재구성을 위한 구조 인식 흐름 생성이며, Alibaba의 글로벌 DAMO 아카데미와 관련된 다섯 저자로부터 나왔습니다.
데이터셋 개발
이미지 합성 및 편집 시스템의 경우 일반적으로 아키텍처는 사용자 정의 훈련 데이터셋을 필요로 합니다. 저자들은 스톡 사진 사이트 Unsplash의 적절한 이미지에 대한 표준 Photoshop 조작을 생성하기 위해 세 명의 사진가를 위촉했습니다. 결과적으로 2K 해상도의 5,000개의 고화질 이미지로 구성된 BR-5K* 데이터셋이 생성되었습니다.
연구자들은 이 데이터셋을 훈련하는 목적이 미디어에서 일반적으로 사용되는 매력이나 바람직한 외모의 지수를 나타내는 ‘이상화’된 일반화된 특성을 생성하는 것이 아니라 전문적인 신체 이미지 조작의 중심 특성 매핑을 추출하는 것이라고 강조합니다.
그러나 mereka는 궁극적으로 이러한 조작이 ‘실제’에서 미리 정의된 ‘이상’으로의 변환 과정을 나타낸다고 인정합니다:
우리는 세 명의 전문 아티스트를 초대하여 Photoshop을 사용하여 신체를 보정하고, 인기 있는 미학을 충족하는 날씬한 몸매를 달성하는 것을 목표로 하며, 최고의 하나를 기준으로 선택합니다.
이 프레임워크는 얼굴을 전혀 다루지 않으므로 데이터셋에 포함되기 전에 얼굴이 흐리게 처리되었습니다.
아키텍처 및 핵심 개념
시스템의 워크플로우는 고해상도 초상화를 입력으로 받아서 사용 가능한 컴퓨팅 리소스로 맞출 수 있는 더 낮은 해상도로 다운샘플링하고, 추정된 골격 맵 姿勢(skeleton-map pose) 및 Part Affinity Fields(PAFs)를 추출하는 것을 포함합니다. PAFs는 2016년 카네기 멜론 대학교의 The Robotics Institute에서 혁신되었습니다.
PAFs는肢체의 방향과 더广い 골격 프레임워크와의 일반적인 연관성을 정의하여 새로운 프로젝트에 추가적인 주의/로컬라이제이션 도구를 제공합니다.

2016년 PAFs 논문에서 예측된 PAFs는 2D 벡터의 일부로써肢체의 방향을 인코딩합니다. 출처: https://arxiv.org/pdf/1611.08050.pdf
골격 맵은 본질적으로 무게의 외관에 영향을 미치지 않지만, 최종 변환 과정을 수정할 신체 부위(예: 상완부, 등, 허벅지)로 направ합니다.
이후 결과는 프로세스의 중앙 병목부에 있는 Structure Affinity Self-Attention(SASA)로 전달됩니다.

SASA는 흐름 생성기가 구동하는 프로세스의 일관성을 조절하며, 결과는 훈련에 사용된 데이터셋의 수동 수정에서 학습한 변환을 적용하는 와핑 모듈로 전달됩니다.

구조 인식 자기 주의 모듈은 관련된 신체 부위에 주의를 할당하여 불필요한 또는 관련 없는 변환을 피합니다.
출력 이미지는 이후 원래 2K 해상도로 업샘플링되며, 이 프로세스는 2017년 스타일의 DeepFaceLab과 같은 패키지에서 파생된 표준 디프페이크 아키텍처와 유사합니다. 업샘플링 프로세스는 또한 GAN 편집 프레임워크에서 일반적입니다.
스키마의 주의 네트워크는 Compositional De-Attention Networks (CODA)를 모델로 하며, 2019년 미국/싱가포르 학술 협력으로 Amazon AI와 Microsoft와 함께 진행되었습니다.
테스트
플로우 기반 프레임워크는 이전 플로우 기반 방법 FAL 및 Animating Through Warping(ATW)와 이미지 번역 아키텍처 Pix2PixHD 및 GFLA와 비교하여 테스트되었습니다. 평가 지표로는 SSIM, PSNR 및 LPIPS가 사용되었습니다.

초기 테스트 결과(헤더의 화살표 방향은 낮은 값이나 높은 값이 더 좋은지 나타냅니다).
이러한 채택된 지표에 기반하여 저자들의 시스템은 이전 아키텍처를 능가합니다.
자동화된 지표 외에도 연구자들은 사용자 연구(결과 테이블의 마지막 열)를 수행했으며, 40명의 참가자 각각에게 100개의 질문 풀에서 무작위로 선택된 30개의 질문을 보여주었습니다. 참가자의 70%가 새로운 기술이 더 ‘시각적으로 매력적’이라고回答했습니다.
도전
새로운 논문은 AI 기반 몸 조작에 대한 드문 시도입니다. 이미지 합성 분야는 현재 Neural Radiance Fields(NeRF)를 통해 편집 가능한 몸 생성 또는 GANs의 잠재-latent 공간 및 얼굴 조작을 위한 오토인코더의 잠재력을 탐색하는 것에 더 관심이 있습니다.
저자들의 이니셔티브는 현재 지각된 무게의 변경을 생성하는 것에만 제한되며, 배경을 복원하는 inpainting 기술을 구현하지 않았습니다.
그러나 mereka는 초상화 매칭 및 텍스처 추론을 통해 배경 블렌딩이 이미지의 이전에 인간의 ‘불완전성’에 의해 숨겨진 부분을 복원하는 문제를 쉽게 해결할 수 있다고 제안합니다.

AI 기반 체중 감량으로 노출된 배경을 복원하기 위한 제안된 솔루션.
* 프리프린트는 데이터셋에 대한 자세한 정보 및 프로젝트의 추가 예시를 제공하는 보충 자료를 참조하지만, 이 자료의 위치는 논문에서 제공되지 않으며, 해당 저자는 아직 요청에 대한 답변을 제공하지 않았습니다.
最初에 2022년 3월 10日に 게시되었습니다.











