인공지능

Sapiens: 인간 비전 모델의 혁신

게시일 2024년 9월 9일

업데이트일 2026년 5월 20일

작성자

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

대규모 사전 학습과 특정 작업에 대한 세부 조정의 성공은 언어 모델링에서 표준적인 접근법으로 자리 잡았습니다. 유사하게, 컴퓨터 비전 방법은 점차적으로 사전 학습을 위한 광범위한 데이터 규모를 받아들이고 있습니다. LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome 및 YFCC100M과 같은 대규모 데이터셋의 등장으로 전통적인 벤치마크의 범위를 넘어서서 데이터 코퍼스를 탐색할 수 있게 되었습니다. 이 도메인에서 두드러진 연구로는 DINOv2, MAWS 및 AIM이 있습니다. DINOv2는 LDV-142M 데이터셋에서 대조적 iBot 방법을 확장하여 자체监督 특징 생성에서 최첨단 성능을 달성합니다. MAWS는 10억 개의 이미지에서 마스킹된 오토인코더(MAE)의 확장을 연구합니다. AIM은 비전 트랜스포머에 대한 자동 회귀적 시각적 사전 학습의 확장성을 탐구합니다. 이러한 방법과 달리, 일반 이미지 사전 학습 또는 제로샷 이미지 분류에 주로 초점을 맞춘 반면, Sapiens는 인간 중심 접근법을 취합니다. Sapiens 모델은 인간 이미지의 방대한 컬렉션을 사용하여 사전 학습을 수행하고 이후 인간 관련 작업에 대한 세부 조정을 수행합니다. 대규모 3D 인간 디지타이제이션은 컴퓨터 비전에서 중요한 목표입니다.

통제된 환경 또는 스튜디오 환경에서 상당한 진전이 이루어졌지만, 이러한 방법을 제약이 없는 환경으로 확장하는 데에는 여전히 도전이 남아 있습니다. 이러한 도전을 해결하기 위해, 키 포인트 추정, 신체 부위 분할, 깊이 추정 및 표면 법선 예측과 같은 여러 기본 작업을 수행할 수 있는 다재다능한 모델을 개발하는 것이 중요합니다. Sapiens는 이러한 필수적인 인간 비전 작업을 위한 모델을 개발하여 야외 환경에 일반화하도록 목표로 합니다. 현재 가장 큰 공개 언어 모델은 100B 매개변수를 포함하며, 더 일반적으로 사용되는 언어 모델은 약 7B 매개변수를 포함합니다. 반면, 비전 트랜스포머(ViT)는 비슷한 아키텍처를 공유하지만, 아직까지는 성공적으로 이러한 수준으로 확장되지 않았습니다. 이러한 방향으로는 몇 가지 노력이 있지만, 일반적으로 사용되는 비전 백본은 여전히 300M에서 600M 매개변수 사이이며, 주로 224 픽셀의 이미지 해상도에서 사전 학습되었습니다. 또한, DiT와 같은 기존의 트랜스포머 기반 이미지 생성 모델은 700M 매개변수 미만을 사용하며, 매우 압축된 잠재 공간에서 작동합니다. 이러한 간격을 메우기 위해, Sapiens는 1024 픽셀의 이미지 해상도에서 수백만 개의 인간 이미지를 사용하여 사전 학습된 대규모, 고해상도 ViT 모델의 컬렉션을 도입합니다.

Sapiens는 2D 포즈 추정, 신체 부위 분할, 깊이 추정 및 표면 법선 예측을 위한 4가지 기본적인 인간 중심 비전 작업을 위한 모델 패밀리를 제시합니다. Sapiens 모델은 1K 고해상도 추론을 네이티브로 지원하며, 300만 개 이상의 야외 인간 이미지를 사용하여 사전 학습된 모델을 단순히 세부 조정하여 개별 작업에 쉽게 적응할 수 있습니다. Sapiens는 동일한 컴퓨팅 예산이 주어졌을 때, 인간 이미지의 커링된 데이터셋에서 자체 감독 사전 학습이 다양한 인간 중심 작업에 대한 성능을 크게 향상시킴을 관찰합니다. 결과 모델은 라벨이 부착된 데이터가 희박하거나 전적으로 합성된 경우에도 야외 데이터에 놀라운 일반화를 나타냅니다. 단순한 모델 설계도 확장성을 가져옵니다. 모델의 성능은 작업 전반에 걸쳐 매개변수 수가 0.3에서 20억으로 증가함에 따라 개선됩니다. Sapiens는 다양한 인간 중심 벤치마크에서 기존 기준을 일관되게 초과하며, 이전의 최첨단 결과에 비해 상당한 개선을 달성합니다.

Sapiens : 인간 비전 모델의 혁신

최근 몇 년 동안 2D 및 3D에서 사진과 같은 인간을 생성하는 데 상당한 진전이 이루어졌습니다. 이러한 방법의 성공은 2D 키 포인트, 세부한 신체 부위 분할, 깊이 및 표면 법선과 같은 다양한 자산의 강력한 추정을 크게归功합니다. 그러나 이러한 자산의 강력하고 정확한 추정은 여전히 활발한 연구 분야입니다. 또한, 야외에서 정확한 그라운드 트루스 주석을 얻는 것은 유명한 어려운 문제입니다. Sapiens의 목표는 이러한 자산을 야외에서 추론할 수 있는 통일된 프레임워크와 모델을 제공하는 것입니다.

Sapiens는 인간 중심 모델이 일반화, 광범위한 적용 가능성 및 높은 신뢰도를 충족해야 한다고 주장합니다. 일반화는 다양한 환경에서 일관된 성능을 보장합니다. 광범위한 적용 가능성은 모델이 최소한의 수정으로 다양한 작업에 적합하도록 합니다. 높은 신뢰도는 모델이 높은 해상도의 출력을 생성할 수 있음을 나타냅니다. 이 논문은 이러한 속성을 갖는 모델의 개발을 자세히 설명합니다.

이러한 통찰력에 따라, Sapiens는 대규모 데이터셋과 확장 가능한 모델 아키텍처를 사용하여 일반화를 달성합니다. 광범위한 적용 가능성을 위해, Sapiens는 사전 학습-세부 조정 접근법을 채택하여 사전 학습 이후에 특정 작업에 대한 최소한의 조정으로 모델을 적응시킬 수 있습니다. 이 접근법은 한 가지 중요한 질문을 제기합니다. 사전 학습에 가장 효과적인 데이터 유형은 무엇인가? 컴퓨팅 제한이 주어졌을 때, 가능한 한 많은 인간 이미지를 수집하는 데 중점을 두어야 하는지, 아니면 실제 세계의 변동성을 더 잘 반영하기 위해 더 적게 커링된 데이터셋에서 사전 학습해야 하는지 여부입니다. 기존 방법은 다운스트림 작업의 contexto에서 사전 학습 데이터 분포를 종종 무시합니다. 인간 특정 작업에 대한 사전 학습 데이터 분포의 영향을 연구하기 위해, Sapiens는 300만 개의 다양한 인간 이미지를 특징으로 하는 Humans-300M 데이터셋을 수집합니다. 이러한 레이블이 없는 이미지는 300M에서 20억까지의 매개변수 수를 갖는 비전 트랜스포머 패밀리를 사전 학습하는 데 사용됩니다.

대규모 데이터셋에서 일반적인 시각적 특징을 학습하기 위한 다양한 자체 감독 방법 중에서, Sapiens는 마스킹된 오토인코더(MAE) 접근법을 단순성과 효율성으로 인해 선택합니다. MAE는 대조적 또는 다중 추론 전략과 달리, 단일 패스 추론 모델을 갖기 때문에 동일한 컴퓨팅 자원으로 더 많은 이미지를 처리할 수 있습니다. 더 높은 신뢰도를 위해, 이전 방법과 달리, Sapiens는 사전 학습의 네이티브 입력 해상도를 1024 픽셀로 증가시킵니다. 이는 가장 큰 기존 비전 백본과 비교하여 약 4배의 FLOPs 증가를 나타냅니다. 각 모델은 1.2조 토큰으로 사전 학습됩니다. 인간 중심 작업에 대한 세부 조정을 위해, Sapiens는 일관된 인코더-디코더 아키텍처를 사용합니다. 인코더는 사전 학습에서 초기화된 가중치를 사용하며, 디코더는 가벼운 작업 특정 헤드이며, 무작위로 초기화됩니다. 두 구성 요소는 이후 종단 간 세부 조정됩니다. Sapiens는 2D 포즈 추정, 신체 부위 분할, 깊이 및 표면 법선 추정과 같은 4가지 주요 작업에 초점을 맞춥니다.

이전 연구와 일치하게, Sapiens는 야외 성능에 대한 레이블 품질의 중요성을 강조합니다. 공공 벤치마크에는 종종 노이즈가 있는 레이블이 포함되어 있으며, 모델 세부 조정을 위한 일관되지 않은 감독 신호를 제공합니다. 동시에, Sapiens의 주요 목표인 3D 인간 디지타이제이션과 밀접하게 일치하도록 세부하고 정밀한 주석을 사용하는 것이 중요합니다. 이를 위해, Sapiens는 2D 전체 신체 키 포인트를 위한 상당히 더密한 집합과 신체 부위 분할을 위한 자세한 클래스 어휘를 제안합니다. 구체적으로, Sapiens는 몸, 손, 발, 표면 및 얼굴을 포함하는 308개의 키 포인트를 포함하는 포즈 추정과 신체 부위 분할을 위한 28개의 클래스 어휘를 도입합니다. Sapiens는 또한 깊이 및 표면 법선 추정에 대한 인간 중심 합성 데이터를 사용합니다.

Sapiens : 방법 및 아키텍처

Sapiens는 마스킹된 오토인코더(MAE) 접근법을 사용하여 사전 학습을 수행합니다. 모델은 부분 관찰된 원본 인간 이미지를 재구성하도록 학습됩니다. 모든 오토인코더와 마찬가지로, Sapiens 모델에는 가시적인 이미지를 잠재적인 표현으로 매핑하는 인코더와 이 잠재적인 표현에서 원본 이미지를 재구성하는 디코더가 있습니다. 사전 학습 데이터셋은 단일 및 다중 인간 이미지를 포함하며, 각 이미지는 고정된 크기로 리사이즈되며, 정방형 종횡비를 갖습니다. ViT와 유사하게, 이미지는 고정된 패치 크기를 갖는 정칙적인 비중복 패치로 나뉩니다. 이러한 패치 중 일부는 무작위로 선택되어 마스킹되며, 나머지는 가시적으로 남겨집니다. 마스킹된 패치와 가시적인 패치의 비율, 즉 마스킹 비율은 학습 과정ตลอด에 고정됩니다.

Sapiens 모델은 이미지의 다양한 특성에 걸쳐 일반화를 나타냅니다. 이는 이미지의 크기, 자르기, 주제의 연령 및 민족, 주제의 수를 포함합니다. 각 패치 토큰은 이미지 영역의 0.02%를 차지하며, 이는 표준 ViT에서 0.4%와 비교하여 16배의 감소입니다. 이는 모델에 대한 미세한 상호 토큰 추론을 제공합니다. 마스킹 비율이 95%인 경우에도, Sapiens 모델은 보류된 샘플에서 인간 해부학의 합리적인 재구성을 달성합니다. 사전 학습된 Sapiens 모델의 재구성이 다음 이미지에示されて 있습니다.

さらに, Sapiens는 사전 학습을 위해 약 10억 개의 야외 이미지로 구성된 대규모 사전 학습 데이터셋을 사용합니다. 데이터셋은 물론, 텍스트, 예술적 표현, 비自然적인 요소를 포함하는 이미지를 제거하는 전처리를 포함합니다. Sapiens는 이후 사람 바운딩 박스 감지기를 사용하여 이미지를 필터링하며, 감지 점수가 0.9 이상이고 바운딩 박스 크기가 300 픽셀을 초과하는 이미지를 유지합니다. 데이터셋의 248백만 개 이상의 이미지는 여러 주제를 포함합니다.

2D 포즈 추정

Sapien 프레임워크는 여러 골격에 걸쳐 인코더와 디코더를 세부 조정합니다. K = 17, K = 133 및 새로운 자세한 골격, K = 308을 포함하여 다음 그림에示されて 있습니다.

기존 형식과 비교하여, Sapien의 주석은 최대 68개의 얼굴 키 포인트를 갖는 반면, 243개의 얼굴 키 포인트를 포함하며, 눈, 唇, 코 및 귀 주변의 대표 포인트를 포함합니다. 이러한 설계는 실제 세계의 미묘한 얼굴 표현을 세심하게 캡처하기 위해 고안되었습니다. 이러한 키 포인트와 함께, Sapien 프레임워크는 4K 해상도의 100만 개의 이미지를 수동으로 주석을 달았습니다. 이전 작업과 마찬가지로, Sapien은 308개의 키 포인트 어휘와 COCO-WholeBody의 133개의 키 포인트 어휘 사이에 공통되는 114개의 키 포인트에서 모델을 평가합니다.

Sapien : 실험 및 결과

Sapiens-2B는 1024개의 A100 GPU를 사용하여 18일 동안 PyTorch로 사전 학습됩니다. Sapiens는 모든 실험에서 AdamW 최적화를 사용합니다. 학습 일정은 짧은 선형 워밍업을 포함하며, 사전 학습에서는 코사인 어닌팅을 사용하고, 세부 조정에서는 선형 감소를 사용합니다. 모든 모델은 1024 × 1024의 해상도에서 패치 크기 16으로 사전 학습됩니다. 세부 조정을 위해 입력 이미지는 4:3 비율로 리사이즈됩니다. Sapiens는 크롭, 스케일, 플립 및 광학 왜곡과 같은 표준 오그멘테이션을 적용합니다. 세그멘테이션, 깊이 및 표면 법선 예측 작업을 위해 비인간 COCO 이미지에서 무작위로 배경을 추가합니다. 중요하게는, Sapiens는 일반화를 보존하기 위해 차등 학습률을 사용하며, 초기 계층에는 더 낮은 학습률을 사용하고, 이후 계층에는 점차 더 높은 학습률을 사용합니다. 계층별 학습률 감소는 0.85로 설정되며, 인코더의 가중치 감소는 0.1입니다.

Sapiens의 설계 사양은 다음 표에示されて 있습니다. 특정 접근법에 따라, Sapiens는 모델을 깊이보다 너비로 확장하는 것을 우선시합니다. 특히, Sapiens-0.3B 모델은 전통적인 ViT-Large와 유사한 아키텍처를 갖지만, 더 높은 해상도 때문에 20배 더 많은 FLOPs를 포함합니다.

Sapiens는 높은 신뢰도 주석을 사용하여 전체 신체 포즈 추정을 위한 세부 조정을 수행합니다. 훈련을 위해, Sapiens는 100만 개의 이미지를 포함하는 훈련 세트를 사용하며, 평가를 위해 5,000개의 이미지를 포함하는 Humans5K 테스트 세트를 사용합니다. 평가에서는 상위-하위 접근법을 사용하며, Sapiens는 바운딩 박스에 대한 오프-더-셸프 감지기를 사용하고, 단일 인간 포즈 추론을 수행합니다. 표 3은 전체 신체 포즈 추정에 대한 Sapiens 모델과 기존 방법의 비교를示しています. 모든 방법은 Sapiens의 308개의 키 포인트 어휘와 COCO-WholeBody의 133개의 키 포인트 어휘 사이에 공통되는 114개의 키 포인트에서 평가됩니다.

흥미롭게도, 동일한 매개변수 수를 갖는 경우에도, Sapiens 모델은 다른 모델보다 우수한 성능을 나타냅니다. 예를 들어, Sapiens-0.3B는 VitPose+-L보다 +5.6 AP를 초과하며, Sapiens-0.6B는 VitPose+-H보다 +7.9 AP를 초과합니다. Sapiens 패밀리 내에서, 결과는 모델 크기와 성능 사이에 직접적인 상관관계를 나타냅니다. Sapiens-2B는 +7.6 AP의 개선을 통해 이전 최첨단 결과를 초과하는 61.1 AP의 새로운 최첨단을 설정합니다. 실내 캡처 스튜디오의 주석을 사용하여 세부 조정을 수행했음에도 불구하고, Sapiens는 실제 세계 시나리오에 강력한 일반화를 나타냅니다.

Sapiens는 28개의 클래스 어휘를 사용하여 세부 조정 및 평가를 수행합니다. 훈련 세트는 100,000개의 이미지를 포함하며, 테스트 세트인 Humans-2K는 2,000개의 이미지를 포함합니다. Sapiens는 동일한 훈련 세트에서 세부 조정을 수행한 기존 신체 부위 분할 방법과 비교됩니다. 이전과 마찬가지로, Sapiens는 분할에서 일반화를 나타냅니다.

흥미롭게도, 가장 작은 모델인 Sapiens-0.3B는 기존의 최첨단 분할 방법인 Mask2Former와 DeepLabV3+를 12.6 mIoU로 초과합니다. 모델 크기를 증가시키면 분할 성능이 더욱 개선됩니다. Sapiens-2B는 테스트 세트에서 81.2 mIoU와 89.4 mAcc를 달성하여 최고의 성능을 나타냅니다.

결론

Sapiens는 인간 중심 비전 모델을 기초 모델의 영역으로 발전시키는 데 중요한 단계를 나타냅니다. Sapiens 모델은 다양한 인간 중심 작업에 걸쳐 강력한 일반화를 나타냅니다. 최첨단 성능은 인간을 이해하기 위해 특별히 설계된 커링된 데이터셋에서 대규모 사전 학습, 고해상도 및 고용량 비전 트랜스포머 백본, 그리고 오그멘테이션된 스튜디오 및 합성 데이터에서 높은 품질의 주석에 기인합니다. Sapiens 모델은 다양한 다운스트림 작업에 대한 핵심 빌딩 블록이 될 수 있으며, 더 넓은 커뮤니티에 고품질 비전 백본에 대한 액세스를 제공할 수 있습니다.