Yapay Zekâ

Sapiens: İnsan Vizyon Modelleri için Temel

Published September 9, 2024

Updated April 27, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

Dil modellemede büyük ölçekli ön eğitime takip eden görev özgü işleme, bu yaklaşımı standart bir uygulama olarak kabul ettirmiştir. Benzer şekilde, bilgisayarlı görme yöntemleri de ön eğitime yönelik geniş veri ölçekleriniprogressively benimsemektedir. LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Görsel Genome ve YFCC100M gibi büyük veri setlerinin ortaya çıkması, geleneksel benchmarklerin kapsamının ötesinde bir veri korpusunun keşfini mümkün kılmıştır. Bu alanda önemli çalışmalar arasında DINOv2, MAWS ve AIM bulunur. DINOv2, LDV-142M veri setinde kontrastif iBot yöntemini ölçeklendirerek, kendi kendine denetlenen özellikler oluşturarak devlet-sanat performansını gerçekleştirir. MAWS, milyarlarca görsel üzerinde masked-autoencoders (MAE) ölçekleme çalışmasını inceler. AIM, BERT için vizyon transformatörleri gibi oto-regreratif görsel ön eğitime benzer bir şekilde ölçeklenebilirliğini araştırır. Bu yöntemlerin aksine, Sapiens insan merkezli bir yaklaşım benimser: Sapiens modelleri, insan görsellerinin geniş bir koleksiyonu için ön eğitime dayanır ve ardından insanla ilgili çeşitli görevler için işleme tabi tutulur. Büyük ölçekli 3D insan dijitalleştirme, bilgisayarlı görmede önemli bir hedef olmaya devam etmektedir.

Kontrol edilen veya stüdyo ortamlarında önemli ilerleme kaydedilmiş olsa da, bu yöntemleri kısıtlı olmayan ortamlara genişletme konusunda zorluklar devam etmektedir. Bu zorlukları gidermek için, anahtar nokta tahmini, vücut parçası segmentasyonu, derinlik tahmini ve yüzey normal tahmini gibi temel görevleri gerçekleştirebilen esnek modeller geliştirmek önemlidir. Sapiens, doğada bulunan görsellerden bu temel insan vizyon görevleri için modeller geliştirmeyi amaçlamaktadır. Şu anda, en büyük halka açık dil modelleri 100M parametreye kadar çıkarken, daha yaygın olarak kullanılan dil modelleri yaklaşık 7M parametreye sahiptir. Karşılaştırıldığında, Vizyon Transformatörleri (ViT), benzer bir mimariye sahip olmasına rağmen, başarılı bir şekilde bu ölçekte ölçeklendirilmemiştir. Bu yönde dikkat çekici girişimlere rağmen, bir dense ViT-4B’nin metin ve görseller üzerinde eğitilmesi ve bir ViT-22B için稳il eğitim tekniklerinin formülasyonu, yaygın olarak kullanılan vizyon omurgaları hala 300M ile 600M parametre arasında değişir ve genellikle yaklaşık 224 piksel görsel çözünürlüğünde ön eğitime tabi tutulur. Benzer şekilde, mevcut transformatör tabanlı görsel oluşturma modelleri, DiT gibi, 700M parametreden az kullanır ve yüksek derecede sıkıştırılmış bir latent uzayda çalışır. Bu açığı gidermek için, Sapiens, milyonlarca insan görseli üzerinde 1024 piksel görsel çözünürlüğünde yerel olarak ön eğitime tabi tutulan büyük, yüksek çözünürlüklü ViT modelleri koleksiyonunu sunar.

Sapiens, dört temel insan merkezli vizyon görevi için modeller sunar: 2D poz tahmini, vücut parçası segmentasyonu, derinlik tahmini ve yüzey normal tahmini. Sapiens modelleri, 1K yüksek çözünürlüklü çıkarımı yerel olarak destekler ve över 300 milyon doğada bulunan insan görselleri üzerinde ön eğitime tabi tutulan modelleri basitçe işleme tabi tutarak, bireysel görevler için kolayca uyarlanabilir. Sapiens, aynı hesaplama bütçesine sahip olduğunda, insan görsellerinin küratörlü bir veri setinde kendi kendine denetlenen ön eğitime tabi tutulmasının, çeşitli insan merkezli görevler için performansı önemli ölçüde artırdığını gözlemlemektedir. Sonuç olarak ortaya çıkan modeller, etiketli veri az veya tamamen sentetik olduğunda bile, doğada bulunan verilere şaşırtıcı bir genellemeye sahiptir. Basit model tasarımı da ölçeklenebilirlik sağlar – model performansı, parametre sayısı 0.3 ile 2 milyar arasında ölçeklenirken görevler arasında iyileşir. Sapiens, çeşitli insan merkezli benchmark’lerde mevcut temel çizgileri aşarak, önceki devlet-sanat sonuçlarına önemli iyileştirmeler gerçekleştirir: Humans-5K’de 7.6 mAP (poz), Humans-2K’de 17.1 mIoU (parça-seg), Hi4D’de 22.4% göreli RMSE (derinlik) ve THuman2’de 53.5% göreli açısal hata (normal).

Sapiens : İnsan Vizyon Modellerinde Kırılma

Son yıllarda 2B ve 3B’de fotogerçekçi insan üretimi konusunda önemli adımlar atıldı. Bu yöntemlerin başarısı, 2D anahtar noktaları, ince vücut parçası segmentasyonu, derinlik ve yüzey normali gibi çeşitli varlıkların güçlü tahmini ile büyük ölçüde ilişkilidir. Ancak, bu varlıkların robust ve doğru tahmini hala aktif bir araştırma alanıdır ve bireysel görevler için performansı artırmak amacıyla karmaşık sistemler genellikle daha geniş benimsemeyi engellemektedir. Ayrıca, doğada bulunan doğru ground-truth etiketleme elde etmek de notoriously zorlu ve ölçeklenebilir değildir. Sapiens’in amacı, bu varlıkları doğada bulunan görsellerden çıkarabilen birleşik bir çerçeve ve modeller sunmaktır, böylece herkes için insan merkezli bir dizi uygulamayı kilitlemektedir.

Sapiens, böyle insan merkezli modellerin üç kriteri karşılaması gerektiğini savunur: genellemeye, geniş uygulanabilirliğe ve yüksek doğruluğa. Genellemeye, modelin farklı ortamlarda tutarlı bir şekilde çalışabilmesini sağlar. Geniş uygulanabilirlik, modelin çeşitli görevler için minimum değişikliklerle uygun olmasını ifade eder. Yüksek doğruluk, modelin yüksek çözünürlüklü ve precisa çıktılar üretebilmesini gerektirir, bu da 3B insan üretimi görevleri için temel bir özelliktir. Bu çalışma, bu özelliklere sahip modellerin geliştirilmesini amaçlar, bunlar topluca Sapiens olarak adlandırılır.

İlgili içgörüler ışığında, Sapiens büyük veri setleri ve ölçeklenebilir model mimarilerini kullanır, bunlar genellemeye esaslıdır. Daha geniş uygulanabilirlik için, Sapiens ön eğitime takip eden işleme yaklaşımını benimser, bu da modelin spesifik görevlere minimum ayarlamalar ile uyarlanabilmesini sağlar. Bu yaklaşım, kritik bir soruyu gündeme getirir: Ön eğitime hangi tür veri en etkili olur? Hesaplama sınırları dikkate alındığında, insan görsellerini toplamak mı yoksa gerçek dünya değişkenliğini daha iyi yansıtmak için daha az küratörlü bir veri setinde ön eğitime tabi tutmak mı daha tercih edilir? Mevcut yöntemler genellikle ön eğitime veri dağılımını göz ardı eder. Ön eğitime veri dağılımının insan özgü görevler üzerindeki etkisini incelemek için, Sapiens 300 milyon çeşitli insan görseli içeren Humans-300M veri setini toplar. Bu etiketsiz görseller, 300M ile 2M parametre arasında değişen bir dizi vizyon transformatörünün ön eğitime tabi tutulmasında kullanılır.

Genel amaçlı görsel özelliklerin öğrenilmesi için çeşitli kendi kendine denetleme yöntemleri arasında, Sapiens masked-autoencoder (MAE) yaklaşımını basitliği ve verimliliği nedeniyle ön eğitime tabi tutmak için seçer. MAE, tek geçişli bir çıkarım modeline sahipken, kontrastif veya çoklu geçişli stratejilere göre daha büyük bir görsel hacmini aynı hesaplama kaynakları ile işleme tabi tutmaya izin verir. Daha yüksek doğruluk için, önceki yöntemlerin aksine, Sapiens ön eğitime tabi tutulan görsellerin yerel giriş çözünürlüğünü 1024 piksele çıkarır, bu da en büyük mevcut vizyon omurgasına göre yaklaşık 4 kat daha fazla FLOPs sağlar. Her model 1.2 trilyon token üzerinde ön eğitime tabi tutulur. İnsan merkezli görevler için işleme tabi tutma sırasında, Sapiens tutarlı bir kodlayıcı-dekodlayıcı mimarisi kullanır. Kodlayıcı, ön eğitime tabi tutulan ağırlıklar ile başlatılırken, dekodlayıcı, yani hafif ve görev özgü bir baş, rastgele başlatılır. Her iki bileşen de sonra sondan başa işleme tabi tutulur. Sapiens, aşağıdaki görselde gösterildiği gibi, 2D poz tahmini, vücut parçası segmentasyonu, derinlik ve normal tahmini gibi dört ana görev üzerine odaklanır.

Önceki çalışmalarla tutarlı bir şekilde, Sapiens etiket kalitesinin modelin doğada bulunan performansı üzerindeki kritik etkisini vurgular. Halka açık benchmark’ler genellikle gürültülü etiketler içerir, bu da modelin fine-tuning sırasında tutarlı olmayan denetleyici sinyalleri sağlar. Aynı zamanda, Sapiens’in birincil hedefi olan 3B insan dijitalleştirmeye yakından uyumlu, ince ve precisa annotasyonları kullanmak önemlidir. Bu amaçla, Sapiens poz tahmini için daha yoğun bir 2B tüm vücut anahtar noktası kümesi ve vücut parçası segmentasyonu için ayrıntılı bir sınıf sözcüğü sunar, önceki veri setlerinin kapsamını aşar. Özellikle, Sapiens 308 anahtar nokta koleksiyonunu sunar, vücut, eller, ayaklar, yüzey ve yüzü kapsar. Ayrıca, Sapiens segmentasyon sınıf sözcüğünü 28 sınıfa genişletir, saç, dil, dişler, üst/alt dudak ve torso gibi vücut parçalarını kapsar. Annotasyonların kalitesini ve tutarlılığını garantilemek ve yüksek düzeyde otomasyonu sağlamak için, Sapiens çoklu görüşlü bir yakalama kurulumu kullanır. Sapiens ayrıca derinlik ve normal tahmini için insan merkezli sentetik veri kullanır, 600 ayrıntılı tarama için RenderPeople’den yüksek çözünürlüklü derinlik haritaları ve yüzey normali oluşturur. Sapiens, alan özgü büyük ölçekli ön eğitime sınırlı, ancak yüksek kaliteli annotasyonların birleşiminin, doğada bulunan genellemeye yol açtığını göstermektedir. Genel olarak, Sapiens yöntemi, gerçek dünya senaryolarında yüksek doğrulukta ayrımcı modeller geliştirmek için etkili bir strateji sunar, bu da pahalı ve çeşitli bir annotasyon kümesi toplamak gerekmez.

Sapiens : Yöntem ve Mimarisi

Sapiens, ön eğitime tabi tutmak için masked-autoencoder (MAE) yaklaşımını takip eder. Model, kısmi gözlemine dayanarak orijinal insan görselini yeniden oluşturmak için eğitilir. Tüm oto-encodera benzer şekilde, Sapiens’in modeli, görüntüyü bir latent temsil’e haritalayan bir kodlayıcı ve bu latent temsil’den orijinal görseli yeniden oluşturan bir dekodlayıcıya sahiptir. Ön eğitime tabi tutulan veri seti, tek ve çoklu insan görsellerini içerir, her görsel sabit bir boyuta ve kare bir en-boy oranı ile yeniden boyutlandırılır. ViT’ye benzer şekilde, görsel düzenli, örtüşmeyen yamalara bölünür, her yamanın sabit bir boyutu vardır. Yamaların bir alt kümesi rastgele seçilir ve maskelenir, geri kalanı görünür kalır. Maskeli yamaların görünür olanlara oranı, yani maskeleme oranı, tüm eğitim boyunca sabit kalır.

Sapiens modelleri, ölçek, kırpma, konu yaş ve etnik kökeni ve konu sayısı gibi çeşitli görsel özellikler boyunca genellemeye sahiptir. Her yama tokeni modelde %0.02’lik bir görüntü alanını temsil eder, bu da standard ViT’lere göre 16 kat daha fazla bir inter-token akıl yürütme sağlar – 0.4% iken. Hatta %95’lik bir maskeleme oranı ile bile, Sapiens’in modeli, insan anatomisinin inandırıcı bir yeniden oluşturmasını gerçekleştirebilir. Aşağıdaki görselde, Sapiens’in ön eğitime tabi tutulan modelinin, görülmemiş insan görselleri üzerindeki yeniden oluşturması gösterilir.

Daha da önemlisi, Sapiens büyük bir özel veri setini ön eğitime tabi tutmak için kullanır, yaklaşık 1 milyar doğada bulunan görseli içerir, yalnızca insan görselleri üzerine odaklanır. Ön işleme, su işaretli görselleri, metin, sanatsal betimlemeleri veya doğal olmayan öğeleri atmaya dahil edilir. Sapiens daha sonra bir kişi sınırlayıcı kutusu dedektörü kullanır, algılama puanı 0.9’un üzerinde ve sınırlayıcı kutu boyutları 300 pikseli aşan görselleri tutar. Veri setinin üzerinde 248 milyon görseli çoklu konular içerir.

2D Poz Tahmini

Sapiens çerçevesi, K = 17 [67], K = 133 [55] ve yeni, yüksek ayrıntılı bir iskelet ile, aşağıdaki görselde gösterildiği gibi, çeşitli iskeletler üzerinde kodlayıcı ve dekodlayıcıyı işleme tabi tutur.

Mevcut formatların en fazla 68 yüz anahtar noktasına kıyasla, Sapiens’in annotasyonları, gözler, dudaklar, burun ve kulaklar etrafındaki temsilci noktaları da içeren 243 yüz anahtar noktasını içerir. Bu tasarım, gerçek dünya yüz ifadelerinin nüanslı ayrıntılarını titizlikle yakalamak için özelleştirilmiştir. Bu anahtar noktalar ile, Sapiens çerçevesi 1 milyon görseli 4K çözünürlükte el ile annotasyonlar. Benzer şekilde, önceki görevlerde, normal tahmini için dekodlayıcı çıkış kanallarını 3 olarak ayarlarız, bu da her pikseldeki normal vektörünün xyz bileşenlerine karşılık gelir. Üretilen sentetik veri, yüzey normali tahmini için denetleme olarak da kullanılır.

Sapiens : Deney ve Sonuçlar

Sapiens-2B, 1024 A100 GPU’ları ile 18 gün boyunca PyTorch kullanarak ön eğitime tabi tutulur. Sapiens, tüm deneyler için AdamW optimizatörünü kullanır. Öğrenme zamanlaması, kısa bir lineer ısınma ile başlar, ardından ön eğitime tabi tutma için kosinüs azalanı ve işleme tabi tutma için lineer azalanı içerir. Tüm modeller, 1024×1024 çözünürlükte ve 16’lık bir yama boyutunda ön eğitime tabi tutulur. İşleme tabi tutma sırasında, giriş görseli 4:3 oranına göre, yani 1024×768’e yeniden boyutlandırılır. Sapiens, standard augmentasyonları, zoals kırpma, ölçekleme, çevirme ve fotometrik bozulmaları uygular. Vücut parçası segmentasyonu, derinlik ve normal tahmini görevleri için, non-human COCO görsellerinden rastgele bir arka plan eklenir. Önemlisi, Sapiens, genellemeyi korumak için diferansiyel öğrenme oranlarını kullanır, ilk katmanlar için daha düşük öğrenme oranları ve sonraki katmanlar için artan oranlar ile. Katman-bazlı öğrenme oranı azalanı 0.85 olarak ayarlanır ve ağırlık azalanı 0.1 olarak ayarlanır.

Sapiens’in tasarım özellikleri aşağıdaki tabloda ayrıntılı olarak verilmiştir. Belirli bir yaklaşıma uyarak, Sapiens modellerini genişletmek yerine derinleştirmeyi tercih eder. Özellikle, Sapiens-0.3B modeli, geleneksel ViT-Large’a benzer bir mimariye sahip olmasına rağmen, daha yüksek çözünürlüğü nedeniyle 20 kat daha fazla FLOPs içerir.

Sapiens, yüksek doğruluklu annotasyonlar kullanarak, yüz, vücut, ayak ve el (K = 308) için poz tahmini görevleri için işleme tabi tutulur. Eğitim için, 1M görseli içeren eğitim kümesini ve test için, 5K görseli içeren Humans5K test kümesini kullanır. Değerlendirme, bir üstten-asha yaklaşımını takip eder, burada Sapiens bir kişi sınırlayıcı kutusu dedektörü kullanır ve tek bir insan poz tahmini gerçekleştirir. Tablo 3, Sapiens modellerini mevcut yöntemlerle, tüm vücut poz tahmini için karşılaştırır. Tüm yöntemler, Sapiens’in 308 anahtar nokta sözcüğü ile COCO-WholeBody’nin 133 anahtar nokta sözcüğü arasındaki 114 ortak anahtar nokta üzerinde değerlendirilir. Sapiens-0.6B, mevcut devlet-sanat DWPose-l’i +2.8 AP ile geçer. DWPose’un aksine, DWPose bir kompleks öğrenci-öğretmen çerçevesi kullanır ve görev için özelleştirilmiş özellikli damlalık kullanır, Sapiens genel bir kodlayıcı-dekodlayıcı mimarisi benimser ve büyük insan merkezli ön eğitime tabi tutulur.

İlginç bir şekilde, aynı parametre sayısına sahip olsa da, Sapiens modelleri, karşılaştırılabilir performans gösterir. Örneğin, Sapiens-0.3B, VitPose+-L’i +5.6 AP ile geçer ve Sapiens-0.6B, VitPose+-H’i +7.9 AP ile geçer. Sapiens ailesi içinde, sonuçlar model boyutu ile performans arasında doğrudan bir korelasyon gösterir. Sapiens-2B, 61.1 AP ile yeni bir devlet-sanat oluşturur, bu da önceki sanata göre +7.6 AP’lik önemli bir iyileşmedir. İç mekan stüdyo annotasyonları ile fine-tuning yapılmasına rağmen, Sapiens gerçek dünya senaryolarına karşı güçlü bir genellemeye sahiptir, aşağıdaki görselde gösterildiği gibi.

Sapiens, 28 sınıf içeren bir segmentasyon sözcüğü ile işleme tabi tutulur ve değerlendirilir. Eğitim kümesi 100K görseli içerirken, test kümesi, Humans-2K, 2K görseli içerir. Sapiens, aynı eğitim kümesi üzerinde fine-tuning yapılan mevcut vücut parçası segmentasyonu yöntemleri ile karşılaştırılır, her yöntem için önerilen ön eğitime tabi tutulan kontrol noktaları kullanılır. Poz tahmini gibi, Sapiens segmentasyon görevinde de genellemeye sahiptir, aşağıdaki tabloda gösterildiği gibi.

İlginç bir şekilde, en küçük model, Sapiens-0.3B, yüksek çözünürlüğü ve büyük insan merkezli ön eğitime tabi tutulması nedeniyle, mevcut devlet-sanat segmentasyon yöntemleri Mask2Former ve DeepLabV3+’yi 12.6 mIoU ile geçer. Ayrıca, model boyutunu artırmak, segmentasyon performansını daha da iyileştirir. Sapiens-2B, test kümesi üzerinde en iyi performansı gerçekleştirir, 81.2 mIoU ve 89.4 mAcc ile, aşağıdaki görselde Sapiens modellerinin nitel sonuçları gösterilir.

SONUÇ

Sapiens, insan merkezli vizyon modellerini temel modellere doğru önemli bir adım olarak temsil eder. Sapiens modelleri, çeşitli insan merkezli görevler boyunca güçlü genellemeye sahiptir. Devlet-sanat performansı, büyük ölçekli ön eğitime tabi tutulan, insanları anlama amacına yönelik küratörlü bir veri seti, yüksek çözünürlüklü ve yüksek kapasiteli vizyon transformatörleri omurgaları ve yüksek kaliteli annotasyonlara dayanır. Sapiens modelleri, bir dizi aşağı akım görevi için önemli bir yapı taşı haline gelebilir ve yüksek kaliteli vizyon omurgalarına erişimini daha geniş bir topluluğa sağlayabilir.