Kunstig intelligens

Sapiens: Gennembrud i Menneskelige Visionmodeller

Udgivet den 9. september 2024

Opdateret den 20. maj 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

Den bemærkelsesværdige succes med storstile pretraining fulgt af opgave-specifik finjustering for sprogmodellering har etableret denne tilgang som en standardpraksis. Lignende computer vision metoder er progressivt ved at omfavne omfattende datasæt for pretraining. Opkomsten af store datasæt, såsom LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome og YFCC100M, har muliggjort udforskningen af et datakorpus langt ud over omfanget af traditionelle benchmarks. Fremtrædende arbejde i dette domæne inkluderer DINOv2, MAWS og AIM. DINOv2 opnår state-of-the-art-præstation i generering af selv-supervised funktioner ved at skala kontrastive iBot-metoden på LDV-142M-datasættet. MAWS studerer skaleringen af masked-autoencoders (MAE) på billion billeder. AIM udforsker skalerbarheden af autoregressiv visuel pretraining lignende BERT for vision transformers. I modsætning til disse metoder, som primært fokuserer på generel billedpretraining eller zero-shot billedklassificering, tager Sapiens en tydeligt menneskecentreret tilgang: Sapiens’ modeller udnytter en enorm samling af menneskebilleder til pretraining og finjusterer derefter for en række menneskerelaterede opgaver. Forfølgelsen af storstile 3D-menneskedigitalisering forbliver et afgørende mål i computer vision.

Betydelig fremgang er opnået inden for kontrollerede eller studiemiljøer, men udfordringer består i at udvide disse metoder til ukontrollerede miljøer. For at imødegå disse udfordringer er det afgørende at udvikle fleksible modeller, der kan udføre multiple grundlæggende opgaver, såsom nøglepunkt-estimation, kropsdel-segmentering, dybde-estimation og overfladenormal-prædiction fra billeder i naturlige indstillinger. I dette arbejde sigter Sapiens mod at udvikle modeller for disse essentielle menneskevision-opgaver, der generaliserer til in-the-wild-indstillinger. For tiden indeholder de største offentligt tilgængelige sprogmodeller over 100 milliarder parametre, mens de mere almindeligt brugte sprogmodeller indeholder omkring 7 milliarder parametre. I modsætning hertil har Vision Transformers (ViT), på trods af at de deler en lignende arkitektur, ikke været skaleret til dette omfang succesfuldt. Selv om der er bemærkelsesværdige bestræbelser i denne retning, herunder udviklingen af en tæt ViT-4B trænet på både tekst og billeder, og formuleringen af teknikker til stabil træning af en ViT-22B, bruges almindelige vision-baggrunde stadig mellem 300M til 600M parametre og er primært fortrænet på en billedopløsning på omkring 224 pixel. Lignende eksisterende transformer-baserede billedgenereringsmodeller, såsom DiT, bruger mindre end 700M parametre og opererer på et højt komprimeret latent rum. For at imødegå dette gap introducerer Sapiens en samling af store, højopløsnings-ViT-modeller, der er fortrænet naturligt på en 1024-pixel billedopløsning på millioner af menneskebilleder.

Sapiens præsenterer en familie af modeller for fire grundlæggende menneskecentrerede vision-opgaver: 2D-pose-estimation, kropsdel-segmentering, dybde-estimation og overfladenormal-prædiction. Sapiens-modellerne understøtter naturligt 1K-højopløsnings-inferens og er ekstremt lette at tilpasse til individuelle opgaver ved blot at finjustere modeller, der er fortrænet på over 300 millioner in-the-wild-menneskebilleder. Sapiens observerer, at givet det samme beregningsbudget, selv-supervised pre-training på et kurateret datasæt af menneskebilleder betydeligt forbedrer præstationen for en divers samling af menneskecentrerede opgaver. De resulterende modeller viser bemærkelsesværdig generalisering til in-the-wild-data, selv når labeled data er sjældent eller helt syntetisk. Den simple model-design bringer også skalerbarhed – modelpræstationen over opgaver forbedres, når antallet af parametre skalerer fra 0,3 til 2 milliarder. Sapiens overgår konsekvent eksisterende baseline over forskellige menneskecentrerede benchmarks, opnående betydelige forbedringer over tidligere state-of-the-art-resultater: 7,6 mAP på Humans-5K (pose), 17,1 mIoU på Humans-2K (part-seg), 22,4% relativ RMSE på Hi4D (dybde) og 53,5% relativ vinkel-fejl på THuman2 (normal).

Sapiens: Gennembrud i Menneskelige Visionmodeller

De seneste år har set bemærkelsesværdige skridt mod generering af fotorealistiske mennesker i 2D og 3D. Succesen med disse metoder kan tilskrives den robuste estimation af forskellige aktiver, såsom 2D-nøglepunkter, fin-granuleret kropsdel-segmentering, dybde og overfladenormale. Men robust og præcis estimation af disse aktiver forbliver et aktivt forskningsområde, og komplicerede systemer til at forbedre præstationen for individuelle opgaver kan forhindre videre udbredelse. Desuden er det vanskeligt at opnå præcise grund-sandhed-annotationer in-the-wild. Sapiens’ mål er at give en samlet ramme og modeller til at slutte disse aktiver in-the-wild, låse op for en bred vifte af menneskecentrerede anvendelser for alle.

Sapiens argumenterer for, at sådanne menneskecentrerede modeller skal opfylde tre kriterier: generalisering, bred anvendelighed og høj trofasthed. Generalisering sikrer robusthed overfor usete betingelser, hvilket giver mulighed for, at modellen kan udføre konsekvent over forskellige miljøer. Bred anvendelighed indikerer modellens fleksibilitet, hvilket gør den egnet til en bred vifte af opgaver med minimale ændringer. Høj trofasthed angiver modellens evne til at producere præcise, højopløsnings-outputs, hvilket er afgørende for trofaste menneskegenereringsopgaver. Denne artikel detaljer udviklingen af modeller, der inkorporerer disse attributter, kollektivt kendt som Sapiens.

Følgende indsigt, Sapiens udnytter store datasæt og skalerbare modelarkitekturer, nøgle for generalisering. For bredere anvendelighed adopterer Sapiens pretrain-then-finetune-tilgangen, hvilket giver mulighed for post-pretraining-tilpasning til specifikke opgaver med minimale ændringer. Dette approach rejser en kritisk spørgsmål: Hvad type data er mest effektivt for pretraining? Givet beregningsbegrænsninger, skal fokus være på at samle så mange menneskebilleder som muligt, eller er det bedre at fortræne på et mindre kurateret datasæt for at bedre reflektere realverdenens variation? Eksisterende metoder overser ofte pretraining-datafordelingen i sammenhæng med downstream-opgaver. For at studere indflydelsen af pretraining-datafordeling på menneske-specifikke opgaver, samler Sapiens Humans-300M-datasættet, der indeholder 300 millioner diverse menneskebilleder. Disse ulabelde billeder bruges til at fortræne en familie af vision transformers fra scratch, med parameterantal fra 300M til 2 milliarder.

Blandt forskellige selv-supervision-metoder til at lære generelle visuelle funktioner fra store datasæt, vælger Sapiens masked-autoencoder (MAE)-tilgangen for dets enkelthed og effektivitet i pretraining. MAE, der har en enkelt-pass-inferensmodel i forhold til kontrastive eller multi-inferens-strategier, giver mulighed for at behandle en større mængde billeder med de samme beregningsressourcer. For højere trofasthed, i modsætning til tidligere metoder, øger Sapiens den native input-opløsning af sin pretraining til 1024 pixel, hvilket resulterer i en ca. 4× forøgelse af FLOPs i forhold til den største eksisterende vision-baggrund. Hver model er fortrænet på 1,2 billion token. For finjustering på menneskecentrerede opgaver, bruger Sapiens en konsekvent encoder-decoder-arkitektur. Encoderen initialiseres med vægte fra pretraining, mens decoderen, en letvægts- og opgave-specifik hoved, initialiseres tilfældigt. Begge komponenter finjusteres herefter end-to-end. Sapiens fokuserer på fire nøgle-opgaver: 2D-pose-estimation, kropsdel-segmentering, dybde- og normal-estimation, som demonstreres i følgende figur.

I overensstemmelse med tidligere studier, bekræfter Sapiens den kritiske indvirkning af labelkvalitet på modellens in-the-wild-præstation. Offentlige benchmarks indeholder ofte støjende labels, der giver inkonsistente supervisory-signaler under model-finjustering. Samtidig er det vigtigt at bruge fin-granulerede og præcise annotationer for at være i overensstemmelse med Sapiens’ primære mål om 3D-menneskedigitalisering. Til dette formål foreslår Sapiens en betydeligt tættere samling af 2D hele-krops-nøglepunkter til pose-estimation og en detaljeret klasse-vokabular for kropsdel-segmentering, der overgår omfanget af tidligere datasæt. Specifikt introducerer Sapiens en omfattende samling af 308 nøglepunkter, der omfatter kroppen, hænder, fødder, overflade og ansigt. Desuden udvider Sapiens segmenterings-klasse-vokabularet til 28 klasser, der dækker kropsdele såsom hår, tunge, tænder, øvre/lægre læbe og torso. For at garantere kvaliteten og konsistensen af annotationer og en høj grad af automation, bruger Sapiens en multi-view-capture-opstilling til at samle pose- og segmenterings-annotationer. Sapiens bruger også menneskecentreret syntetisk data til dybde- og normal-estimation, udnyttende 600 detaljerede scans fra RenderPeople til at generere højopløsnings-dybde-kort og overfladenormale. Sapiens demonstrerer, at kombinationen af domæne-specifik storstile pretraining med begrænsede, men høj-kvalitets-annotationer, fører til robust in-the-wild-generalisering. Overordnet set viser Sapiens’ metode en effektiv strategi for udvikling af højpræcise diskriminative modeller, der kan udføre i realverden-scenarier uden behov for at samle en kostbar og divers samling af annotationer.

Sapiens: Metode og Arkitektur

Sapiens følger masked-autoencoder (MAE)-tilgangen for pretraining. Modellen trænes til at genskabe det originale menneskebillede givet dets partielle observation. Ligesom alle autoencodere, har Sapiens’ model en encoder, der kortlægger det synlige billede til en latent repræsentation, og en decoder, der genskaber det originale billede fra denne latente repræsentation. Pretraining-datasættet består af både enkelt- og multi-menneskebilleder, hvor hvert billede er resizeret til en fast størrelse med en kvadratisk aspektforhold. Ligesom ViT, deles billedet op i regelmæssige, ikke-overlappende patches med en fast patch-størrelse. En undermængde af disse patches er tilfældigt valgt og maskeret, efterladende resten synlige. Forholdet mellem maskerede patches til synlige, kendt som maskeringsforholdet, forbliver fast under træning.

Sapiens’ modeller viser generalisering over en række billedkarakteristika, herunder skalaer, afkortninger, alder og etnicitet af subjekter og antallet af subjekter. Hver patch-token i modellen står for 0,02% af billedarealet i forhold til 0,4% i standard ViTs, en 16× reduktion – giver fin-granuleret inter-token-reasoning for modellerne. Selv med en øget maskeringsforhold på 95%, opnår Sapiens’ model en plausibel rekonstruktion af menneskeanatomi på holdt-ud-prøver. Rekonstruktionen af Sapien’s fortrænet model på usete menneskebilleder demonstreres i følgende billede.

Desuden udnytter Sapiens et stort proprietært datasæt for pretraining, der består af omkring 1 milliard in-the-wild-billeder, der fokuserer eksklusivt på menneskebilleder. Forarbejdningen indebærer at afvise billeder med vandmærker, tekst, kunstneriske fremstillinger eller unaturlige elementer. Sapiens bruger herefter en off-the-shelf person-bounding-box-detector til at filtrere billeder, der beholder billeder med en detections-score over 0,9 og en bounding-box-størrelse på over 300 pixel. Over 248 millioner billeder i datasættet indeholder multiple subjekter.

2D-Pose-Estimation

Sapien-rammen finjusterer encoderen og decoderen i P over multiple skeletter, herunder K = 17 [67], K = 133 [55] og en ny, højdetaljeret skelet, med K = 308, som vist i følgende figur.

I forhold til eksisterende formater med op til 68 ansigt-nøglepunkter, består Sapien’s annotationer af 243 ansigt-nøglepunkter, herunder repræsentative punkter omkring øjne, læber, næse og ører. Denne design er tilpasset til at fange de nuancerede detaljer af ansigtsudtryk i den virkelige verden. Med disse nøglepunkter har Sapien-rammen manuelt annoteret 1 million billeder i 4K-opløsning fra en indendørs capture-opstilling. Ligesom tidligere opgaver, sættes decoder-outputs-kanalerne for normal-estimatoren N til at være 3, svarende til xyz-komponenterne af normal-vektoren på hvert pixel. Den genererede syntetiske data bruges også som supervision til overfladenormal-estimation.

Sapien: Eksperiment og Resultater

Sapiens-2B er fortrænet ved hjælp af 1024 A100-GPU’er i 18 dage med PyTorch. Sapiens bruger AdamW-optimizeren til alle eksperimenter. Læringsplanen inkluderer en kortvarig lineær varme-op, efterfulgt af cosine-annealing til pretraining og lineær decay til finjustering. Alle modeller er fortrænet fra scratch i en opløsning på 1024 × 1024 med en patch-størrelse på 16. Til finjustering er input-billedet resizeret til en 4:3-forhold, dvs. 1024 × 768. Sapiens anvender standard-augmenteringer som afkortning, skaleringsforhold, flipping og fotometriske forvridninger. Et tilfældigt baggrundsbillede fra ikke-menneske-COCO-billeder tilføjes til segmenterings-, dybde- og normal-prædiction-opgaver. Vigtigt er, at Sapiens bruger differential-læringsrater til at bevare generalisering, med lavere læringsrater for de første lag og progressivt højere rater for efterfølgende lag. Lag-vis læringsrate-decay er sat til 0,85 med en vægt-decay på 0,1 for encoderen.

Designspecifikationerne for Sapiens er detaljeret i følgende tabel. Følgende en bestemt tilgang, prioriterer Sapiens skaleringsmodeller ved bredde snarere end dybde. Bemærkelsesværdigt er, at Sapiens-0,3B-modellen, selv om den er arkitektonisk lignende den traditionelle ViT-Large, består af tyve gange flere FLOPs på grund af dens højere opløsning.

Sapiens er finjusteret til ansigt-, krops-, fødder- og hånd- (K = 308) pose-estimation ved hjælp af høj-kvalitets-annotationer. Til træning bruges træningssættet med 1 million billeder, og til evaluering bruges test-sættet, der kaldes Humans5K, med 5.000 billeder. Evalueringen følger en top-down-tilgang, hvor Sapiens bruger en off-the-shelf-detector til bounding-box og udfører enkelt-menneske-pose-inferens. Tabel 3 viser en sammenligning af Sapiens-modeller med eksisterende metoder til hele-krops-pose-estimation. Alle metoder evalueres på 114 fælles nøglepunkter mellem Sapiens’ 308-nøglepunkts-vokabular og COCO-WholeBody’s 133-nøglepunkts-vokabular. Sapiens-0,6B overgår den nuværende state-of-the-art, DWPose-l, med +2,8 AP. I modsætning til DWPose, der bruger en kompleks elev-lærer-ramme med funktion-distillation tilpasset til opgaven, adopterer Sapiens en generel encoder-decoder-arkitektur med stor menneskecentreret pretraining.

Interessant er, at selv med det samme parameterantal, viser Sapiens-modellerne overlegen præstation i forhold til deres modstykke. For eksempel overgår Sapiens-0,3B VitPose+-L med +5,6 AP, og Sapiens-0,6B overgår VitPose+-H med +7,9 AP. Inden for Sapiens-familien viser resultaterne en direkte korrelation mellem modelstørrelse og præstation. Sapiens-2B sætter en ny state-of-the-art med 61,1 AP, en betydelig forbedring på +7,6 AP i forhold til tidligere state-of-the-art. Selv om finjusteret med annotationer fra en indendørs capture-studio, viser Sapiens robust generalisering til realverden-scenarier, som vist i følgende figur.

Sapiens er finjusteret og evalueret med et segmenterings-vokabular på 28 klasser. Træningssættet består af 100.000 billeder, mens test-sættet, Humans-2K, består af 2.000 billeder. Sapiens sammenlignes med eksisterende kropsdel-segmenteringsmetoder, der er finjusteret på det samme træningssæt, ved hjælp af de foreslåede fortrænede checkpoints fra hver metode som initialisering. Ligesom pose-estimation viser Sapiens generalisering i segmentering, som demonstreres i følgende tabel.

Interessant er, at den mindste model, Sapiens-0,3B, overgår eksisterende state-of-the-art-segmenteringsmetoder som Mask2Former og DeepLabV3+ med 12,6 mIoU på grund af dens højere opløsning og stor menneskecentreret pretraining. Desuden forbedrer øgning af modelstørrelsen yderligere segmenteringspræstationen. Sapiens-2B opnår den bedste præstation med 81,2 mIoU og 89,4 mAcc på test-sættet, som vist i følgende figur.

Konklusion

Sapiens repræsenterer et betydeligt skridt mod at fremme menneskecentrerede vision-modeller til at blive grundlæggende modeller. Sapiens-modellerne viser stærke generaliserings-evner over en række menneskecentrerede opgaver. State-of-the-art-præstationen tilskrives: (i) storstile pretraining på et kurateret datasæt specifikt tilpasset til at forstå mennesker, (ii) skaleret højopløsning og højkapacitets vision-transformer-baggrunde og (iii) høj-kvalitets-annotationer på forstærket studio- og syntetisk data. Sapiens-modellerne har potentialet til at blive en nøgle-byggesten for en bred vifte af downstream-opgaver og giver adgang til høj-kvalitets vision-baggrunde til en betydeligt større del af fællesskabet.

Kunal Kejriwal

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.