Mesterséges intelligencia
Sapiens: Emberi Látásmodellek Alapítványa

A nagy léptékű előképzés figyelemre méltó sikere, amelyet a nyelvi modellezés feladat-specifikus finomhangolása követ, ezt a megközelítést általános gyakorlattá tette. Hasonlóképpen, számítógépes látás a módszerek fokozatosan kiterjedt adatskálákat ölelnek fel az előképzéshez. A nagy adatkészletek, mint például a LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome és YFCC100M megjelenése lehetővé tette egy olyan adatkorpusz feltárását, amely jóval meghaladja a hagyományos benchmarkok hatókörét. Ebben a tartományban a kiemelkedő munkák közé tartozik a DINOv2, a MAWS és az AIM. A DINOv2 a legmodernebb teljesítményt éri el az önfelügyelt szolgáltatások létrehozásában az LDV-142M adatkészlet kontrasztív iBot módszerének skálázásával. A MAWS a maszkolt autokódolók (MAE) skálázását tanulmányozza milliárd képen. Az AIM feltárja az autoregresszív vizuális előképzés skálázhatóságát, hasonlóan a BERT-hez a látástranszformátorok esetében. Ellentétben ezekkel a módszerekkel, amelyek főként az általános kép-előképzésre vagy a zero-shot képosztályozásra összpontosítanak, a Sapiens kifejezetten emberközpontú megközelítést alkalmaz: a Sapiens modelljei emberi képek hatalmas gyűjteményét használják fel az előképzéshez, majd finomhangoláshoz számos képhez. emberrel kapcsolatos feladatokat. A nagyszabású 3D-s emberi digitalizálásra való törekvés továbbra is kulcsfontosságú cél a számítógépes látásban.
Jelentős előrelépés történt az ellenőrzött vagy stúdiókörnyezetekben, de továbbra is kihívások vannak ezen módszerek korlátozás nélküli környezetekre való kiterjesztésében. E kihívások kezeléséhez kulcsfontosságú olyan sokoldalú modellek kidolgozása, amelyek több alapvető feladatra képesek, mint például a kulcspontbecslés, a testrész-szegmentálás, a mélységbecslés és a természetes környezetben készült képekből a felszíni normál előrejelzés. Ebben a munkában a Sapiens célja, hogy modelleket fejlesszen ki ezekhez az alapvető emberi látási feladatokhoz, amelyek a vadon élő környezetre általánosíthatók. Jelenleg a legnagyobb nyilvánosan elérhető nyelvi modellek 100 milliárd, míg a gyakrabban használt nyelvi modellek körülbelül 7 milliárd paramétert tartalmaznak. Ezzel szemben a Vision Transformers (ViT) hasonló architektúrájának ellenére nem skálázódott ilyen mértékben sikeresen. Noha figyelemre méltó erőfeszítések vannak ebben az irányban, beleértve a szövegre és képekre egyaránt betanított sűrű ViT-4B kifejlesztését, valamint a ViT-22B stabil képzésére szolgáló technikák kidolgozását, az általánosan használt látógerincek még mindig 300 és 600 millió között mozognak. paraméterek, és elsősorban körülbelül 224 pixeles képfelbontásra vannak előképezve. Hasonlóképpen, a meglévő transzformátor-alapú képgeneráló modellek, mint például a DiT, kevesebb mint 700 millió paramétert használnak, és erősen tömörített látens térben működnek. Ennek a hiányosságnak a pótlására a Sapiens nagyméretű, nagy felbontású ViT-modellek gyűjteményét vezeti be, amelyek natív módon 1024 pixeles képfelbontásra vannak előkészítve több millió emberi képen.
A Sapiens modellcsaládot mutat be négy alapvető, emberközpontú látásfeladathoz: 2D pózbecslés, testrész-szegmentálás, mélységbecslés és felszíni normális előrejelzés. A Sapiens modellek natívan támogatják az 1K nagyfelbontású következtetést, és rendkívül könnyen adaptálhatók az egyes feladatokhoz a több mint 300 millió vadon élő emberi képre előképzett modellek egyszerű finomhangolásával. A Sapiens megjegyzi, hogy azonos számítási költségvetés mellett az emberi képek összegyűjtött adathalmazának önfelügyelt előképzése jelentősen megnöveli a teljesítményt az emberközpontú feladatok sokfélesége esetén. Az eredményül kapott modellek figyelemre méltó általánosítást mutatnak a vadon élő adatokra vonatkozóan, még akkor is, ha a címkézett adatok ritkák vagy teljesen szintetikusak. Az egyszerű modelltervezés skálázhatóságot is biztosít – a modell teljesítménye a feladatok között javul, ahogy a paraméterek száma 0.3-ról 2 milliárdra skálázódik. A Sapiens folyamatosan felülmúlja a meglévő kiindulási értékeket a különböző emberközpontú benchmarkok között, jelentős javulást érve el a korábbi legkorszerűbb eredményekhez képest: 7.6 mAP a Humans-5K-n (póz), 17.1 millió IoU a Humans-2K-n (részszegmens), 22.4% relatív RMSE a Hi4D-n (mélység), és 53.5%-os relatív szöghiba a THuman2-n (normál).
Sapiens: Áttörés az emberi látásmodellek terén
Az elmúlt években figyelemreméltó lépések történtek a fotorealisztikus ember 2D és 3D létrehozása felé. Ezeknek a módszereknek a sikere nagymértékben a különféle eszközök, például a 2D kulcspontok, a finomszemcsés testrész-szegmentáció, a mélység és a felületi normálértékek robusztus becslésének köszönhető. Mindazonáltal ezeknek az eszközöknek a robusztus és pontos becslése továbbra is aktív kutatási terület, és az egyes feladatok teljesítményét növelő bonyolult rendszerek gyakran akadályozzák a szélesebb körű alkalmazást. Ezen túlmenően, a vadonban pontos alapigazság-annotáció beszerzése köztudottan nehezen skálázható. A Sapiens célja, hogy egységes keretrendszert és modelleket biztosítson ezeknek az eszközöknek a vadonban való következtetéséhez, és mindenki számára emberközpontú alkalmazások széles skáláját kínálja.
A Sapiens érvelése szerint az ilyen emberközpontú modelleknek három kritériumnak kell megfelelniük: az általánosításnak, a széles körű alkalmazhatóságnak és a nagy pontosságnak. Az általánosítás robusztusságot biztosít a nem látott körülmények között, lehetővé téve a modellnek, hogy konzisztensen működjön változatos környezetekben. A széleskörű alkalmazhatóság a modell sokoldalúságát jelzi, így minimális módosításokkal sokféle feladatra alkalmas. A nagy pontosság azt jelzi, hogy a modell képes precíz, nagy felbontású kimeneteket produkálni, ami elengedhetetlen a hűséges emberi generációs feladatokhoz. Ez a cikk részletezi az ezeket az attribútumokat megtestesítő modellek kidolgozását, amelyeket együttesen Sapiensnek neveznek.
A betekintést követően a Sapiens nagy adatkészleteket és méretezhető modellarchitektúrákat használ, amelyek kulcsfontosságúak az általánosításhoz. A szélesebb körű alkalmazhatóság érdekében a Sapiens az edzés előtti, majd finomhangolás módszert alkalmazza, amely lehetővé teszi az edzés utáni alkalmazkodást a konkrét feladatokhoz minimális módosításokkal. Ez a megközelítés felvet egy kritikus kérdést: Milyen típusú adatok a leghatékonyabbak az előképzéshez? Tekintettel a számítási korlátokra, a lehető legtöbb emberi kép összegyűjtésére kell helyezni a hangsúlyt, vagy inkább egy kevésbé gondozott halmazra kell előképezni, hogy jobban tükrözze a valós világ változékonyságát? A meglévő módszerek gyakran figyelmen kívül hagyják a képzés előtti adatelosztást a downstream feladatok kontextusában. A képzés előtti adateloszlás emberspecifikus feladatokra gyakorolt hatásának tanulmányozására a Sapiens összegyűjti a Humans-300M adatkészletet, amely 300 millió különböző emberi képet tartalmaz. Ezekkel a címkézetlen képekkel a látástranszformátorok családját a semmiből előtanítják, a paraméterek száma 300 milliótól 2 milliárdig terjed.
Az általános célú vizuális funkciók nagy adathalmazokból való tanulására szolgáló különféle önfelügyeleti módszerek közül a Sapiens a maszkolt-autoencoder (MAE) megközelítés egyszerűsége és hatékonysága az előképzésben. A MAE egymenetes következtetési modellel rendelkezik a kontrasztív vagy több következtetéses stratégiákhoz képest, és lehetővé teszi nagyobb mennyiségű kép feldolgozását azonos számítási erőforrásokkal. A nagyobb pontosság érdekében a korábbi módszerekkel ellentétben a Sapiens 1024 pixelre növeli az előképzés natív bemeneti felbontását, ami körülbelül 4-szeresére növeli a FLOP-okat a legnagyobb meglévő látási gerinchez képest. Mindegyik modell 1.2 billió tokenre van előképzett. Az emberközpontú feladatok finomhangolásához a Sapiens konzisztens kódoló-dekódoló architektúrát használ. A kódoló inicializálása az előképzésből származó súlyokkal, míg a dekóder, egy könnyű és feladatspecifikus fej, véletlenszerűen inicializálódik. Ezután mindkét komponenst végponttól végpontig finomhangolják. A Sapiens négy kulcsfontosságú feladatra összpontosít: 2D pózbecslés, testrész-szegmentálás, mélység és normál becslés, amint azt a következő ábra mutatja.
A korábbi tanulmányokkal összhangban a Sapiens megerősíti, hogy a címke minősége kritikus hatással van a modell vad teljesítményére. A nyilvános benchmarkok gyakran tartalmaznak zajos címkéket, amelyek következetlen felügyeleti jeleket adnak a modell finomhangolása során. Ugyanakkor fontos, hogy finom szemcsés és pontos megjegyzéseket használjunk, hogy azok szorosan illeszkedjenek a Sapiens elsődleges céljához, a 3D-s emberi digitalizáláshoz. Ebből a célból a Sapiens lényegesen sűrűbb 2D-s teljes test kulcspontokat javasol a pózbecsléshez, valamint egy részletes osztályszókincset a testrészek szegmentálásához, felülmúlva a korábbi adatkészletek hatókörét. A Sapiens 308 kulcspontból álló átfogó gyűjteményt mutat be, amelyek magukban foglalják a testet, a kezeket, a lábakat, a felületet és az arcot. Ezenkívül a Sapiens 28 osztályra bővíti a szegmentálási osztály szókincsét, lefedve az olyan testrészeket, mint a haj, a nyelv, a fogak, a felső/alsó ajak és a törzs. A megjegyzések minőségének és konzisztenciájának, valamint a magas fokú automatizálásnak garantálása érdekében a Sapiens többnézetű rögzítési beállítást használ a póz- és szegmentációs megjegyzések gyűjtésére. A Sapiens emberközpontú szintetikus adatokat is felhasznál a mélység- és normálbecsléshez, és a RenderPeople 600 részletes vizsgálatát használja fel, hogy nagy felbontású mélységtérképeket és felszíni normálértékeket állítson elő. A Sapiens bebizonyítja, hogy a tartomány-specifikus, nagy léptékű előképzés és a korlátozott, mégis jó minőségű annotációk kombinációja robusztus in-the-wild általánosításhoz vezet. Összességében a Sapiens módszere hatékony stratégiát mutat a rendkívül precíz diszkriminatív modellek kidolgozására, amelyek képesek a valós forgatókönyvekben teljesíteni anélkül, hogy költséges és változatos annotációkat kellene összegyűjteni.
Sapiens: Módszer és építészet
A Sapiens a maszkolt autoencoder (MAE) megközelítést követi az előképzésben. A modellt arra tanítják, hogy rekonstruálja az eredeti emberi képet a részleges megfigyelése alapján. Mint minden automatikus kódoló, a Sapiens modellje is rendelkezik egy kódolóval, amely a látható képet látens reprezentációra képezi le, és egy dekódolót, amely ebből a látens reprezentációból rekonstruálja az eredeti képet. Az előképzési adatkészlet egyetlen és több emberből álló képekből is áll, és mindegyik képet rögzített méretűre, négyzetes képaránnyal méretezték át. Hasonló a ViT, a kép szabályos, nem átfedő foltokra van osztva, rögzített foltmérettel. A javítások egy részhalmazát véletlenszerűen választja ki és maszkolja, a többi látható marad. A maszkolt foltok és a látható foltok aránya, az úgynevezett maszkolási arány, az edzés során rögzített marad.
A Sapiens modelljei általánosítást mutatnak számos képjellemzőben, beleértve a méreteket, a termést, az alanyok korát és etnikai hovatartozását, valamint az alanyok számát. A modellben minden egyes patch token a képterület 0.02%-át teszi ki, szemben a szabványos ViT-k 0.4%-ával, ami 16-szoros csökkentés – ez finom szemcsés inter-token-okfejtést biztosít a modellek számára. A Sapiens modellje még a 95%-os megnövelt maszkarány mellett is megvalósítja az emberi anatómia elfogadható rekonstrukcióját kinyújtott mintákon. A Sapien előre betanított modelljének rekonstrukcióját láthatatlan emberi képeken a következő kép mutatja be.
Ezenkívül a Sapiens egy nagy, szabadalmaztatott adatkészletet használ az előképzéshez, amely körülbelül 1 milliárd szabadban lévő képből áll, és kizárólag az emberi képekre fókuszál. Az előfeldolgozás során el kell dobni a vízjeleket, szöveget, művészi ábrázolásokat vagy természetellenes elemeket tartalmazó képeket. A Sapiens ezután egy készen kapható személyi határolódoboz-detektort használ a képek szűrésére, megtartva azokat, amelyek észlelési pontszáma meghaladja a 0.9-et, és a határolókeret mérete meghaladja a 300 pixelt. Az adatkészletben található több mint 248 millió kép több tárgyat tartalmaz.
2D pózbecslés
A Sapien keretrendszer finomhangolja a kódolót és a dekódert P-ben több vázon keresztül, beleértve a K = 17 [67], K = 133 [55] és egy új, nagyon részletes vázat, K = 308-cal, amint az a következő ábrán látható.
A meglévő, legfeljebb 68 kulcsfontosságú arcpontot tartalmazó formátumokhoz képest a Sapien megjegyzései 243 kulcsfontosságú arcpontból állnak, beleértve a szemek, az ajkak, az orr és a fülek körüli reprezentatív pontokat. Ezt a kialakítást úgy alakították ki, hogy aprólékosan megragadja az arckifejezések árnyalatnyi részleteit a való világban. Ezekkel a kulcsfontosságú pontokkal a Sapien-keretrendszer manuálisan 1 millió képhez fűzött megjegyzéseket 4K felbontásban egy beltéri rögzítési beállításból. Az előző feladatokhoz hasonlóan az N normálbecslő dekódoló kimeneti csatornáit 3-ra állítottuk, ami megfelel a normálvektor xyz komponenseinek minden pixelnél. A generált szintetikus adatokat felügyeletként is használják a felületi normál becsléshez.
Sapien: Kísérlet és eredmények
A Sapiens-2B előképzettsége 1024 A100 GPU-val történik 18 napig PyTorch segítségével. A Sapiens minden kísérlethez az AdamW optimalizálót használja. A tanulási ütemterv tartalmaz egy rövid lineáris bemelegítést, majd koszinuszos lágyítást az előképzéshez és lineáris lecsengést a finomhangoláshoz. Az összes modellt a semmiből előtanítják 1024 × 1024-es felbontással, 16-os foltmérettel. A finomhangoláshoz a bemeneti képet 4:3 arányra, azaz 1024 × 768-ra méretezzük át. A Sapiens szabványos kiegészítéseket alkalmaz, mint például a vágás, a méretezés, tükrözés és fotometriai torzítások. A nem emberi COCO-képekből véletlenszerű hátteret adunk hozzá a szegmentálási, mélységi és normál előrejelzési feladatokhoz. Fontos, hogy a Sapiens differenciált tanulási arányokat használ az általánosítás megőrzése érdekében, alacsonyabb tanulási rátával a kezdeti rétegeknél, és fokozatosan magasabb a következő rétegeknél. A rétegenkénti tanulási sebesség csökkenése 0.85-re van beállítva, a kódoló súlycsökkenése pedig 0.1.
A Sapiens tervezési specifikációit az alábbi táblázat részletezi. Egy adott megközelítést követve a Sapiens a szélesség helyett a mélység szerint helyezi előtérbe a modellek méretezését. Figyelemre méltó, hogy a Sapiens-0.3B modell, bár építészetileg hasonló a hagyományos ViT-Large-hoz, hússzor több FLOP-ból áll a nagyobb felbontás miatt.
A Sapiens az arc, a test, a láb és a kéz (K = 308) pózbecslésére van finomhangolva, nagy pontosságú megjegyzésekkel. Az edzéshez a Sapiens az 1M képekkel ellátott vonatkészletet, az értékeléshez pedig a Humans5K nevű tesztkészletet használja 5K képekkel. Az értékelés felülről lefelé irányuló megközelítést követ, ahol a Sapiens egy készen kapható detektort használ a dobozok lehatárolásához, és egyetlen emberi pózra következtetést von le. A 3. táblázat a Sapiens modellek összehasonlítását mutatja a teljes test pózbecslésére szolgáló meglévő módszerekkel. Valamennyi módszert a Sapiens 114 kulcspontos szókészlete és a COCO-WholeBody 308 kulcspontos szókincse közötti 133 közös kulcsponton értékelik. A Sapiens-0.6B +2.8 AP-vel felülmúlja a jelenlegi legmodernebb DWPose-l-t. A DWPose-tól eltérően, amely egy komplex diák-tanár keretrendszert használ a feladatra szabott jellemzők lepárlásával, a Sapiens egy általános kódoló-dekódoló architektúrát alkalmaz nagy, emberközpontú előképzéssel.
Érdekes módon a Sapiens modellek még azonos paraméterszám mellett is jobb teljesítményt mutatnak társaikhoz képest. Például a Sapiens-0.3B +5.6 AP-vel meghaladja a VitPose+-L-t, a Sapiens-0.6B pedig +7.9 AP-vel meghaladja a VitPose+-H-t. A Sapiens családon belül az eredmények közvetlen összefüggést jeleznek a modell mérete és a teljesítmény között. A Sapiens-2B új csúcstechnológiát állít fel 61.1 AP-vel, ami jelentős, +7.6 AP-s javulás a korábbi technikához képest. A beltéri rögzítőstúdió megjegyzéseivel végzett finomhangolás ellenére a Sapiens robusztus általánosítást mutat a valós forgatókönyvekre, amint az a következő ábrán látható.
A Sapiens finomhangolása és értékelése 28 osztályból álló szegmentációs szókincs segítségével történik. A vonatkészlet 100K képből, míg a Humans-2K tesztkészlet 2K képből áll. A Sapienst összehasonlítják a meglévő, ugyanazon a vonatkészleten finomhangolt testrész-szegmentációs módszerekkel, inicializálásként az egyes módszerek által javasolt előképzett ellenőrzőpontokat használva. A pózbecsléshez hasonlóan a Sapiens is általánosítást mutat a szegmentációban, amint azt a következő táblázat mutatja.
Érdekes módon a legkisebb modell, a Sapiens-0.3B, nagyobb felbontásának és nagy, emberközpontú előképzésének köszönhetően 2 millió forinttal felülmúlja a létező legmodernebb szegmentációs módszereket, mint például a Mask3Former és a DeepLabV12.6+. Ezenkívül a modell méretének növelése tovább javítja a szegmentálási teljesítményt. A legjobb teljesítményt a Sapiens-2B éri el, 81.2 mIoU-val és 89.4 mAcc-val a tesztkészleten, a következő ábra a Sapiens modellek minőségi eredményeit mutatja.
Következtetés
A Sapiens jelentős lépést jelent afelé, hogy az emberközpontú látásmodelleket az alapmodellek birodalmába tegyék. A Sapiens modellek erős általánosítási képességet mutatnak számos emberközpontú feladatban. A csúcstechnológiás teljesítmény a következőknek tulajdonítható: (i) nagyszabású előképzés egy kurált adatkészleten, amelyet kifejezetten az emberek megértésére szabtak, (ii) skálázott nagy felbontású és nagy kapacitású látótranszformátor gerinchálózat -minőségi megjegyzések bővített stúdió- és szintetikus adatokon. A Sapiens modellek potenciálisan kulcsfontosságú építőelemekké válhatnak számos downstream feladathoz, és a közösség lényegesen szélesebb része számára biztosítanak hozzáférést a jó minőségű látás gerincéhez.