Штучний інтелект

Sapiens: Фундамент для моделей людського бачення

Published September 9, 2024

Updated April 3, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

Помітний успіх великомасштабної попередньої підготовки, за якою слідує підготовка для конкретних завдань для моделей мови, встановив цей підхід як стандартну практику. Аналогічно, методи комп’ютерного бачення все більше приймають великомасштабні дані для попередньої підготовки. Поява великих наборів даних, таких як LAION5B, Instagram-3.5B, JFT-300M, LVD142M, Visual Genome та YFCC100M, дозволила дослідити корпус даних, який значно перевищує традиційні бенчмарки. Видатні роботи в цій області включають DINOv2, MAWS та AIM. DINOv2 досягає найкращих результатів у генерації само-наглядових ознак шляхом масштабування контрастного методу iBot на наборі даних LDV-142M. MAWS вивчає масштабування маскових автоенкодерів (MAE) на мільярдах зображень. AIM досліджує масштабованість автoregresивної візуальної попередньої підготовки, аналогічної до BERT для трансформерів бачення. На відміну від цих методів, які в основному зосереджені на загальній попередній підготовці зображень або нульовій класифікації зображень, Sapiens приймає явно людсько-орієнтований підхід: моделі Sapiens використовують величезну колекцію людських зображень для попередньої підготовки, а потім налаштовуються для ряду завдань, пов’язаних з людиною. Погоня за великомасштабною 3D цифровізацією людини залишається ключовою метою в області комп’ютерного бачення.

Значний прогрес був зроблений у контрольованих або студійних середовищах, однак залишаються виклики при розширенні цих методів до необмежених середовищ. Для вирішення цих викликів розробка універсальних моделей, здатних виконувати кілька фундаментальних завдань, таких як оцінка ключових точок, сегментація частин тіла, оцінка глибини та передбачення поверхневої нормалі з зображень у природних умовах, є важливою. У цій роботі Sapiens спрямована на розробку моделей для цих основних завдань людського бачення, які узагальнюються до умов у дикій природі. Наразі найбільші публічно доступні моделі мови містять понад 100 млрд параметрів, тоді як більш часто використовувані моделі мови містять близько 7 млрд параметрів. Натомість, Трансформери бачення (ViT), незважаючи на те, що мають подібну архітектуру, не були масштабовані до цієї міри успішно. Хоча є помітні спроби в цьому напрямку, включаючи розробку густого ViT-4B, навченого на тексті та зображеннях, та формулювання технік для стабільної підготовки ViT-22B, загальновживані зображувальні основи все ще знаходяться в діапазоні від 300 млн до 600 млн параметрів і в основному попередньо навчаються на зображеннях з роздільною здатністю близько 224 пікселів. Аналогічно, існуючі трансформер-орієнтовані моделі генерації зображень, такі як DiT, використовують менше 700 млн параметрів і працюють у високому стисненому латентному просторі. Для вирішення цього розриву Sapiens вводить колекцію великих, високороздільних моделей ViT, які попередньо навчаються нативно на зображеннях з роздільною здатністю 1024 пікселів на мільйонах людських зображень.

Sapiens представляє сімейство моделей для чотирьох фундаментальних завдань людського бачення: оцінка 2D-пози, сегментація частин тіла, оцінка глибини та передбачення поверхневої нормалі. Моделі Sapiens нативно підтримують висновок високої роздільної здатності 1K і дуже легко адаптуються для окремих завдань шляхом простого налаштування моделей, попередньо навчених на понад 300 млн зображень людини у дикій природі. Sapiens спостерігає, що, дано те саме обчислювальне бюджет, само-наглядова попередня підготовка на кураторському наборі людських зображень суттєво підвищує продуктивність для різноманітного набору завдань, пов’язаних з людиною. Результатом є моделі, які демонструють помітну узагальненість до даних у дикій природі, навіть коли дані з мітками рідкі або повністю синтетичні. Проста конструкція моделі також забезпечує масштабованість – продуктивність моделі по завданням покращується при збільшенні кількості параметрів з 0,3 до 2 млрд. Sapiens постійно перевершує існуючі бенчмарки по різним завданням, пов’язаним з людиною, досягнувши суттєвих поліпшень порівняно з попередніми результатами: 7,6 mAP на Humans-5K (пози), 17,1 mIoU на Humans-2K (сегментація частин тіла), 22,4% відносної RMSE на Hi4D (глибина) та 53,5% відносної кутової похибки на THuman2 (нормаль).

Sapiens : Прорив у моделях людського бачення

Останні роки відзначились помітними кроками до генерації фотореалістичних людей у 2D та 3D. Успіх цих методів значною мірою завдячує надійній оцінці різних активів, таких як 2D ключові точки, детальна сегментація частин тіла, глибина та поверхнева нормаль. Однак надійна та точна оцінка цих активів залишається активною областю дослідження, а складні системи для підвищення продуктивності окремих завдань часто перешкоджають ширшому прийняттю. Крім того, отримання точних анотацій у дикій природі є відомо важким для масштабування. Метою Sapiens є надання уніфікованої рамки та моделей для висновку цих активів у дикій природі, відкриваючи широкий спектр застосунків, пов’язаних з людиною, для всіх.

Sapiens стверджує, що такі людсько-орієнтовані моделі повинні задовольняти трьом критеріям: узагальненість, широке застосування та висока точність. Узагальненість забезпечує стійкість до невидимих умов, дозволяючи моделі працювати послідовно у різних середовищах. Широке застосування вказує на універсальність моделі, роблячи її придатною для широкого спектра завдань з мінімальними модифікаціями. Висока точність позначає здатність моделі генерувати точні, високороздільні виходи, що є важливими для завдань генерації людей. Ця робота деталізує розробку моделей, які втілюють ці атрибути, колективно відомі як Sapiens.

Відповідно до цих ідей, Sapiens використовує великі набори даних та масштабовані архітектури моделей, які є важливими для узагальнення. Для ширшого застосування Sapiens приймає підхід “попередня підготовка, а потім налаштування”, що дозволяє після попередньої підготовки адаптуватися до конкретних завдань з мінімальними коригуваннями. Це підхід викликає критичне питання: який тип даних є найбільш ефективним для попередньої підготовки? Враховуючи обчислювальні обмеження, чи слід акцентувати увагу на зборі якомога більшої кількості людських зображень, або краще попередньо навчити на менш кураторському наборі для кращого відображення реальної різноманітності? Існуючі методи часто ігнорують розподіл даних попередньої підготовки в контексті завдань після підготовки. Для вивчення впливу розподілу даних попередньої підготовки на завдання, пов’язані з людиною, Sapiens збирає набір даних Humans-300M, що містить 300 млн різноманітних людських зображень. Ці необроблені зображення використовуються для попередньої підготовки сімейства трансформерів бачення з нуля, з кількістю параметрів від 300 млн до 2 млрд.

Серед різних методів само-нагляду для навчання загальних візуальних ознак з великих наборів даних, Sapiens обирає підхід масковий автоенкодер (MAE) за його простоту та ефективність у попередній підготовці. MAE, маючи модель висновку в одному проході порівняно з контрастивними або багаторазовими стратегіями, дозволяє обробляти більший обсяг зображень за ті самі обчислювальні ресурси. Для вищої точності, на відміну від попередніх методів, Sapiens збільшує вхідну роздільну здатність попередньої підготовки до 1024 пікселів, що призводить до приблизно 4-кратного збільшення FLOPs порівняно з найбільшим існуючим зображувальним основою. Кожна модель попередньо навчається на 1,2 трлн токенів. Для налаштування на завдання, пов’язані з людиною, Sapiens використовує послідовну архітектуру кодувача-дешифрувача. Кодувач ініціалізується вагами з попередньої підготовки, тоді як декодувач, легкий та завдань-специфічний голова, ініціалізується випадково. Обидві компоненти потім налаштовуються повністю. Sapiens зосереджується на чотирьох ключових завданнях: оцінці 2D-пози, сегментації частин тіла, глибині та нормалі, як показано на наступному зображенні.

Сумісно з попередніми дослідженнями, Sapiens підтверджує критичний вплив якості міток на продуктивність моделі у дикій природі. Публічні бенчмарки часто містять шумові мітки, забезпечуючи несумісні сигнали нагляду під час налаштування моделі. Водночас важливо використовувати тонкі та точні анотації для близького збігу з основною метою Sapiens – 3D цифровізацією людини. Для цього Sapiens пропонує суттєво густіший набір 2D ключових точок для оцінки пози та детальну лексику класів для сегментації частин тіла, перевершуючи масштаб попередніх наборів даних. Зокрема, Sapiens вводить комплексний набір з 308 ключових точок, що охоплюють тіло, руки, ноги, поверхню та обличчя. Крім того, Sapiens розширює лексику класів сегментації до 28 класів, покриваючи частини тіла, такі як волосся, язик, зуби, верхня/нижня губа та тулуб. Для забезпечення якості та узгодженості анотацій та високого ступеня автоматизації Sapiens використовує багатогранний набір для збору анотацій пози та сегментації. Sapiens також використовує людсько-орієнтовані синтетичні дані для оцінки глибини та нормалі, використовуючи 600 детальних сканів з RenderPeople для генерації високороздільних карт глибини та поверхневих нормалей. Sapiens демонструє, що поєднання великомасштабної попередньої підготовки з обмеженими, але високоякісними анотаціями, веде до стійкої узагальнення у дикій природі. Загалом, метод Sapiens показує ефективну стратегію для розробки високоточних дискримінативних моделей, здатних працювати у реальних сценаріях без потреби у зборі дорогого та різноманітного набору анотацій.

Sapiens : Метод та Архітектура

Sapiens слідує підходу масковий автоенкодер (MAE) для попередньої підготовки. Модель навчається для реконструкції оригінального людського зображення, даної його часткової спостереження. Як і всі автоенкодери, модель Sapiens має кодувач, який відображає видиме зображення у латентне подання, та декодувач, який реконструює оригінальне зображення з цього латентного подання. Набір даних попередньої підготовки складається як з окремих, так і з багатолюдних зображень, з кожним зображенням, зміненим до фіксованого розміру з квадратним співвідношенням сторін. Аналогічно ViT, зображення розділяється на регулярні не перекриваються патчі з фіксованим розміром патчу. Підмножина цих патчів випадково вибирається та маскується, залишаючи інші видимими. Відношення маскованих патчів до видимих, відоме як масковий співвідношення, залишається постійним протягом навчання.

Моделі Sapiens демонструють узагальнення по різноманітним характеристикам зображень, включаючи масштаби, обрізання, вік та етнічну приналежність суб’єктів, а також кількість суб’єктів. Кожна патч-токена у моделі відповідає за 0,02% площі зображення порівняно з 0,4% у стандартних ViT, що забезпечує тонке міжтокенне міркування для моделей. Навіть з підвищеним співвідношенням маскування 95%, модель Sapiens досягає правдоподібної реконструкції людської анатомії на триманих зображеннях. Реконструкція попередньо навченої моделі Sapiens на невидимих людських зображеннях демонструється на наступному зображенні.

Крім того, Sapiens використовує великий приватний набір даних для попередньої підготовки, що складається приблизно з 1 млрд зображень у дикій природі, зосереджуючись виключно на людських зображеннях. Передобробка включає в себе видалення зображень з водяними знаками, текстом, художніми зображеннями або нереалістичними елементами. Sapiens потім використовує готовий детектор обмежувальних рамок особи для фільтрації зображень, зберігаючи ті, які мають балл детектора понад 0,9 та розміри обмежувальної рамки понад 300 пікселів. Більше 248 млн зображень у наборі даних містять кілька суб’єктів.

Оцінка 2D-пози

Фреймворк Sapien налаштовує кодувач та декодувач у P по декількох скелетах, включаючи K = 17 [67], K = 133 [55] та новий високодеталізований скелет, з K = 308, як показано на наступному зображенні.

Порівняно з існуючими форматами з не більш ніж 68 ключовими точками обличчя, анотації Sapiens складаються з 243 ключових точок обличчя, включаючи представницькі точки навколо очей, губ, носа та вух. Цей дизайн призначений для того, щоб точно захопити нюанси виразів обличчя у реальному світі. З цими ключовими точками фреймворк Sapiens ручним чином анотував 1 млн зображень на роздільній здатності 4K з внутрішнього набору даних. Аналогічно попереднім завданням, ми встановили кількість каналів виводу декодувача оцінювача нормалі N на 3, що відповідає компонентам xyz вектора нормалі в кожній точці. Генерований синтетичний набір даних також використовується як нагляд для оцінювання поверхневої нормалі.

Sapien : Експеримент та Результати

Sapiens-2B попередньо навчається за допомогою 1024 процесорів A100 протягом 18 днів з PyTorch. Sapiens використовує оптимізатор AdamW для всіх експериментів. Графік навчання включає коротке лінійне розігрівання, за яким слідує косинусне анікування для попередньої підготовки та лінійне зниження для налаштування. Всі моделі попередньо навчаються з нуля на роздільній здатності 1024 × 1024 з розміром патчу 16. Для налаштування вхідне зображення змінюється до співвідношення сторін 4:3, тобто 1024 × 768. Sapiens застосовує стандартні збільшення, такі як обрізання, масштабування, переворот та фотометричні спотворення. Випадковий фон з не людських зображень COCO додається для завдань сегментації, глибини та нормалі. Що важливо, Sapiens використовує диференційне навчання для збереження узагальнення, з нижчими швидкостями навчання для початкових шарів та поступово вищими швидкостями для наступних шарів. Шаровий спад швидкості навчання встановлюється на 0,85 з ваговим спадом 0,1 для кодувача.

Специфікації дизайну Sapiens деталізуються в наступній таблиці. Слідуючи певному підходу, Sapiens пріоритезує масштабування моделей по ширині, а не глибиною. Відзначимо, що модель Sapiens-0,3B, хоча й архітектурно схожа на традиційний ViT-Large, складається з двадцятикратного більшого кількості FLOPs через вищу роздільну здатність.

Sapiens налаштовується для оцінки пози обличчя, тіла, ніг та рук (K = 308) за допомогою високоякісних анотацій. Для навчання Sapiens використовує тренувальний набір з 1 млн зображень, а для оцінювання – тестовий набір, названий Humans5K, з 5 тис. зображень. Оцінювання проводиться зверху вниз, де Sapiens використовує готовий детектор для обмежувальних рамок та проводить висновок пози одного людини. Таблиця 3 показує порівняння моделей Sapiens з існуючими методами для оцінки пози всього тіла. Всі методи оцінюються на 114 спільних ключових точках між лексикою ключових точок Sapiens у 308 точок та лексикою ключових точок COCO-WholeBody у 133 точки. Sapiens-0,6B перевершує поточний стан мистецтва, DWPose-l, на +2,8 AP. На відміну від DWPose, який використовує складний фреймворк студент-вчитель з дистиляцією функцій, орієнтованим на завдання, Sapiens приймає загальну архітектуру кодувача-дешифрувача з великомасштабною людсько-орієнтованою попередньою підготовкою.

Цікаво, що навіть з тим самим кількістю параметрів моделі Sapiens демонструють вищу продуктивність порівняно з їхніми аналогами. Наприклад, Sapiens-0,3B перевершує VitPose+-L на +5,6 AP, а Sapiens-0,6B перевершує VitPose+-H на +7,9 AP. В межах сімейства Sapiens результати вказують на прямий зв’язок між розміром моделі та продуктивністю. Sapiens-2B встановлює новий стан мистецтва з 61,1 AP, суттєве поліпшення на +7,6 AP порівняно з попереднім станом мистецтва. Навіть попри налаштування з анотаціями з внутрішнього студійного набору, Sapiens демонструє стійку узагальненість до реальних сценаріїв, як показано на наступному зображенні.

Sapiens налаштовується та оцінюється за допомогою лексики сегментації з 28 класів. Тренувальний набір складається з 100 тис. зображень, тоді як тестовий набір, Humans-2K, складається з 2 тис. зображень. Sapiens порівнюється з існуючими методами сегментації частин тіла, налаштованими на тому самому тренувальному наборі, з використанням запропонованих попередньо навчених чекпойнтів кожним методом як ініціалізації. Аналогічно оцінці пози, Sapiens демонструє узагальнення у сегментації, як показано в наступній таблиці.

Цікаво, що найменша модель, Sapiens-0,3B, перевершує існуючі методи сегментації, такі як Mask2Former та DeepLabV3+, на 12,6 mIoU завдяки вищій роздільній здатності та великомасштабній людсько-орієнтованій попередній підготовці. Крім того, збільшення розміру моделі далі покращує продуктивність сегментації. Sapiens-2B досягає найкращої продуктивності, з 81,2 mIoU та 89,4 mAcc на тестовому наборі, на наступному зображенні показані якісні результати моделей Sapiens.

Висновок

Sapiens представляє суттєвий крок до просування людсько-орієнтованих моделей бачення у сферу фундаментальних моделей. Моделі Sapiens демонструють сильні можливості узагальнення по різноманітним завданням, пов’язаним з людиною. Продуктивність на рівні стану мистецтва пояснюється: (i) великомасштабною попередньою підготовкою на кураторському наборі даних, спеціально розробленому для розуміння людей, (ii) масштабованими високороздільними та високомісткісними трансформер-орієнтованими зображувальними основами, та (iii) високоякісними анотаціями на збільшених студійних та синтетичних даних. Моделі Sapiens мають потенціал стати ключовим будівельним блоком для різноманітних завдань після підготовки та забезпечити доступ до високоякісних зображувальних основ широкому колу спільноти.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.