Погляд Anderson

Трансляція штучних аватарів, як у 1999 році

mm
Montage of images related to Gaussian Avatar streaming, featuring 3DGS faces. Source: https://ustc3dv.github.io/ProgressiveAvatars/

Нові дослідження пропонують спосіб трансляції реалістичних 3D-аватарів, які з’являються майже миттєво і уточнюються в реальному часі, замість того, щоб примушувати користувачів чекати закінчення величезних завантажень.

 

У багатьох аспектах величезні ресурсні вимоги систем штучного інтелекту та допоміжної візуалізації повернули споживчу готовність назад на двадцять або більше років. Навіть у 2023 році 64 ГБ оперативної пам’яті в ноутбуці або настільному комп’ютері здавалися надмірними; тепер, з ростом популярності відкладання оперативної пам’яті та/або відкладання процесора, 64 ГБ є досить скромними для місцевих потреб штучного інтелекту; і ці раніше банальні та доступні елементи комп’ютерів продовжують підвищуватися в ціні через те, що корпорації борються за задоволення попиту на послуги штучного інтелекту.

Масштаб і жадібність штучного інтелекту та його процесів і середовищ зазвичай перевершують апаратне забезпечення споживчого рівня, і навіть виконання “відмінених” місцевих моделей у вигляді GGUF-версій зазвичай перевантажує середнє середовище.

Навіть текстові служби штучного інтелекту, такі як ChatGPT, піддаються значному перевантаженню як на клієнтському, так і на серверному рівні. Тому, коли штучний інтелект зайнятий доставкою онлайн-мультимедійних досвідів у реальному часі, ми можемо розсудливо очікувати деяких серйозних компромісів у затримці та/або якості – подібно до ранньої боротьби інтернету зі стрімінгом мультимедіа та ненависних анімованих іконок “буферизації” RealPlayer і QuickTime.

Останній раз, коли мультимедійні та мережеві питання створювали тертя в досвіді користувача, апаратне забезпечення споживчого рівня все ще розвивалося через закон Мура, покращуючись майже експоненційно кожен рік, навіть коли ОС, мережі та інші допоміжні інфраструктури розвивалися для задоволення попиту; і протягом останніх десяти років можливості споживчої техніки перевершували мультимедійні вимоги (можливо, навіть до тієї точки, коли потрібно було запустити оновлення, щоб підтримувати продажі).

Але цей надлишок місцевої здатності може скоро закінчитися, оскільки місцеве апаратне забезпечення стає нижчою специфікацією та дорожче, а послуги штучного інтелекту вимагають вищої серверної та місцевої ресурсів.

Отримання голови

У до-бродбендері, навіть до початку першої придатної стрімінг-відео, веб-користувачі звикли до того, що зображення повільно приходили в фокус, оскільки прогресивні JPEG дозволяли користувачам із обмеженим пропусканням каналу спостерігати за завантаженням зображення, іноді боляче повільно, оскільки завантажувалася більше даних зображення.

Тепер, здається, ми можемо очікувати подібного досвіду з аватарами, допоміжними штучним інтелектом Gaussian Splat:

Натисніть, щоб відтворити.  Від нового проекту ProgressiveAvatars, порівняння стрімінгових аватарів Gaussian. Зліва, старіший проект GaussianAvatars повільно отримує нові дані, але виглядає погано, оскільки дані збудовуються; справа, версія Progressive Avatars також будує деталі повільно, але робить це розумним способом, який дає базове людське подобуття з самого початку. Джерело

Вище ми бачимо дві версії аватара Gaussian Splat – людини, представленої частково за допомогою нерозумної техніки візуалізації, яка веде свій початок з початку 1990-х років, і частково за допомогою сучасніших методів, таких як FLAME параметрична модель людини, і підходи навчання штучного інтелекту:

Gaussian Splatting використовує гауссовське представлення кольору та 3D-інформації замість пікселя чи вокселя, і відображає цю надзвичайно реалістичну текстуру на більш традиційну CGI-сітку, яку саму по собі полегшує 'параметрична людина', CGI-обличчя та/або тіло в системах, таких як FLAME і STAR. Джерело - https://arxiv.org/pdf/2312.02069.pdf

Gaussian Splatting використовує гауссовське представлення кольору та 3D-інформації замість пікселя чи вокселя, і відображає цю надзвичайно реалістичну текстуру на більш традиційну CGI-сітку, яку саму по собі полегшує ‘параметрична людина’, CGI-обличчя та/або тіло в системах, таких як FLAME і STAR Джерело

Зліва на відео вище ми бачимо, що традиційна реалізація аватара Gaussian виглядає досить погано, коли ми чекаємо завантаження даних. Справа, нова реалізація з Китаю, названа ProgressiveAvatars, може розв’язувати деталі набагато елегантніше, представляючи нерозбурхане людське зображення з самого початку.

Автори стверджують, що їхній метод є першим, який справді “стрімить” аватар Gaussian, і, безумовно, першим, хто робить це поступово, де зображення будується елегантно, а найважливіші області – такі як очі та губи – можуть бути пріоритезовані, щоб аватар міг стати розмовним, навіть якщо він тільки частково завантажений:

Натисніть, щоб відтворити. Від сайту проекту ProgressiveAvatars, ілюстрація уважливого завантаження.

До цього часу підхід “рівня деталізації” (LOD) використовувався в попередніх спробах звузити аватари “GSplat”, подібно до оптимізацій відеоігор, де успішно завантажувалися все більш деталізовані версії людини, залежно від того, чи займає вона достатньо місця у вікні перегляду чи уваги глядача, щоб бути гідною зусиль.

Емерджентна область

Якщо це здається нішею проблемою, то так само було зі стрімінг-відео в дні, коли отримання найперших плагінів для роботи було доручено найближчому доступному нерду. Крім того, потенціал представлень, допоміжних штучним інтелектом, розширюється за межі людських аватарів, охоплюючи генерацію міст, ігри та 3D-версії практично будь-якої онлайн-області – таких як Віртуальна спроба для покупок одягу:

Натисніть, щоб відтворити. Від проекту 2024 року, приблизний погляд на майбутнє онлайн-спроб. Інші проекти намагаються додати рух і взаємодію – вимоги, які вимагають стрімінгу та управління. Джерело

Як і підходи, засновані на LOD, раніше здебільшого використовувалися у відеоіграх, багато інших факторів, які раніше були винятковою областю розробки ігор, ймовірно, перейдуть у представлення, засновані на сплаті.

Метод

Підхід спочатку використовує відео голови людини. Для кожного кадру стандартна FLAME параметрична модель обличчя підлаштовується, так що форма та вираз обличчя змінюються з часом, тоді як базова структура сітки залишається незмінною. Через те, що базова топологія не змінюється, стабільний шаблон FLAME можна повторно використовувати та уточнювати, а не перебудовувати з нуля кожного разу, як це відбувається в подібних попередніх роботах:

Відео голови спочатку підлаштовується до відстежуваної сітки FLAME, після чого 3D-гауссові розподіли прикріплюються до кожного обличчя та ростуть ієрархічно там, де градієнти простору екрана вказують на відсутність деталей. Під час навчання ця адаптивна підділення будує багаторівневе представлення під багатоглядним наглядом, а під час висновку оцінки важливості обличчя визначають, які гауссові розподіли передаються першими, дозволяючи аватара з'явитися швидко та уточнитися поступово, коли додаються більш деталізовані рівні.

Відео голови спочатку підлаштовується до відстежуваної сітки FLAME, після чого 3D-гауссові розподіли прикріплюються до кожного обличчя та ростуть ієрархічно там, де градієнти простору екрана вказують на відсутність деталей. Під час навчання ця адаптивна підділення будує багаторівневе представлення під багатоглядним наглядом, а під час висновку оцінки важливості обличчя визначають, які гауссові розподіли передаються першими, дозволяючи аватара з’явитися швидко та уточнитися поступово, коли додаються більш деталізовані рівні.

Над цією базовою структурою додаються деталі шарами; поверхня імпліцитно поділяється на ієрархію, а маленькі три вимірні гауссові розподіли прикріплюються до граней на кожному рівні деталізації.

Хоча початкові більш грубі шари захоплюють загальну форму голови та рух, наступні більш тонкі шари забезпечують зморшки, тонкі деформації та високу частотну текстуру. Зображення потім відтворюються з цих гауссових розподілів за допомогою диференційовного гауссового растеризатора та тренуються проти багатоглядної основної правди, так що аватар вчиться відтворювати вигляд реальної людини.

Під час навчання ця ієрархія росте автоматично: області, яким потрібна більша деталізація, підділяються далі, керуючись сигналами простору екрана, так що обчислювальні зусилля концентруються там, де очі глядача найімовірніше помітять помилки.

Під час висновку ця ієрархія дозволяє поступове стрімінг, при якому груба версія аватара може бути відображена спочатку, а коли додаткові шари завантажуються, нові гауссові розподіли можна додати без зміни того, що вже показано, дозволяючи анімувати голову аватара, яка з’являється швидко та стає більш деталізованою та чіткою, коли надходить більше даних.

Автори відзначають, що вся система залежить від пріоритезації надходящих даних:

Коли всі гауссові розподіли на даному рівні доступні, повна модель відтворюється з максимальною вірністю; але під час стрімінгу передача гауссових розподілів з найбільшою вагою спочатку дозволяє частковим результатам на ранній стадії близько збігатися з кінцевим зображенням, тоді як передача гауссових розподілів з низькою вагою спочатку спотворює баланс кольорів та підкреслює другорядні компоненти.

Коли всі гауссові розподіли на даному рівні доступні, повна модель відтворюється з максимальною вірністю; але під час стрімінгу передача гауссових розподілів з найбільшою вагою спочатку дозволяє частковим результатам на ранній стадії близько збігатися з кінцевим зображенням, тоді як передача гауссових розподілів з низькою вагою спочатку спотворює баланс кольорів та підкреслює другорядні компоненти.

Дані та тести

Для тестів новий метод був оцінений на наборі даних NeRSemble, який складається з багатовиглядних відео для кожного об’єкта, з параметрами, відкаліброваними для всіх виглядів:

Приклади різноманітних інтерпретацій об'єктів, включених до набору даних NeRSemble, використаного в тестах для ProgressiveAvatars. Джерело - https://tobias-kirschstein.github.io/nersemble/

Приклади різноманітних інтерпретацій об’єктів, включених до набору даних NeRSemble, використаного в тестах для ProgressiveAvatars. Джерело

У відповідності з оригінальною методологією GaussianAvatars, зображення були знижені до 802×550 пікселів, згенеровано маску фону, і прийнято оригінальний розподіл навчальних/тестових даних.

Для оновлення параметрів був використаний оптимізатор Adam, з швидкістю навчання 1х10-2 для всіх барикентричних координат. Навчання тривало 60 000 ітерацій, з ієрархією, автоматично розширеною кожні 2000 ітерацій.

Спочатку автори тестували на відновлення та анімацію – завдання перетворення плоского відео в 3D-обізнану (х/у/з) систему, використовуючи канонічне представлення FLAME як якорну сітку. Для цього всі базові дані були навчені з нуля, а суперницькі.frameworkи були протестовані – раніше згадувані GaussianAvatars і PointAvatar.

Для цих тестів були використані метрики Пікова сигнал-шумова співвідношення (PSNR), Індекс структуальної подібності (SSIM) і Навчена перцептивна подібність зображень (LPIPS):

Якісне порівняння на синтез нових виглядів та нових виразів. Базові GaussianAvatars мають труднощі з деталями навколо очей, зморшками та текстурою шкіри, тоді як запропонований метод вже зберігає ключову структуру обличчя на рівні близько п'яти відсотків переданих даних і збігається з повною моделлю та посиланнями на зображення (основну правду), коли передаються більше гауссових розподілів, близько збігаючись з повною моделлю та посиланнями на зображення (основну правду).

Якісне порівняння на синтез нових виглядів та нових виразів. Базові GaussianAvatars мають труднощі з деталями навколо очей, зморшками та текстурою шкіри, тоді як запропонований метод вже зберігає ключову структуру обличчя на рівні близько п’яти відсотків переданих даних і збігається з повною моделлю та посиланнями на зображення (основну правду), коли передаються більше гауссових розподілів, близько збігаючись з повною моделлю та посиланнями на зображення (основну правду).

Відносно цих результатів автори стверджують:

‘[Наш] метод відновлює більш чіткі деталі в кількох регіонах, особливо навколо шиї, плечей та одягу. Ці області відносно грубо розбиті на сітку FLAME порівняно з високосалієнтними зонами обличчя (наприклад, періокулярною областю).

‘Отже, попередні методи часто виділяють занадто мало 3D-гауссових розподілів для цих областей, щоб вірно захопити їхню тонку деталізацію. Натомість наш адаптивний ріст стратегії збільшує кількість гауссових розподілів і уточнює ієрархію тільки там, де це потрібно, роблячи розподіл незалежним від нерівномірної розбиття FLAME.’

Автори далі зазначають, що їхній підхід знаходиться на рівні з найкращими методами, забезпечуючи працездатний аватар з тривіальною відсотковою пропускною здатністю смуги:

Кількісне порівняння на синтез нових виглядів та нових виразів за допомогою PSNR, SSIM і LPIPS. При повній передачі запропонований метод досягає найвищого PSNR для обох завдань і залишається конкурентоспроможним з GaussianAvatars на перцептивних метриках, тоді як налаштування 5% демонструє компроміс якості під екстремальними обмеженнями пропускної здатності смуги.

Кількісне порівняння на синтез нових виглядів та нових виразів за допомогою PSNR, SSIM і LPIPS. При повній передачі запропонований метод досягає найвищого PSNR для обидвох завдань і залишається конкурентоспроможним з GaussianAvatars на перцептивних метриках, тоді як налаштування 5% демонструє компроміс якості під екстремальними обмеженнями пропускної здатності смуги.

Далі дослідники протестували поступове відтворення. Це було здійснено на NVIDIA RTX 4090 з 24 ГБ відеопам’яті, при роздільній здатності 550×802 пікселів. У цьому сценарії автори зазначають, що бюджет 25% використовує всі гауссові розподіли рівня 1, а також підмножину гауссових розподілів рівня 2, що дає приблизне уявлення про те, як гауссові групи набувають деталізацію в більш високих номерах груп, і про те, що нижчі номери груп фактично будують базову основу:

Продуктивність під різними бюджетами передачі для синтезу нових виглядів та нових виразів, показуючи, що якість поступово наближається або перевершує GaussianAvatars, коли передаються більше гауссових розподілів та даних, при цьому підтримуються швидкості в реальному часі, на RTX 4090.

Продуктивність під різними бюджетами передачі для синтезу нових виглядів та нових виразів, показуючи, що якість поступово наближається або перевершує GaussianAvatars, коли передаються більше гауссових розподілів та даних, при цьому підтримуються швидкості в реальному часі, на RTX 4090.

Автори коментують:

‘З лише 2,60 МБ переданих даних (5% бюджет), аватар вже досягає прийнятної якості. Коли передаються гауссові розподіли вищого рівня, тонкі структури, такі як кнопки на сорочці, зуби та волосся, поступово уточнюються, при цьому підтримується тимчасова стабільність.

‘При 100% передачі наш підхід досягає якості відтворення, порівнянної з методами найвищого рівня. Відзначимо, що кадрова частота не падає суттєво, ймовірно, тому що робоче навантаження 3DGS ще не насичує GPU.’

Однак автори зазначають, що в багатокористувацьких сценаріях віртуальної реальності кількість 3D-гауссових розподілів швидко зросте до точки, де растеризація GPU стане瓶aggable. У цих більш важких сценаріях запропонований підхід пропонує перевагу, дозволяючи системі обміняти кількість примітивів на візуальну якість, полегшуючи навантаження без колапсу рендерингу.

Хоча робота не деталізує цього, сайт проекту містить додаткові порівняльні тести, які також включають гібридний проект аватара MeGA:

Натисніть, щоб відтворити. Одна з серії додаткових відео з сайту проекту, це порівняння нового підходу щодо синтезу нових виглядів.

Висновок

Gaussian Splatting може або не може витримати, або навіть бути запам’ятований більше, ніж RealPlayer зараз, щодо початку інтерактивного стрімінгу: штучно-інтелектуально-керованих або штучно-інтелектуально-допоміжних 3D-обізнаних представлень, включаючи відеочат, віртуальні покупки, навігацію маршрутів та різноманітні розважальні програми. Це може бути так, що альтернативні технології або підходи переможуть, або що GSplat доведе найнадійніше відео-представлення штучного інтелекту.

Якщо нічого іншого, ця цікава нова робота проголошує трохи обсягу цієї нової області, нагадуючи нам, можливо, ностальгічно, про інтернет з обмеженою пропускною здатністю смуги минулого.

 

* Під “3D” я не маю на увазі досвід, який вимагає спеціальних окулярів, а радше досвід, де мультимедійний контент має деяке розуміння координат X/Y/Z.

Перше опубліковане середа, 18 березня 2026 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]