Угол Андерсона
Трансляция аватаров с искусственным интеллектом, как в 1999 году.

Новое исследование предлагает способ потоковой передачи реалистичных 3D-аватаров, которые появляются практически мгновенно и улучшаются в реальном времени, вместо того чтобы заставлять пользователей ждать завершения масштабных загрузок.
Во многом огромные ресурсные требования генеративного ИИ и систем рендеринга с использованием ИИ отбросили готовность потребительских устройств на двадцать и более лет назад. Еще в 2023 году 64 ГБ оперативной памяти в ноутбуке или настольном ПК казались избыточными; теперь же, с ростом популярности оперативной памяти и/или разгрузка ЦП64 ГБ — это довольно скромный объем для локальных задач искусственного интеллекта; и эти некогда банальные и доступные элементы ПК продолжают оставаться актуальными. взлетела по цене поскольку корпорации изо всех сил пытаются удовлетворить спрос на услуги в области искусственного интеллекта.
Масштабы и алчность искусственного интеллекта, его процессов и сред, как правило, затмевают возможности потребительского оборудования, и даже запуск «упрощенных» локально-ориентированных моделей может быть затруднен. версии GGUF Как правило, это создаст дополнительную нагрузку на среднестатистическую систему.
Даже текстовые сервисы искусственного интеллекта, такие как ChatGPT, подвержен значительному напряжению как на уровне клиента, так и на уровне сервера. Поэтому, когда ИИ будет поручено предоставлять мультимедийный контент в режиме реального времени, можно с уверенностью ожидать серьезных компромиссов в отношении задержки и/или качества — подобно ранним проблемам интернета с потоковой передачей мультимедиа и столь ненавистным анимированным значкам «буферизации». Реальный игрок и QuickTime.
В последний раз, когда проблемы с мультимедиа и сетью создавали неудобства для пользователя, это было в случае с потребительским оборудованием. все еще развивается в соответствии с законом МураУлучшаясь почти экспоненциально с каждым годом, даже несмотря на то, что ОС, сети и другая вспомогательная инфраструктура развивались, чтобы удовлетворить спрос; и в течение последних десяти лет возможности потребительских технологий более или менее превосходили потребности в мультимедиа (возможно, даже до такой степени, что наблюдается отток клиентов). нужно было дать толчок (для поддержания продаж).
Однако этот избыток местных возможностей, возможно, скоро закончится, поскольку Локальное оборудование становится менее функциональным и более дорогим.и поскольку сервисы на основе ИИ требуют больших серверных и локальных ресурсов.
Получение головы
В доширокополосную эпоху, ещё до появления первых доступных потоковых видео, пользователи интернета привыкли к тому, что изображение медленно обретает фокус, поскольку прогрессивные JPEG Это позволяло пользователю с ограниченным трафиком наблюдать за процессом загрузки изображения, иногда мучительно медленнопо мере того, как всё большая часть данных изображения загружалась локально.
Теперь, похоже, нас может ждать аналогичный опыт с использованием искусственного интеллекта. Аватары Gaussian Splat:
Нажмите, чтобы играть. В новом проекте ProgressiveAvatars представлено сравнение потоковых гауссовых аватаров. Слева показано, как старый проект GaussianAvatars медленно получает новые данные, но изображение выглядит ужасно по мере их накопления; справа же версия Progressive Avatars также медленно наращивает детализацию, но делает это интеллектуальным способом, обеспечивая базовое сходство с человеком с самого начала. Источник
Выше мы видим две версии аватара, созданного на основе метода Gaussian Splat (GSplat) — человеческое изображение, частично созданное с помощью не-ИИ техники рендеринга, появившейся еще в начале 1990-х годов, а также с помощью более современных методов, таких как FLAME параметрическая модель человека и подходы к обучению на основе ИИ:

Метод Gaussian Splatting использует гауссово представление цвета и трехмерной информации вместо пикселя или вокселя и накладывает эту ультрареалистичную текстуру на более традиционный тип компьютерной сетки, что, в свою очередь, обеспечивается с помощью «параметрического человека», то есть компьютерной модели лица и/или тела, в таких системах, как... FLAME и STAR. Источник
На видео выше слева мы видим, что традиционная реализация аватара, построенного по принципу гауссова распределения, выглядит довольно ужасно, пока мы ждем загрузки данных. Справа — новая реализация из Китая, получившая название... Прогрессивные Аватары, способен обрабатывать данные гораздо элегантнее по мере их загрузки, сразу же представляя не вызывающий тревоги образ человека.
Авторы утверждают, что их метод является первым, который действительно «потоково» «передаёт» гауссовское изображение аватара, и, безусловно, первым, который делает это прогрессивным образом, когда изображение элегантно нарастает, а наиболее важные области — такие как глаза и губы — могут быть приоритетными, так что аватар может вести диалог даже при частичной загрузке:
Нажмите, чтобы играть. Иллюстрация процесса загрузки с учетом внимания, взятая с сайта проекта ProgressiveAvatars.
Ранее для упрощения аватаров в стиле «GSplat» использовался подход «уровня детализации» (LOD), аналогичный оптимизации видеоигр, когда загружались последовательно более детализированные версии человека в зависимости от того, занимают ли они достаточно места в поле зрения или привлекают ли достаточно внимания зрителя, чтобы это стоило затраченных усилий.
Конечно, это влечет за собой большое количество избыточных «запасных» аватаров, и авторы представляют свой подход как более рациональную систему. По сути, подобный метод также позволяет вносить изменения в фигуру GSplat (т.е., настраивать ее) без необходимости распространять эти изменения по цепочке различных «двойников» LOD.
Возникающая область
Если это кажется узкоспециализированной проблемой, то так же казалось и потоковое видео в те времена, когда заставить работать первые плагины было задачей, которую мог поручить ближайшему доступному специалисту. Более того, потенциал потокового представления на основе ИИ выходит за рамки человеческих аватаров и распространяется на городское поколение, игрыа также 3D-версии* практически любого онлайн-домена, например: Виртуальная примеркадля покупки одежды:
Нажмите, чтобы играть. Проект 2024 года представляет собой приблизительный взгляд на будущее онлайн-«примерки». Другие проекты стремятся добавить движение и интерактивность — аспекты, требующие потоковой передачи и управления. Источник
Подобно тому, как подходы, основанные на уровне детализации (LOD), до сих пор в основном использовались в видеоиграх, многие другие соображения, которые когда-то были исключительной прерогативой разработки игр, вероятно, перейдут и в представления, основанные на сплэтах. Например, большинство этих ранних игр в стиле GSplat изображают один человек Корчиться и кривляться, или, возможно, разговаривать; но потребуется множество ситуаций, в которых участвуют несколько человек, а также элементы окружающей среды и атмосфера – сценарий, в котором высокопроизводительные системы «сортировки» определят, где потоковые данные должны быть приоритетными, чтобы удержать внимание зрителя в моменте.
Команда Новый документ называется ProgressiveAvatars: Прогрессивные анимируемые 3D-аватары с гауссовым распределениемЭта работа подготовлена тремя исследователями из Китайского университета науки и технологий в Хэфэе.
Способ доставки
В основе подхода лежит видеозапись головы человека. Для каждого кадра используется стандартный шаблон. FLAME Параметрическая модель лица подгоняется таким образом, что форма и выражение лица меняются со временем, в то время как базовая структура сетки остается неизменной. Поскольку базовая топология не меняется, стабильный шаблон FLAME можно повторно использовать и уточнять, вместо того чтобы каждый раз перестраивать его с нуля, как это происходит в аналогичных предыдущих работах:

Сначала к видеоизображению головы прикрепляется отслеживаемая сетка FLAME, после чего к каждому лицу добавляются 3D-гауссианы, которые иерархически наращиваются там, где градиенты в экранном пространстве указывают на недостающие детали. Во время обучения это адаптивное подразделение создает многоуровневое представление под контролем нескольких ракурсов, а на этапе вывода оценки важности каждого лица определяют, какие гауссианы будут передаваться первыми, что позволяет аватару быстро появляться и постепенно уточняться по мере добавления более высоких уровней детализации.
Поверх этой базовой структуры детали добавляются послойно; поверхность неявно подразделяется на иерархические структуры, и к граням на каждом уровне детализации прикрепляются небольшие трехмерные гауссовы функции.
Хотя начальные, более грубые слои фиксируют общую форму головы и движения, последующие, более тонкие слои обеспечивают морщины, едва заметные деформации и высокочастотную текстуру. Затем изображения обрабатываются с помощью дифференцируемого гауссова растеризатора и обучаются на многоракурсных эталонных видеоматериалах, чтобы аватар научился воспроизводить внешний вид реального человека.
В процессе обучения эта иерархия автоматически расширяется: области, требующие большей детализации, подразделяются далее, руководствуясь сигналами экранного пространства, так что вычислительные усилия концентрируются там, где глаз зрителя с наибольшей вероятностью заметит ошибки.
В процессе вывода эта же иерархия позволяет прогрессивная потоковая передачаВ этом случае сначала может быть отображена приблизительная версия аватара, а по мере загрузки дополнительных слоев можно добавлять новые гауссианы, не изменяя уже отображаемый результат, что позволяет создать анимируемый аватар головы, который быстро появляется и становится более четким и детализированным по мере поступления новых данных.
Авторы отмечают, что вся система зависит от приоритезации поступающих данных:

Когда все гауссовы функции на заданном уровне доступны, полная модель отображается с максимальной точностью; однако во время потоковой передачи отправка сначала гауссовых функций с наибольшим вкладом позволяет ранним частичным результатам максимально точно соответствовать конечному изображению, тогда как передача сначала гауссовых функций с низким вкладом искажает цветовой баланс и подчеркивает второстепенные компоненты.
Данные и тесты
Для проведения испытаний новый метод был оценен на NeRSemble Набор данных, состоящий из многоракурсных видеороликов для каждого рассматриваемого объекта, с калиброванными параметрами по всем ракурсам:

Примеры различных интерпретаций объектов, включенных в набор данных NeRSemble, используемых в тестах для ProgressiveAvatars. Источник
В соответствии с оригиналом Гауссовы аватары В соответствии с методологией, изображения были уменьшены до разрешения 802x550 пикселей, была сгенерирована маска переднего плана, а также использованы обучающие и тестовые данные исходного проекта. раскол принят.
Команда Оптимизатор адама использовался для обновления параметров с помощью скорость обучения 1 × 10-2 на всех барицентрический координаты. Обучение длилось 60 000 итераций, при этом иерархия автоматически расширялась каждые 2,000 итераций.
Первоначально авторы провели тестирование на реконструкция и анимация – задача преобразования плоского видео в трехмерную (x/y/x) систему с использованием FLAME. канонический В качестве опорной сетки использовалось CGI-изображение. Для этого все базовые модели были обучены с нуля, а в качестве конкурирующих фреймворков были протестированы упомянутые выше GaussianAvatars и PointAvatar.
Для этих тестов использовались следующие метрики: Пиковое отношение сигнал/шум (ПСНР), Индекс структурного сходства (SSIM) и Полученное сходство участков перцептивного изображения (LPIPS):

Качественное сравнение синтеза новых ракурсов и выражений лица. Базовый метод GaussianAvatars испытывает трудности с проработкой мелких деталей вокруг глаз, морщин и текстуры кожи, в то время как предлагаемый метод уже сохраняет ключевые структуры лица примерно на пяти процентах передаваемых данных и сходится к эталонным значениям по мере поступления большего количества гауссовых распределений, точно соответствуя полной модели и эталонным изображениям (эталонным значениям).
В связи с этими результатами авторы утверждают:
«Наш метод позволяет восстановить более четкие детали в нескольких областях, особенно вокруг шеи, плеч и одежды. Эти области в шаблоне FLAME имеют относительно грубую тесселяцию по сравнению с высококонтрастными зонами лица (например, окологлазничной областью)».
«Следовательно, предыдущие методы часто выделяют слишком мало трехмерных гауссовых функций для этих областей, чтобы точно воспроизвести их мелкие детали. В отличие от них, наша адаптивная стратегия роста увеличивает количество гауссовых функций и уточняет иерархию только там, где это необходимо, что делает распределение нечувствительным к неравномерной тесселяции FLAME».
Авторы также отмечают, что их подход не уступает передовым методам, позволяя получить работоспособный аватар с минимальным допустимым потреблением полосы пропускания в 5%.

Количественное сравнение синтеза новых ракурсов и синтеза новых выражений лица с использованием PSNR, SSIM и LPIPS. При полной передаче предлагаемый метод достигает наивысшего значения PSNR в обеих задачах и остается конкурентоспособным по сравнению с GaussianAvatars по перцептивным метрикам, в то время как настройка 5% иллюстрирует компромисс качества в условиях экстремальных ограничений полосы пропускания.
Далее исследователи протестировали саму технологию прогрессивной отрисовки. Тестирование проводилось на видеокарте NVIDIA RTX 4090 с 24 ГБ видеопамяти при разрешении 550x802 пикселей. В этом сценарии, как отмечают авторы, 25% бюджета использовали бы все гауссовы распределения «уровня 1», а также подмножество гауссовых распределений «уровня 2», что дает приблизительное представление о том, как гауссовы распределения накапливают детали в группах с более высокими номерами, и что группы с более низкими номерами, по сути, формируют базовое полотно:

Результаты работы при различных бюджетах передачи данных для синтеза новых ракурсов и выражений лица показывают, что качество стабильно приближается к качеству GaussianAvatars или превосходит его по мере увеличения количества гауссовых распределений и потоковой передачи данных, при этом поддерживается скорость реального времени на видеокарте RTX 4090.
Авторы комментируют:
«При объеме передаваемых данных всего 2.60 МБ (5% от бюджета) качество аватара уже приемлемое. По мере передачи данных с использованием гауссовых распределений более высокого уровня, тонкие структуры, такие как пуговицы на рубашке, зубы и волосы, постепенно становятся более четкими, при этом сохраняется временная стабильность».
«При 100% передаче данных наш подход обеспечивает качество рендеринга, сопоставимое с передовыми методами. Примечательно, что частота кадров существенно не падает, вероятно, потому что нагрузка на 3DGS еще не достигла предела возможностей графического процессора».
Однако авторы отмечают, что в многопользовательских сценариях виртуальной реальности количество 3D-гауссовых функций быстро возрастет до такой степени, что растеризация на графическом процессоре станет узким местом. В таких ресурсоемких сценариях предложенный подход дает преимущество, позволяя системе выбирать между количеством примитивов и качеством изображения, снижая нагрузку без сбоев в рендеринге.
Хотя в статье это не подробно описано, на сайте проекта представлены дополнительные сравнительные тесты, в том числе и с использованием... Мега Проект гибридного аватара на основе сетки и гауссовой модели:
Нажмите, чтобы играть. Это один из серии дополнительных видеороликов с сайта проекта, сопровождающего статью, в котором сравнивается новый подход с точки зрения синтеза новых точек зрения.
Заключение
Технология Gaussian Splatting может сохраниться, а может и нет, и даже запомниться гораздо лучше, чем RealPlayer, в контексте зарождения интерактивного стриминга: 3D-ориентированных или поддерживаемых ИИ приложений, включая видеочаты, виртуальные покупки, навигацию по маршрутам и различные развлекательные приложения. Возможно, победят альтернативные технологии или подходы, или же GSplat окажется наиболее надежным способом представления видео с помощью ИИ.
По крайней мере, эта интересная новая статья немного приоткрывает завесу тайны над этой новой областью, одновременно напоминая нам, возможно, с ностальгией, о проблеме нехватки пропускной способности интернета прошлых лет.
* Под «3D» я подразумеваю не тот вид впечатлений, для которого требуются специальные очки, а скорее впечатления, в которых мультимедийный контент имеет определенное представление о координатах X/Y/Z.
Впервые опубликовано Среда, 18 марта 2026 г.






