Искусственный интеллект

Splatter Image: Ультрабыстрая 3D-реконструкция с одного вида

Published January 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Одновидовая 3D-реконструкция объектов с помощью свёрточных сетей продемонстрировала замечательные возможности. Модели одновидовой 3D-реконструкции генерируют 3D-модель любого объекта, используя один образ как ссылку, что делает её одной из самых горячих тем исследований в области компьютерного зрения.

Например, рассмотрим мотоцикл на изображении выше. Генерация его 3D-структуры требует сложного конвейера, который сначала объединяет подсказки из низкоуровневых изображений с высокоуровневой семантической информацией и знаниями о структурной расположенности частей.

Из-за сложного процесса одновидовая 3D-реконструкция была серьёзной задачей в компьютерном зрении. В попытке повысить эффективность одновидовой 3D-реконструкции разработчики работали над Splatter Image, методом, целью которого является достижение ультрабыстрой 3D-формы и 3D-внешности объектов. В своей основе框架 Splatter Image использует метод Gaussian Splatting для анализа 3D-представлений, используя скорость и качество, которые он предлагает.

Недавно метод Gaussian Splatting был реализован многочисленными моделями многовидовой реконструкции для реального рендеринга, повышения масштабирования и быстрой тренировки. Учитывая это, Splatter Image является первым框架ом, который реализует метод Gaussian Splatting для задач одновидовой реконструкции.

В этой статье мы будем исследовать, как框架 Splatter Image использует Gaussian Splatting для достижения ультрабыстрой одновидовой 3D-реконструкции. Итак, давайте начнём.

Splatter Image: Попытка ультрабыстрой одновидовой 3D-реконструкции

Как упоминалось ранее, Splatter Image является ультрабыстрым подходом для одновидовой 3D-реконструкции объектов на основе метода Gaussian Splatting. Splatter Image является первым компьютерным зрением, которое реализует Gaussian Splatting для монокулярной 3D-генерации объектов, поскольку традиционно Gaussian Splatting питал многовидовые 3D-объектные框架. Однако то, что отличает框架 Splatter Image от предыдущих методов, заключается в том, что это обучаемый подход, и реконструкция при тестировании требует только прямой оценки нейронной сети.

Splatter Image основывается фундаментально на рендеринговых качествах Gaussian Splatting и высокой скорости обработки для генерации 3D-реконструкций. Фреймворк Splatter Image имеет простой дизайн: фреймворк использует 2D-нейронную сеть изображение-изображение для прогнозирования 3D-Gaussian для каждого входного пикселя изображения и сопоставляет входное изображение с одним 3D-Gaussian на пиксель. Результатом являются 3D-Gaussian, имеющие форму изображения, известного как Splatter Image, и эти Gaussian также обеспечивают 360-градусное представление изображения. Процесс демонстрируется на следующем изображении.

Хотя процесс прост и прям, есть некоторые ключевые проблемы, с которыми сталкивается фреймворк Splatter Image при использовании Gaussian Splatting для генерации 3D-Gaussian для одновидовых 3D-представлений. Первым серьёзным препятствием является проектирование нейронной сети, которая принимает изображение объекта как входные данные и генерирует соответствующую Gaussian смесь, представляющую все стороны изображения как выходные данные. Чтобы решить эту задачу, фреймворк Splatter Image использует тот факт, что даже если сгенерированная Gaussian смесь является набором или неупорядоченной коллекцией элементов, она всё равно может быть сохранена в упорядоченной структуре данных. Следовательно, фреймворк использует 2D-изображение как контейнер для 3D-Gaussian в результате чего каждый пиксель в контейнере содержит параметры одного Gaussian, включая его свойства, такие как форма, непрозрачность и цвет.

Сохраняя 3D-Gaussian наборы в изображении, фреймворк Splatter Image может уменьшить препятствия реконструкции, с которыми сталкивается при обучении нейронной сети изображение-изображение. Используя этот подход, процесс реконструкции может быть реализован только с помощью эффективных 2D-операторов, а не полагаясь на 3D-операторы. Кроме того, в фреймворке Splatter Image 3D-представление является смесью 3D-Gaussian, что позволяет ему использовать преимущества рендеринговой скорости и эффективности памяти, предлагаемые Gaussian Splatting, что повышает эффективность как при обучении, так и при выводе. Двигаясь дальше, фреймворк Splatter Image не только генерирует одновидовые 3D-представления, но также демонстрирует замечательную эффективность, поскольку он может быть обучен даже на одном GPU на стандартных 3D-объектных бенчмарках. Кроме того, фреймворк Splatter Image может быть расширен для принятия нескольких изображений как входных данных. Он может сделать это, зарегистрировав отдельные Gaussian смеси в общей системе координат и затем взяв комбинацию Gaussian смесей, предсказанных из отдельных видов. Фреймворк также вводит лёгкие слои взаимного внимания в своей архитектуре, что позволяет различным видам общаться друг с другом во время прогнозирования.

С эмпирической точки зрения, стоит отметить, что фреймворк Splatter Image может производить 360-градусную реконструкцию объекта, даже если он видит только одну сторону объекта. Фреймворк затем распределяет различные Gaussian в 2D-соседстве по-разному для различных частей 3D-объекта для кодирования сгенерированной 360-градусной информации в 2D-изображении. Кроме того, фреймворк устанавливает непрозрачность нескольких Gaussian в ноль, что деактивирует их, что позволяет им быть отсечёнными во время постобработки.

В заключение, фреймворк Splatter Image

Является новым подходом для генерации одновидовых 3D-объектных реконструкций, перенеся подход Gaussian Splatting.
Расширяет метод для многовидовой 3D-объектной реконструкции.
Достигает показателей государственного уровня 3D-объектной реконструкции на стандартных бенчмарках с исключительной скоростью и качеством.

Splatter Image: Методология и архитектура

Gaussian Splatting

Как упоминалось ранее, Gaussian Splatting является основным методом, реализованным фреймворком Splatter Image для генерации одновидовых 3D-объектных реконструкций. В простых терминах, Gaussian Splatting является методом рендеринга для реконструкции 3D-изображений и реального времени, а также рендеринга изображений с несколькими точками зрения. 3D-пространство в изображении называется Gaussian, и методы машинного обучения реализуются для изучения параметров каждого Gaussian. Gaussian Splatting не требует обучения во время рендеринга, что облегчает более быстрое время рендеринга.

3D-Gaussian Splatting сначала использует набор входных изображений для генерации облака точек. Gaussian Splatting затем использует входные изображения для оценки внешних параметров камеры, таких как наклон и положение, сопоставляя пиксели между изображениями, и эти параметры затем используются для вычисления облака точек. Используя различные методы машинного обучения, Gaussian Splatting затем оптимизирует четыре параметра для каждого Gaussian, а именно: Позиция (где он находится), Ковариация (степень его растяжения или масштабирования в матрице 3×3), Цвет (какой у него RGB-цветовой режим) и Альфа (измеряющий прозрачность). Процесс оптимизации рендерит изображение для каждой позиции камеры и использует его для определения параметров, более близких к исходному изображению. В результате полученный 3D-Gaussian Splatting-выход является изображением, называемым Splatter Image, который наиболее похож на исходное изображение с позиции камеры, с которой оно было снято.

Кроме того, функция непрозрачности и функция цвета в Gaussian Splatting дают радианцевое поле с направлением просмотра 3D-точки. Фреймворк затем рендерит радианцевое поле на изображение, интегрируя цвета, наблюдаемые вдоль луча, проходящего через пиксель. Gaussian Splatting представляет эти функции как комбинацию цветных Gaussian, где среднее значение или центр Gaussian, а также ковариация Gaussian помогают определять его форму и размер. Каждый Gaussian также имеет свойство непрозрачности и свойство цвета, зависящее от вида, которые вместе определяют радианцевое поле.

Splatter Image

Компонент рендерера сопоставляет набор 3D-Gaussian с изображением. Для выполнения одновидовой 3D-реконструкции фреймворк затем ищет обратную функцию для 3D-Gaussian, которая восстанавливает смесь 3D-Gaussian из изображения. Ключевым моментом здесь является предложение эффективного, но простого дизайна для обратной функции. Конкретно, для входного изображения фреймворк прогнозирует Gaussian для каждого отдельного пикселя, используя архитектуру нейронной сети изображение-изображение для вывода изображения, Splatter Image. Сеть также прогнозирует форму, непрозрачность и цвет.

Теперь можно предположить, как фреймворк Splatter Image может восстановить 3D-представление объекта, даже если у него есть доступ только к одному из его видов? В реальном времени фреймворк Splatter Image учится использовать некоторые из доступных Gaussian для восстановления вида и использует оставшиеся Gaussian для автоматического восстановления невидимых частей изображения. Чтобы максимизировать свою эффективность, фреймворк может автоматически выключить любой Gaussian, прогнозируя, равна ли непрозрачность нулю. Если непрозрачность равна нулю, Gaussian выключаются, и фреймворк не рендерит эти точки и вместо этого отсекает их во время постобработки.

Уровень потерь изображения

Одним из основных преимуществ использования скорости и эффективности, предлагаемых методом Gaussian Splatting, является то, что это позволяет фреймворку рендерить все изображения при каждой итерации, даже для пакетов с относительно большим размером пакета. Кроме того, это означает, что фреймворк не только может использовать декомпозиционные потери, но также может использовать потери на уровне изображения, которые не декомпозируются в потери на пиксель.

Нормализация масштаба

Это сложная задача оценить размер объекта, глядя на один вид, и это сложная задача решить эту двусмысленность, когда она обучается с потерей. Та же проблема не наблюдается в синтетических наборах данных, поскольку все объекты рендерятся с идентичными внутренними параметрами камеры, а объекты находятся на фиксированном расстоянии от камеры, что в конечном итоге помогает решить двусмысленность. Однако в наборах данных с реальными изображениями двусмысленность довольно очевидна, и фреймворк Splatter Image использует несколько методов предобработки для приблизительного фиксирования масштаба всех объектов.

Зависимый от вида цвет

Для представления зависимых от вида цветов фреймворк Splatter Image использует сферические гармоники для обобщения цветов за пределами ламбертовской модели цвета. Для любого конкретного Gaussian модель определяет коэффициенты, прогнозируемые сетью, и сферические гармоники. Изменение точки зрения преобразует направление просмотра в источнике камеры в соответствующее направление просмотра в системе координат. Модель затем находит соответствующие коэффициенты для нахождения преобразованной функции цвета. Модель может сделать это, потому что при вращении сферические гармоники закрыты, вместе с каждым другим порядком.

Архитектура нейронной сети

Большинство архитектуры прогнозирующей карты, сопоставляющей входное изображение с комбинацией Gaussian, идентично процессу, используемому в фреймворке SongUNet. Последний слой в архитектуре заменён слоем свёрточного 1×1 с цветовой моделью, определяющей ширину выходных каналов. Учитывая входное изображение, сеть производит выходной канальный тензор как выходные данные, и для каждого пиксельного канала кодирует параметры, которые затем преобразуются в смещение, непрозрачность, вращение, глубину и цвет. Фреймворк затем использует нелинейные функции для активации параметров и получения параметров Gaussian.

Для реконструкции 3D-представлений с многовидовым фреймворком Splatter Image применяет ту же сеть к каждому входному виду, а затем использует подход точки зрения для объединения отдельных реконструкций. Кроме того, для обеспечения эффективного координации и обмена информацией между видами в сети фреймворк Splatter Image вносит два изменения в сеть. Во-первых, фреймворк обусловливает модель своей соответствующей позой камеры и передаёт векторы, кодируя каждую запись с помощью синусоидального позиционного вложения, в результате чего получается несколько измерений. Во-вторых, фреймворк добавляет слои взаимного внимания для облегчения общения между функциями различных видов.

Splatter Image: Эксперименты и результаты

Фреймворк Splatter Image измеряет качество своих реконструкций, оценивая качество синтеза нового вида, поскольку фреймворк использует исходный вид и рендерит 3D-форму для цели невидимых видов для выполнения реконструкций. Фреймворк оценивает свою производительность, измеряя SSIM или структурное подобие, пиковое отношение сигнала к шуму или PSNR и перцептивное качество или баллы LPIPS.

Производительность одновидовой 3D-реконструкции

Следующая таблица демонстрирует производительность модели Splatter Image в задаче одновидовой 3D-реконструкции на бенчмарке ShapeNet.

Как можно наблюдать, фреймворк Splatter Image превосходит все детерминированные методы реконструкции по баллам LPIPS и SSIM. Баллы указывают на то, что модель Splatter Image генерирует изображения с более чёткими реконструкциями. Кроме того, модель Splatter Image также превосходит все детерминированные базовые методы по баллу PSNR, что указывает на то, что сгенерированные реконструкции также более точны. Кроме того, помимо превосходства над всеми детерминированными методами, фреймворк Splatter Image требует только относительных поз камеры для повышения эффективности как на этапе обучения, так и на этапе тестирования.

Следующее изображение демонстрирует качественную мощь фреймворка Splatter Image, и как можно видеть, модель генерирует реконструкции с тонкими и интересными геометриями и захватывает детали условий вида.

Следующее изображение показывает, что реконструкции, сгенерированные фреймворком Splatter Image, не только более чёткие, но также имеют лучшую точность, чем предыдущие модели, особенно в нестандартных условиях с тонкими структурами и ограниченной видимостью.

Многовидовая 3D-реконструкция

Для оценки своих возможностей многовидовой 3D-реконструкции фреймворк Splatter Image обучается на наборе данных SpaneNet-SRN Cars для прогнозирования двух видов. Существующие методы используют абсолютную позу камеры для условий многовидовой 3D-реконструкции, что означает, что модель учится полагаться в основном на каноническую ориентацию объекта в объекте. Хотя это делает работу, это ограничивает применимость моделей, поскольку абсолютная поза камеры часто неизвестна для нового изображения объекта.

Окончательные мысли

В этой статье мы говорили о Splatter Image, методе, целью которого является достижение ультрабыстрой одновидовой 3D-формы и 3D-внешности объектов. В своей основе фреймворк Splatter Image использует метод Gaussian Splatting для анализа 3D-представлений, используя скорость и качество, которые он предлагает. Фреймворк Splatter Image обрабатывает изображения, используя стандартную 2D-архитектуру CNN, для прогнозирования псевдоизображения, содержащего один цветной Gaussian для каждого пикселя. Используя метод Gaussian Splatting, фреймворк Splatter Image может объединить быстрый рендеринг с быстрым выводом, что приводит к быстрой тренировке и более быстрой оценке на реальных и синтетических бенчмарках.

Related Topics:3d reconstructions Splatter Image