Искусственный интеллект

LucidDreamer: Высококачественная генерация 3D из текста посредством интервальной оценки совпадения

Published December 15, 2023

Updated April 28, 2026

Kunal Kejriwal

Последние достижения в области текстово-3D генеративных框架ов AI отметили значительный рубеж в генеративных моделях. Они открывают путь для новых возможностей создания 3D активов в различных реальных сценариях. Цифровые 3D активы теперь занимают незаменимое место в нашем цифровом присутствии, обеспечивая всестороннюю визуализацию и взаимодействие с сложными средами и объектами, отражающими наш опыт в реальном мире. Эти 3D генеративные框架 AI применяются в различных областях, включая анимацию, архитектуру, игры, дополненную и виртуальную реальность и многое другое. Они также широко используются на онлайн-конференциях, в розничной торговле, образовании и маркетинге.

Однако, несмотря на обещания этих достижений в текстово-3D генеративных框架ах, широкое использование 3D технологий сопряжено с серьезной проблемой. Генерация высококачественных 3D изображений и медиа-контента все еще требует значительного времени, усилий, ресурсов и квалифицированной экспертизы. Даже при выполнении этих требований текстово-3D генерация часто не может обеспечить детализированные и высококачественные 3D модели. Эта проблема рендеринга и низкокачественной 3D генерации более распространена в рамках, использующих метод оценки дистилляции баллов (SDS). В этой статье мы обсудим заметные недостатки, наблюдаемые в моделях, использующих метод SDS, которые вводят несоответствия и низкокачественные обновления направлений, в результате чего возникает эффект чрезмерного сглаживания на сгенерированном выходе. Мы также представим框架 LucidDreamer, новый подход, который использует метод интервальной оценки совпадения (ISM), чтобы преодолеть проблему чрезмерного сглаживания. Мы рассмотрим архитектуру модели и ее производительность по сравнению с актуальными текстово-3D генеративными框ameworkами. Итак, начнем.

LucidDreamer3D : Введение в генерацию 3D с помощью интервальной оценки совпадения

Одной из основных причин, почему модели генерации 3D стали темой обсуждения в индустрии генеративного AI, является их широкое применение в различных областях и отраслях, а также их способность производить 3D контент в реальном времени. Благодаря их широкому практическому применению, разработчики предложили многочисленные подходы к генерации 3D контента, среди которых框rameworkы текстово-3D генерации выделяются за свою способность использовать только текстовые описания для генерации воображаемых 3D моделей. Текстово-3D генеративные框rameworkы достигают этого, используя предварительно обученную модель диффузии изображения для получения сильного изображения перед обучением нейронной параметризированной 3D модели, что позволяет рендерить 3D изображения последовательно, соответствующие тексту. Эта способность рендерить постоянные 3D изображения основана на использовании фундаментальной оценки дистилляции баллов, и позволяет SDS действовать как основной механизм для переноса 2D результатов из моделей диффузии в их 3D аналоги, обеспечивая обучение 3D моделей без использования обучающих изображений. Несмотря на их эффективность, 3D генеративные框rameworkы AI, использующие метод SDS, часто страдают от искажений и проблем чрезмерного сглаживания, что препятствует практической реализации высококачественной 3D генерации.

Чтобы решить проблему чрезмерного сглаживания,框ramework LucidDreamer реализует подход интервальной оценки совпадения (ISM), новый подход, который использует два эффективных механизма. Во-первых, подход ISM использует метод инверсии DDIM для смягчения эффекта усреднения, вызванного несоответствиями псевдо-эталонных истин, путем получения инвертируемой траектории диффузии. Во-вторых, вместо того, чтобы сопоставлять изображения, сгенерированные 3D моделью с псевдо-эталонными истинами, метод ISM сопоставляет их между двумя интервальными шагами в траектории диффузии, что помогает избежать высокой ошибки реконструкции, избегая одношаговой реконструкции. Использование ISM вместо SDS приводит к последовательно высокой производительности с высокореалистичными и детализированными выходами.

В целом,框ramework LucidDreamer направлен на внесение следующих вкладов в 3D генеративный AI

Предоставляет подробный анализ SDS, фундаментальной концепции в текстово-3D генеративных框rameworkах, и выявляет его ключевые ограничения низкокачественных псевдо-эталонных истин, и дает объяснение эффекта чрезмерного сглаживания, с которым сталкиваются эти 3D генеративные框rameworkы.
Чтобы противостоять ограничениям, налагаемым подходом SDS,框ramework LucidDreamer вводит интервальную оценку совпадения, новый подход, который использует интервальное сопоставление и инвертируемые траектории диффузии, чтобы превзойти SDS, производя высокореалистичные и детализированные выходы.
Достижение результатов на уровне современного состояния искусства путем интеграции метода ISM с 3D сплэттингом Гаусса, чтобы превзойти существующие методы генерации 3D контента с низкими затратами на обучение.

Ограничения SDS

Как упоминалось ранее, SDS является одним из наиболее популярных подходов для текстово-3D генерации моделей, и он стремится найти режимы для условного постериора в латентном пространстве DDPM. Подход SDS также采用 предварительно обученную модель DDPM для моделирования условного постериора и стремится дистиллировать 3D представления для условного постериора, что достигается путем минимизации следующего расхождения KL. Кроме того, подход SDS повторно использует взвешенную цель сопоставления оценок шума для обучения DDP. Основная цель подхода SDS также может быть рассмотрена как сопоставление вида 3D модели с псевдо-эталонной истиной, оцененной DDPM в одном шаге, хотя процесс дистилляции часто упускает из виду критический аспект компонента DDPM, а именно, он производит низкокачественные псевдо-эталонные истинные значения с несоответствиями признаков во время процесса дистилляции.

Однако обновления направлений в нежелательных обстоятельствах обновляются до 3D представлений, что в конечном итоге приводит к чрезмерно сглаженным результатам. Кроме того, стоит отметить, что компонент DDPM чувствителен к входным данным, и признаки псевдо-эталонных истин изменяются существенно даже при незначительных изменениях входных данных. Кроме того, случайность как в положении камеры, так и в компоненте шума входных данных может добавить к колебаниям, что неизбежно во время дистилляции. Оптимизация входных данных для несоответствующих псевдо-эталонных истин приводит к результатам со средними признаками. Более того, подход SDS получает псевдо-эталонные истинные значения с одношаговым прогнозом для всех временных интервалов и не учитывает ограничения компонента DDPM, который не может производить высококачественные выходы, что указывает на то, что дистилляция 3D активов или изображений с помощью компонента SDS может не быть наиболее идеальным подходом.

LucidDreamer : Методология и работа

Фреймворк LucidDreamer не только вводит подход ISM, но также строится на знаниях, полученных из других фреймворков, включая текстово-3D генеративные модели, модели диффузии и дифференцируемые 3D представления. С учетом этого, давайте рассмотрим подробную архитектуру и методологию фреймворка LucidDreamer.

Интервальная оценка совпадения или ISM

Проблемы чрезмерного сглаживания и низкокачественных выходов, с которыми сталкиваются большинство текстово-3D генеративных фреймворков, можно отнести к их использованию подхода SDS, который стремится сопоставить псевдо-эталонные истинные значения с 3D представлениями, что несоответствует и часто имеет плохое качество. Чтобы противостоять проблемам, с которыми сталкивается SDS, фреймворк LucidDreamer вводит ISM или интервальную оценку совпадения, новый подход, который имеет два рабочих этапа. На первом этапе компонент ISM получает более последовательные псевдо-эталонные истинные значения во время дистилляции, независимо от случайности в положении камеры и шуме. На втором этапе фреймворк генерирует псевдо-эталонные истинные значения с лучшим качеством.

Другим значительным ограничением SDS является генерация псевдо-эталонных истин с одношаговым прогнозом для всех временных интервалов, что делает сложным гарантировать высококачественные псевдо-эталонные истинные значения, и это является основой для улучшения визуального качества псевдо-эталонных истин. Аналогично, цель SDS может быть рассмотрена как сопоставление вида 3D модели с псевдо-эталонной истиной, оцененной DDPM в одном шаге, хотя процесс дистилляции упускает из виду критический аспект компонента DDPM, а именно, он производит низкокачественные псевдо-эталонные истинные значения с несоответствиями признаков во время процесса дистилляции.

В целом, компонент ISM обещает обеспечить несколько преимуществ над предыдущими методами, использованными в текстово-3D генеративных моделях. Во-первых, благодаря способности ISM обеспечить высококачественные псевдо-эталонные истинные значения последовательно, он может производить высококачественные выходы дистилляции с более тонкими структурами и более богатыми деталями, тем самым устраняя необходимость в крупномасштабном руководстве и повышая гибкость для создания 3D контента. Во-вторых, переход от подхода SDS к подходу ISM имеет незначительный вычислительный overhead, особенно поскольку подход ISM не компрометирует общую эффективность, даже если он требует дополнительных вычислительных затрат для инверсий DDIM.

Вышеуказанная фигура демонстрирует работу подхода ISM и обеспечивает обзор архитектуры фреймворка LucidDreamer. Фреймворк сначала инициализирует сплэттинг Гаусса, т.е. 3D представления, с помощью предварительно обученного текстово-3D генератора с помощью подсказки. Затем он объединяется с предварительно обученным 2D компонентом DDPM, чтобы нарушить случайные виды до шумовых неусловных латентных траекторий с помощью инверсий DDIM, и затем обновляется с интервальной оценкой. Благодаря своей архитектуре, ядро оптимизации компонента ISM сосредоточено на обновлении 3D представлений в направлении псевдо-эталонных истин, которые имеют высокое качество и последовательные признаки, но вычислительная дружественность. Этот принцип позволяет ISM соответствовать фундаментальным целям подхода SDS, совершенствуя существующий метод.

Инверсия DDIM

Фреймворк LucidDreamer направлен на производство более последовательных псевдо-эталонных истин в соответствии с 3D представлениями. Поэтому, вместо того, чтобы производить 3D представления, фреймворк LucidDreamer использует подход инверсии DDIM для прогнозирования шумовых латентных 3D представлений и прогнозирования инвертируемой шумовой латентной траектории в итеративном порядке. Кроме того, именно благодаря инвертируемости инверсии DDIM фреймворк LucidDreamer может существенно повысить последовательность псевдо-эталонных истин для всех временных интервалов.

Расширенный конвейер генерации

Фреймворк LucidDreamer также вводит расширенный конвейер, кроме ISM, для изучения факторов, влияющих на визуальное качество текстово-3D генерации, и вводит 3D сплэттинг Гаусса или 3DGS в качестве 3D генерации и 3D генерации облака точек для инициализации.

3D сплэттинг Гаусса

Существующие работы показали, что увеличение размера партии и разрешения рендеринга для обучения значительно улучшает визуальное качество. Однако большинство обучаемых 3D представлений, принятых для текстово-3D генерации, требуют времени и памяти. С другой стороны, подход 3D сплэттинга Гаусса обеспечивает эффективные результаты как в оптимизации, так и в рендеринге, что позволяет расширенному конвейеру фреймворка LucidDreamer достичь крупного размера партии, а также высокого разрешения рендеринга, даже при работе с ограниченными вычислительными ресурсами.

Инициализация

Большинство современных текстово-3D генеративных фреймворков инициализируют свои 3D представления с ограниченными геометриями, такими как круг, коробка или цилиндр, что часто приводит к нежелательным выходам для неаксиально-симметричных объектов. С другой стороны, поскольку фреймворк LucidDreamer вводит 3D сплэттинг Гаусса в качестве 3D представлений, фреймворк может принять несколько текстово-точечных генеративных фреймворков естественным образом для генерации грубой инициализации с помощью входных данных человека. Стратегия инициализации в конечном итоге существенно повышает скорость сходимости.

LucidDreamer : Эксперименты и результаты

Генерация 3D из текста

Вышеуказанная фигура демонстрирует результаты, сгенерированные моделью LucidDreamer с оригинальным подходом стабильной диффузии, тогда как следующая фигура обсуждает сгенерированные результаты на разных донастроенных контрольных точках.

Как можно видеть, фреймворк LucidDreamer способен генерировать высоко последовательный 3D контент, используя входной текст и семантические подсказки. Кроме того, с помощью ISM фреймворк LucidDreamer генерирует более реалистичные и детализированные изображения, избегая общих проблем, таких как перенасыщение или чрезмерное сглаживание, и превосходя в генерации как обычных объектов, так и поддержке творческих творений.

Обобщаемость ISM

Чтобы оценить обобщаемость ISM, проводится сравнение между ISM и SDS в обоих явных и неявных представлениях, и результаты демонстрируются на следующем изображении.

Качественное сравнение

Чтобы проанализировать качественную эффективность фреймворка LucidDreamer, он сравнивается с текущими базовыми моделями современного состояния искусства, и для обеспечения справедливого сравнения он использует фреймворк стабильной диффузии 2.1 для дистилляции, и результаты демонстрируются на следующем изображении. Как можно видеть, фреймворк обеспечивает высококачественные и геометрически точные результаты, потребляя меньше ресурсов и времени.

Кроме того, для обеспечения более всесторонней оценки разработчики также проводят исследование пользователя. Оценка выбирает 28 подсказок и использует различные подходы текстово-3D генерации для каждой подсказки для генерации объектов. Результаты затем ранжируются пользователями на основе степени соответствия входной подсказке и ее верности.

LucidDreamer : Применения

Благодаря своей исключительной производительности на широком диапазоне задач генерации 3D из текста, фреймворк LucidDreamer имеет несколько потенциальных применений, включая генерацию аватаров без выстрелов, персонализированную генерацию 3D из текста и генерацию 2D и 3D редактирования без выстрелов.

Верхнее левое изображение демонстрирует потенциал LucidDreamer в задачах редактирования 2D и 3D без выстрелов, тогда как нижние левые изображения демонстрируют способность фреймворка генерировать персонализированные выходы 3D из текста с LoRA, тогда как правое изображение демонстрирует способность фреймворка генерировать 3D аватары.

Заключительные мысли

В этой статье мы обсудили LucidDreamer, новый подход, который использует метод интервальной оценки совпадения для преодоления проблемы чрезмерного сглаживания, и обсудили архитектуру модели и ее производительность по сравнению с актуальными текстово-3D генеративными фреймворками. Мы также обсудили, как SDS или дистилляция оценки баллов, общий подход, реализованный в большинстве современных текстово-3D генеративных моделей, часто приводит к чрезмерному сглаживанию сгенерированных изображений, и как фреймворк LucidDreamer противостоит этой проблеме, вводя новый подход, интервальную оценку совпадения, для генерации высококачественных и более реалистичных 3D изображений. Результаты и оценка указывают на эффективность фреймворка LucidDreamer на широком диапазоне задач генерации 3D, и на то, как фреймворк уже работает лучше, чем текущие модели генерации 3D. Исключительная производительность фреймворка открывает путь для широкого диапазона практических применений, как уже обсуждалось.

Unite.AI