Искусственный интеллект

Dreamcraft3D: Иерархическая 3D-генерация с помощью бутстрэп-диффузионного приора

Published November 16, 2023

Updated April 4, 2026

Kunal Kejriwal

Модели генеративного ИИ были предметом обсуждения в отрасли ИИ в течение некоторого времени. Недавний успех 2D-генеративных моделей проложил путь для методов, которые мы используем для создания визуального контента сегодня. Хотя сообщество ИИ добилось замечательных успехов в 2D-генеративных моделях, генерация 3D-контента остается серьезной проблемой для глубоких генеративных ИИ-рамок. Это особенно верно, поскольку спрос на 3D-генерируемый контент достигает исторического максимума, обусловленного широким спектром визуальных игр, приложений, виртуальной реальности и даже кинематографа. Стоит отметить, что хотя существуют 3D-генеративные ИИ-рамки, которые дают приемлемые результаты для определенных категорий и задач, они не могут эффективно генерировать 3D-объекты. Этот пробел можно отнести к отсутствию обширных 3D-данных для обучения рамок. Недавно разработчики предложили использовать руководство, предлагаемое предварительно обученными текст-изображение ИИ-генеративными моделями, подход, который показал перспективные результаты.

В этой статье мы обсудим рамку DreamCraft3D, иерархическую модель для генерации 3D-контента, которая производит связные и высококачественные 3D-объекты высокого качества. Рамка DreamCraft3D использует 2D-справочное изображение для руководства геометрической скульптурой на этапе, улучшая текстуру с учетом решения проблем согласованности, с которыми сталкиваются текущие рамки или методы. Кроме того, рамка DreamCraft3D использует модель диффузии, зависимую от вида, для дистилляции оценок, что помогает в скульптуре геометрии, которая способствует связному рендерингу.

Мы более подробно рассмотрим рамку DreamCraft3D для генерации 3D-контента. Кроме того, мы исследуем концепцию использования предварительно обученных моделей Text-to-Image (T2I) для генерации 3D-контента и изучим, как рамка DreamCraft3D стремится использовать этот подход для генерации реалистичного 3D-контента.

DreamCraft3D: Введение

DreamCraft3D – это иерархический конвейер для генерации 3D-контента. Рамка DreamCraft3D пытается использовать рамку T2I или Text to Image генеративную рамку для создания высококачественных 2D-изображений с помощью текстового промпта. Этот подход позволяет рамке DreamCraft3D максимально использовать возможности современных 2D-диффузионных моделей для представления визуальной семантики, описанной в текстовом промпте, сохраняя при этом творческую свободу, предлагаемую этими 2D-ИИ-генеративными рамками. Генерируемое изображение затем поднимается до 3D с помощью каскадной геометрической текстурной настройки и геометрической скульптуры фаз, и специализированные техники применяются на каждом этапе с помощью декомпозиции проблемы.

Для геометрии рамка DreamCraft3D фокусируется в первую очередь на глобальной 3D-структуре и многовидовой согласованности, что делает возможным компромисс в отношении детальных текстур в изображениях. Как только рамка избавляется от геометрических проблем, она смещает свой фокус на оптимизацию связных и реалистичных текстур путем реализации 3D-осведомленной диффузии, которая бутстрэпит 3D-оптимизационный подход. Существуют два ключевых соображения проектирования для двух оптимизационных фаз, а именно геометрической скульптуры и текстурной настройки.

С учетом всего вышесказанного, можно с уверенностью сказать, что DreamCraft3D – это ИИ-генеративная рамка, которая использует иерархический конвейер генерации 3D-контента для преобразования 2D-изображений в их 3D-аналоги, сохраняя при этом целостную 3D-согласованность.

Использование предварительно обученных моделей T2I или Text-to-Image

Идея использования предварительно обученных моделей T2I или Text-to-Image для генерации 3D-контента была впервые введена рамкой DreamFusion в 2022 году. Рамка DreamFusion попыталась реализовать потерю SDS или Score Distillation Sample для оптимизации 3D-рамки таким образом, чтобы рендеринги в случайных точках зрения соответствовали текст-условным изображениям, интерпретированным эффективной текст-изображение диффузионной рамкой. Хотя подход DreamFusion дал приличные результаты, существовали две основные проблемы: размытость и перенасыщение. Чтобы решить эти проблемы, недавние работы реализуют различные стратегии оптимизации на каждом этапе в попытке улучшить 2D-дистилляцию потерь, что в конечном итоге приводит к лучшему качеству и реалистичности 3D-генерируемых изображений.

Однако, несмотря на недавний успех этих рамок, они не могут сравниться с возможностью 2D-генеративных рамок синтезировать сложный контент. Кроме того, эти рамки часто осложнены проблемой “Януса”, состоянием, при котором 3D-рендеринги, которые кажутся правдоподобными индивидуально, показывают стилистические и семантические несоответствия при рассмотрении в целом.

Чтобы решить проблемы, с которыми сталкиваются предыдущие работы, рамка DreamCraft3D исследует возможность использования целостного иерархического конвейера генерации 3D-контента и черпает вдохновение из ручного художественного процесса, в котором концепция сначала записывается в 2D-черновик, после чего художник скульпирует грубую геометрию, уточняет геометрические детали и рисует высококачественные текстуры. Следуя этому же подходу, рамка DreamCraft3D разбивает исчерпывающие задачи генерации 3D-контента или изображений на различные управляемые шаги.

На первом этапе рамка DreamCraft3D развертывает геометрическую скульптуру для производства связных и правдоподобных 3D-геометрических форм с помощью 2D-изображения в качестве справочного. Кроме того, на этом этапе рамка не только использует потерю SDS для фотометрических потерь и новых видов на справочном виде, но также вводит ряд стратегий для содействия геометрической согласованности. Рамка стремится использовать Zero-1-to-3, модель перевода изображения, условную для точки зрения, для использования справочного изображения для моделирования распределения новых видов. Кроме того, рамка также переходит от неявного представления поверхности к сетчатому представлению для грубого до тонкого геометрического уточнения.

На втором этапе рамка DreamCraft3D использует бутстрэпированный подход дистилляции оценок для настройки текстур изображения, поскольку текущие модели диффузии, условные для вида, обучены на ограниченном количестве 3D-данных, что является причиной, по которой они часто испытывают трудности в соответствии производительности или верности 2D-диффузионных моделей. Благодаря этому ограничению, рамка DreamCraft3D уточняет модель диффузии в соответствии с многовидовыми изображениями 3D-экземпляра, который оптимизируется, и этот подход помогает рамке в настройке 3D-текстур, сохраняя при этом многовидовую согласованность. Когда модель диффузии обучается на этих многовидовых рендерингах, она обеспечивает лучшее руководство для оптимизации 3D-текстур, и этот подход помогает рамке DreamCraft3D достичь впечатляющей текстурной детализации, сохраняя при этом видовую согласованность.

Как можно наблюдать на приведенных выше изображениях, рамка DreamCraft3D способна производить творческие 3D-изображения и контент с реалистичными текстурами и интригующими геометрическими структурами. На первом изображении – тело Сон Гоку, аниме-персонаж, смешанный с головой бегущей дикой свиньи, тогда как на втором изображении – бигль, одетый в наряд детектива. Следующие изображения – дополнительные примеры.

DreamCraft3D: Работа и Архитектура

Рамка DreamCraft3D пытается использовать современную T2I или Text to Image генеративную рамку для создания высококачественных 2D-изображений с помощью текстового промпта. Этот подход позволяет рамке DreamCraft3D максимально использовать возможности современных 2D-диффузионных моделей для представления визуальной семантики, описанной в текстовом промпте, сохраняя при этом творческую свободу, предлагаемую этими 2D-ИИ-генеративными рамками. Генерируемое изображение затем поднимается до 3D с помощью каскадной геометрической текстурной настройки и геометрической скульптуры фаз, и специализированные техники применяются на каждом этапе с помощью декомпозиции проблемы. Следующее изображение кратко суммирует работу рамки DreamCraft3D.

Давайте более подробно рассмотрим ключевые соображения проектирования для текстурной настройки и геометрической скульптуры фаз.

Геометрическая Скульптура

Геометрическая скульптура – это первый этап, на котором рамка DreamCraft3D пытается создать 3D-модель, соответствующую виду справочного изображения на том же справочном виде, обеспечивая при этом максимальную правдоподобность даже под разными углами зрения. Чтобы обеспечить максимальную правдоподобность, рамка использует потерю SDS для содействия правдоподобному изображению рендеринга для каждого отдельного образца вида, который предварительно обученная диффузионная модель может распознать. Кроме того, чтобы эффективно использовать руководство справочного изображения, рамка наказывает фотометрические различия между справочным и рендеренными изображениями на справочном виде, и потеря вычисляется только в пределах переднего плана вида. Кроме того, чтобы содействовать сценарной скудости, рамка также реализует потерю маски, которая рендерит силуэт. Несмотря на это, поддержание вида и семантики на задних видах остается проблемой, что является причиной, по которой рамка использует дополнительные подходы для производства детальной и связной геометрии.

3D-Осведомленный Диффузионный Приор

3D-оптимизационные методы, использующие только надзор за видом, являются недостаточно определёнными, что является основной причиной, по которой рамка DreamCraft3D использует Zero-1-to-3, модель диффузии, условную для вида, поскольку Zero-1-to-3 предлагает повышенную осведомленность о виде, поскольку она была обучена на более крупном масштабе 3D-данных. Кроме того, Zero-1-to-3 – это уточненная диффузионная модель, которая галлюцинирует изображение в отношении камеры, заданной справочным изображением.

Прогрессивная Обучение Видов

Получение свободных видов напрямую в 360 градусах может привести к геометрическим артефактам или несоответствиям, таким как дополнительная нога на стуле, событие, которое можно отнести к неоднозначности, присущей единственному справочному изображению. Чтобы решить эту проблему, рамка DreamCraft3D расширяет обучающие виды прогрессивно, после чего хорошо установленная геометрия постепенно распространяется для получения результатов в 360 градусах.

Аннигиляция Шага Диффузии

Рамка DreamCraft3D использует стратегию аннигиляции шага диффузии в попытке соответствовать грубому до тонкого прогрессу 3D-оптимизации. В начале процесса оптимизации рамка отдает приоритет выборке более крупного шага диффузии, пытаясь обеспечить глобальную структуру. Когда рамка продолжает процесс обучения, она линейно аннигилирует диапазон выборки в течение сотен итераций. Благодаря стратегии аннигиляции рамка успешно устанавливает правдоподобную глобальную геометрию на ранних этапах оптимизации до уточнения структурных деталей.

Уточнение Структурных Деталей

Рамка DreamCraft3D оптимизирует неявное представление поверхности изначально для установления грубой структуры. Рамка затем использует этот результат и сочетает его с деформируемой тетраэдрической сеткой или DMTet для инициализации текстурированного 3D-сетчатого представления, которое десентрирует обучение текстуры и геометрии. Когда рамка завершает структурное уточнение, модель способна сохранить высокочастотные детали, полученные из справочного изображения, уточняя текстуры исключительно.

Настройка Текстур с помощью Бутстрэпированного Семплирования Оценок

Хотя этап геометрической скульптуры подчеркивает обучение детальной и связной геометрии, он также размытывает текстуру до определенной степени, что может быть результатом зависимости рамки от 2D-пrior модели, работающей на грубом разрешении, а также ограниченной остроты, предлагаемой 3D-диффузионной моделью. Кроме того, общие проблемы с текстурами, включая перенасыщение и过-размытие, возникают в результате большой классификаторно-свободной направленности.

Рамка использует потерю VSD или Variational Score Distillation для повышения реализма текстур. Рамка выбирает модель Stable Diffusion в течение этого конкретного этапа для получения высокоразрешающих градиентов. Кроме того, рамка сохраняет тетраэдрическую сетку фиксированной для содействия реалистичному рендерингу для оптимизации общей структуры сетки. Во время этапа обучения рамка DreamCraft3D не использует Zero-1-to-3, поскольку это имеет негативное влияние на качество текстур, и эти несоответствующие текстуры могут быть повторяющимися, что приводит к странным 3D-выходам.

Эксперименты и Результаты

Чтобы оценить производительность рамки DreamCraft3D, она сравнивается с текущими современными рамками, и качественные и количественные результаты анализируются.

Сравнение с Базовыми Моделями

Чтобы оценить производительность, рамка DreamCraft3D сравнивается с 5 современными рамками, включая DreamFusion, Magic3D, ProlificDreamer, Magic123 и Make-it-3D. Тестовый бенчмарк состоит из 300 входных изображений, которые представляют собой смесь реальных изображений и тех, которые генерируются рамкой Stable Diffusion. Каждое изображение в тестовом бенчмарке имеет текстовый промпт, предсказанную карту глубины и альфа-маску для переднего плана. Рамка получает текстовые промпты для реальных изображений из рамки image caption.

Качественный Анализ

Следующее изображение сравнивает рамку DreamCraft3D с текущими базовыми моделями, и как можно видеть, рамки, которые полагаются на текст-3D-подход, часто сталкиваются с проблемами многовидовой согласованности.

С одной стороны, у вас есть рамка ProlificDreamer, которая предлагает реалистичные текстуры, но она не может генерировать правдоподобный 3D-объект. Рамки, такие как Make-it-3D, которые полагаются на Image-to-3D-методы, могут создавать высококачественные фронтальные виды, но они не могут поддерживать идеальную геометрию для изображений. Изображения, сгенерированные рамкой Magic123, предлагают лучшую геометрическую регуляризацию, но они генерируют чрезмерно насыщенные и сглаженные геометрические текстуры и детали. Когда сравниваются с этими рамками, рамка DreamCraft3D, которая использует бутстрэпированный метод дистилляции оценок, не только поддерживает семантическую согласованность, но также улучшает общую разнообразие воображения.

Количественный Анализ

В попытке сгенерировать убедительные 3D-изображения, которые не только напоминают входное справочное изображение, но также передают семантику с различных точек зрения последовательно, техники, используемые рамкой DreamCraft3D, сравниваются с базовыми моделями, и процесс оценки использует четыре метрики: PSNR и LPIPS для измерения верности на справочном виде, Contextual Distance для оценки пиксельного соответствия, и CLIP для оценки семантической согласованности. Результаты демонстрируются на следующем изображении.

Вывод

В этой статье мы обсудили DreamCraft3D, иерархический конвейер для генерации 3D-контента. Рамка DreamCraft3D стремится использовать современную Text-to-Image (T2I) генеративную рамку для создания высококачественных 2D-изображений с помощью текстового промпта. Этот подход позволяет рамке DreamCraft3D максимально использовать возможности современных 2D-диффузионных моделей для представления визуальной семантики, описанной в текстовом промпте, сохраняя при этом творческую свободу, предлагаемую этими 2D-ИИ-генеративными рамками. Генерируемое изображение затем поднимается до 3D с помощью каскадной геометрической текстурной настройки и геометрической скульптуры фаз, и специализированные техники применяются на каждом этапе с помощью декомпозиции проблемы. В результате этого подхода рамка DreamCraft3D может производить высококачественные и связные 3D-активы с убедительными текстурами, видимыми с нескольких сторон.

Unite.AI