Inteligência artificial

LucidDreamer: Geração de Texto-3D de Alta Fidelidade via Interval Score Matching

Published December 15, 2023

Updated April 28, 2026

Kunal Kejriwal

Os recentes avanços nos quadros de geração de texto-3D da IA marcaram um marco significativo nos modelos gerativos. Eles abrem caminho para novas possibilidades na criação de ativos 3D em diversos cenários do mundo real. Ativos digitais 3D agora ocupam um lugar indispensável em nossa presença digital, permitindo uma visualização e interação abrangentes com ambientes e objetos complexos que refletem nossas experiências do mundo real. Esses quadros de geração de IA 3D são aplicados em vários domínios, incluindo animação, arquitetura, jogos, realidade aumentada e virtual, e muito mais. Eles também estão sendo usados extensivamente em conferências online, varejo, educação e marketing.

No entanto, apesar da promessa desses avanços nos quadros de geração de texto-3D, o uso extensivo de tecnologias 3D vem com um grande problema. A geração de imagens e conteúdo de mídia 3D de alta qualidade ainda requer tempo, esforço, recursos e expertise especializada significativos. Mesmo com esses requisitos atendidos, a geração de texto-3D frequentemente falha em renderizar modelos 3D detalhados e de alta qualidade. Esse problema de renderização e geração 3D de baixa qualidade é mais prevalente em quadros que usam o método de Amostragem de Destilação de Pontuação (SDS). Este artigo discutirá as deficiências notáveis observadas em modelos que usam o método SDS, que introduzem inconsistências e direções de atualização de baixa qualidade, resultando em um efeito de super-suavização na saída gerada. Também apresentaremos o quadro LucidDreamer, uma abordagem nova que usa o método de Interval Score Matching (ISM) para superar o problema de super-suavização. Exploraremos a arquitetura do modelo e seu desempenho contra os quadros de geração de texto-3D de última geração. Então, vamos começar.

LucidDreamer3D: Uma Introdução à Geração 3D usando Interval Score Matching

Uma razão importante pela qual os modelos de geração 3D têm sido o ponto de discussão da indústria de IA gerativa é devido às suas aplicações generalizadas em vários domínios e indústrias, e sua capacidade de produzir conteúdo 3D em tempo real. Devido às suas aplicações práticas generalizadas, os desenvolvedores propuseram várias abordagens de geração de conteúdo 3D, das quais os quadros de geração de texto-3D se destacam por sua capacidade de usar apenas descrições de texto para gerar modelos 3D imaginativos. Os quadros de geração de texto-3D alcançam isso usando um modelo de difusão de imagem pré-treinado para supervisionar o treinamento de um modelo 3D parametrizado por neurônios, permitindo a renderização de imagens 3D consistentes que se alinham com o texto. Essa capacidade de renderizar imagens 3D consistentes é baseada no uso fundamental da Amostragem de Destilação de Pontuação, e permite que a SDS atue como o mecanismo central para trazer resultados 2D de modelos de difusão para seus equivalentes 3D, permitindo o treinamento de modelos 3D sem usar imagens de treinamento. Apesar de sua eficácia, os quadros de IA gerativa 3D que usam o método SDS frequentemente sofrem de distorção e problemas de super-suavização que prejudicam a implementação prática da geração 3D de alta fidelidade.

Para lidar com os problemas de super-suavização, o quadro LucidDreamer implementa uma abordagem de Interval Score Matching (ISM), uma abordagem nova que usa dois mecanismos eficazes. Primeiro, a abordagem ISM emprega o método de inversão DDIM para mitigar o efeito de média causado por inconsistências na Verdade Terra pseudo, produzindo uma trajetória de difusão invertível. Em segundo lugar, em vez de combinar as imagens renderizadas pelo modelo 3D com as Verdades Terras pseudo, o método ISM combina-as entre dois passos de intervalo na trajetória de difusão, o que ajuda a evitar um alto erro de reconstrução, evitando a reconstrução em um passo. O uso de ISM em vez de SDS resulta em um desempenho consistentemente alto, com saídas realistas e detalhadas.

No geral, o quadro LucidDreamer visa fazer as seguintes contribuições para a IA gerativa 3D

Fornece uma análise aprofundada da SDS, o conceito fundamental nos quadros de geração de texto-3D, e identifica suas limitações principais de Verdades Terras pseudo de baixa qualidade, e fornece uma explicação para o efeito de super-suavização enfrentado por esses quadros de geração de 3D.
Para contrariar as limitações impostas pela abordagem SDS, o quadro LucidDreamer introduz o Interval Score Matching, uma abordagem nova que usa combinação baseada em intervalo e trajetórias de difusão invertíveis para superar a SDS, produzindo saídas realistas e detalhadas.
Alcançar o desempenho de última geração, integrando o método ISM com Splatting Gaussiano 3D para superar os métodos existentes para geração de conteúdo 3D com baixos custos de treinamento.

Limitações da SDS

Como mencionado anteriormente, a SDS é uma das abordagens mais populares para modelos de geração de texto-3D, e busca modos para posterior condicional no espaço latente do DDPM. A abordagem SDS também adota um DDPM pré-treinado para modelar o posterior condicional, e visa destilar as representações 3D para o posterior condicional, que é alcançado minimizando a seguinte divergência KL. Além disso, a abordagem SDS também reutiliza o objetivo de combinação de pontuação de ruído ponderada para o treinamento do DDP. O objetivo principal da abordagem SDS também pode ser visto como combinar a visão do modelo 3D com a Verdade Terra pseudo estimada em um passo único pelo DDPM. No entanto, os desenvolvedores observaram que o processo de destilação frequentemente ignora aspectos-chave do DDPM, e a seguinte figura demonstra como um DDPM pré-treinado tende a prever Verdades Terras pseudo com recursos inconsistentes, e produz saídas de baixa qualidade durante o processo de destilação.

No entanto, as direções de atualização em circunstâncias indesejadas são atualizadas para representações 3D que eventualmente levam a resultados super-suavizados. Além disso, é digno de nota que o componente DDPM é sensível à entrada, e os recursos da Verdade Terra pseudo mudam significativamente mesmo com a menor alteração na entrada. Além disso, a aleatoriedade tanto na pose da câmera quanto no componente de ruído das entradas pode adicionar flutuações que são inevitáveis durante a destilação. Otimizar a entrada para Verdades Terras pseudo inconsistentes resulta em resultados de média de recursos. O que mais é que a abordagem SDS obtém Verdades Terras pseudo com uma previsão de um passo para todos os intervalos de tempo, e não leva em conta as limitações de um componente DDPM de um passo que são incapazes de produzir saídas de alta qualidade, o que indica que destilar ativos ou imagens 3D com o componente SDS pode não ser a abordagem mais ideal.

LucidDreamer: Metodologia e Funcionamento

O quadro LucidDreamer não apenas introduz a abordagem ISM, mas também se baseia nos conhecimentos de outros quadros, incluindo modelos de geração de texto-3D, modelos de difusão e frameworks de representação 3D diferenciáveis. Com isso dito, vamos dar uma olhada detalhada na arquitetura e metodologia do quadro LucidDreamer.

Interval Score Matching ou ISM

Os problemas de super-suavização e saídas de baixa qualidade enfrentados pela maioria dos quadros de geração de texto-3D podem ser atribuídos ao uso da abordagem SDS, que visa combinar a Verdade Terra pseudo com as representações 3D, que é inconsistente e frequentemente de qualidade inferior. Para contrariar os problemas enfrentados pela SDS, o quadro LucidDreamer introduz o ISM ou Interval Score Matching, uma abordagem nova que tem dois estágios de funcionamento. No primeiro estágio, o componente ISM obtém Verdades Terras pseudo mais consistentes durante a destilação, independentemente da aleatoriedade nas poses da câmera e no ruído. No segundo estágio, o quadro gera Verdades Terras pseudo com melhor qualidade.

Outra limitação significativa da SDS é gerar Verdades Terras pseudo com uma previsão de um passo para todos os intervalos de tempo, o que torna desafiador garantir Verdades Terras pseudo de alta qualidade, e forma a base para melhorar a qualidade visual das Verdades Terras pseudo. De forma semelhante, o objetivo da SDS pode ser visto como combinar a visão do modelo 3D com a Verdade Terra pseudo estimada pelo DDPM em um passo único, embora o processo de destilação ignore um aspecto crítico do componente DDPM, ou seja, produzir Verdades Terras pseudo de baixa qualidade com recursos inconsistentes durante o processo de destilação.

No geral, o componente ISM promete entregar várias vantagens sobre os métodos anteriores usados nos modelos de geração de texto-3D. Primeiro, graças à capacidade do ISM de fornecer Verdades Terras pseudo de alta qualidade consistentemente, é capaz de produzir saídas de destilação de alta fidelidade com estruturas mais finas e detalhes mais ricos, eliminando a necessidade de uma grande escala de orientação e melhora a flexibilidade para a criação de conteúdo 3D. Em segundo lugar, a transição da abordagem SDS para a abordagem ISM tem uma sobrecarga computacional marginal, especialmente desde que a abordagem ISM não compromete a eficiência geral, mesmo que exija custos computacionais adicionais para as inversões DDIM.

A figura acima demonstra o funcionamento da abordagem ISM e fornece uma visão geral da arquitetura do quadro LucidDreamer. O quadro primeiro inicializa o Splatting Gaussiano, ou seja, as representações 3D, usando um gerador de texto-3D pré-treinado com um prompt. Em seguida, é incorporado com um componente DDPM pré-treinado para perturbar vistas aleatórias para trajetórias latentes incondicionais usando inversões DDIM, e então atualiza com a pontuação de intervalo. Graças à sua arquitetura, o núcleo da otimização do componente ISM se concentra em atualizar as representações 3D em direção às Verdades Terras pseudo de alta qualidade e consistentes, mas amigáveis computacionalmente. Esse princípio é o que permite que o ISM se alinhe com os objetivos fundamentais da abordagem SDS, refinando o método existente.

Inversão DDIM

O quadro LucidDreamer visa produzir Verdades Terras pseudo mais consistentes em alinhamento com as representações 3D. Portanto, em vez de produzir representações 3D, o quadro LucidDreamer emprega a abordagem de inversão DDIM para prever ruído latente de representações 3D, e prever uma trajetória latente de ruído invertível de forma iterativa. Além disso, é devido à invertibilidade da inversão DDIM que o quadro LucidDreamer é capaz de aumentar a consistência da Verdade Terra pseudo significativamente para todos os intervalos de tempo.

Pipeline de Geração Avançada

O quadro LucidDreamer também introduz um pipeline avançado, além do ISM, para explorar os fatores que afetam a qualidade visual da geração de texto-3D, e introduz o Splatting Gaussiano 3D ou 3DGS como seu modelo de geração 3D e geração de nuvem de pontos 3D para inicialização.

Splatting Gaussiano 3D

Trabalhos existentes indicaram que aumentar o tamanho do lote e a resolução de renderização para treinamento melhora significativamente a qualidade visual. No entanto, a maioria das representações 3D aprendidas adotadas para a geração de texto-3D é consumidora de tempo e memória. Por outro lado, a abordagem de Splatting Gaussiano 3D fornece resultados eficientes tanto na otimização quanto na renderização, o que permite que o Pipeline de Geração Avançada no quadro LucidDreamer alcance um grande tamanho de lote e renderização de alta resolução, mesmo operando com recursos computacionais limitados.

A maioria dos quadros de geração de texto-3D de última geração inicializa suas representações 3D com geometrias limitadas, como círculo, caixa ou cilindro, o que frequentemente resulta em saídas indesejadas em objetos não simétricos em torno do eixo. Por outro lado, à medida que o quadro LucidDreamer introduz o Splatting Gaussiano 3D como representações 3D, o quadro pode adotar várias frameworks de geração de pontos de texto para gerar uma inicialização grossa com entradas humanas. A estratégia de inicialização eventualmente aumenta significativamente a velocidade de convergência.

LucidDreamer: Experimentos e Resultados

Geração de Texto-3D

A figura acima demonstra os resultados gerados pelo modelo LucidDreamer com a abordagem de difusão estável original, enquanto a figura seguinte discute os resultados gerados em diferentes checkpoints de ajuste fino.

Como pode ser visto, o quadro LucidDreamer é capaz de gerar conteúdo 3D consistentemente usando o texto de entrada e dicas semânticas. Além disso, com o uso do ISM, o quadro LucidDreamer gera imagens intricadas e mais realistas, evitando problemas comuns como super-saturação ou super-suavização, e se destacando na geração de objetos comuns, bem como apoiando criações criativas.

Generalização do ISM

Para avaliar a generalização do ISM, uma comparação é realizada entre os métodos ISM e SDS em representações explícitas e implícitas, e os resultados são demonstrados na seguinte imagem.

Comparaçãoo Qualitativa

Para analisar a eficiência qualitativa do quadro LucidDreamer, é comparado com os modelos de linha de base atuais, e para garantir uma comparação justa, usa o framework de Difusão Estável 2.1 para destilação, e os resultados são demonstrados na seguinte imagem. Como pode ser visto, o quadro entrega resultados de alta fidelidade e geometricamente precisos, consumindo menos recursos e tempo.

Além disso, para fornecer uma avaliação mais abrangente, os desenvolvedores também realizam um estudo de usuário. A avaliação seleciona 28 prompts e usa diferentes abordagens de geração de texto-3D em cada prompt para gerar objetos. Os resultados foram então classificados pelos usuários com base no grau de alinhamento com o prompt de entrada e sua fidelidade.

LucidDreamer: Aplicações

Devido ao seu desempenho excepcional em uma ampla gama de tarefas de geração de texto-3D, o quadro LucidDreamer tem várias aplicações potenciais, incluindo geração de avatar zero-shot, geração de texto-3D personalizada e edição 2D e 3D zero-shot.

A imagem do canto superior esquerdo demonstra o potencial do LucidDreamer em tarefas de edição 2D e 3D zero-shot, enquanto as imagens do canto inferior esquerdo demonstram a capacidade do quadro de gerar saídas de texto-3D personalizadas com LoRA, enquanto a imagem da direita mostra a capacidade do quadro de gerar avatares 3D.

Pensamentos Finais

Neste artigo, discutimos o LucidDreamer, uma abordagem nova que usa o método de Interval Score Matching para superar o problema de super-suavização, e discutimos a arquitetura do modelo e seu desempenho contra os quadros de geração de texto-3D de última geração. Também discutimos como a SDS, uma abordagem comum implementada na maioria dos modelos de geração de texto-3D, frequentemente resulta em super-suavização das imagens geradas, e como o quadro LucidDreamer contraria esse problema, introduzindo uma nova abordagem, a abordagem de Interval Score Matching, para gerar imagens 3D de alta fidelidade e mais realistas. Os resultados e a avaliação indicam a eficácia do quadro LucidDreamer em uma ampla gama de tarefas de geração 3D, e como o quadro já performa melhor do que os modelos de geração 3D atuais. O desempenho excepcional do quadro abre caminho para uma ampla gama de aplicações práticas, como já discutido.

Unite.AI