Inteligência artificial

Uni3D: Explorando a Representação 3D Unificada em Escala

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

A escala de representações de texto e visuais tem sido um foco importante de pesquisa nos últimos anos. Desenvolvimentos e pesquisas realizados recentemente levaram a numerous revoluções no aprendizado de linguagem e visão. No entanto, apesar da popularidade da escala de representações de texto e visual, a escala de representações para cenas e objetos 3D não foi suficientemente discutida.

Hoje, vamos discutir o Uni3D, um modelo de fundação 3D que visa explorar representações 3D unificadas. O framework Uni3D emprega um framework ViT inicializado em 2D, pré-treinado de ponta a ponta, para alinhar recursos de imagem-texto com recursos de nuvem de pontos 3D.

O framework Uni3D usa tarefas de pré-texto e uma arquitetura simples para aproveitar a abundância de modelos 2D pré-treinados e modelos alinhados imagem-texto como inicializações e alvos, respectivamente. Essa abordagem libera o potencial total dos modelos 2D e estratégias para escalá-los para o mundo 3D.

Neste artigo, vamos mergulhar mais fundo no aprendizado de visão computacional 3D e no framework Uni3D, explorando os conceitos essenciais e a arquitetura do modelo. Então, vamos começar.

Uni3D e Aprendizado de Representação 3D: Uma Introdução

Nos últimos anos, a visão computacional emergiu como um dos domínios mais investidos na indústria de IA. Após avanços significativos em frameworks de visão computacional 2D, os desenvolvedores mudaram seu foco para a visão computacional 3D. Esse campo, particularmente o aprendizado de representação 3D, combina aspectos de gráficos computacionais, aprendizado de máquina, visão computacional e matemática para automatizar o processamento e compreensão de geometria 3D. O desenvolvimento rápido de sensores 3D, como LiDAR, juntamente com suas aplicações generalizadas na indústria de AR/VR, resultou no aprendizado de representação 3D ganhando atenção crescente. Suas aplicações potenciais continuam a crescer diariamente.

Embora os frameworks existentes tenham mostrado progresso notável na arquitetura de modelo 3D, modelagem orientada a tarefas e objetivos de aprendizado, a maioria explora a arquitetura 3D em uma escala relativamente pequena com dados limitados, parâmetros e cenários de tarefas. O desafio de aprender representações 3D escaláveis, que podem ser aplicadas a aplicações em tempo real em ambientes diversos, permanece em grande parte inexplorado.

Avançando, nos últimos anos, a escala de grandes modelos de linguagem pré-treinados ajudou a revolucionar o domínio de processamento de linguagem natural, e trabalhos recentes indicaram uma tradução no progresso de 2D para linguagem usando escalas de dados e modelos, o que permite que os desenvolvedores tentem e reajam esse sucesso para aprender uma representação 3D que possa ser escalada e transferida para aplicações no mundo real.

O Uni3D é um framework de pré-treinamento 3D escalável e unificado desenvolvido com o objetivo de aprender representações 3D em grande escala que testam seus limites na escala de mais de um bilhão de parâmetros, mais de 10 milhões de imagens emparelhadas com mais de 70 milhões de textos e mais de um milhão de formas 3D. A figura abaixo compara a precisão de acerto zero contra parâmetros no framework Uni3D. O framework Uni3D escala com sucesso as representações 3D de 6 milhões para mais de um bilhão.

O framework Uni3D consiste em um ViT 2D ou Vision Transformer como codificador 3D que é então pré-treinado de ponta a ponta para alinhar os recursos de imagem-texto com os recursos de nuvem de pontos 3D. O framework Uni3D usa tarefas de pré-texto e uma arquitetura simples para aproveitar a abundância de modelos 2D pré-treinados e modelos alinhados imagem-texto como inicializações e alvos, respectivamente, liberando o potencial total dos modelos 2D e estratégias para escalá-los para o mundo 3D.

Escala do modelo de 6M para mais de um bilhão de parâmetros.
Inicialização 2D para texto supervisionado de aprendizado auto-supervisionado visual.
Modelo de alvo de imagem-texto escalado de 150 milhões para mais de um bilhão de parâmetros.

Sob o framework flexível e unificado oferecido pelo Uni3D, os desenvolvedores observam um aumento coerente no desempenho ao escalar cada componente. O aprendizado de representação 3D em grande escala também se beneficia imensamente das estratégias compartilhadas 2D e de escalonamento.

Como pode ser visto na figura abaixo, o framework Uni3D apresenta um aumento no desempenho em comparação com os trabalhos anteriores em configurações de poucos disparos e zero disparos. É digno de nota que o framework Uni3D retorna uma pontuação de precisão de classificação zero de mais de 88% no ModelNet, que é par com o desempenho de vários métodos de supervisão de estado da arte.

Além disso, o framework Uni3D também entrega precisão e desempenho de ponta ao realizar outras tarefas 3D representativas, como segmentação de partes e compreensão de mundo aberto. O framework Uni3D visa fechar a lacuna entre a visão 2D e a visão 3D, escalando modelos fundamentais 3D com uma abordagem de pré-treinamento unificada e simples para aprender representações 3D mais robustas em uma ampla gama de tarefas, o que pode ajudar na convergência de visão 2D e 3D em uma ampla gama de modalidades.

Uni3D: Trabalho Relacionado

O framework Uni3D se inspira e aprende com os desenvolvimentos feitos por trabalhos anteriores de aprendizado de representação 3D e modelos fundamentais, especialmente sob diferentes modalidades.

Aprendizado de Representação 3D

O método de aprendizado de representação 3D usa nuvens de pontos para compreensão 3D do objeto, e esse campo foi explorado por desenvolvedores muito recentemente, e foi observado que essas nuvens de pontos podem ser pré-treinadas sob auto-supervisão usando tarefas de pré-texto 3D específicas, incluindo modelagem de pontos de máscara, auto-reconstrução e aprendizado contrastivo.

É digno de nota que esses métodos trabalham com dados limitados e não investigam representações multimodais para 3D a partir de 2D ou NLP. No entanto, o sucesso recente do framework CLIP que retorna alta eficiência no aprendizado de conceitos visuais a partir de texto bruto usando o método de aprendizado contrastivo, e busca aprender representações 3D alinhando recursos de imagem, texto e nuvem de pontos usando o mesmo método de aprendizado contrastivo.

Modelos Fundamentais

Os desenvolvedores têm trabalhado exaustivamente no design de modelos fundamentais para escalar e unificar representações multimodais. Por exemplo, no domínio de NLP, os desenvolvedores têm trabalhado em frameworks que podem escalar modelos de linguagem pré-treinados, e está lentamente revolucionando a indústria de NLP. Além disso, avanços podem ser observados no domínio de visão 2D, pois os desenvolvedores estão trabalhando em frameworks que usam técnicas de escalonamento de dados e modelos para ajudar no progresso da linguagem para modelos 2D, embora tais frameworks sejam difíceis de replicar para modelos 3D devido à limitada disponibilidade de dados 3D e aos desafios encontrados ao unificar e escalar os frameworks 3D.

Aprendendo com os dois domínios de trabalho acima, os desenvolvedores criaram o framework Uni3D, o primeiro modelo fundamental 3D com mais de um bilhão de parâmetros que usa uma arquitetura de ViT ou Vision Transformer unificada que permite que os desenvolvedores escalhem o modelo Uni3D usando estratégias de escalonamento 2D ou NLP unificadas. Os desenvolvedores esperam que esse método permita que o framework Uni3D feche a lacuna que atualmente separa a visão 2D e a visão 3D, juntamente com a facilitação da convergência multimodal.

Uni3D: Método e Arquitetura

A imagem acima demonstra a visão geral do framework Uni3D, um framework de pré-treinamento 3D escalável e unificado para aprendizado de representação 3D em grande escala. Os desenvolvedores usam mais de 70 milhões de textos e 10 milhões de imagens emparelhadas com mais de um milhão de formas 3D para escalar o framework Uni3D para mais de um bilhão de parâmetros. O framework Uni3D usa um ViT 2D ou Vision Transformer como codificador 3D que é então treinado de ponta a ponta para alinhar os dados de imagem-texto com os recursos de nuvem de pontos 3D, permitindo que o framework Uni3D entregue a eficiência e precisão desejadas em uma ampla gama de benchmarks. Vamos agora ter uma visão detalhada do funcionamento do framework Uni3D.

Escalando o Framework Uni3D

Estudos anteriores sobre aprendizado de representação de nuvem de pontos tradicionalmente se concentraram fortemente em projetar arquiteturas de modelo específicas que entregam melhor desempenho em uma ampla gama de aplicações e trabalham com uma quantidade limitada de dados devido a conjuntos de dados em pequena escala. No entanto, estudos recentes tentaram explorar a possibilidade de usar pré-treinamento escalável em 3D, mas não houve resultados significativos devido à limitada disponibilidade de dados 3D. Para resolver o problema de escalabilidade dos frameworks 3D, o framework Uni3D aproveita o poder de uma estrutura de transformador vanilla que quase espelha um Vision Transformer e pode resolver os problemas de escalonamento usando estratégias de escalonamento 2D ou NLP unificadas para escalar o tamanho do modelo.

Inicializando o Uni3D

Outro desafio importante encontrado por trabalhos anteriores envolvidos na escala de representações 3D, as dificuldades de convergência e sobre-ajuste que resultaram do grande tamanho dos modelos. Uma abordagem eficaz para superar esse obstáculo é pré-treinar espinhas dorsais 3D individuais com tarefas de pré-texto 3D específicas e inicializar parâmetros pré-treinados. No entanto, a abordagem é acompanhada de altos custos de treinamento e é difícil estabelecer uma inicialização robusta para aprendizado cross-modal devido à limitada quantidade de dados 3D disponíveis para treinamento.

O framework Uni3D aproveita um transformador vanilla, cuja estrutura se assemelha à do ViT. Com essa abordagem, o framework Uni3D pode naturalmente adotar os modelos grandes pré-treinados com outras modalidades para inicializar o framework Uni3D.

Alinhamento Multimodal

O framework Uni3D tenta aprender alinhamentos multimodais entre imagem, linguagem e nuvem de pontos usando paradigmas semelhantes aos frameworks OpenShape e ULIP. Além disso, para garantir uma comparação justa com outros métodos, o framework Uni3D usa o conjunto de dados ensembled 3D do OpenShape para treinamento. Esse conjunto de dados ensembled do OpenShape consiste em 4 conjuntos de dados 3D:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Experimentos e Resultados

O framework Uni3D é testado em diferentes configurações e em várias tarefas de classificação, incluindo seu desempenho em configurações de zero disparo e poucos disparos, resultados em torno de compreensão de mundo aberto e mais. Vamos ter uma visão detalhada desses resultados.

Classificação de Forma Zero Disparo

Para avaliar o desempenho do framework Uni3D em tarefas de classificação de forma zero disparo, os desenvolvedores realizam experimentos em três benchmarks, incluindo os conjuntos de dados ModelNet, ScanObjNN e Objaverse-LVIS. ModelNet e ScanObjNN são conjuntos de dados amplamente usados para tarefas de classificação e consistem em 15 e 40 categorias de objetos, respectivamente, enquanto o benchmark Objaverse-LVIS é um conjunto de dados limpo e anotado que consiste em mais de 40.000 objetos em mais de 1.100 categorias. A comparação entre os frameworks é demonstrada na imagem abaixo e, como pode ser visto, o framework Uni3D supera significativamente os frameworks de estado da arte anteriores em diferentes configurações.

Sondagem Linear de Poucos Disparos

Em IA, a sondagem linear é um método comum usado para avaliar as representações que um framework ou modelo aprende. Para avaliar a capacidade de sondagem linear do Uni3D, os desenvolvedores congelam os parâmetros do framework Uni3D usando as configurações comuns do OpenShape. Em seguida, os desenvolvedores treinam um classificador linear para o Uni3D usando rótulos de classe de poucos disparos. A figura abaixo demonstra a capacidade de sondagem linear de diferentes frameworks no conjunto de dados Objaverse-LVIS e demonstra o desempenho médio do modelo em 10 sementes aleatórias. Como pode ser visto, o framework Uni3D supera significativamente os métodos existentes em diferentes configurações de poucos disparos.

Compreensão de Mundo Aberto

Para avaliar a capacidade do framework Uni3D de entender formas e objetos do mundo real em tempo real, os desenvolvedores usam os conjuntos de dados ScanNet e CLIP para explorar o desempenho do Uni3D. É digno de nota que a segmentação instantânea de ground truth está disponível e o objetivo principal é reconhecer a categoria de cada instante individual de uma cena em uma configuração de zero disparo. Os resultados são demonstrados na imagem abaixo. Como pode ser visto, o framework Uni3D entrega resultados excepcionais ao realizar compreensão e reconhecimento de mundo real. O framework Uni3D supera os frameworks existentes por uma margem significativa, apesar de nunca ter sido treinado em conjuntos de dados do mundo real.

Recuperação Cross-Modal

As representações multimodais aprendidas pelo framework Uni3D podem permitir que o framework recupere naturalmente formas 3D a partir de textos ou imagens. Para recuperar as formas 3D, o modelo calcula a similaridade coseno entre as embeddings de formas 3D e as embeddings de um prompt de texto de consulta ou uma imagem de consulta. O framework então usa o algoritmo KNN ou K Nearest Neighbour para gerar formas 3D que se assemelham à consulta mais, e os resultados são demonstrados na figura abaixo. Como pode ser visto, o framework Uni3D usa com sucesso imagens do mundo real para recuperar formas 3D. Além disso, é digno de nota que as imagens de treinamento são apenas para fins de renderização e a lacuna entre imagens do mundo real e imagens de treinamento é substancial. Adicionalmente, o modelo também usa duas imagens de entrada e recupera formas semelhantes a ambas as imagens de entrada usando a similaridade coseno entre as médias de embeddings de ambas as imagens e as formas 3D embutidas. Os resultados são interessantes, pois demonstram a capacidade do Uni3D de aprender representações 3D diversificadas e perceber múltiplos sinais 2D.

Na primeira coluna, o framework usa 2 imagens de consulta para retornar formas 3D que se assemelham às imagens de consulta. Na segunda coluna, o framework usa duas imagens de entrada para recuperar formas 3D que se assemelham a ambas as imagens de entrada. Finalmente, na última coluna, o modelo usa prompts de texto de consulta e retorna formas 3D que se assemelham ao texto de consulta o máximo.

Pensamentos Finais

Neste artigo, falamos sobre o Uni3D, um framework de pré-treinamento 3D escalável e unificado desenvolvido com o objetivo de aprender representações 3D em grande escala que testam seus limites na escala de mais de um bilhão de parâmetros, mais de 10 milhões de imagens emparelhadas com mais de 70 milhões de textos e mais de um milhão de formas 3D. Os desenvolvedores do framework incluíram um transformador vanilla, cuja estrutura se assemelha à do ViT, que permite que eles escalhem o framework Uni3D usando estratégias de escalonamento 2D ou NLP unificadas. Além disso, o framework Uni3D pode aproveitar uma ampla gama de frameworks 2D pré-treinados e estratégias 2D para o mundo 3D. Os resultados experimentais já demonstraram o enorme potencial do framework Uni3D, pois o framework Uni3D retorna resultados precisos e eficientes em uma ampla gama de configurações e supera os frameworks de estado da arte existentes.