Inteligencia artificial

Uni3D: Explorando la Representación 3D Unificada a Gran Escala

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

La escalada de representaciones de texto y visuales ha sido un enfoque importante de investigación en los últimos años. Los desarrollos y la investigación realizados en el pasado reciente han llevado a numerosas revoluciones en el aprendizaje de lenguaje y visión. Sin embargo, a pesar de la popularidad de la escalada de representaciones de texto y visuales, la escalada de representaciones para escenas y objetos 3D no ha sido suficientemente discutida.

Hoy, discutiremos Uni3D, un modelo de base 3D que tiene como objetivo explorar representaciones 3D unificadas. El marco de Uni3D emplea un marco de ViT inicializado en 2D, preentrenado de extremo a extremo, para alinear las características de imagen-texto con las características de nube de puntos 3D correspondientes.

El marco de Uni3D utiliza tareas de pretexto y una arquitectura simple para aprovechar la abundancia de modelos 2D preentrenados y modelos de alineación de imagen-texto como inicializaciones y objetivos, respectivamente. Este enfoque libera el potencial completo de los modelos 2D y las estrategias para escalarlos al mundo 3D.

En este artículo, profundizaremos más en la visión por computadora 3D y el marco de Uni3D, explorando los conceptos esenciales y la arquitectura del modelo. Así que comencemos.

Uni3D y Aprendizaje de Representación 3D: Una Introducción

En los últimos años, la visión por computadora ha surgido como uno de los dominios más invertidos en la industria de la IA. Siguiendo los avances significativos en los marcos de visión por computadora 2D, los desarrolladores han cambiado su enfoque a la visión por computadora 3D. Este campo, particularmente el aprendizaje de representación 3D, combina aspectos de gráficos por computadora, aprendizaje automático, visión por computadora y matemáticas para automatizar el procesamiento y la comprensión de la geometría 3D. El rápido desarrollo de sensores 3D como LiDAR, junto con sus aplicaciones generalizadas en la industria de AR/VR, ha resultado en que el aprendizaje de representación 3D haya ganado atención creciente. Sus aplicaciones potenciales siguen creciendo diariamente.

Aunque los marcos existentes han mostrado un progreso notable en la arquitectura de modelos 3D, la modelización orientada a tareas y los objetivos de aprendizaje, la mayoría explora la arquitectura 3D a una escala relativamente pequeña con datos limitados, parámetros y escenarios de tareas. El desafío de aprender representaciones 3D escalables, que luego se pueden aplicar a aplicaciones en tiempo real en entornos diversos, sigue siendo en gran medida inexplorado.

Avanzando, en los últimos años, la escalada de grandes modelos de lenguaje preentrenados ha ayudado a revolucionar el dominio del procesamiento de lenguaje natural, y los trabajos recientes han indicado una traducción en el progreso de la lengua a 2D utilizando escalada de datos y modelos, lo que permite a los desarrolladores intentar y reintentar este éxito para aprender una representación 3D que se pueda escalar y transferir a aplicaciones en el mundo real.

Uni3D es un marco de preentrenamiento 3D escalable y unificado desarrollado con el objetivo de aprender representaciones 3D a gran escala que prueba sus límites a la escala de más de mil millones de parámetros, más de 10 millones de imágenes emparejadas con más de 70 millones de textos y más de un millón de formas 3D. La figura a continuación compara la precisión de disparo cero contra parámetros en el marco de Uni3D. El marco de Uni3D escala con éxito las representaciones 3D desde 6 millones hasta más de mil millones.

El marco de Uni3D consiste en un ViT 2D o un Vision Transformer como codificador 3D que luego se preentrena de extremo a extremo para alinear las características de imagen-texto con las características de nube de puntos 3D. El marco de Uni3D utiliza tareas de pretexto y una arquitectura simple para aprovechar la abundancia de modelos 2D preentrenados y modelos de alineación de imagen-texto como inicializaciones y objetivos, respectivamente, lo que libera el potencial completo de los modelos 2D y las estrategias para escalarlos al mundo 3D.

Escalando el modelo desde 6M hasta más de mil millones de parámetros.
Inicialización 2D a texto supervisado desde aprendizaje auto-supervisado visual.
Modelo de objetivo de texto-imagen escalado desde 150 millones hasta más de mil millones de parámetros.

Bajo el marco flexible y unificado ofrecido por Uni3D, los desarrolladores observan un aumento coherente en el rendimiento al escalar cada componente. El aprendizaje de representación 3D a gran escala también se beneficia enormemente de las estrategias compartidas 2D y de escalado.

Como se puede ver en la figura a continuación, el marco de Uni3D muestra un aumento en el rendimiento en comparación con los trabajos anteriores en configuraciones de disparo cero y pocos disparos. Es digno de destacar que el marco de Uni3D devuelve una puntuación de precisión de clasificación de disparo cero de más del 88% en ModelNet, lo que está al nivel del rendimiento de varios métodos de supervisión de estado del arte.

Además, el marco de Uni3D también ofrece una precisión y un rendimiento de primera clase al realizar otras tareas 3D representativas como la segmentación de partes y la comprensión del mundo abierto. El marco de Uni3D tiene como objetivo cerrar la brecha entre la visión 2D y la visión 3D al escalar modelos fundamentales 3D con un enfoque de preentrenamiento unificado y simple para aprender representaciones 3D más robustas en una amplia gama de tareas, lo que podría ayudar finalmente a la convergencia de la visión 2D y 3D en una amplia gama de modalidades.

Uni3D: Trabajos Relacionados

El marco de Uni3D se inspira en y aprende de los desarrollos realizados por el aprendizaje de representación 3D y los modelos fundamentales anteriores, especialmente bajo diferentes modalidades.

Aprendizaje de Representación 3D

El método de aprendizaje de representación 3D utiliza nubes de puntos para la comprensión 3D del objeto, y este campo ha sido explorado ampliamente por los desarrolladores en el pasado reciente, y se ha observado que estos puntos de nube pueden ser preentrenados bajo auto-supervisión utilizando tareas de pretexto 3D específicas, incluyendo modelado de puntos de máscara, auto-reconstrucción y aprendizaje contrastivo.

Es digno de destacar que estos métodos funcionan con datos limitados y a menudo no investigan representaciones multimodales de 3D a 2D o NLP. Sin embargo, el éxito reciente del marco de CLIP que devuelve una alta eficiencia en el aprendizaje de conceptos visuales a partir de texto crudo utilizando el método de aprendizaje contrastivo, y busca aprender representaciones 3D al alinear características de imagen, texto y nube de puntos utilizando el mismo método de aprendizaje contrastivo.

Modelos Fundamentales

Los desarrolladores han estado trabajando exhaustivamente en el diseño de modelos fundamentales para escalar y unificar representaciones multimodales. Por ejemplo, en el dominio de NLP, los desarrolladores han estado trabajando en marcos que pueden escalar modelos de lenguaje preentrenados, y está revolucionando lentamente la industria de NLP. Además, se pueden observar avances en el dominio de visión 2D, ya que los desarrolladores están trabajando en marcos que utilizan técnicas de escalada de datos y modelos para ayudar en el progreso de la lengua a modelos 2D, aunque dichos marcos son difíciles de replicar para modelos 3D debido a la disponibilidad limitada de datos 3D y los desafíos que se encuentran al unificar y escalar los marcos 3D.

Al aprender de los dos dominios de trabajo anteriores, los desarrolladores han creado el marco de Uni3D, el primer modelo fundamental 3D con más de mil millones de parámetros que utiliza una arquitectura de ViT o Vision Transformer unificada que permite a los desarrolladores escalar el modelo de Uni3D utilizando estrategias 3D o NLP unificadas para escalar los modelos. Los desarrolladores esperan que este método permita al marco de Uni3D cerrar la brecha que actualmente separa la visión 2D y 3D, así como facilitar la convergencia multimodal.

Uni3D: Método y Arquitectura

La imagen anterior muestra una visión general del marco de Uni3D, un marco de preentrenamiento 3D escalable y unificado para el aprendizaje de representación 3D a gran escala. Los desarrolladores utilizan más de 70 millones de textos y 10 millones de imágenes emparejadas con más de un millón de formas 3D para escalar el marco de Uni3D a más de mil millones de parámetros. El marco de Uni3D utiliza un ViT 2D o un Vision Transformer como codificador 3D que luego se entrena de extremo a extremo para alinear los datos de imagen-texto con las características de nube de puntos 3D, lo que permite al marco de Uni3D ofrecer la eficiencia y precisión deseadas en una amplia gama de benchmarks. Ahora, echemos un vistazo detallado al funcionamiento del marco de Uni3D.

Escalando el Marco de Uni3D

Estudios anteriores sobre el aprendizaje de representación de nubes de puntos se han centrado tradicionalmente en diseñar arquitecturas de modelo específicas que ofrecen un mejor rendimiento en una amplia gama de aplicaciones y funcionan con una cantidad limitada de datos gracias a conjuntos de datos de pequeña escala. Sin embargo, estudios recientes han intentado explorar la posibilidad de utilizar un preentrenamiento escalable en 3D, pero no hubo resultados importantes gracias a la disponibilidad limitada de datos 3D. Para resolver el problema de escalabilidad de los marcos 3D, el marco de Uni3D aprovecha el poder de una estructura de transformador vanilla que casi reproduce un Vision Transformer, y puede resolver los problemas de escalado utilizando estrategias de escalado 2D o NLP unificadas para escalar el tamaño del modelo.

Inicializando Uni3D

Otro desafío importante encontrado por los trabajos anteriores involucrados en la escalada de representaciones 3D, las dificultades en la convergencia y el sobreajuste que fueron el resultado del gran tamaño de los modelos. Un enfoque efectivo para superar este obstáculo es preentrenar los componentes de backbone 3D individuales con tareas de pretexto 3D específicas y inicializar parámetros preentrenados. Sin embargo, el enfoque viene acompañado de altos costos de entrenamiento y también es difícil establecer una inicialización robusta para el aprendizaje cruzado de modalidades gracias a la cantidad limitada de datos 3D disponibles para fines de entrenamiento.

El marco de Uni3D aprovecha un transformador vanilla, cuya estructura se asemeja estrechamente a ViT. Con este enfoque, el marco de Uni3D puede adoptar naturalmente los modelos grandes preentrenados con otras modalidades para inicializar el marco de Uni3D.

Alineación Multimodal

El marco de Uni3D intenta aprender alineaciones multimodales entre imagen, lenguaje y nube de puntos utilizando paradigmas similares a OpenShape y ULIP. Además, para garantizar una comparación justa con otros métodos, el marco de Uni3D utiliza el conjunto de datos 3D ensamblado por OpenShape para fines de entrenamiento. Este conjunto de datos ensamblado por OpenShape consiste en 4 conjuntos de datos 3D:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Experimentos y Resultados

El marco de Uni3D se prueba en diferentes configuraciones y en varias tareas de clasificación, incluyendo su rendimiento en configuraciones de disparo cero y pocos disparos, resultados alrededor de la comprensión del mundo abierto y más. Ahora, echemos un vistazo detallado a estos resultados.

Clasificación de Formas de Disparo Cero

Para evaluar el rendimiento del marco de Uni3D en tareas de clasificación de formas de disparo cero, los desarrolladores realizan experimentos en tres benchmarks, incluyendo los conjuntos de datos ModelNet, ScanObjNN y Objaverse-LVIS. ModelNet y ScanObjNN son conjuntos de datos ampliamente utilizados para tareas de clasificación y consisten en 15 y 40 categorías de objetos, respectivamente, mientras que el benchmark de Objaverse-LVIS es un conjunto de datos limpio y anotado que consiste en más de 40,000 objetos en más de 1,100 categorías. La comparación entre los marcos se muestra en la imagen a continuación, y como se puede ver, el marco de Uni3D supera significativamente los marcos de estado del arte anteriores en diferentes configuraciones.

Sondeo Lineal de Pocos Disparos

En IA, el sondeo lineal es un método común utilizado para evaluar las representaciones que aprende un marco o modelo. Para evaluar la capacidad de sondeo lineal de Uni3D, los desarrolladores congelan los parámetros del marco de Uni3D utilizando los ajustes comunes como OpenShape. Luego, los desarrolladores entrenan un clasificador lineal para Uni3D utilizando etiquetas de clase de pocos disparos. La figura a continuación muestra la capacidad de sondeo lineal de diferentes marcos en el conjunto de datos Objaverse-LVIS y muestra el rendimiento promedio del modelo en 10 semillas aleatorias. Como se puede ver, el marco de Uni3D supera significativamente los métodos existentes en diferentes configuraciones de pocos disparos.

Comprensión del Mundo Abierto

Para evaluar la capacidad del marco de Uni3D para comprender formas y objetos del mundo real en tiempo real, los desarrolladores utilizan los conjuntos de datos ScanNet y CLIP para explorar el rendimiento de Uni3D. Es digno de destacar que la segmentación instantánea de la verdad está disponible, y el objetivo principal es reconocer la categoría de cada instante individual en una escena en una configuración de disparo cero. Los resultados se muestran en la imagen a continuación. Como se puede ver, el marco de Uni3D ofrece resultados excepcionales al realizar la comprensión y reconocimiento del mundo real. El marco de Uni3D supera los marcos existentes por un margen significativo, a pesar de nunca haber sido entrenado en conjuntos de datos del mundo real.

Recuperación Multimodal

Las representaciones multimodales aprendidas por el marco de Uni3D pueden permitir que el marco recupere formas 3D naturalmente, ya sea desde textos o imágenes. Para recuperar las formas 3D, el modelo calcula la similitud coseno entre las incrustaciones de formas 3D y las incrustaciones de un texto de consulta o una imagen de consulta. El marco luego utiliza el algoritmo KNN o K Vecinos Más Cercanos para generar formas 3D que se asemejan a la consulta lo más posible, y los resultados se muestran en la figura a continuación. Como se puede ver, el marco de Uni3D utiliza con éxito imágenes del mundo real para recuperar formas 3D. Además, es digno de destacar que las imágenes de entrenamiento solo se utilizan para fines de renderizado, y la brecha entre las imágenes del mundo real y las imágenes de entrenamiento es sustancial. Además, el modelo también toma dos imágenes de entrada y recupera formas que se asemejan a ambas imágenes de entrada utilizando la similitud coseno entre las incrustaciones promedio de ambas imágenes y sus formas 3D incrustadas. Los resultados son interesantes, ya que demuestran la capacidad de Uni3D para aprender representaciones 3D diversas y percibir múltiples señales 2D.

En la primera columna, el marco utiliza 2 imágenes de consulta para devolver formas 3D que se asemejan a las imágenes de consulta. En la segunda columna, el marco utiliza 2 imágenes de entrada para recuperar formas 3D que se asemejan a ambas imágenes de entrada. Finalmente, en la última columna, el modelo utiliza textos de consulta y devuelve formas 3D que se asemejan a la consulta de texto lo más posible.

Pensamientos Finales

En este artículo, hemos hablado sobre Uni3D, un marco de preentrenamiento 3D escalable y unificado desarrollado con el objetivo de aprender representaciones 3D a gran escala que prueba sus límites a la escala de más de mil millones de parámetros, más de 10 millones de imágenes emparejadas con más de 70 millones de textos y más de un millón de formas 3D. Los desarrolladores del marco han incluido un transformador vanilla con una estructura equivalente a ViT, lo que les permite escalar el marco de Uni3D utilizando estrategias 2D o NLP unificadas. Además, el marco de Uni3D puede aprovechar una amplia gama de marcos 2D preentrenados y estrategias 2D para el mundo 3D. Los resultados experimentales ya han demostrado el gran potencial del marco de Uni3D, ya que el marco de Uni3D devuelve resultados precisos y eficientes en una amplia gama de configuraciones y supera los marcos de estado del arte existentes.