인곡지λŠ₯

μœ λ‹ˆ3D: ν™•μž₯ κ°€λŠ₯ν•œ 3D ν‘œν˜„ ν•™μŠ΅ μ†Œκ°œ

mm

最近 몇 년간, 텍스트와 시각적 표현을 확장하는 것이 주요 연구 분야로 부상했습니다. 최근 수행된 연구와 개발은 언어 학습과 시각 분야에서革命을 가져왔습니다. 그러나 텍스트와 시각적 표현의 확장을 인기있게 하는 반면, 3D 장면과 객체의 표현 확장은 충분히 논의되지 않았습니다.

오늘, 우리는 유니3D(Uni3D)에 대해 논의할 것입니다. 유니3D는 3D 기초 모델로, 통일된 3D 표현을 탐색하는 것을 목표로 합니다. 유니3D 프레임워크는 2D 초기화된 ViT 프레임워크를 사용하여 이미지-텍스트 특징과 3D 점 구름 특징을 일치시키는 것을 목표로 합니다.

유니3D 프레임워크는 사전 훈련된 2D 모델과 이미지-텍스트 일치 모델을 초기화와 목표로 사용하여, 2D 모델과 전략의 전체 잠재력을 3D 세계로 확장하는 것을 목표로 합니다. 이 접근법은 2D 모델과 전략의 전체 잠재력을 3D 세계로 확장하는 것을 가능하게 합니다.

이 기사에서, 우리는 3D 컴퓨터 비전과 유니3D 프레임워크에 대해 더 깊이 있게 탐구할 것입니다. 주요 개념과 모델의 구조에 대해 살펴보겠습니다. 그러면 시작해 보겠습니다.

유니3D와 3D 표현 학습: 소개

최근 몇 년간, 컴퓨터 비전은 AI 산업에서 가장 많이 투자되는 분야 중 하나로 부상했습니다. 2D 컴퓨터 비전 프레임워크의重大 발전에 이어, 개발자들은 3D 컴퓨터 비전에 초점을 맞추게 되었습니다. 이 분야, 특히 3D 표현 학습은 컴퓨터 그래픽스, 기계 학습, 컴퓨터 비전, 수학을 결합하여 3D 기하학을 자동으로 처리하고 이해하는 것을 목표로 합니다. 3D 센서의 급속한 발전과 AR/VR 산업에서의 광범위한 적용으로 인해 3D 표현 학습은 점점 더 많은 주목을 받게 되었습니다. 그 잠재적인 응용 분야는 매일 증가하고 있습니다.

기존 프레임워크는 3D 모델 아키텍처, 작업 지향적 모델링, 학습 목표에서 현저한 발전을 보였지만, 대부분이 3D 아키텍처를 상대적으로 작은 규모로 제한된 데이터, 매개변수, 작업 시나리오로 탐구합니다. 확장 가능한 3D 표현을 학습하는 문제, 즉 다양한 환경에서 실시간 응용 프로그램에 적용할 수 있는 3D 표현을 학습하는 문제는 아직 많이 탐구되지 않았습니다.

유니3D: 관련 연구

유니3D 프레임워크는 이전 3D 표현 학습과 기초 모델의 발전에서 영감을 얻었습니다.

3D 표현 학습

3D 표현 학습 방법은 3D 객체를 이해하기 위해 점 구름을 사용합니다. 이 분야는 최근 개발자们에 의해 많이 탐구되었습니다. 이러한 방법은 제한된 데이터로 작동하며, 3D에서 2D 또는 NLP로의 다중 모드 표현을 탐구하지 않습니다. 그러나 최근의 성공적인 CLIP 프레임워크는 원시 텍스트에서 시각적 개념을 학습하는 데 높은 효율성을 보여주었으며, 동일한 대조적 학습 방법을 사용하여 3D 표현을 학습하는 것을 시도합니다.

기초 모델

개발자들은 다중 모드 표현을 확장하고 통일하기 위해 기초 모델을 설계하기 위해 열심히 일해 왔습니다. 예를 들어, NLP 분야에서 개발자들은 사전 훈련된 언어 모델을 확장하는 프레임워크를 작업하고 있으며, 이는 점차적으로 NLP 산업을 혁신하고 있습니다. 또한 2D 비전 분야에서도 발전이 있습니다. 개발자들은 데이터 및 모델 확장 기술을 사용하여 언어에서 2D 모델로의 진행을 도와주는 프레임워크를 작업하고 있습니다. 그러나 이러한 프레임워크는 3D 모델로 복제하기 어렵습니다. 3D 데이터의 제한된 가용성과 3D 프레임워크를 통일하고 확장하는 어려움으로 인해 vậy입니다.

이 두 가지 분야의 발전에서 배우면서, 개발자들은 유니3D 프레임워크를 만들었습니다. 유니3D는 최초의 3D 기초 모델로, 10억 매개변수 이상을 사용하여 통일된 ViT 또는 비전 트랜스포머 아키텍처를 사용합니다. 이는 개발자들이 2D 또는 NLP 전략을 사용하여 모델을 확장할 수 있도록 합니다. 개발자들은 이 방법이 2D와 3D 비전 사이의 간격을 메우고 다중 모드 수렴을 촉진하는 데 도움이 될 것이라고希望합니다.

유니3D: 방법과 아키텍처

위의 이미지는 유니3D 프레임워크의 일반적인 개요를 보여줍니다. 이는 확장 가능한 3D 표현 학습을 위한 통일된 사전 훈련 프레임워크입니다. 개발자들은 7,000만 개의 텍스트와 1,000만 개의 이미지, 100만 개의 3D 모양을 사용하여 유니3D 프레임워크를 10억 매개변수 이상으로 확장합니다. 유니3D 프레임워크는 3D 인코더로 2D ViT 또는 비전 트랜스포머를 사용하며, 이를 통해 이미지-텍스트 데이터와 3D 점 구름 특징을 일치시킵니다.

유니3D 프레임워크 확장

이전의 연구에서, 개발자들은 특정 모델 아키텍처를 설계하여 다양한 응용 프로그램에서 أفضل 성능을 발휘하는 것을 목표로 했습니다. 그러나 이러한 연구는 제한된 데이터와 작은 규모의 데이터셋에서 작동했습니다. 최근의 연구에서는 3D에서 확장 가능한 사전 훈련의 가능성을 탐구했습니다. 그러나 3D 데이터의 제한된 가용성으로 인해 주요 결과가 없었습니다. 유니3D 프레임워크는 비전 트랜스포머와 거의 유사한 바닐라 트랜스포머 구조를 사용하여 2D 또는 NLP 확장 전략을 사용하여 모델 크기를 확장할 수 있습니다.

유니3D 초기화

이전의 연구에서, 3D 표현을 확장하는 데遇到하는 또 다른 도전은 모델의 크기가 커짐에 따라 수렴과 과적합의 어려움이었습니다. 이러한 문제를 해결하는 효과적인 접근법은 3D 백본을 사전 훈련된 3D 전처리 작업으로 초기화하는 것입니다. 그러나 이러한 접근법은 높은 훈련 비용을 수반하며, 3D 데이터의 제한된 가용성으로 인해 강력한 초기화를 설정하기 어렵습니다.

유니3D 프레임워크는 비전 트랜스포머와 거의 유사한 바닐라 트랜스포머 구조를 사용합니다. 이를 통해 유니3D 프레임워크는 다른 모달리티의 사전 훈련된 큰 모델을 자연스럽게 채택하여 초기화를 설정할 수 있습니다.

다중 모드 일치

유니3D 프레임워크는 이미지, 언어, 점 구름을 가로지르는 다중 모드 일치를 학습하려고 합니다. 이를 위해 OpenShape와 ULIP 프레임워크와 유사한 패러다임을 사용합니다. 또한, 다른 방법과 공정한 비교를 위해, 유니3D 프레임워크는 OpenShape의 앙상블 3D 데이터셋을 사용하여 훈련합니다. 이 데이터셋은 4개의 3D 데이터셋으로 구성됩니다.

실험과 결과

유니3D 프레임워크는 다양한 설정과 분류 작업에서 테스트되었습니다. 개발자들은 유니3D 프레임워크의 성능을 평가하기 위해 다양한 분류 작업에서 실험을 수행했습니다.

제로 샷 형태 분류

유니3D 프레임워크의 제로 샷 형태 분류 성능을 평가하기 위해, 개발자들은 ModelNet, ScanObjNN, Objaverse-LVIS 벤치마크 데이터셋에서 실험을 수행했습니다. ModelNet과 ScanObjNN은 분류 작업에서 널리 사용되는 데이터셋으로, 각각 15개와 40개의 객체 카테고리를 포함합니다. Objaverse-LVIS 벤치마크는 1,100개 이상의 카테고리에 걸쳐 40,000개 이상의 객체를 포함하는 정리되고 주석이 달린 데이터셋입니다.

FEW 샷 선형 탐색

유니3D 프레임워크의 선형 탐색 능력을 평가하기 위해, 개발자들은 OpenShape와 동일한 설정을 사용하여 유니3D 프레임워크의 매개변수를 동결하고, Objaverse-LVIS 데이터셋에서 선형 분류기를 훈련했습니다. 결과는 아래의 그림에 나타나 있습니다.

오픈 월드 이해

유니3D 프레임워크의 실세계 객체와 형태를 이해하는 능력을 평가하기 위해, 개발자들은 ScanNet과 CLIP 데이터셋에서 실험을 수행했습니다. 결과는 아래의 그림에 나타나 있습니다.

크로스 모달 검색

유니3D 프레임워크에서 학습된 다중 모드 표현은 3D 형태를 텍스트 또는 이미지에서 검색하는 것을 가능하게 합니다. 이를 위해, 모델은 3D 형태와 쿼리 텍스트 또는 쿼리 이미지의 임베딩 사이의 코사인 유사성을 계산합니다.

최종 생각

이 기사에서, 우리는 유니3D에 대해 논의했습니다. 유니3D는 3D 기초 모델로, 통일된 3D 표현을 탐색하는 것을 목표로 합니다. 개발자들은 2D 또는 NLP 전략을 사용하여 모델을 확장할 수 있도록 하는 바닐라 트랜스포머 구조를 사용했습니다. 유니3D 프레임워크는 다양한 설정과 분류 작업에서 테스트되었으며, 기존의 최첨단 프레임워크를 능가하는 성능을 보여주었습니다.

μ „λ¬Έμ§μœΌλ‘œμ„œμ˜ μ—”μ§€λ‹ˆμ–΄, λ§ˆμŒμœΌλ‘œμ„œμ˜ μž‘κ°€μž…λ‹ˆλ‹€. Kunal은 AI와 ML에 λŒ€ν•œ κΉŠμ€ μ‚¬λž‘κ³Ό 이해λ₯Ό κ°€μ§„ 기술 μž‘κ°€λ‘œ, μ΄λŸ¬ν•œ λΆ„μ•Όμ˜ λ³΅μž‘ν•œ κ°œλ…μ„ ν₯λ―Έλ‘­κ³  정보적인 λ¬Έμ„œλ₯Ό 톡해 λ‹¨μˆœν™”ν•˜λŠ”λ° ν—Œμ‹ ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.