Kecerdasan buatan

Uni3D: Menjelajahi Representasi 3D Terpadu pada Skala Besar

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Meningkatkan representasi teks dan visual telah menjadi fokus penelitian utama dalam beberapa tahun terakhir. Pengembangan dan penelitian yang dilakukan pada masa lalu telah menghasilkan banyak revolusi dalam pembelajaran bahasa dan visi. Namun, meskipun popularitas skala teks dan representasi visual, skala representasi untuk adegan dan objek 3D belum dibahas secara memadai.

Hari ini, kita akan membahas Uni3D, sebuah model dasar 3D yang bertujuan untuk menjelajahi representasi 3D terpadu. Kerangka Uni3D menggunakan kerangka ViT 2D yang diinisialisasi, pra-dilatih secara end-to-end, untuk menyelaraskan fitur gambar-teks dengan fitur awan titik 3D yang sesuai.

Kerangka Uni3D menggunakan tugas pretext dan arsitektur sederhana untuk memanfaatkan kelimpahan model 2D pra-dilatih dan model yang diselaraskan dengan teks-gambar sebagai inisialisasi dan target, masing-masing. Pendekatan ini melepaskan potensi penuh model 2D dan strategi untuk menskala mereka ke dunia 3D.

Dalam artikel ini, kita akan lebih dalam menjelajahi visi komputer 3D dan kerangka Uni3D, menjelajahi konsep-konsep penting dan arsitektur model. Jadi, mari kita mulai.

Uni3D dan Pembelajaran Representasi 3D: Pengantar

Dalam beberapa tahun terakhir, visi komputer telah muncul sebagai salah satu domain yang paling banyak diinvestasikan dalam industri AI. Mengikuti kemajuan signifikan dalam kerangka visi komputer 2D, pengembang telah mengalihkan fokus mereka ke visi komputer 3D. Bidang ini, terutama pembelajaran representasi 3D, menggabungkan aspek-aspek grafik komputer, pembelajaran mesin, visi komputer, dan matematika untuk mengautomasi pemrosesan dan pemahaman geometri 3D. Pengembangan cepat sensor 3D seperti LiDAR, bersama dengan aplikasi mereka yang luas dalam industri AR/VR, telah menghasilkan pembelajaran representasi 3D yang mendapatkan perhatian yang meningkat. Aplikasi potensialnya terus tumbuh setiap hari.

Meskipun kerangka yang ada telah menunjukkan kemajuan yang luar biasa dalam arsitektur model 3D, pemodelan yang berorientasi tugas, dan tujuan pembelajaran, sebagian besar dari mereka menjelajahi arsitektur 3D pada skala yang relatif kecil dengan data yang terbatas, parameter, dan skenario tugas. Tantangan pembelajaran representasi 3D yang dapat diskalakan, yang kemudian dapat diterapkan pada aplikasi waktu nyata dalam lingkungan yang beragam, masih belum banyak dijelajahi.

Mengikuti, dalam beberapa tahun terakhir, menskala model bahasa besar yang pra-dilatih telah membantu merevolusi domain pemrosesan bahasa alami, dan karya terbaru telah menunjukkan terjemahan kemajuan dari bahasa ke 2D menggunakan data dan skala model yang membuat jalan bagi pengembang untuk mencoba dan mengulangi kesuksesan ini untuk mempelajari representasi 3D yang dapat diskalakan dan ditransfer ke aplikasi dunia nyata.

Uni3D adalah kerangka pra-pelatihan 3D terpadu yang dikembangkan dengan tujuan untuk mempelajari representasi 3D besar yang menguji batasnya pada skala lebih dari satu miliar parameter, lebih dari 10 juta gambar yang dipasangkan dengan lebih dari 70 juta teks, dan lebih dari satu juta bentuk 3D. Gambar di bawah membandingkan akurasi zero-shot melawan parameter dalam kerangka Uni3D. Kerangka Uni3D berhasil menskala representasi 3D dari 6 juta hingga lebih dari satu miliar.

Kerangka Uni3D terdiri dari ViT 2D atau Vision Transformer sebagai pengkode 3D yang kemudian pra-dilatih secara end-to-end untuk menyelaraskan fitur gambar-teks dengan fitur awan titik 3D. Kerangka Uni3D menggunakan tugas pretext dan arsitektur sederhana untuk memanfaatkan kelimpahan model 2D pra-dilatih dan model yang diselaraskan dengan teks-gambar sebagai inisialisasi dan target, masing-masing. Pendekatan ini melepaskan potensi penuh model 2D dan strategi untuk menskala mereka ke dunia 3D. Fleksibilitas dan skalabilitas kerangka Uni3D diukur dalam hal

Menskala model dari 6M hingga lebih dari satu miliar parameter.
Inisialisasi 2D ke teks yang diawasi dari pembelajaran mandiri visual pembelajaran mandiri.
Model target teks-gambar yang menskala dari 150 juta hingga lebih dari satu miliar parameter.

Di bawah kerangka terpadu yang fleksibel yang ditawarkan oleh Uni3D, pengembang mengamati peningkatan kinerja yang konsisten ketika menskala setiap komponen. Pembelajaran representasi 3D besar juga sangat diuntungkan dari strategi 2D yang dapat dibagikan dan menskala.

Seperti yang dapat dilihat pada gambar di bawah, kerangka Uni3D menampilkan peningkatan kinerja dibandingkan dengan karya sebelumnya dalam pengaturan few-shot dan zero-shot. Perlu diperhatikan bahwa kerangka Uni3D mengembalikan skor akurasi klasifikasi zero-shot lebih dari 88% pada ModelNet yang setara dengan kinerja beberapa metode pengawasan terbaik.

Selain itu, kerangka Uni3D juga menghasilkan akurasi dan kinerja terbaik ketika melakukan tugas 3D lainnya seperti segmentasi bagian, dan pemahaman dunia terbuka. Kerangka Uni3D bertujuan untuk menjembatani kesenjangan antara visi 2D dan 3D dengan menskala model dasar 3D dengan pendekatan pra-pelatihan terpadu untuk mempelajari representasi 3D yang lebih kuat di seluruh tugas, yang mungkin akhirnya membantu dalam konvergensi 2D dan 3D visi di seluruh modality.

Uni3D: Karya Terkait

Kerangka Uni3D mengambil inspirasi dan mempelajari pengembangan yang dilakukan oleh pembelajaran representasi 3D sebelumnya dan model dasar, terutama di bawah modality yang berbeda.

Pembelajaran Representasi 3D

Metode pembelajaran representasi 3D menggunakan awan titik untuk pemahaman 3D objek, dan bidang ini telah dijelajahi oleh pengembang secara luas dalam beberapa tahun terakhir, dan telah diamati bahwa awan titik ini dapat pra-dilatih di bawah pengawasan mandiri menggunakan tugas pretext 3D khusus termasuk pemodelan titik masker, rekonstruksi mandiri, dan pembelajaran kontrastif.

Perlu diperhatikan bahwa metode ini bekerja dengan data yang terbatas, dan mereka sering tidak menyelidiki representasi multimodal ke 3D dari 2D atau NLP. Namun, kesuksesan kerangka CLIP yang mengembalikan efisiensi tinggi dalam mempelajari konsep visual dari teks mentah menggunakan metode pembelajaran kontrastif, dan lebih lanjut mencari untuk mempelajari representasi 3D dengan menyelaraskan fitur gambar, teks, dan awan titik menggunakan metode pembelajaran kontrastif yang sama.

Model Dasar

Pengembang telah bekerja secara luas pada merancang model dasar untuk menskala dan mempersatukan representasi multimodal. Sebagai contoh, dalam domain NLP, pengembang telah bekerja pada kerangka yang dapat menskala model bahasa pra-dilatih, dan ini perlahan-lahan merevolusi industri NLP. Selain itu, kemajuan dapat diamati dalam domain visi 2D karena pengembang bekerja pada kerangka yang menggunakan teknik penskalaan data dan model untuk membantu kemajuan bahasa ke model 2D, meskipun kerangka seperti itu sulit untuk direplikasi untuk model 3D karena ketersediaan data 3D yang terbatas dan tantangan yang dihadapi ketika mempersatukan dan menskala kerangka 3D.

Dengan mempelajari dua domain kerja di atas, pengembang telah menciptakan kerangka Uni3D, model dasar 3D pertama dengan lebih dari satu miliar parameter yang menggunakan arsitektur ViT atau Vision Transformer yang terpadu yang memungkinkan pengembang untuk menskala model Uni3D menggunakan strategi 2D atau NLP yang terpadu untuk menskala model. Pengembang berharap bahwa metode ini akan memungkinkan kerangka Uni3D untuk menjembatani kesenjangan yang memisahkan visi 2D dan 3D serta memfasilitasi konvergensi multimodal.

Uni3D: Metode dan Arsitektur

Gambar di atas menunjukkan gambaran umum kerangka Uni3D, kerangka pra-pelatihan 3D terpadu yang dapat diskalakan untuk pembelajaran representasi 3D besar. Pengembang menggunakan lebih dari 70 juta teks dan 10 juta gambar yang dipasangkan dengan lebih dari satu juta bentuk 3D untuk menskala kerangka Uni3D hingga lebih dari satu miliar parameter. Kerangka Uni3D menggunakan ViT 2D atau Vision Transformer sebagai pengkode 3D yang kemudian dilatih secara end-to-end untuk menyelaraskan data teks-gambar dengan fitur awan titik 3D, memungkinkan kerangka Uni3D untuk menghasilkan efisiensi dan akurasi yang diinginkan di seluruh benchmark. Mari kita lihat secara rinci cara kerja kerangka Uni3D.

Menskala Kerangka Uni3D

Studi sebelumnya tentang pembelajaran representasi awan titik telah secara tradisional berfokus pada merancang arsitektur model khusus yang menghasilkan kinerja yang lebih baik di seluruh aplikasi, dan bekerja pada jumlah data yang terbatas karena dataset kecil. Namun, studi terbaru telah mencoba menjelajahi kemungkinan menggunakan pra-pelatihan yang dapat diskalakan dalam 3D tetapi tidak ada hasil yang signifikan karena ketersediaan data 3D yang terbatas. Untuk memecahkan masalah skalabilitas kerangka 3D, kerangka Uni3D menggunakan struktur transformer vanilla yang hampir mirip dengan Vision Transformer, dan dapat memecahkan masalah penskalaan dengan menggunakan strategi penskalaan 2D atau NLP yang terpadu untuk menskala ukuran model.

Menginisialisasi Uni3D

Tantangan lain yang dihadapi oleh karya sebelumnya yang terlibat dalam penskalaan representasi 3D, kesulitan dalam konvergensi, dan overfitting yang merupakan hasil dari ukuran model yang besar. Pendekatan yang efektif untuk mengatasi hambatan ini adalah pra-melatih backbone 3D individu dengan tugas pretext 3D khusus, dan menginisialisasi parameter pra-dilatih. Namun, pendekatan ini disertai dengan biaya pelatihan yang tinggi, dan juga sulit untuk membangun inisialisasi yang kuat untuk pembelajaran cross-modal karena ketersediaan data 3D yang terbatas untuk keperluan pelatihan.

Kerangka Uni3D menggunakan transformer vanilla, struktur yang sangat mirip dengan ViT. Dengan pendekatan ini, kerangka Uni3D dapat secara alami mengadopsi model besar pra-dilatih dengan modality lain untuk menginisialisasi kerangka Uni3D.

Penselarasan Multimodal

Kerangka Uni3D mencoba mempelajari penselarasan multimodal di seluruh gambar, bahasa, dan awan titik dengan menggunakan paradigma yang serupa dengan OpenShape, dan kerangka ULIP. Selain itu, untuk memastikan perbandingan yang adil dengan metode lain, kerangka Uni3D menggunakan dataset 3D yang diensemble oleh OpenShape untuk keperluan pelatihan. Dataset yang diensemble oleh OpenShape ini terdiri dari 4 dataset 3D:

Objaverse.
ShapeNet.
3D-FUTURE.
ABO.

Eksperimen dan Hasil

Kerangka Uni3D diuji di seluruh pengaturan yang berbeda, dan di seluruh tugas klasifikasi yang berbeda termasuk kinerjanya dalam pengaturan zero-shot, dan few-shot, hasil sekitar pemahaman dunia terbuka, dan lain-lain. Mari kita lihat secara rinci hasil ini.

Klasifikasi Bentuk Zero-Shot

Untuk mengevaluasi kinerja kerangka Uni3D di seluruh tugas klasifikasi bentuk zero-shot, pengembang melakukan eksperimen di seluruh tiga benchmark termasuk ModelNet, ScanObjNN, dan benchmark Objaverse-LVIS. ModelNet dan ScanObjNN adalah dataset yang secara luas digunakan untuk tugas klasifikasi, dan mereka terdiri dari 15 dan 40 kategori objek masing-masing, sedangkan benchmark Objaverse-LVIS adalah dataset yang dibersihkan dan dianotasi yang terdiri dari lebih dari 40.000 objek di seluruh 1.100+ kategori. Perbandingan antara kerangka ini ditunjukkan pada gambar di bawah, dan seperti yang dapat dilihat, kerangka Uni3D secara signifikan outperforms kerangka sebelumnya di seluruh pengaturan yang berbeda.

Penelusuran Linear Few-Shot

Dalam AI, Penelusuran Linear adalah metode yang umum digunakan untuk mengevaluasi representasi yang dipelajari oleh kerangka atau model. Untuk mengevaluasi kemampuan penelusuran linear Uni3D, pengembang membekukan parameter kerangka Uni3D menggunakan pengaturan yang umum seperti OpenShape. Setelah itu, pengembang melatih klasifikasi linear untuk Uni3D menggunakan label kelas few-shot. Gambar di bawah menunjukkan kemampuan penelusuran linear dari kerangka yang berbeda pada dataset Objaverse-LVIS, dan menunjukkan kinerja rata-rata model di seluruh 10 biji acak. Seperti yang dapat dilihat, kerangka Uni3D outperforms metode yang ada secara signifikan di bawah pengaturan few-shot yang berbeda.

Pemahaman Dunia Terbuka

Untuk mengevaluasi kemampuan kerangka Uni3D untuk memahami bentuk dan objek dunia nyata dalam waktu nyata, pengembang menggunakan dataset ScanNet dan CLIP untuk menjelajahi kinerja Uni3D. Perlu diperhatikan bahwa segmentasi instant ground truth tersedia, dan tujuan utama adalah untuk mengenali kategori dari setiap instant di setiap adegan dalam pengaturan zero-shot. Hasilnya ditunjukkan pada gambar di bawah. Seperti yang dapat dilihat, kerangka Uni3D menghasilkan hasil yang luar biasa ketika melakukan pemahaman dan pengenalan dunia nyata. Kerangka Uni3D outperforms kerangka yang ada dengan margin yang signifikan meskipun tidak pernah dilatih pada dataset dunia nyata.

Pengambilan Cross-Modal

Representasi multimodal yang dipelajari oleh kerangka Uni3D dapat memungkinkan kerangka untuk mengambil bentuk 3D secara alami baik dari teks atau gambar. Untuk mengambil bentuk 3D, model menghitung kesamaan kosin antara embedding bentuk 3D dan embedding prompt teks query atau gambar query. Kerangka kemudian menggunakan algoritma KNN atau K Nearest Neighbour untuk menghasilkan bentuk 3D yang paling mirip dengan query, dan hasilnya ditunjukkan pada gambar di bawah. Seperti yang dapat dilihat, kerangka Uni3D berhasil menggunakan gambar dunia nyata untuk mengambil bentuk 3D. Selain itu, perlu diperhatikan bahwa gambar pelatihan hanya untuk keperluan rendering, dan kesenjangan antara gambar dunia nyata dan gambar pelatihan sangat besar. Selain itu, model juga mengambil dua gambar input, dan mengambil bentuk yang mirip dengan kedua gambar input dengan menggunakan kesamaan kosin antara rata-rata embedding kedua gambar dan bentuk 3D yang diembed. Hasilnya menarik karena menunjukkan kemampuan Uni3D untuk mempelajari representasi 3D yang beragam dan memahami sinyal 2D yang berbeda.

Pada kolom pertama, kerangka menggunakan dua gambar query untuk mengembalikan bentuk 3D yang paling mirip dengan gambar query. Pada kolom kedua, kerangka menggunakan dua gambar input untuk mengambil bentuk 3D yang mirip dengan kedua gambar input. Akhirnya, pada kolom terakhir, model menggunakan teks query dan mengembalikan bentuk 3D yang paling mirip dengan teks query.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas Uni3D, kerangka pra-pelatihan 3D terpadu yang dikembangkan dengan tujuan untuk mempelajari representasi 3D besar yang menguji batasnya pada skala lebih dari satu miliar parameter, lebih dari 10 juta gambar yang dipasangkan dengan lebih dari 70 juta teks, dan lebih dari satu juta bentuk 3D. Pengembang kerangka telah memasukkan transformer vanilla dengan struktur yang setara dengan ViT yang memungkinkan mereka untuk menskala kerangka Uni3D menggunakan strategi 2D atau NLP yang terpadu. Selain itu, kerangka Uni3D dapat memanfaatkan berbagai model 2D pra-dilatih dan strategi 2D untuk dunia 3D. Hasil eksperimen telah menunjukkan potensi besar kerangka Uni3D karena kerangka Uni3D mengembalikan hasil yang akurat dan efisien di seluruh pengaturan yang berbeda, dan outperforms kerangka yang ada.