Yapay Zekâ

Uni3D: Birleşik 3D Temsili Scale’de Araştırma

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

Metin ve görsellerin temsiliyetlerinin ölçeklendirilmesi, son yıllarda araştırma konusunun önemli bir parçası olmuştur. Geçmişte yapılan geliştirmeler ve araştırmalar, dil öğrenimi ve görme konusunda birçok devrime yol açmıştır. Ancak, metin ve görsel temsiliyetlerinin ölçeklendirilmesinin popülaritesi rağmen, 3D sahneler ve nesnelerin temsiliyetlerinin ölçeklendirilmesi yeterli düzeyde tartışıl chưa edilmiştir.

Bugün, Uni3D’yi, birleşik 3D temsiliyetlerini keşfetmeyi amaçlayan bir 3D temel modeli hakkında konuşacağız. Uni3D çerçevesi, 2D-initialized ViT çerçevesini, görüntü-metin özelliklerini 3D nokta bulutu özellikleriyle hizalamak için sonradan eğitilen bir 3D kodlayıcı olarak kullanır.

Uni3D çerçevesi, ön görevler ve basit bir mimari kullanarak, önceden eğitilmiş 2D modellerinin ve görüntü-metin hizalı modellerinin bolluğunu ilk değerler ve hedefler olarak kullanır. Bu yaklaşım, 2D modellerinin ve stratejilerin 3D dünyasına ölçeklendirilmesinin tam potansiyelini serbest bırakır.

Bu makalede, 3D bilgisayar görüşü ve Uni3D çerçevesi hakkında daha derinlemesine bilgi vereceğiz, temel kavramları ve modelin mimarisini keşfedeceğiz. Şimdi başlayalım.

Uni3D ve 3D Temsiliyet Öğrenimi: Bir Giriş

Son birkaç yılda, bilgisayar görüşü, AI endüstrisinin en çok yatırım yapılan alanlarından biri olarak ortaya çıkmıştır. 2D bilgisayar görüşü çerçevelerindeki önemli ilerlemelerin ardından, geliştiriciler 3D bilgisayar görüşüne odaklanmışlardır. Bu alan, özellikle 3D temsiliyet öğrenimi, bilgisayar grafikleri, makine öğrenimi, bilgisayar görüşü ve matematikten unsurları birleştirerek 3D geometrinin işlenmesini ve anlaşılmasını otomatikleştirmeyi amaçlar. 3D sensörlerin, özellikle LiDAR’ın hızlı gelişimi ve AR/VR endüstrisindeki yaygın uygulamaları, 3D temsiliyet öğreniminin artan ilgi görmesine neden olmuştur. Potansiyel uygulamaları her gün büyümektedir.

Mevcut çerçeveler, 3D model mimarisi, görev odaklı modelleme ve öğrenme hedefleri konusunda önemli ilerleme kaydetmiştir, ancak çoğu 3D mimarilerini tương đối küçük ölçekte, sınırlı veri, parametre ve görev senaryolarıyla keşfetmiştir. Ölçeklendirilebilir 3D temsiliyetlerin öğrenilmesi, gerçek zamanlı uygulamalarda çeşitli ortamlarda uygulanabilen bir challenge olarak kalmıştır.

Geçmiş birkaç yılda, büyük dil modellerinin ölçeklendirilmesi, doğal dil işleme alanını devrimleştirerek yardımcı olmuştur ve recent çalışmalar, dilin 2D’ye ölçeklendirilmesinde veri ve model ölçeklendirme tekniklerinin ilerlemesine yol açmıştır. Bu, geliştiricilerin 3D temsiliyetlerini ölçeklendirerek gerçek dünya uygulamalarına aktarılabilen bir 3D temsiliyeti öğrenmeye çalışmasına olanak tanır.

Uni3D, büyük ölçekli 3D temsiliyetlerini öğrenmek amacıyla geliştirilmiş bir 3D temel modeldir. Bu model, över bir milyar parametre, 10 milyonun üzerinde görüntü ve 70 milyonun üzerinde metin ve 1 milyonun üzerinde 3D şekille ölçeklendirilmiştir. Aşağıdaki şekil, Uni3D çerçevesinin sıfır-şans doğruluğunu parametrelerle karşılaştırır. Uni3D çerçevesi, 3D temsiliyetlerini 6 milyondan över bir milyar parametreyle ölçeklendirir.

Uni3D çerçevesi, 2D ViT veya Vision Transformer’ı 3D kodlayıcı olarak kullanır ve görüntü-metin özelliklerini 3D nokta bulutu özellikleriyle hizalamak için sonradan eğitilir. Bu yaklaşım, 2D modellerinin ve stratejilerin 3D dünyasına ölçeklendirilmesinin tam potansiyelini serbest bırakır.

… (Translation continues in the same format, preserving the original structure and formatting)