Yapay Zekâ

Tek Görünüm 3D Germe Nasıl Çalışır?

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

Geleneksel olarak, tek görünüm nesne germe için oluşturulan modeller, convolutional neural networks üzerine inşa edilmiş ve germe görevlerinde dikkat çekici performans göstermiştir. Son yıllarda, tek görünüm 3D germe, AI topluluğu中的 bir popüler araştırma konusu haline gelmiştir. Kullanılan özel metodolojiye bakılmaksızın, tüm tek görünüm 3D germe modelleri, çerçeve içinde bir encoder-decoder ağı dahil etme konusunda ortak bir yaklaşım paylaşırlar. Bu ağ, çıkış alanında 3D yapı hakkında karmaşık akıl yürütme gerçekleştirir.

Bu makalede, tek görünüm 3D germe’nin gerçek zamanlı nasıl çalıştığını ve bu çerçevelerin germe görevlerinde karşılaştıkları güncel zorlukları keşfedeceğiz. Tek görünüm 3D germe modelleri tarafından kullanılan çeşitli ana bileşenleri ve yöntemleri tartışacağız ve bu çerçevelerin performansını artırabilecek stratejileri keşfedeceğiz. Ayrıca, encoder-decoder yöntemlerini kullanan state-of-the-art çerçeveler tarafından üretilen sonuçları analiz edeceğiz. Giriş yapalım.

Tek Görünüm 3D Nesne Germe

Tek görünüm 3D nesne germe, bir nesnenin 3D modelini tek bir görüş açısından veya daha basit bir ifadeyle, tek bir görüntüden oluşturma işlemini içerir. Örneğin, bir motosikletin 3D yapısını bir görüntüden çıkarsamak karmaşık bir işlemdir. Bu, parçaların yapısal düzeni, düşük seviye görüntü ipuçları ve yüksek seviye anlamsal bilgi bilgisini birleştirir. Bu spektrum, iki ana yönü kapsar: germe ve tanıma. Germe işlemi, gölgelendirme, doku ve görsel efektler gibi ipuçlarını kullanarak girdi görüntüsünün 3D yapısını belirler. Öte yandan, tanıma işlemi, girdi görüntüsünü sınıflandırır ve bir veritabanından uygun 3D modeli alır.

Mevcut tek görünüm 3D nesne germe modelleri, mimari açısından farklılık gösterebilir, ancak çerçeve içinde bir encoder-decoder yapısı dahil etme konusunda birleşirler. Bu yapıda, encoder, girdi görüntüsünü bir gizli temsil içine haritalar, mentre decoder, çıkış alanının 3D yapısı hakkında karmaşık akıl yürütme gerçekleştirir. Bu görevi başarılı bir şekilde gerçekleştirmek için, ağın hem yüksek seviye hem de düşük seviye bilgiyi entegre etmesi gerekir. Ayrıca, birçok state-of-the-art encoder-decoder yöntemi, tek görünüm 3D germe görevleri için tanıma’ya güvenmektedir, bu da onların germe yeteneklerini sınırlamaktadır. Ayrıca, modern convolutional neural networks’in tek görünüm 3D nesne germe’deki performansı, 3D nesne yapısını açıkça çıkarmeden da aşılabilir. Ancak, tek görünüm nesne germe görevlerinde convolutional networks’teki tanıma’nın baskınlığı, çeşitli deneysel prosedürler, değerlendirme protokolleri ve veri seti bileşimi gibi faktörler tarafından etkilenmektedir. Bu faktörler, çerçeveyi, bu durumda görüntü tanıma, için bir kısayol çözümü bulmasına olanak tanır.

Geleneksel olarak, tek görünüm 3D nesne germe çerçeveleri, germe görevlerine şekil从gölgelendirme yaklaşımını kullanarak yaklaşır, doku ve odak dışı olarak hizmet eden egzotik görünümler. Bu teknikler, tek bir derinlik ipucu kullanır ve bu nedenle, bir yüzeyin görünür kısımları için akıl yürütme sağlayabilir. Ayrıca, birçok tek görünüm 3D germe çerçeveleri, yapısal bilgi ile birlikte birden fazla ipucu kullanır ve tek bir monocular görüntüden derinlik tahmini için bu kombinasyonu sağlar, bu da bu çerçevelerin görünür yüzeylerin derinliğini tahmin etmesine olanak tanır. Daha yeni derinlik tahmini çerçeveleri, monocular bir görüntüden derinlik çıkarmak için convolutional neural network yapılarını kullanır.

Ancak, etkili tek görünüm 3D germe için, modeller yalnızca görüntüdeki görünür nesnelerin 3D yapısı hakkında akıl yürütme yapmakla kalmaz, aynı zamanda görüntüdeki görünmeyen kısımları belirli önceden öğrenilen verilerden yararlanarak hayal etmeleri gerekir. Bunu başarmak için, çoğu model, doğrudan 3D denetimi kullanarak 2D görüntüleri 3D şekillere haritalamak için eğitilmiş convolutional neural network yapılarını kullanır, mentre diğer birçok çerçeve, 3D şeklinin voxel tabanlı temsilini kullanır ve 3D yukarı doğru konvolüsyonları üretmek için bir gizli temsil kullanır. Bazı çerçeveler, çıktı alanını hiyerarşik olarak bölmek suretiyle hesaplama ve bellek verimliliğini artırmak için, modelin daha yüksek çözünürlüklü 3D şekilleri tahmin etmesine olanak tanır. Son araştırmalar, convolutional neural networks kullanarak tek görünüm 3D şekil tahminleri için daha zayıf 형태daki denetimleri kullanmaya odaklanmaktadır, ya da öngörülen şekilleri ve bunların temel truth tahminlerini karşılaştırarak şekil regresörlerini eğitmek ya da modelin deformasyonları tahmin etmesine yardımcı olan ortalama şekilleri eğitmek için birden fazla öğrenme sinyali kullanmaktadır. Tek görünüm 3D germe’deki sınırlı ilerlemelerin bir başka nedeni, görev için mevcut olan sınırlı miktarda eğitim verisidir.

Devam ederek, tek görünüm 3D germe, görsel veriyi hem geometrik hem de anlamsal olarak yorumladığı için karmaşık bir görevdir. Tamamen farklı olmasalar da, geometrik yeniden yapılandırma ve anlamsal tanıma arasında farklı spektrumları kapsarlar. Germe görevleri, görüntüdeki nesnenin 3D yapısı hakkında piksel başına akıl yürütme gerektirir. Germe görevleri, görüntüdeki içeriğin anlamsal anlaşılmasını gerektirmez ve düşük seviye görüntü ipuçları, doku, renk, gölgelendirme, gölgeler, perspektif ve odak kullanılarak gerçekleştirilebilir. Tanıma, görüntü anlamsal olarak kullanıldığı için, bir ucunda görüntü tanıma görevi olarak kabul edilebilir, bu da nesneyi sınıflandırma ve veritabanından uygun 3D modeli alma işlemini içerir. Tanıma görevleri, görüntüdeki görünmeyen nesne kısımları hakkında güçlü akıl yürütme sağlayabilir, ancak anlamsal çözüm, yalnızca veritabanında bulunan bir nesne tarafından açıklanabiliyorsa mümkündür.

Tanıma ve germe görevleri birbirinden önemli ölçüde farklılık gösterebilir, ancak her ikisi de girdi görüntüsünde bulunan değerli bilgileri görmezden gelir. En iyi sonuçları elde etmek için, bu görevleri birbirleriyle birlikte kullanmak önerilir ve doğru 3D şekilleri nesne germe için, yani optimal tek görünüm 3D germe görevleri için, modelin yapısal bilgi, düşük seviye görüntü ipuçları ve nesne hakkında yüksek seviye anlayış kullanması gerekir.

Tek Görünüm 3D Germe: Geleneksel Kurulum

Tek görünüm 3D germe çerçevesinin geleneksel kurulumunu açıklamak ve kurulumunu analiz etmek için, bir nesnenin 3D şeklini tahmin etmek için tek bir görüş veya görüntüsünü kullanacağız. Eğitim amacıyla kullanılan veri kümesi, ShapeNet veri kümesidir ve modelin şekil tahmini performansını anlamak için 13 sınıfta değerlendirilir.

Çoğu modern convolutional neural network, yüksek çözünürlüklü 3D modelleri tahmin etmek için tek bir görüntüyü kullanır ve bu çerçeveler, çıkışlarının temsiline göre kategorilere ayrılmaktadır: derinlik haritaları, nokta bulutları ve voxel ızgaraları. Model, OGN veya Octree Generating Networks’i temsilci yöntem olarak kullanır, bu yöntem tarihsel olarak voxel ızgara yaklaşımını aşmıştır ve/veya baskın çıkış temsilini kapsayabilir. Mevcut yöntemlerle karşılaştırıldığında, OGN yaklaşımı, modelin yüksek çözünürlüklü şekilleri tahmin etmesine ve oktree’leri kullanarak işgal edilen alanı verimli bir şekilde temsil etmesine olanak tanır.

Referans Noktaları

Sonuçları değerlendirmek için, model, sorunu salt bir tanıma görevi olarak ele alan iki referans noktasını kullanır. İlk referans noktası, kümeleme dựaır, mentre ikinci referans noktası, veritabanı alımı gerçekleştirir.

Kümeleme

Kümeleme referans noktasında, model, K-Means algoritmasını kullanarak eğitim şekillerini K alt kategoriye ayırır ve algoritmayı 32*32*32 voxel化larını vektör olarak düzleştirir. Küme atamalarını belirledikten sonra, model daha yüksek çözünürlüklü modellere geri döner. Model, her küme içinde ortalama şekli hesaplar ve ortalama şekilleri, optimal değerini, ortalama IoU veya Intersection over Union’u modèleler üzerinde en üst düzeye çıkararak hesaplar. Model, eğitim verisi中的 3D şekilleri ve görüntüleri arasındaki ilişkiyi bildiğinden, görüntüyü karşılık gelen kümeyle kolayca eşleştirebilir.

Alım

Alım referans noktası, şekilleri ve görüntüleri ortak bir alanda gömme öğrenir. Model, eğitim kümesindeki 3D şekil matrislerinin çiftli benzerliğini kullanarak gömme alanını oluşturur. Bunu, her satırı düşük boyutlu bir tanımlayıcıya sıkıştırmak için Multi-Boyutlu Ölçeklendirme ile Sammon eşlemesi yaklaşımını kullanarak gerçekleştirir. Ayrıca, iki rastgele şeklin benzerliğini hesaplamak için model, ışık alanı tanımlayıcısını kullanır. Ayrıca, model, görüntüleri bir tanımlayıcıya haritalamak için bir convolutional neural network eğitmek suretiyle görüntüleri bu alanda gömer.

Analiz

Tek görünüm 3D germe modelleri, farklı stratejilere sahip olduklarından, bazı alanlarda diğer modelleri aşarlar, ancak diğerlerinde eksik kalırlar. Farklı çerçeveleri karşılaştırmak ve performanslarını değerlendirmek için, ortalama IoU puanı gibi farklı metriklere sahibiz.

Üstteki görüntüden de anlaşılacağı gibi, farklı mimarilere sahip olsalar da, mevcut state-of-the-art 3D germe modelleri neredeyse benzer performans gösterir. Ancak, ilginç bir şekilde, salt bir tanıma yöntemi olan alım çerçevesi, ortalama ve orta IoU puanlarında diğer modelleri aşar. Kümeleme çerçevesi, AtlasNet, OGN ve Matryoshka çerçevelerini aşarak sağlam sonuçlar verir. Ancak, bu analizdeki en beklenmedik sonuç, mükemmel bir alım mimarisine sahip olan Oracle NN’nin diğer tüm yöntemleri aşmasıdır. Ortalama IoU puanını hesaplamak, karşılaştırmaya yardımcı olur, ancak tam bir resim sunmaz, çünkü sonuçlardaki varyans, modelden bağımsız olarak yüksektir.

Ortak Değerlendirme Metrikleri

Tek Görünüm 3D Germe modelleri, performanslarını çeşitli görevlerde değerlendirmek için thường farklı değerlendirme metriklerini kullanır. Aşağıda, bazı ortak kullanılan değerlendirme metrikleri verilmiştir.

Kesişim Üzerindeki Birlik

Ortalama Kesişim Üzerindeki Birlik, tek görünüm 3D germe modelleri için bir referans noktası olarak kullanılan bir metriktir. IoU, modelin tahmin ettiği şeklin kalitesi hakkında bazı bilgiler sağlar, ancak bir yöntemi değerlendirmek için tek başına bir metrik olarak kabul edilmez, çünkü yalnızca yüksek değerlerde anlamlıdır ve iki verilen şeklin düşük ve orta seviye puanları arasında önemli bir fark vardır.

Chamfer Mesafesi

Chamfer Mesafesi, nokta bulutları üzerinde tanımlanmıştır ve farklı 3D temsil biçimlerine tatmin edici bir şekilde uygulanabilmesi için tasarlanmıştır. Ancak, Chamfer Mesafesi değerlendirme metriği, aykırı değerlere karşı oldukça hassastır, bu da modelin performansını değerlendirmek için sorunlu bir ölçüttür, çünkü referans şekline olan aykırı değerlerin mesafesi, üretim kalitesini önemli ölçüde belirler.

F-Skoru

F-Skoru, çoğu çoklu görünüm 3D germe modeli tarafından aktif olarak kullanılan bir değerlendirme metriğidir. F-Skoru, hatırlama ve doğruluk arasındaki harmonik ortalamadır ve nesnelerin yüzeyleri arasındaki mesafeyi açıkça değerlendirir. Doğruluk, yeniden yapılandırılan noktaların belirli bir mesafeye göre ground truth’a olan oranını ölçer ve yeniden yapılandırmanın doğruluğunu ölçer. Hatırlama, ground truth üzerindeki noktaların yeniden yapılandırılmış şekle belirli bir mesafeye göre olan oranını ölçer ve yeniden yapılandırmanın tamamlanma oranını ölçer. Ayrıca, F-Skoru metriğinin kesinliğini, mesafe eşiğini değiştirerek kontrol edilebilir.

Her Sınıfta Analiz

Yukarıdaki çerçevelerin performansı benzerliği, yöntemlerin farklı sınıfların alt kümesi üzerinde çalışması sonucuna yol açmaz ve aşağıdaki şekil, farklı sınıflar boyunca tutarlı göreli performansı gösterir, Oracle NN alım referans noktası en iyi sonucu elde eder ve tüm yöntemler tüm sınıflar için yüksek varyans gösterir.

Ayrıca, bir sınıfta bulunan eğitim örneklerinin sayısı, sınıfa göre performansı etkileyebileceğine dair bir varsayımda bulunabilir. Ancak, aşağıdaki şekil, sınıftaki eğitim örneklerinin sayısının, sınıfa göre performansı etkilemediğini gösterir ve bir sınıftaki örneklerin sayısı ile ortalama IoU puanı arasında bir korelasyon yoktur.

Niteliksel Analiz

Yukarıdaki bölümde tartışılan nicel sonuçlar, aşağıdaki görüntüde gösterilen nitel sonuçlarla desteklenmektedir.

Çoğu sınıf için, kümeleme referans noktası ve decoder tabanlı yöntemlerin tahminleri arasında önemli bir fark yoktur. Kümeleme yaklaşımı, örnek ve ortalama küme şekli arasındaki mesafe yüksek olduğunda veya ortalama şekil kümeyi yeterince tanımlayamadığında sonuç vermez. Öte yandan, decoder tabanlı yöntemler ve alım mimarisi kullanan çerçeveler, üretilen 3D modelde ince detayları dahil ederek en doğru ve çekici sonuçları sağlar.

Tek Görünüm 3D Germe: Son Düşünceler

Bu makalede, Tek Görünüm 3D Nesne Germe hakkında konuştuk, nasıl çalıştığını ve iki referans noktası hakkında konuştuk: Alım ve Kümeleme, alım referans noktası yaklaşımının mevcut state-of-the-art modelleri aşmasıyla. Son olarak, Tek Görünüm 3D Nesne Germe, AI topluluğundaki en sıcak ve en çok araştırılan konulardan biri olmasına rağmen, son yıllarda önemli ilerlemeler kaydetmesine rağmen, Tek Görünüm 3D Nesne Germe masih mükemmel değildir ve önümüzdeki yıllarda aşılması gereken önemli engeller vardır.

Related Topics:3D object 3D Reconstruction