Connect with us

Duyurular

Intel Labs Bilgisayar Görme Gelişimini İki Yeni AI Modeli ile İlerletiyor

mm

VI-Depth 1.0 ve MiDaS 3.1 açık kaynaklı AI modelleri, bilgisayar görme için derinlik tahminiğini geliştiriyor.

Derinlik tahmini, robotik, artırılmış gerçeklik (AR) ve sanal gerçeklik (VR) gibi bir dizi uygulama oluşturmak için gereken zorlu bir bilgisayar görme görevidir. Mevcut çözümler genellikle mesafeleri doğru şekilde tahmin etmekte zorlanırlar, bu da görsel navigasyon söz konusu olduğunda hareket planlamak ve engellerden kaçınmak için kritik bir yönüdür. Intel Labs araştırmacıları, bu sorunu, monocular derinlik tahmini için iki AI modeli yayınlayarak ele alıyorlar: biri görsel-inertial derinlik tahmini için ve diğeri güçlü göreceli derinlik tahmini (RDE) için.

Son RDE modeli, MiDaS sürüm 3.1, yalnızca tek bir görüntü girişini kullanarak güçlü göreceli derinlik tahmini yapar. Büyük ve çeşitli bir veri kümesiyle eğitildiğinden, daha geniş bir görev ve çevre yelpazesinde verimli bir şekilde çalışabilir. MiDaS’ın son sürümü, daha büyük eğitim kümesi ve güncellenmiş kodlayıcı omurgalarıyla RDE için model doğruluğunu yaklaşık %30 oranında geliştirir.

MiDaS, birçok projeye entegre edilmiştir, en dikkat çekeni Stable Diffusion 2.0’dir, burada depth-to-image özelliğini etkinleştirir ve bir girdi görüntüsünün derinliğini çıkarır ve ardından hem metin hem de derinlik bilgilerini kullanarak yeni görüntüler oluşturur. Örneğin, dijital yaratıcı Scottie Fox, bir 360 derecelik VR ortamı oluşturmak için Stable Diffusion ve MiDaS’ın bir kombinasyonunu kullandı. Bu teknoloji, mahkeme davaları için suç sahnesi yeniden yapılandırması, sağlık hizmetleri için terapötik ortamlar ve etkileşimli oyun deneyimleri dahil olmak üzere yeni sanal uygulamalara yol açabilir.

RDE’nin genellemesi iyidir ve kullanışlıdır, ancak ölçek eksikliği, haritalama, planlama, navigasyon, nesne tanıma, 3B yeniden yapılandırma ve görüntü düzenleme gibi metrik derinlik gerektiren aşağı akım görevleri için faydasını azaltır. Intel Labs araştırmacıları, bu sorunu, VI-Depth adlı başka bir AI modeli yayınlayarak ele alıyorlar, bu model doğru derinlik tahmini sağlar.

VI-Depth, monocular derinlik tahmini ve görsel-inertial odometri (VIO) entegre eden bir görsel-inertial derinlik tahmini pipeline’dir ve metrik ölçekli yoğun derinlik tahminleri üretir. Bu yaklaşım, sahne yeniden yapılandırması, haritalama ve nesne manipülasyonu gibi görevlerde yardımcı olabilecek doğru derinlik tahmini sağlar.

İvmeölçer verilerini birleştirmek, ölçek belirsizliğini çözmeye yardımcı olabilir. Çoğu mobil cihaz zaten ivmeölçer birimleri (IMU) içerir. Küresel hizalama uygun küresel ölçeyi belirler, mentre dense ölçek hizalama (SML) yerel olarak çalışır ve bölgeleri doğru metrik derinliğe doğru iter veya çeker. SML ağı, MiDaS’ı bir kodlayıcı omurga olarak kullanır. Modüler pipeline’da, VI-Depth, veri temelli derinlik tahmini ile MiDaS göreli derinlik tahmini modelini birleştirir, ayrıca IMU sensör ölçüm birimi. Veri kaynaklarının birleşmesi, VI-Depth’in bir görüntüdeki her piksel için daha güvenilir yoğun metrik derinlik üretmesine olanak tanır.

MiDaS 3.1 ve VI-Depth 1.0 GitHub’da açık kaynaklı MIT lisansı altında mevcuttur.

Daha fazla bilgi için, “Vision Transformers for Dense Prediction” ve “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer”e başvurun.

Daniel, yapay zekanın sonunda her şeyi değiştireceğine büyük bir destekçisidir. Teknolojiyle Yaşıyor ve yeni aletler denemek için yaşıyor.