Pengumuman
Intel Labs Meningkatkan Pengembangan Penglihatan Komputer dengan Dua Model AI Baru

VI-Depth 1.0 dan MiDaS 3.1 model AI open source memperbaiki estimasi kedalaman untuk penglihatan komputer.
Estimasi kedalaman adalah tugas penglihatan komputer yang menantang yang diperlukan untuk menciptakan berbagai aplikasi di bidang robotika, realitas tambah (AR) dan realitas virtual (VR). Solusi yang ada seringkali mengalami kesulitan untuk memperkirakan jarak dengan benar, yang merupakan aspek penting dalam membantu perencanaan gerakan dan menghindari hambatan saat navigasi visual. Peneliti di Intel Labs menangani masalah ini dengan merilis dua model AI untuk estimasi kedalaman monokular: satu untuk estimasi kedalaman visual-inertial dan satu untuk estimasi kedalaman relatif yang kuat (RDE).
Model RDE terbaru, MiDaS versi 3.1, memprediksi kedalaman relatif yang kuat menggunakan hanya satu gambar sebagai input. Karena pelatihannya pada dataset yang besar dan beragam, ia dapat berfungsi dengan efisien pada berbagai tugas dan lingkungan. Versi terbaru MiDaS memperbaiki akurasi model untuk RDE sekitar 30% dengan set pelatihan yang lebih besar dan backbone encoder yang diperbarui.
MiDaS telah diintegrasikan ke dalam banyak proyek, yang paling terkenal adalah Stable Diffusion 2.0, di mana ia memungkinkan fitur depth-to-image yang menginfer kedalaman gambar input dan kemudian menghasilkan gambar baru menggunakan teks dan informasi kedalaman. Sebagai contoh, pembuat digital Scottie Fox menggunakan kombinasi Stable Diffusion dan MiDaS untuk menciptakan lingkungan VR 360 derajat. Teknologi ini dapat memimpin ke aplikasi virtual baru, termasuk rekonstruksi tempat kejadian untuk kasus pengadilan, lingkungan terapi untuk perawatan kesehatan dan pengalaman bermain game yang imersif.
Sementara RDE memiliki generalisasi yang baik dan berguna, kurangnya skala mengurangi utilitasnya untuk tugas downstream yang memerlukan kedalaman metrik, seperti pemetaan, perencanaan, navigasi, pengenalan objek, rekonstruksi 3D dan pengeditan gambar. Peneliti di Intel Labs menangani masalah ini dengan merilis VI-Depth, model AI lain yang menyediakan estimasi kedalaman yang akurat.
VI-Depth adalah pipa estimasi kedalaman visual-inertial yang mengintegrasikan estimasi kedalaman monokular dan odometri visual-inertial (VIO) untuk menghasilkan perkiraan kedalaman yang padat dengan skala metrik. Pendekatan ini menyediakan estimasi kedalaman yang akurat, yang dapat membantu dalam rekonstruksi adegan, pemetaan dan manipulasi objek.
Menggabungkan data inertial dapat membantu menyelesaikan ambiguitas skala. Sebagian besar perangkat mobile sudah mengandung unit pengukuran inertial (IMU). Pemosisian global menentukan skala global yang tepat, sedangkan penyelarasan skala yang padat (SML) beroperasi secara lokal dan mendorong atau menarik wilayah ke arah kedalaman metrik yang benar. Jaringan SML menggunakan MiDaS sebagai backbone encoder. Dalam pipa modular, VI-Depth menggabungkan estimasi kedalaman yang didorong data dengan model prediksi kedalaman relatif MiDaS, bersama dengan unit pengukuran sensor IMU. Kombinasi sumber data memungkinkan VI-Depth untuk menghasilkan kedalaman metrik yang lebih dapat diandalkan untuk setiap piksel dalam gambar.
MiDaS 3.1 dan VI-Depth 1.0 tersedia di bawah lisensi open source MIT di GitHub.
Untuk informasi lebih lanjut, lihat “Vision Transformers for Dense Prediction” dan “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer.”










