Connect with us

Anunțuri

Intel Labs Avansează Dezvoltarea Viziunii Computelor cu Două Noi Modele AI

mm

Modelele AI open source VI-Depth 1.0 și MiDaS 3.1 îmbunătățesc estimarea adâncimii pentru viziunea computerizată.

Estimarea adâncimii este o sarcină dificilă de viziune computerizată necesară pentru a crea o gamă largă de aplicații în robotică, realitate augmentată (AR) și realitate virtuală (VR). Soluțiile existente adesea luptă pentru a estima corect distanțele, ceea ce este un aspect crucial în ajutarea planificării mișcării și evitării obstacolelor atunci când vine vorba de navigație vizuală. Cercetătorii de la Intel Labs abordează această problemă prin lansarea a două modele AI pentru estimarea adâncimii monoculară: unul pentru estimarea adâncimii vizual-inertiale și unul pentru estimarea robustă a adâncimii relative (RDE).

Noul model RDE, MiDaS versiunea 3.1, prezice adâncimea relativă robustă folosind doar o singură imagine ca intrare. Datorită antrenamentului pe un set de date mare și divers, poate funcționa eficient pe o gamă mai largă de sarcini și medii. Ultima versiune a lui MiDaS îmbunătățește acuratețea modelului pentru RDE cu aproximativ 30% cu setul său de antrenament mai mare și actualizarea scheletului encoder.

MiDaS a fost integrat în multe proiecte, cel mai notabil fiind Stable Diffusion 2.0, unde activează funcția de adâncime-la-imagină care inferă adâncimea unei imagini de intrare și apoi generează noi imagini folosind atât textul, cât și informațiile de adâncime. De exemplu, creatorul digital Scottie Fox a folosit o combinație de Stable Diffusion și MiDaS pentru a crea un mediu VR cu 360 de grade. Această tehnologie poate conduce la noi aplicații virtuale, inclusiv reconstrucția scenei crimei pentru cazuri în instanță, medii terapeutice pentru sănătate și experiențe de joc imersiv.

În timp ce RDE are o bună generalizare și este util, lipsa de scară scade utilitatea sa pentru sarcinile descendente care necesită adâncime metrică, cum ar fi cartografierea, planificarea, navigația, recunoașterea obiectelor, reconstrucția 3D și editarea imaginilor. Cercetătorii de la Intel Labs abordează această problemă prin lansarea lui VI-Depth, un alt model AI care oferă o estimare precisă a adâncimii.

VI-Depth este o conductă de estimare a adâncimii vizual-inertiale care integrează estimarea adâncimii monoculară și odometria vizual-inertială (VIO) pentru a produce estimări dense de adâncime cu scară metrică. Acestă abordare oferă o estimare precisă a adâncimii, care poate ajuta la reconstrucția scenei, cartografiere și manipularea obiectelor.

Incorporarea datelor inerțiale poate ajuta la rezolvarea ambiguității de scară. Majoritatea dispozitivelor mobile conțin deja unități de măsurare inerțială (IMU). Alinierea globală determină scala globală adecvată, în timp ce alinierea densă a scalei (SML) funcționează local și împinge sau trage regiunile spre adâncimea metrică corectă. Rețeaua SML utilizează MiDaS ca schelet de encoder. În conducta modulară, VI-Depth combină estimarea adâncimii bazată pe date cu modelul de predicție a adâncimii relative MiDaS, alături de unitatea de măsurare a senzorului IMU. Combinația de surse de date permite lui VI-Depth să genereze o adâncime metrică densă mai fiabilă pentru fiecare pixel din imagine.

MiDaS 3.1 și VI-Depth 1.0 sunt disponibile sub o licență open source MIT pe GitHub.

Pentru mai multe informații, consultați „Transformatori de viziune pentru predicție densă” și „Spre o estimare robustă a adâncimii monoculară: amestecarea seturilor de date pentru transferul zero-shot între seturi de date.”

Daniel este un mare susținător al modului în care IA va perturba în cele din urmă totul. El respiră tehnologia și trăiește pentru a încerca gadgeturi noi.