ciot Intel Labs avansează dezvoltarea computerului viziune cu două noi modele AI - Unite.AI
Conectează-te cu noi

anunturi

Intel Labs avansează dezvoltarea computerului viziune cu două noi modele AI

mm

Publicat

 on

Modelele AI cu sursă deschisă VI-Depth 1.0 și MiDaS 3.1 îmbunătățesc estimarea adâncimii pentru viziunea computerizată.

Estimarea adâncimii este o sarcină provocatoare de viziune pe computer necesară pentru a crea o gamă largă de aplicații în robotică, realitate augmentată (AR) și realitate virtuală (VR). Soluțiile existente se luptă adesea să estimeze corect distanțele, care este un aspect crucial pentru a ajuta la planificarea mișcării și a evita obstacolele atunci când vine vorba de navigarea vizuală. Cercetătorii de la Intel Labs abordează această problemă lansând două modele AI pentru estimarea adâncimii monoculare: unul pentru estimarea vizuală-inerțială a adâncimii și unul pentru estimarea robustă a adâncimii relative (RDE).

Cel mai recent model RDE, MiDaS versiunea 3.1, prezice adâncimea relativă robustă folosind doar o singură imagine ca intrare. Datorită pregătirii sale pe un set de date mare și divers, poate îndeplini eficient o gamă mai largă de sarcini și medii. Cea mai recentă versiune de MiDaS îmbunătățește acuratețea modelului pentru RDE cu aproximativ 30%, cu setul său de antrenament mai mare și coloana vertebrală actualizată a codificatorului.

MiDaS a fost încorporat în multe proiecte, în special în Stable Diffusion 2.0, unde activează caracteristica depth-to-image care deduce adâncimea unei imagini de intrare și apoi generează noi imagini folosind atât textul, cât și informațiile de adâncime. De exemplu, creator digital Scottie Fox a folosit o combinație de Stable Diffusion și MiDaS pentru a crea un mediu VR la 360 de grade. Această tehnologie ar putea duce la noi aplicații virtuale, inclusiv reconstrucția locului crimei pentru cazurile în justiție, medii terapeutice pentru asistența medicală și experiențe de joc imersive.

În timp ce RDE are o bună generalizare și este util, lipsa de scară își scade utilitatea pentru sarcinile din aval care necesită adâncime metrică, cum ar fi cartografierea, planificarea, navigarea, recunoașterea obiectelor, reconstrucția 3D și editarea imaginilor. Cercetătorii de la Intel Labs abordează această problemă lansând VI-Depth, un alt model AI care oferă o estimare precisă a adâncimii.

VI-Depth este o conductă de estimare vizual-inerțială a adâncimii care integrează estimarea profunzimii monoculare și odometria vizual-inerțială (VIO) pentru a produce estimări dense de adâncime cu o scară metrică. Această abordare oferă o estimare precisă a adâncimii, care poate ajuta la reconstrucția scenei, cartografierea și manipularea obiectelor.

Încorporarea datelor inerțiale poate ajuta la rezolvarea ambiguității la scară. Majoritatea dispozitivelor mobile conțin deja unități de măsură inerțiale (IMU). Alinierea globală determină scara globală adecvată, în timp ce alinierea la scară densă (SML) operează local și împinge sau trage regiunile către adâncimea metrică corectă. Rețeaua SML folosește MiDaS ca coloană vertebrală a codificatorului. În conducta modulară, VI-Depth combină estimarea adâncimii bazată pe date cu modelul de predicție a adâncimii relative MiDaS, alături de unitatea de măsurare a senzorului IMU. Combinația de surse de date permite VI-Depth să genereze o adâncime metrică densă mai fiabilă pentru fiecare pixel dintr-o imagine.

MiDaS 3.1 și VI-Adâncime 1.0 sunt disponibile sub o licență MIT open source pe GitHub.

Pentru mai multe informații, consultați „Transformatoare de vedere pentru predicție densă"Și"Către o estimare robustă a adâncimii monoculare: amestecarea seturilor de date pentru transferul încrucișat de date zero-shot. "

 

Daniel este un mare susținător al modului în care AI va perturba în cele din urmă totul. El respiră tehnologie și trăiește pentru a încerca noi gadget-uri.