Најаве

Интел Лабс унапређује развој компјутерског вида са два нова АИ модела

објављен

КСНУМКС година пре

Март КСНУМКС, КСНУМКС

ВИ-Дептх 1.0 и МиДаС 3.1 АИ модели отвореног кода побољшавају процену дубине за компјутерски вид.

Процена дубине је изазован задатак компјутерског вида који је потребан за креирање широког спектра апликација у роботици, проширеној стварности (АР) и виртуелној стварности (ВР). Постојећа решења се често боре за исправну процену удаљености, што је кључни аспект у помагању при планирању кретања и избегавању препрека када је у питању визуелна навигација. Истраживачи у Интеловим лабораторијама се баве овим проблемом објављивањем два АИ модела за монокуларну процену дубине: један за визуелно-инерцијалну процену дубине и један за робусну процену релативне дубине (РДЕ).

Најновији РДЕ модел, МиДаС верзија 3.1, предвиђа робусну релативну дубину користећи само једну слику као улаз. Због своје обуке на великом и разноликом скупу података, може ефикасно да ради на ширем спектру задатака и окружења. Најновија верзија МиДаС-а побољшава тачност модела за РДЕ за око 30% са својим већим скупом за обуку и ажурираним окосницама енкодера.

МиДаС је уграђен у многе пројекте, посебно у Стабле Диффусион 2.0, где омогућава функцију дубине до слике која закључује дубину улазне слике, а затим генерише нове слике користећи и текст и информације о дубини. На пример, дигитални креатор Сцоттие Фок користио је комбинацију Стабле Диффусион и МиДаС за креирање ВР окружења од 360 степени. Ова технологија би могла да доведе до нових виртуелних апликација, укључујући реконструкцију места злочина за судске случајеве, терапеутско окружење за здравствену заштиту и импресивна искуства играња.

Иако РДЕ има добру генерализацију и користан је, недостатак размера смањује његову корисност за низводне задатке који захтевају метричку дубину, као што су мапирање, планирање, навигација, препознавање објеката, 3Д реконструкција и уређивање слика. Истраживачи у Интеловим лабораторијама се баве овим проблемом објављивањем ВИ-Дептх, још једног АИ модела који пружа тачну процену дубине.

ВИ-Дептх је цевовод за визуелно-инерцијалну процену дубине који интегрише монокуларну процену дубине и визуелно-инерцијалну одометрију (ВИО) да би се произвеле густе процене дубине са метричком скалом. Овај приступ пружа тачну процену дубине, што може помоћи у реконструкцији сцене, мапирању и манипулацији објектом.

Укључивање инерцијалних података може помоћи у решавању нејасноћа размера. Већина мобилних уређаја већ садржи инерцијалне мерне јединице (ИМУ). Глобално поравнање одређује одговарајућу глобалну скалу, док густо поравнање (СМЛ) делује локално и гура или повлачи регионе ка тачној метричкој дубини. СМЛ мрежа користи МиДаС као окосницу кодера. У модуларном цевоводу, ВИ-Дептх комбинује процену дубине на основу података са МиДаС моделом предвиђања релативне дубине, заједно са мерном јединицом ИМУ сензора. Комбинација извора података омогућава ВИ-Дептх-у да генерише поузданију густу метричку дубину за сваки пиксел на слици.

МиДаС 3.1 ВИ-Дептх 1.0 доступни су под МИТ лиценцом отвореног кода на ГитХуб-у.

За више информација погледајте „Висион Трансформерс за густо предвиђање"И"У правцу робусне монокуларне процене дубине: мешање скупова података за пренос унакрсних скупова података са нултим бројем снимака".