Анонсы

Intel Labs Расширяет Разработку Компьютерного Зрения с Двумя Новыми Моделями ИИ

Published March 23, 2023

Updated April 5, 2026

Daniel Martin

VI-Depth 1.0 и MiDaS 3.1 открытые модели ИИ улучшают оценку глубины для компьютерного зрения.

Оценка глубины – это сложная задача компьютерного зрения, необходимая для создания широкого спектра приложений в робототехнике, дополненной реальности (AR) и виртуальной реальности (VR). Существующие решения часто испытывают трудности в правильной оценке расстояний, что является важным аспектом в планировании движения и избегании препятствий при навигации по визуальным данным. Исследователи в Intel Labs решают эту проблему, выпуская две модели ИИ для монокулярной оценки глубины: одну для визуально-инерциальной оценки глубины и одну для устойчивой относительной оценки глубины (RDE).

Последняя модель RDE, MiDaS версия 3.1, предсказывает устойчивую относительную глубину, используя только одно изображение в качестве входных данных. Благодаря ее обучению на большом и разнообразном наборе данных, она может эффективно работать в широком диапазоне задач и сред. Последняя версия MiDaS улучшает точность модели для RDE примерно на 30% за счет более крупного набора данных и обновленных основных структур.

MiDaS была включена во многие проекты, наиболее заметно в Stable Diffusion 2.0, где она позволяет функции глубины-изображения, которая выводит глубину входного изображения и затем генерирует новые изображения, используя как текст, так и информацию о глубине. Например, цифровой создатель Scottie Fox использовал комбинацию Stable Diffusion и MiDaS для создания 360-градусной среды виртуальной реальности. Эта технология может привести к новым виртуальным приложениям, включая реконструкцию мест преступлений для судебных дел, терапевтические среды для здравоохранения и иммерсивные игровые trải nghiệm.

Хотя RDE имеет хорошую общую применимость и полезна, отсутствие масштаба снижает ее полезность для последующих задач, требующих метрической глубины, таких как картографирование, планирование, навигация, распознавание объектов, 3D-реконструкция и редактирование изображений. Исследователи в Intel Labs решают эту проблему, выпуская VI-Depth, другую модель ИИ, которая обеспечивает точную оценку глубины.

VI-Depth – это визуально-инерциальная оценка глубины, которая интегрирует монокулярную оценку глубины и визуально-инерциальную одометрию (VIO) для получения плотных оценок глубины с метрическим масштабом. Этот подход обеспечивает точную оценку глубины, которая может помочь в реконструкции сцены, картографировании и манипуляции объектами.

Включение инерциальных данных может помочь решить проблему неоднозначности масштаба. Большинство мобильных устройств уже содержат инерциальные измерительные блоки (IMU). Глобальное выравнивание определяет подходящий глобальный масштаб, а плотное выравнивание масштаба (SML) работает локально и перемещает или притягивает области к правильной метрической глубине. Сеть SML использует MiDaS в качестве основной структуры. В модульной трубопроводе VI-Depth объединяет оценку глубины, основанную на данных, с моделью предсказания относительной глубины MiDaS, а также с блоком измерения IMU. Комбинация источников данных позволяет VI-Depth генерировать более надежные плотные метрические глубины для каждого пикселя в изображении.

MiDaS 3.1 и VI-Depth 1.0 доступны под открытой лицензией MIT на GitHub.

Для получения дополнительной информации обратитесь к “Vision Transformers for Dense Prediction” и “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer.”

Unite.AI

Intel Labs Расширяет Разработку Компьютерного Зрения с Двумя Новыми Моделями ИИ

You may like