Anuncios
Intel Labs Avanza el Desarrollo de la Visión por Computadora con Dos Nuevos Modelos de IA

Los modelos de IA de código abierto VI-Depth 1.0 y MiDaS 3.1 mejoran la estimación de profundidad para la visión por computadora.
La estimación de profundidad es una tarea desafiante de visión por computadora que se requiere para crear una amplia gama de aplicaciones en robótica, realidad aumentada (AR) y realidad virtual (VR). Las soluciones existentes a menudo luchan para estimar correctamente las distancias, lo que es un aspecto crucial para ayudar a planificar el movimiento y evitar obstáculos cuando se trata de navegación visual. Los investigadores de Intel Labs están abordando este problema al lanzar dos modelos de IA para la estimación de profundidad monocular: uno para la estimación de profundidad visual-inercial y otro para la estimación de profundidad relativa robusta (RDE).
El modelo RDE más reciente, MiDaS versión 3.1, predice la profundidad relativa robusta utilizando solo una imagen como entrada. Debido a su entrenamiento en un conjunto de datos grande y diverso, puede realizar eficientemente una amplia gama de tareas y entornos. La última versión de MiDaS mejora la precisión del modelo para RDE en aproximadamente un 30% con su conjunto de entrenamiento más grande y los backbone de codificador actualizados.
MiDaS se ha incorporado en muchos proyectos, más notablemente en Stable Diffusion 2.0, donde habilita la función de profundidad a imagen que infiere la profundidad de una imagen de entrada y luego genera nuevas imágenes utilizando tanto la información de texto como la de profundidad. Por ejemplo, el creador digital Scottie Fox utilizó una combinación de Stable Diffusion y MiDaS para crear un entorno de realidad virtual de 360 grados. Esta tecnología podría conducir a nuevas aplicaciones virtuales, incluida la reconstrucción de escenas del crimen para casos judiciales, entornos terapéuticos para la atención médica y experiencias de juego inmersivas.
Si bien RDE tiene una buena generalización y es útil, la falta de escala disminuye su utilidad para las tareas posteriores que requieren profundidad métrica, como el mapeo, la planificación, la navegación, el reconocimiento de objetos, la reconstrucción 3D y la edición de imágenes. Los investigadores de Intel Labs están abordando este problema al lanzar VI-Depth, otro modelo de IA que proporciona una estimación de profundidad precisa.
VI-Depth es una tubería de estimación de profundidad visual-inercial que integra la estimación de profundidad monocular y la odometría visual-inercial (VIO) para producir estimaciones de profundidad densas con una escala métrica. Este enfoque proporciona una estimación de profundidad precisa, que puede ayudar en la reconstrucción de escenas, el mapeo y la manipulación de objetos.
Incorporar datos inerciales puede ayudar a resolver la ambigüedad de escala. La mayoría de los dispositivos móviles ya contienen unidades de medición inercial (IMU). La alineación global determina la escala global adecuada, mientras que la alineación de escala densa (SML) opera localmente y empuja o tira de las regiones hacia la profundidad métrica correcta. La red SML aprovecha MiDaS como backbone de codificador. En la tubería modular, VI-Depth combina la estimación de profundidad basada en datos con el modelo de predicción de profundidad relativa de MiDaS, junto con la unidad de medición del sensor IMU. La combinación de fuentes de datos permite que VI-Depth genere una profundidad métrica densa más confiable para cada píxel de una imagen.
MiDaS 3.1 y VI-Depth 1.0 están disponibles bajo una licencia de código abierto MIT en GitHub.
Para obtener más información, consulte “Vision Transformers for Dense Prediction” y “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer.”










