Annonces
Intel Labs fait progresser le développement de la vision par ordinateur avec deux nouveaux modèles d'IA

Les modèles d'IA open source VI-Depth 1.0 et MiDaS 3.1 améliorent l'estimation de la profondeur pour la vision par ordinateur.
L'estimation de la profondeur est une tâche de vision par ordinateur difficile nécessaire pour créer un large éventail d'applications en robotique, en réalité augmentée (AR) et en réalité virtuelle (VR). Les solutions existantes ont souvent du mal à estimer correctement les distances, ce qui est un aspect crucial pour aider à planifier le mouvement et éviter les obstacles en matière de navigation visuelle. Les chercheurs d'Intel Labs s'attaquent à ce problème en publiant deux modèles d'IA pour l'estimation de la profondeur monoculaire : un pour l'estimation de la profondeur visuelle-inertielle et un pour l'estimation de la profondeur relative (RDE) robuste.
Le dernier modèle RDE, MiDaS version 3.1, prédit une profondeur relative robuste en utilisant une seule image comme entrée. En raison de sa formation sur un ensemble de données vaste et diversifié, il peut fonctionner efficacement sur un plus large éventail de tâches et d'environnements. La dernière version de MiDaS améliore la précision du modèle pour RDE d'environ 30 % grâce à son ensemble de formation plus large et à ses backbones d'encodeur mis à jour.
MiDaS a été intégré à de nombreux projets, notamment Stable Diffusion 2.0, où il active la fonction profondeur-image qui déduit la profondeur d'une image d'entrée, puis génère de nouvelles images en utilisant à la fois le texte et les informations de profondeur. Par exemple, créateur numérique renard écossais a utilisé une combinaison de Stable Diffusion et MiDaS pour créer un environnement VR à 360 degrés. Cette technologie pourrait conduire à de nouvelles applications virtuelles, notamment la reconstruction de scènes de crime pour les affaires judiciaires, des environnements thérapeutiques pour les soins de santé et des expériences de jeu immersives.
Bien que RDE ait une bonne généralisabilité et soit utile, le manque d'échelle diminue son utilité pour les tâches en aval nécessitant une profondeur métrique, telles que la cartographie, la planification, la navigation, la reconnaissance d'objets, la reconstruction 3D et l'édition d'images. Les chercheurs d'Intel Labs s'attaquent à ce problème en publiant VI-Depth, un autre modèle d'IA qui fournit une estimation précise de la profondeur.
VI-Depth est un pipeline d'estimation de profondeur visuelle-inertielle qui intègre l'estimation de profondeur monoculaire et l'odométrie visuelle-inertielle (VIO) pour produire des estimations de profondeur denses avec une échelle métrique. Cette approche fournit une estimation précise de la profondeur, ce qui peut faciliter la reconstruction de la scène, la cartographie et la manipulation d'objets.
L'incorporation de données inertielles peut aider à résoudre l'ambiguïté d'échelle. La plupart des appareils mobiles contiennent déjà des unités de mesure inertielle (IMU). L'alignement global détermine l'échelle globale appropriée, tandis que l'alignement à l'échelle dense (SML) opère localement et pousse ou tire les régions vers la profondeur métrique correcte. Le réseau SML exploite MiDaS comme dorsale d'encodeur. Dans le pipeline modulaire, VI-Depth combine l'estimation de profondeur basée sur les données avec le modèle de prédiction de profondeur relative MiDaS, aux côtés de l'unité de mesure du capteur IMU. La combinaison de sources de données permet à VI-Depth de générer une profondeur métrique dense plus fiable pour chaque pixel d'une image.
MiDaS3.1 et d’une VI-Profondeur 1.0 sont disponibles sous une licence MIT open source sur GitHub.
Pour plus d'informations, reportez-vous à "Transformateurs de vision pour une prédiction dense" et "Vers une estimation robuste de la profondeur monoculaire : Mélanger des ensembles de données pour un transfert d'ensembles de données croisés à zéro. »