Suivez nous sur

Intel Labs fait progresser le développement de la vision par ordinateur avec deux nouveaux modèles d'IA

Annonces

Intel Labs fait progresser le développement de la vision par ordinateur avec deux nouveaux modèles d'IA

mm

Les modèles d'IA open source VI-Depth 1.0 et MiDaS 3.1 améliorent l'estimation de la profondeur pour la vision par ordinateur.

L'estimation de la profondeur est une tâche de vision par ordinateur difficile nĂ©cessaire pour crĂ©er un large Ă©ventail d'applications en robotique, en rĂ©alitĂ© augmentĂ©e (AR) et en rĂ©alitĂ© virtuelle (VR). Les solutions existantes ont souvent du mal Ă  estimer correctement les distances, ce qui est un aspect crucial pour aider Ă  planifier le mouvement et Ă©viter les obstacles en matière de navigation visuelle. Les chercheurs d'Intel Labs s'attaquent Ă  ce problème en publiant deux modèles d'IA pour l'estimation de la profondeur monoculaire : un pour l'estimation de la profondeur visuelle-inertielle et un pour l'estimation de la profondeur relative (RDE) robuste.

Le dernier modèle RDE, MiDaS version 3.1, prĂ©dit une profondeur relative robuste en utilisant une seule image comme entrĂ©e. En raison de sa formation sur un ensemble de donnĂ©es vaste et diversifiĂ©, il peut fonctionner efficacement sur un plus large Ă©ventail de tâches et d'environnements. La dernière version de MiDaS amĂ©liore la prĂ©cision du modèle pour RDE d'environ 30 % grâce Ă  son ensemble de formation plus large et Ă  ses backbones d'encodeur mis Ă  jour.

MiDaS a été intégré à de nombreux projets, notamment Stable Diffusion 2.0, où il active la fonction profondeur-image qui déduit la profondeur d'une image d'entrée, puis génère de nouvelles images en utilisant à la fois le texte et les informations de profondeur. Par exemple, créateur numérique renard écossais a utilisé une combinaison de Stable Diffusion et MiDaS pour créer un environnement VR à 360 degrés. Cette technologie pourrait conduire à de nouvelles applications virtuelles, notamment la reconstruction de scènes de crime pour les affaires judiciaires, des environnements thérapeutiques pour les soins de santé et des expériences de jeu immersives.

Bien que RDE ait une bonne généralisabilité et soit utile, le manque d'échelle diminue son utilité pour les tâches en aval nécessitant une profondeur métrique, telles que la cartographie, la planification, la navigation, la reconnaissance d'objets, la reconstruction 3D et l'édition d'images. Les chercheurs d'Intel Labs s'attaquent à ce problème en publiant VI-Depth, un autre modèle d'IA qui fournit une estimation précise de la profondeur.

VI-Depth est un pipeline d'estimation de profondeur visuelle-inertielle qui intègre l'estimation de profondeur monoculaire et l'odométrie visuelle-inertielle (VIO) pour produire des estimations de profondeur denses avec une échelle métrique. Cette approche fournit une estimation précise de la profondeur, ce qui peut faciliter la reconstruction de la scène, la cartographie et la manipulation d'objets.

L'incorporation de données inertielles peut aider à résoudre l'ambiguïté d'échelle. La plupart des appareils mobiles contiennent déjà des unités de mesure inertielle (IMU). L'alignement global détermine l'échelle globale appropriée, tandis que l'alignement à l'échelle dense (SML) opère localement et pousse ou tire les régions vers la profondeur métrique correcte. Le réseau SML exploite MiDaS comme dorsale d'encodeur. Dans le pipeline modulaire, VI-Depth combine l'estimation de profondeur basée sur les données avec le modèle de prédiction de profondeur relative MiDaS, aux côtés de l'unité de mesure du capteur IMU. La combinaison de sources de données permet à VI-Depth de générer une profondeur métrique dense plus fiable pour chaque pixel d'une image.

MiDaS3.1 et d’une VI-Profondeur 1.0 sont disponibles sous une licence MIT open source sur GitHub.

Pour plus d'informations, reportez-vous Ă  "Transformateurs de vision pour une prĂ©diction dense" et "Vers une estimation robuste de la profondeur monoculaire : MĂ©langer des ensembles de donnĂ©es pour un transfert d'ensembles de donnĂ©es croisĂ©s Ă  zĂ©ro. »

 

Daniel est un grand partisan de la façon dont l'IA finira par tout perturber. Il respire la technologie et vit pour essayer de nouveaux gadgets.