Intelligence artificielle
Dévoilant SAM 2 : Le nouveau modèle de base open-source de Meta pour la segmentation d’objets en temps réel dans les vidéos et les images
Au cours des dernières années, le monde de l’IA a connu des progrès remarquables dans les modèles de base pour le traitement de texte, avec des avancées qui ont transformé des industries allant du service client à l’analyse juridique. Cependant, lorsqu’il s’agit du traitement d’images, nous ne sommes qu’au début. La complexité des données visuelles et les défis de formation de modèles pour interpréter et analyser avec précision les images ont présenté des obstacles significatifs. Alors que les chercheurs continuent à explorer les modèles de base pour les images et les vidéos, l’avenir du traitement d’images dans l’IA holds des potentialités pour des innovations dans les soins de santé, les véhicules autonomes et au-delà.
La segmentation d’objets, qui consiste à identifier les pixels exacts dans une image qui correspondent à un objet d’intérêt, est une tâche critique dans la vision par ordinateur. Traditionnellement, cela a impliqué la création de modèles d’IA spécialisés, ce qui nécessite une infrastructure extensive et de grandes quantités de données annotées. L’année dernière, Meta a introduit le Segment Anything Model (SAM), un modèle d’IA de base qui simplifie ce processus en permettant aux utilisateurs de segmenter des images avec une simple invite. Cette innovation a réduit le besoin d’expertise spécialisée et de ressources de calcul étendues, rendant la segmentation d’images plus accessible.
Maintenant, Meta va plus loin avec SAM 2. Cette nouvelle itération non seulement améliore les capacités de segmentation d’images existantes de SAM, mais étend également ces capacités au traitement de vidéos. SAM 2 peut segmenter n’importe quel objet dans les images et les vidéos, même ceux qu’il n’a jamais rencontrés auparavant. Cette avancée est un bond en avant dans le domaine de la vision par ordinateur et du traitement d’images, fournissant un outil plus polyvalent et puissant pour analyser le contenu visuel. Ci-dessous, nous explorons les avancées passionnantes de SAM 2 et son potentiel pour redéfinir le domaine de la vision par ordinateur.
Présentation du Segment Anything Model (SAM)
Les méthodes de segmentation traditionnelles nécessitent soit une révision manuelle, appelée segmentation interactive, soit des données annotées étendues pour une segmentation automatique dans des catégories prédéfinies. SAM est un modèle d’IA de base qui prend en charge la segmentation interactive à l’aide d’invites polyvalentes comme des clics, des boîtes ou des entrées de texte. Il peut également être affiné avec un minimum de données et de ressources de calcul pour une segmentation automatique. Formé sur plus d’un milliard d’annotations d’images diverses, SAM peut gérer de nouveaux objets et images sans nécessiter de collecte de données personnalisées ou d’ajustement.
SAM fonctionne avec deux composants principaux : un encodeur d’image qui traite l’image et un encodeur d’invite qui gère les entrées comme des clics ou du texte. Ces composants se combinent avec un décodeur léger pour prédire les masques de segmentation. Une fois l’image traitée, SAM peut créer un segment en seulement 50 millisecondes dans un navigateur Web, ce qui en fait un outil puissant pour les tâches interactives en temps réel. Pour construire SAM, les chercheurs ont développé un processus de collecte de données en trois étapes : l’annotation assistée par modèle, un mélange d’annotation automatique et assistée, et la création de masque entièrement automatique. Ce processus a abouti au dataset SA-1B, qui comprend plus de 1,1 milliard de masques sur 11 millions d’images sous licence, préservant la confidentialité — ce qui en fait un ensemble de données 400 fois plus grand que n’importe quel ensemble de données existant. Les performances impressionnantes de SAM proviennent de cet ensemble de données étendu et diversifié, assurant une meilleure représentation dans diverses régions géographiques par rapport aux ensembles de données précédents.
Dévoilant SAM 2 : Un bond de la segmentation d’images à la segmentation de vidéos
En s’appuyant sur les fondations de SAM, SAM 2 est conçu pour la segmentation d’objets en temps réel et invokable dans les images et les vidéos. Contrairement à SAM, qui se concentre uniquement sur les images statiques, SAM 2 traite les vidéos en traitant chaque trame comme faisant partie d’une séquence continue. Cela permet à SAM 2 de gérer des scènes dynamiques et un contenu changeant plus efficacement. Pour la segmentation d’images, SAM 2 améliore non seulement les capacités de SAM, mais fonctionne également trois fois plus vite dans les tâches interactives.
SAM 2 conserve la même architecture que SAM, mais introduit un mécanisme de mémoire pour le traitement de vidéos. Cette fonctionnalité permet à SAM 2 de conserver des informations à partir de trames précédentes, garantissant une segmentation d’objets cohérente malgré les changements de mouvement, d’éclairage ou d’occlusion. En référençant les trames passées, SAM 2 peut affiner ses prédictions de masques tout au long de la vidéo.
Le modèle est formé sur un nouvel ensemble de données développé, le dataset SA-V, qui comprend plus de 600 000 annotations de masques sur 51 000 vidéos provenant de 47 pays. Cet ensemble de données diversifié couvre à la fois des objets entiers et leurs parties, améliorant ainsi la précision de SAM 2 dans la segmentation de vidéos réelles.
SAM 2 est disponible en tant que modèle open-source sous licence Apache 2.0, ce qui le rend accessible à divers usages. Meta a également partagé l’ensemble de données utilisé pour SAM 2 sous une licence CC BY 4.0. De plus, il existe une démonstration basée sur le Web qui permet aux utilisateurs d’explorer le modèle et de voir comment il se comporte.
Cas d’utilisation potentiels
Les capacités de SAM 2 en matière de segmentation d’objets en temps réel et invokable pour les images et les vidéos ont débloqué de nombreuses applications innovantes dans différents domaines. Par exemple, certaines de ces applications sont les suivantes :
- Diagnostic médical : SAM 2 peut améliorer considérablement l’assistance chirurgicale en temps réel en segmentant les structures anatomiques et en identifiant les anomalies pendant les flux vidéo en direct dans la salle d’opération. Il peut également améliorer l’analyse d’imagerie médicale en fournissant une segmentation précise des organes ou des tumeurs dans les scans médicaux.
- Véhicules autonomes : SAM 2 peut améliorer les systèmes de véhicules autonomes en améliorant la précision de la détection d’objets grâce à une segmentation et un suivi continus de piétons, de véhicules et de panneaux de signalisation à travers les trames de vidéos. Sa capacité à gérer des scènes dynamiques soutient également les systèmes de navigation adaptative et d’évitement de collision en reconnaissant et en réagissant aux changements environnementaux en temps réel.
- Médias interactifs et divertissement : SAM 2 peut améliorer les applications de réalité augmentée (AR) en segmentant avec précision les objets en temps réel, ce qui facilite l’intégration d’éléments virtuels dans le monde réel. Il profite également à l’édition de vidéos en automatisant la segmentation d’objets dans les rushes, ce qui simplifie les processus tels que la suppression de fond et le remplacement d’objets.
- Surveillance environnementale : SAM 2 peut aider à la poursuite de la faune en segmentant et en surveillant les animaux dans les vidéos, soutenant ainsi les recherches sur les espèces et les études d’habitat. Dans les interventions en cas de catastrophe, il peut évaluer les dégâts et guider les efforts de réponse en segmentant avec précision les zones et les objets touchés dans les flux vidéo.
- Détail et commerce électronique : SAM 2 peut améliorer la visualisation de produits dans le commerce électronique en permettant la segmentation interactive de produits dans les images et les vidéos. Cela donne aux clients la possibilité de visualiser les articles sous différents angles et dans différents contextes. Pour la gestion des stocks, il aide les détaillants à suivre et à segmenter les produits sur les étagères en temps réel, rationalisant ainsi l’inventaire et améliorant le contrôle global des stocks.
Surmonter les limites de SAM 2 : solutions pratiques et améliorations futures
Bien que SAM 2 se comporte bien avec les images et les courtes vidéos, il présente certaines limites à considérer pour une utilisation pratique. Il peut avoir du mal à suivre les objets à travers des changements importants de point de vue, des occlusions longues ou dans des scènes bondées, en particulier dans des vidéos étendues. La correction manuelle avec des clics interactifs peut aider à résoudre ces problèmes.
Dans les environnements bondés avec des objets de même apparence, SAM 2 pourrait parfois mal identifier les cibles, mais des invites supplémentaires dans les trames ultérieures peuvent résoudre ce problème. Bien que SAM 2 puisse segmenter plusieurs objets, son efficacité diminue car il traite chaque objet séparément. Les mises à jour futures pourraient bénéficier de l’intégration d’informations contextuelles partagées pour améliorer les performances.
SAM 2 peut également manquer de détails fins avec des objets en mouvement rapide, et les prédictions peuvent être instables entre les trames. Cependant, une formation supplémentaire pourrait résoudre cette limitation. Bien que la génération automatique d’annotations se soit améliorée, des annotateurs humains sont toujours nécessaires pour les contrôles de qualité et la sélection de trames, et une automatisation plus poussée pourrait améliorer l’efficacité.
En résumé
SAM 2 représente un bond significatif en avant dans la segmentation d’objets en temps réel pour les images et les vidéos, en s’appuyant sur les fondations posées par son prédécesseur. En améliorant les capacités et en étendant la fonctionnalité au contenu de vidéos dynamiques, SAM 2 promet de transformer une variété de domaines, allant des soins de santé et des véhicules autonomes aux médias interactifs et au détail. Bien que des défis persistent, en particulier dans la gestion de scènes complexes et bondées, la nature open-source de SAM 2 encourage l’amélioration continue et l’adaptation. Avec ses performances puissantes et son accessibilité, SAM 2 est prêt à stimuler l’innovation et à étendre les possibilités dans la vision par ordinateur et au-delà.








