Intelligence artificielle

Modèle Segment Anything – La vision par ordinateur reçoit un énorme coup de pouce

Publié le 5 mai 2023

Mis à jour le 23 mai 2026

Par

Haziqa Sajid

An up close image of a male face with face detection pointers.

La vision par ordinateur (CV) a atteint une précision de 99 % contre 50 % en 10 ans. La technologie devrait s’améliorer encore pour atteindre un niveau sans précédent avec les algorithmes modernes et les techniques de segmentation d’images. Récemment, le laboratoire FAIR de Meta a publié le Modèle Segment Anything (SAM) – un changement de jeu dans la segmentation d’images. Ce modèle avancé peut produire des masques d’objets détaillés à partir de invites de saisie, faisant monter la vision par ordinateur à de nouveaux sommets. Il peut potentiellement révolutionner la façon dont nous interagissons avec la technologie numérique à cette époque.

Explorons la segmentation d’images et découvrons brièvement comment le SAM impacte la vision par ordinateur.

Qu’est-ce que la segmentation d’images et quels sont ses types ?

La segmentation d’images est un processus de vision par ordinateur qui divise une image en plusieurs régions ou segments, chacun représentant un objet ou une zone différente de l’image. Cette approche permet aux experts d’isoler des parties spécifiques d’une image pour obtenir des informations significatives.

Les modèles de segmentation d’images sont formés pour améliorer la sortie en reconnaissant les détails importants de l’image et en réduisant la complexité. Ces algorithmes différencient efficacement les différentes régions d’une image en fonction de caractéristiques telles que la couleur, la texture, le contraste, les ombres et les bords.

En segmentant une image, nous pouvons nous concentrer sur les régions d’intérêt pour obtenir des détails révélateurs. Voici différentes techniques de segmentation d’images.

Segmentation sémantique implique l’étiquetage de pixels en classes sémantiques.
Segmentation d’instances va plus loin en détectant et en délimitant chaque objet dans une image.
Segmentation panoptique attribue des ID d’instances uniques aux pixels d’objets individuels, aboutissant à une étiquetage plus complet et contextuel de tous les objets d’une image.

La segmentation est mise en œuvre à l’aide de modèles d’apprentissage profond basés sur les images. Ces modèles récupèrent tous les points de données et les fonctionnalités précieuses du jeu de formation. Ensuite, ils transforment ces données en vecteurs et en matrices pour comprendre les fonctionnalités complexes. Certains des modèles d’apprentissage profond les plus couramment utilisés pour la segmentation d’images sont :

Réseaux de neurones convolutionnels (CNN)
Réseaux de neurones entièrement connectés (FCN)
Réseaux de neurones récurrents (RNN)

Comment fonctionne la segmentation d’images ?

Dans la vision par ordinateur, la plupart des modèles de segmentation d’images se composent d’un réseau encodeur-décodeur. L’encodeur encode une représentation de l’espace latent des données d’entrée que le décodeur décode pour former des cartes de segmentation, ou en d’autres termes, des cartes qui délimitent l’emplacement de chaque objet dans l’image.

Généralement, le processus de segmentation se compose de 3 étapes :

Un encodeur d’image qui transforme l’image d’entrée en un modèle mathématique (vecteurs et matrices) pour le traitement.
L’encodeur agrège les vecteurs à plusieurs niveaux.
Un décodeur de masque rapide prend les embeddings d’image comme entrée et produit un masque qui délimite les différents objets de l’image séparément.

État de la segmentation d’images

À partir de 2014, une vague d’algorithmes de segmentation basés sur l’apprentissage profond a émergé, tels que CNN+CRF et FCN, qui ont fait des progrès significatifs dans le domaine. 2015 a vu l’émergence du U-Net et du réseau de déconvolution, améliorant la précision des résultats de segmentation.

Ensuite, en 2016, la segmentation d’instances consciente, V-Net et RefineNet ont encore amélioré la précision et la rapidité de la segmentation. D’ici 2017, Mark-RCNN et FC-DenseNet ont introduit la détection d’objets et la prédiction dense dans les tâches de segmentation.

En 2018, la segmentation panoptique, Mask-Lab et les réseaux de codage de contexte étaient au centre de la scène, car ces approches ont répondu au besoin de segmentation au niveau des instances. D’ici 2019, Panoptic FPN, HRNet et Criss-Cross Attention ont introduit de nouvelles approches pour la segmentation au niveau des instances.

En 2020, la tendance s’est poursuivie avec l’introduction de Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS et Efficient Net + NAS-FPN. Enfin, en 2023, nous avons le SAM, que nous allons discuter ensuite.

Modèle Segment Anything (SAM) – Segmentation d’images à usage général

Une illustration de l'architecture du modèle Segment Anything

Source d’image

Le Modèle Segment Anything (SAM) est une nouvelle approche qui peut effectuer des tâches de segmentation interactives et automatiques dans un seul modèle. Auparavant, la segmentation interactive permettait de segmenter n’importe quelle classe d’objets, mais nécessitait qu’une personne guide la méthode en affinant itérativement un masque.

La segmentation automatique dans le SAM permet la segmentation de catégories d’objets spécifiques définies à l’avance. Son interface promouvale la rend très flexible. Par conséquent, le SAM peut répondre à une large gamme de tâches de segmentation en utilisant une invite appropriée, telle que des clics, des boîtes, du texte, etc.

Le SAM est formé sur un ensemble de données diversifié et éclairant de plus de 1 milliard de masques, ce qui lui permet de reconnaître de nouveaux objets et images non disponibles dans l’ensemble de formation. Ce cadre moderne va révolutionner les modèles de vision par ordinateur dans des applications telles que les voitures autonomes, la sécurité et la réalité augmentée.

Le SAM peut détecter et segmenter les objets autour de la voiture dans les voitures autonomes, tels que d’autres véhicules, des piétons et des panneaux de signalisation. Dans la réalité augmentée, le SAM peut segmenter l’environnement du monde réel pour placer des objets virtuels à des emplacements appropriés, créant une expérience utilisateur plus réaliste et plus engageante.

Les défis de la segmentation d’images en 2023

La recherche et le développement croissants dans la segmentation d’images posent également des défis importants. Certains des principaux défis de la segmentation d’images en 2023 incluent :

La complexité croissante des ensembles de données, en particulier pour la segmentation d’images 3D
Le développement de modèles de profondeur interprétables
L’utilisation de modèles d’apprentissage non supervisé qui minimisent l’intervention humaine
Le besoin de modèles en temps réel et de modèles efficaces en termes de mémoire
L’élimination des goulets d’étranglement de la segmentation des nuages de points 3D

Le futur de la vision par ordinateur

Le marché mondial de la vision par ordinateur a un impact sur de multiples industries et devrait atteindre plus de $41 milliards d’ici 2030. Les techniques modernes de segmentation d’images comme le Modèle Segment Anything, couplées à d’autres algorithmes d’apprentissage profond, renforceront encore la vision par ordinateur dans le paysage numérique. Par conséquent, nous verrons des modèles de vision par ordinateur plus robustes et des applications intelligentes dans le futur.

Pour en savoir plus sur l’IA et l’apprentissage automatique, explorez Unite.ai – votre solution unique pour toutes vos questions sur la technologie et son état actuel.