Connect with us

DINOv3 et l’avenir de la vision par ordinateur : apprentissage auto-supervisé à grande échelle

Intelligence artificielle

DINOv3 et l’avenir de la vision par ordinateur : apprentissage auto-supervisé à grande échelle

mm
DINOv3 and the Future of Computer Vision: Self-Supervised Learning at Scale

L’étiquetage d’images est un processus coûteux et lent dans de nombreux projets de vision par ordinateur. Il introduit souvent des biais et réduit la capacité à mettre à l’échelle de grands ensembles de données. Par conséquent, les chercheurs ont cherché des approches qui éliminent le besoin d’étiquetage manuel lourd. En réponse à ce défi, Meta AI a introduit DINOv3 en 2025. Il s’agit d’un modèle de vision fondé sur l’apprentissage auto-supervisé qui peut apprendre directement à partir de 1,7 milliard d’images non étiquetées.

Le modèle est formé avec un réseau enseignant extensif de 7 milliards de paramètres. Grâce à cette configuration, il produit des fonctionnalités globales et denses de haute qualité à partir d’un seul squelette figé. En conséquence, le modèle peut capturer à la fois les détails fins dans les images et les informations contextuelles plus larges.

De plus, DINOv3 montre des performances solides dans de nombreuses tâches de vision sans nécessiter de réglage fin coûteux. Cela signifie qu’il est non seulement puissant d’un point de vue technique, mais également pratique pour les chercheurs, les ingénieurs et les dirigeants d’entreprise qui font face à des contraintes de ressources et de temps.

De cette façon, DINOv3 représente une avancée significative dans la vision par ordinateur. Il combine l’apprentissage à grande échelle, l’efficacité et la grande utilisabilité, ce qui en fait un modèle de base avec un fort potentiel pour la recherche académique et les applications industrielles.

L’évolution de l’apprentissage auto-supervisé en vision

La vision par ordinateur traditionnelle a longtemps reposé sur l’apprentissage supervisé. Cette méthode nécessite de grands ensembles de données étiquetés que les humains annotent soigneusement. Le processus est coûteux, lent et souvent impraticable dans des domaines où les étiquettes sont rares ou coûteuses, tels que l’imagerie médicale. Pour cette raison, l’apprentissage auto-supervisé (SSL) est devenu une approche critique. Il permet aux modèles d’apprendre des fonctionnalités visuelles utiles directement à partir de données brutes non étiquetées en trouvant des modèles cachés dans les images.

Les premières méthodes SSL, telles que Momentum Contrast (MoCo) et Bootstrap Your Own Latent (BYOL), ont démontré que les modèles peuvent apprendre de fortes fonctionnalités visuelles sans données étiquetées. Ces méthodes ont prouvé la valeur de l’auto-supervision et ouvert la voie à des approches plus avancées.

En 2021, Meta a introduit DINO. C’était un pas important car il a atteint des performances compétitives en utilisant uniquement la formation auto-supervisée. Plus tard, DINOv2 a encore amélioré ce progrès en mettant à l’échelle la formation et en améliorant la transférabilité des fonctionnalités apprises à différentes tâches.

Ces améliorations ont créé la base pour DINOv3, publié en 2025. DINOv3 a utilisé un modèle nettement plus grand et un ensemble de données massif, lui permettant d’établir de nouvelles références de performance.

D’ici 2025, SSL n’était plus optionnel. Il est devenu une approche nécessaire car il permettait la formation sur des milliards d’images sans étiquetage humain. Cela a rendu possible la construction de modèles de base qui se généralisent à de nombreuses tâches. Leurs squelettes préformés fournissent des fonctionnalités flexibles, qui peuvent être adaptées en ajoutant de petites têtes spécifiques à la tâche. Cette méthode réduit le coût et accélère le développement des systèmes de vision par ordinateur.

De plus, SSL réduit les cycles de recherche. Les équipes peuvent réutiliser des modèles préformés pour des tests et des évaluations rapides, ce qui aide à la prototypage rapide. Ce mouvement vers l’apprentissage à grande échelle et à faible consommation d’étiquettes change la façon dont les systèmes de vision par ordinateur sont construits et appliqués dans de nombreux secteurs.

Comment DINOv3 redéfinit la vision par ordinateur auto-supervisée

DINOv3 est le modèle de vision fondé sur l’apprentissage auto-supervisé le plus avancé de Meta AI. Il représente une nouvelle étape dans la formation à grande échelle pour la vision par ordinateur. Contrairement aux versions précédentes, il combine un réseau enseignant extensif de 7 milliards de paramètres avec une formation sur 1,7 milliard d’images non étiquetées. Cette échelle permet au modèle d’apprendre des fonctionnalités plus fortes et plus adaptables.

Une amélioration significative dans DINOv3 est la stabilité de l’apprentissage de fonctionnalités denses. Les modèles précédents, tels que DINOv2, ont souvent perdu des détails dans les fonctionnalités de niveau de patch pendant la formation prolongée. Cela a rendu les tâches telles que la segmentation et l’estimation de la profondeur moins fiables. DINOv3 introduit une méthode appelée Gram Anchoring pour résoudre ce problème. Il maintient la structure de similarité entre les patches cohérente pendant la formation, ce qui empêche l’effondrement des fonctionnalités et préserve les détails fins.

Une autre étape technique est l’utilisation de cultures d’images à haute résolution. En travaillant avec des sections d’images plus grandes, le modèle capture la structure locale plus précisément. Cela donne lieu à des cartes de fonctionnalités denses plus détaillées et plus nuancées. De telles cartes améliorent les performances dans les applications où la précision au niveau du pixel est cruciale, telles que la détection d’objets ou la segmentation sémantique.

Le modèle bénéficie également des embeddings de position rotationnels (RoPE). Ces embeddings, combinés avec des stratégies de résolution et de recadrage, permettent au modèle de gérer des images de tailles et de formes variables. Cela rend DINOv3 plus stable dans les scénarios du monde réel, où les images d’entrée varient souvent en qualité et en format.

Pour répondre à différents besoins de déploiement, Meta AI a distillé DINOv3 en une famille de modèles plus petits. Ceux-ci incluent plusieurs Vision Transformer (ViT) de différentes tailles et des versions ConvNeXt. Les modèles plus petits sont mieux adaptés pour les appareils de bord, tandis que les plus grands sont plus appropriés pour la recherche ou les serveurs. Cette flexibilité permet à DINOv3 d’être appliqué dans divers environnements sans perte de performance significative.

Les résultats confirment la solidité de cette approche. DINOv3 atteint les meilleurs résultats sur plus de soixante références. Il se comporte bien dans la classification, la segmentation, l’estimation de la profondeur et même les tâches 3D. La plupart de ces résultats sont obtenus avec le squelette figé, ce qui signifie qu’aucun réglage fin supplémentaire n’a été nécessaire.

Supériorité des performances et des références

DINOv3 s’est établi comme un modèle de vision fondé fiable. Il a obtenu de solides résultats dans de nombreuses tâches de vision par ordinateur. Une force nécessaire est que son squelette figé a déjà capturé des fonctionnalités riches. Par conséquent, la plupart des applications nécessitent seulement une sonde linéaire ou un décodeur léger. Cela rend le transfert plus rapide, moins coûteux et plus facile que le réglage fin complet.

Sur ImageNet-1K de classification, DINOv3 a atteint environ 84,5 % de précision au niveau 1 avec des fonctionnalités figées. C’était supérieur à de nombreux modèles auto-supervisés précédents et également meilleur que plusieurs références supervisées. Pour la segmentation sémantique sur ADE20K, il a atteint une mIoU d’environ 63,0 en utilisant un squelette ViT-L. Ces résultats montrent que le modèle préserve les informations spatiales fines sans formation spécifique à la tâche.

Dans la détection d’objets sur COCO, DINOv3 a atteint une mAP d’environ 66,1 avec des fonctionnalités figées. Cela démontre la force de ses représentations denses dans l’identification d’objets dans des scènes complexes. Le modèle s’est également bien comporté dans l’estimation de la profondeur, par exemple sur NYU-Depth V2, où il a produit des prédictions plus précises que de nombreux anciens modèles supervisés et auto-supervisés.

Au-delà de ceux-ci, DINOv3 a montré de solides résultats dans la classification fine et les tests hors distribution. Dans de nombreux cas, il a surpassé à la fois les anciens modèles SSL et la formation supervisée traditionnelle.

Lors de l’expérimentation, un avantage clair était le faible coût de transfert. La plupart des tâches ont été résolues avec seulement un minimum de formation supplémentaire. Cela a réduit le calcul et a raccourci le temps de déploiement.

Meta AI et d’autres chercheurs ont validé DINOv3 sur plus de 60 références. Celles-ci comprenaient la classification, la segmentation, la détection, l’estimation de la profondeur, la récupération et la correspondance géométrique. Sur toute cette gamme d’évaluations, le modèle a livré des résultats à l’état de l’art ou presque à l’état de l’art de manière cohérente. Cela confirme son rôle de codeur visuel polyvalent et fiable.

Comment DINOv3 a transformé les flux de travail de vision par ordinateur

Dans les anciens flux de travail, les équipes devaient former de nombreux modèles spécifiques à la tâche. Chaque tâche nécessitait son propre ensemble de données et de réglage. Cela augmentait à la fois le coût et l’effort de maintenance.

Avec DINOv3, les équipes peuvent maintenant standardiser sur un seul squelette. Le même modèle figé prend en charge différentes têtes spécifiques à la tâche. Cela réduit le nombre de modèles de base utilisés. Il simplifie également les pipelines d’intégration et raccourcit les cycles de publication pour les fonctionnalités de vision.

Pour les développeurs, DINOv3 fournit des ressources pratiques. Meta AI propose des points de contrôle, des scripts de formation et des cartes de modèle sur GitHub. Hugging Face accueille également des variantes distillées avec des cahiers d’exemples. Ces ressources facilitent l’expérimentation et l’adoption du modèle dans des projets réels.

Un moyen courant pour les développeurs d’utiliser ces ressources est l’extraction de fonctionnalités. Un modèle DINOv3 figé fournit des embeddings qui servent d’entrées pour les tâches en aval. Les développeurs peuvent alors attacher une tête linéaire ou un petit adaptateur pour répondre à des besoins spécifiques. Lorsqu’une adaptation supplémentaire est requise, des méthodes à paramètres efficaces, telles que LoRA ou des adaptateurs légers, rendent le réglage fin réalisable sans surcoût computationnel important.

Les variantes distillées jouent un rôle essentiel dans ce flux de travail. Les versions plus petites peuvent s’exécuter sur des appareils à capacité limitée, tandis que les plus grandes sont plus appropriées pour les laboratoires de recherche et les serveurs de production. Cette gamme offre aux équipes la flexibilité de commencer à tester rapidement et d’étendre à des configurations plus exigeantes au besoin.

En combinant des points de contrôle réutilisables, des têtes de formation simples et des tailles de modèles évolutives, DINOv3 est en train de remodeler les flux de travail de vision par ordinateur. Il réduit le coût, raccourcit les cycles de formation et rend l’utilisation de modèles de base plus pratique à travers les industries.

Applications spécifiques à un domaine de DINOv3

Il existe plusieurs domaines où DINOv3 peut potentiellement être utilisé :

Imagerie médicale

Les données médicales manquent souvent d’étiquettes claires, et l’annotation d’experts est à la fois longue et coûteuse. DINOv3 peut aider en produisant des fonctionnalités denses qui se transfèrent bien aux tâches de pathologie et de radiologie. Par exemple, une étude a affiné DINOv3 avec des adaptateurs de bas rang pour la classification des figures mitotiques, atteignant une précision équilibrée de 0,8871 avec un minimum de paramètres formables. Cela a montré que des résultats de haute qualité sont possibles même avec des données étiquetées limitées. Des têtes plus simples peuvent également être utilisées pour la détection d’anomalies, réduisant ainsi le besoin de grands ensembles de données cliniques étiquetées. Cependant, le déploiement clinique nécessite toujours une validation stricte.

Imagery satellitaire et géospatiale

Meta a formé des variantes de DINOv3 sur un grand corpus d’environ 493 millions de cultures satellitaires. Ces modèles ont amélioré l’estimation de la hauteur du couvert forestier et les tâches de segmentation. Dans certains cas, une version distillée de satellite ViT-L a même égalé ou surpassé le modèle enseignant complet de 7 milliards de paramètres. Cela a confirmé la valeur de la formation auto-supervisée spécifique au domaine. De même, les praticiens peuvent préformer DINOv3 sur des données de domaine ou affiner des variantes distillées pour réduire les coûts d’étiquetage dans la télédétection.

Véhicules autonomes et robotique

Les fonctionnalités de DINOv3 renforcent les modules de perception pour les véhicules et les robots. Ils améliorent la détection et la correspondance dans différentes conditions météorologiques et d’éclairage. La recherche a montré que les squelettes de DINOv3 soutiennent les politiques visuomotrices et les contrôleurs de diffusion, aboutissant à une efficacité d’échantillonnage améliorée et à des taux de réussite plus élevés dans les tâches de manipulation robotique. Les équipes de robotique peuvent appliquer DINOv3 pour la perception, mais devraient le combiner avec des données de domaine et un affinage soigneux pour les systèmes critiques en termes de sécurité.

Détail et logistique

Dans les milieux professionnels, DINOv3 peut soutenir les systèmes de contrôle de la qualité et les systèmes d’inventaire visuel. Il s’adapte à travers différentes lignes de produits et configurations de caméras, réduisant ainsi le besoin de réformation par produit. Cela le rend pratique pour les industries à mouvement rapide avec des environnements visuels variés.

Défis, biais et chemin à suivre

La formation de modèles de vision fondés, tels que DINOv3, à l’échelle de 7 milliards de paramètres nécessite d’importants ressources computationnelles. Cela limite la formation complète à quelques organisations bien financées. La distillation réduit le coût d’inférence et permet à des modèles étudiants plus petits d’être déployés. Cependant, elle n’élimine pas le coût initial de la formation. Pour cette raison, la plupart des chercheurs et des ingénieurs dépendent de points de contrôle publiés publiquement plutôt que de former de tels modèles à partir de zéro.

Un autre défi critique est le biais des ensembles de données. Les grandes collections d’images rassemblées sur le Web reflètent souvent des déséquilibres régionaux, culturels et sociaux. Les modèles formés sur eux peuvent hériter ou même accroître ces biais. Même lorsque les squelettes figés sont utilisés, le réglage fin peut réintroduire des disparités entre les groupes. Par conséquent, l’audit des ensembles de données, les vérifications d’équité et les évaluations soigneuses sont nécessaires avant le déploiement. Les problèmes éthiques s’appliquent également aux pratiques de licence et de publication. Les modèles ouverts doivent être fournis avec des lignes directrices d’utilisation claires, des notes de sécurité et des évaluations de risques juridiques pour soutenir l’adoption responsable.

En regardant vers l’avenir, plusieurs tendances façonneront le rôle de DINOv3 et de systèmes similaires. Premièrement, les systèmes multimodaux qui relient la vision et le langage s’appuieront sur de solides encodeurs, tels que DINOv3, pour une meilleure alignment image-texte. Deuxièmement, l’informatique de bord et la robotique bénéficieront de variantes distillées plus petites, rendant ainsi possible la perception avancée sur du matériel limité. Troisièmement, l’IA explicative gagnera en importance, car les équipes travaillent à rendre les fonctionnalités denses plus interprétables pour les audits, le débogage et la confiance dans les domaines à enjeux élevés. En outre, la recherche continue améliorera la robustesse contre les changements de distribution et les entrées adverses, garantissant ainsi une utilisation fiable dans les environnements du monde réel.

En résumé

Parce que ses fonctionnalités figées se transfèrent bien, il prend en charge des tâches telles que la classification, la segmentation, la détection et l’estimation de la profondeur avec peu de formation supplémentaire. Dans le même temps, les variantes distillées rendent le modèle suffisamment flexible pour s’exécuter à la fois sur des appareils légers et des serveurs puissants. Ces forces ont des applications pratiques dans divers domaines, notamment les soins de santé, la surveillance géospatiale, la robotique et le détail.

Cependant, les calculs lourds nécessaires à la formation et le risque de biais des ensembles de données restent des défis persistants. Par conséquent, les progrès futurs dépendent de la combinaison des capacités de DINOv3 avec une validation soigneuse, un suivi de l’équité et un déploiement responsable, garantissant ainsi une utilisation fiable dans la recherche et l’industrie.

Dr. Assad Abbas, un professeur associé titulaire à l'Université COMSATS d'Islamabad, au Pakistan, a obtenu son doctorat de l'Université d'État du Dakota du Nord, aux États-Unis. Ses recherches portent sur les technologies avancées, notamment le cloud, le fog et le edge computing, l'analyse de données massives et l'IA. Le Dr Abbas a apporté des contributions substantielles avec des publications dans des revues scientifiques et des conférences réputées. Il est également le fondateur de MyFastingBuddy.