Intelligence artificielle
Autorisation des grands modèles de vision (LVM) dans des tâches spécifiques à un domaine grâce à l’apprentissage par transfert
La vision par ordinateur est un domaine de l’intelligence artificielle qui vise à permettre aux machines de comprendre et d’interpréter les informations visuelles, telles que des images ou des vidéos. La vision par ordinateur a de nombreuses applications dans divers domaines, tels que l’imagerie médicale, la sécurité, la conduite autonome et le divertissement. Cependant, développer des systèmes de vision par ordinateur qui fonctionnent bien sur différentes tâches et domaines est un défi, nécessitant beaucoup de données étiquetées et de ressources de calcul.
Une façon de relever ce défi est d’utiliser l’apprentissage par transfert, une technique qui réutilise les connaissances acquises à partir d’une tâche ou d’un domaine pour une autre. L’apprentissage par transfert peut réduire le besoin de données et de calcul et améliorer la généralisation et les performances des modèles de vision par ordinateur. Cet article se concentre sur un type spécifique de modèle de vision par ordinateur, appelé grands modèles de vision (LVM), et sur la façon dont ils peuvent être exploités pour des tâches spécifiques à un domaine grâce à l’apprentissage par transfert.
Qu’est-ce que les grands modèles de vision (LVM) ?
Les LVM sont des modèles d’intelligence artificielle avancés qui traitent et interprètent les données visuelles, généralement des images ou des vidéos. Ils sont appelés « grands » parce qu’ils ont de nombreux paramètres, souvent de l’ordre de millions ou même de milliards, qui leur permettent d’apprendre des modèles et des caractéristiques complexes dans les données visuelles. Les LVM sont généralement construits à l’aide d’architectures de réseaux de neurones avancées, telles que les réseaux de neurones convolutionnels (CNN) ou les transformateurs, qui peuvent gérer efficacement les données de pixels et détecter des modèles hiérarchiques.
Les LVM sont formés sur une grande quantité de données visuelles, telles que des images ou des vidéos Internet, ainsi que des étiquettes ou des annotations pertinentes. Le modèle apprend en ajustant ses paramètres pour minimiser la différence entre ses prédictions et les étiquettes réelles. Ce processus nécessite une puissance de calcul significative et un grand ensemble de données diversifié pour garantir que le modèle peut généraliser bien aux nouvelles données non vues.
Plusieurs exemples éminents de LVM incluent CLIP d’OpenAI, qui excelle dans des tâches telles que la classification à zéro coup et la récupération d’images en comprenant les images à travers des descriptions linguistiques naturelles. De même, le transformateur de vision de Google adopte une architecture de type transformateur pour la classification d’images, atteignant des résultats de pointe dans divers benchmarks. LandingLens, développé par LandingAI, se distingue par sa plate-forme conviviale, qui permet des projets de vision par ordinateur personnalisés sans expertise de codage. Il utilise des LVM spécifiques au domaine, démontrant des performances robustes dans des tâches telles que la détection de défauts et la localisation d’objets, même avec des données étiquetées limitées.
Pourquoi l’apprentissage par transfert pour les LVM ?
Les LVM ont montré des capacités remarquables pour comprendre et générer des données visuelles, mais ils ont également des limites. L’une des principales limites est qu’ils sont souvent formés sur des ensembles de données à usage général, tels que ImageNet ou COCO, qui peuvent différer de la tâche ou du domaine spécifique qui intéresse l’utilisateur. Par exemple, un LVM formé sur des images Internet peut ne pas être en mesure de reconnaître des objets rares ou nouveaux, tels que des instruments médicaux ou des pièces industrielles, qui sont pertinents pour un domaine spécifique.
De plus, les LVM peuvent ne pas être en mesure de s’adapter aux variations ou nuances des différents domaines, telles que des conditions d’éclairage, des angles de caméra ou des arrière-plans, qui peuvent affecter la qualité et la précision des prédictions du modèle.
Pour surmonter ces limites, l’apprentissage par transfert peut utiliser les connaissances acquises par un LVM sur un ensemble de données à usage général pour une tâche ou un domaine spécifique. L’apprentissage par transfert consiste à affiner ou à adapter un LVM aux besoins de l’utilisateur, en utilisant une petite quantité de données étiquetées de la tâche ou du domaine cible.
Utiliser l’apprentissage par transfert offre de nombreux avantages pour les LVM. L’un des principaux avantages est la capacité de transférer des connaissances à partir de données visuelles diverses vers des domaines spécifiques, permettant une convergence plus rapide sur des tâches ciblées. De plus, cela atténue les problèmes de dépendance des données en utilisant les fonctionnalités apprises par les modèles pré-entraînés, réduisant le besoin de données étiquetées spécifiques au domaine.
De plus, l’initialisation des LVM avec des poids pré-entraînés conduit à une convergence accélérée pendant la fine-tuning, ce qui est particulièrement avantageux lorsque les ressources de calcul sont limitées. En fin de compte, l’apprentissage par transfert améliore la généralisation et les performances, adaptant les LVM à des tâches spécifiques et garantissant des prédictions précises, favorisant la satisfaction et la confiance de l’utilisateur.
Comment effectuer l’apprentissage par transfert pour les LVM ?
Différentes approches et méthodes existent pour effectuer l’apprentissage par transfert pour les LVM, en fonction de la similarité et de la disponibilité des données entre les tâches ou les domaines source et cible. Il existe deux principales approches d’apprentissage par transfert, à savoir l’apprentissage par transfert inductif et l’apprentissage par transfert transductif.
L’apprentissage par transfert inductif suppose que les tâches source et cible diffèrent, mais que les domaines source et cible sont similaires. Par exemple, la tâche source pourrait être la classification d’images, et la tâche cible pourrait être la détection d’objets, mais les deux tâches utilisent des images du même domaine, telles que des scènes naturelles ou des animaux. Dans ce cas, l’objectif est de transférer les connaissances acquises par le LVM sur la tâche source à la tâche cible en utilisant certaines données étiquetées de la tâche cible pour affiner le modèle. Cette approche est également connue sous le nom d’apprentissage par transfert de tâche ou d’apprentissage multi-tâche.
D’un autre côté, l’apprentissage par transfert transductif suppose que les tâches source et cible sont similaires, mais que les domaines source et cible sont différents. Par exemple, les tâches source et cible pourraient être la classification d’images, le domaine source pourrait être des images Internet, et le domaine cible pourrait être des images médicales. Dans ce cas, l’objectif est de transférer les connaissances acquises par le LVM sur le domaine source au domaine cible en utilisant certaines données étiquetées ou non étiquetées du domaine cible pour adapter le modèle. Cette approche est également connue sous le nom d’apprentissage par transfert de domaine ou d’adaptation de domaine.
Méthodes pour l’apprentissage par transfert
L’apprentissage par transfert pour les LVM implique diverses méthodes adaptées à différents niveaux de modification et d’accès aux paramètres et à l’architecture du modèle. L’extraction de fonctionnalités est une approche qui utilise les fonctionnalités connues par le LVM sur une tâche source comme entrée pour un nouveau modèle dans le domaine cible. Bien qu’elle ne nécessite pas de modifications des paramètres ou de l’architecture du LVM, elle peut avoir du mal à capturer des fonctionnalités spécifiques à la tâche pour le domaine cible.
D’un autre côté, la fine-tuning implique l’ajustement des paramètres du LVM en utilisant des données étiquetées du domaine cible. Cette méthode améliore l’adaptation au domaine cible, nécessitant l’accès et la modification des paramètres.
Enfin, l’apprentissage par métapprentissage se concentre sur la formation d’un modèle général capable de s’adapter rapidement à de nouvelles tâches ou domaines avec un minimum de points de données. En utilisant des algorithmes tels que MAML ou Reptile, l’apprentissage par métapprentissage permet aux LVM d’apprendre à partir de tâches diverses, permettant un apprentissage par transfert efficace à travers des domaines dynamiques. Cette méthode nécessite l’accès et la modification des paramètres du LVM pour une mise en œuvre efficace.
Exemples d’apprentissage par transfert spécifiques au domaine avec les LVM
L’apprentissage par transfert pour les LVM a démontré un succès significatif dans divers domaines. L’inspection industrielle est un domaine qui nécessite une grande efficacité et une grande qualité dans les modèles de vision par ordinateur, car il s’agit de détecter et de localiser des défauts ou des anomalies dans divers produits et composants. Cependant, l’inspection industrielle est confrontée à des défis tels que des scénarios divers et complexes, des conditions environnementales variables et des normes et réglementations élevées.
L’apprentissage par transfert peut aider à surmonter ces défis en exploitant des LVM pré-entraînés sur des ensembles de données à usage général et en les affinant sur des données spécifiques au domaine. Par exemple, la plate-forme LandingLens de LandingAI permet aux utilisateurs de créer des projets de vision par ordinateur personnalisés pour l’inspection industrielle sans expertise de codage. Elle utilise des LVM spécifiques au domaine pour atteindre de hautes performances sur des tâches de vision par ordinateur en aval, telles que la détection de défauts ou la localisation d’objets, avec moins de données étiquetées.
De même, dans l’industrie du divertissement, l’apprentissage par transfert contribue à la créativité et à la diversité dans les modèles de vision par ordinateur. Le modèle CLIP d’OpenAI, conçu pour des tâches telles que la génération d’images à partir de descriptions textuelles, permet aux utilisateurs de créer du contenu visuel divers, tel que la génération d’images de « un dragon » ou de « une peinture de Picasso ». Cette application montre comment l’apprentissage par transfert permet de générer et de manipuler du contenu visuel pour des fins artistiques et de divertissement, en abordant des défis liés aux attentes des utilisateurs, aux considérations éthiques et à la qualité du contenu.
En résumé
En conclusion, l’apprentissage par transfert émerge comme une stratégie transformative pour optimiser les LVM. En adaptant des modèles pré-entraînés à des domaines spécifiques, l’apprentissage par transfert répond aux défis, réduit la dépendance aux données et accélère la convergence. Cette approche améliore l’efficacité des LVM dans des tâches spécifiques au domaine. Elle représente une étape cruciale pour combler le fossé entre la formation à usage général et les applications spécialisées, marquant une avancée significative dans le domaine.












