Suivez nous sur

Réduire la taille des images haute résolution avec l'apprentissage automatique

Intelligence Artificielle

Réduire la taille des images haute résolution avec l'apprentissage automatique

mm

Une nouvelle recherche du Royaume-Uni a proposé une méthode améliorée d'apprentissage automatique pour redimensionner les images, basée sur la valeur perçue des différentes parties du contenu de l'image, au lieu de réduire sans distinction la dimension (et donc la qualité et les caractéristiques extractibles) pour tous les pixels dans l'image.

Dans le cadre d'un intérêt croissant pour les systèmes de compression pilotés par l'IA, il s'agit d'une approche qui pourrait éventuellement informer de nouveaux codecs pour la compression d'images générales, bien que le travail soit motivé par l'imagerie médicale, où le sous-échantillonnage arbitraire d'images médicales haute résolution pourrait entraîner la perte d'informations vitales.

Architecture de représentation du nouveau système. Le module de déformation interstitielle produit une carte de déformation qui correspond à des zones d'intérêt dans l'image. La densité et la direction des points rouges indiquent ces zones. La carte est utilisée non seulement pour sous-échantillonner, mais aussi pour reconstruire les zones d'intérêt principal lorsque le contenu de l'image est redimensionné de manière non uniforme de l'autre côté du processus de formation. Source : https://arxiv.org/pdf/2109.11071.pdf

Architecture de représentation du nouveau système. Le module de déformation interstitielle produit une carte de déformation qui correspond à des zones d'intérêt dans l'image. La densité et la direction des points rouges indiquent ces zones. La carte est utilisée non seulement pour sous-échantillonner, mais aussi pour reconstruire les zones d'intérêt principal lorsque le contenu de l'image est redimensionné de manière non uniforme de l'autre côté du processus de formation.  Source : https://arxiv.org/pdf/2109.11071.pdf

Le système s'applique segmentation sémantique aux images - blocs larges, représentés par des blocs de couleur dans l'image ci-dessus, qui englobent des entités reconnues à l'intérieur de l'image, telles que 'route', 'vélo', 'lésion', et coll. La disposition des cartes de segmentation sémantique est ensuite utilisée pour calculer quelles parties de la photo ne doivent pas être trop sous-échantillonnées.

Intitulée Apprendre à sous-échantillonner pour la segmentation d'images à ultra-haute résolution, le nouveau papier est une collaboration entre des chercheurs du Centre for Medical Image Computing de l'University College London et des chercheurs du département Healthcare Intelligence de Microsoft Cambridge.

Le monde (assez) basse résolution de la formation en vision par ordinateur

La formation des systèmes de vision par ordinateur est considérablement limitée par la capacité des GPU. Les ensembles de données peuvent contenir plusieurs milliers d'images à partir desquelles des fonctionnalités doivent être extraites, mais même les GPU à portée industrielle ont tendance à culminer à 24 Go de VRAM, avec pénuries en cours affectant la disponibilité et le coût.

Cela signifie que les données doivent être transmises via les cœurs Tensor limités du GPU par lots gérables, avec 8 à 16 images typiques de nombreux flux de travail de formation à la vision par ordinateur.

Il n'y a pas beaucoup de solutions évidentes : même si la VRAM était illimitée et que les architectures CPU pouvaient s'adapter à ce type de débit du GPU sans former de goulot d'étranglement architectural, des tailles de lot très élevées auront tendance à dériver des fonctionnalités de haut niveau au détriment des transformations plus détaillées. qui peuvent être critiques pour l'utilité de l'algorithme final.

Augmenter la résolution des images d'entrée impliquera d'utiliser des lots plus petits pour intégrer les données dans l'espace latent de l'entraînement GPU. À l'inverse, cela risque de produire un modèle « excentrique » et surajusté.

L'ajout de GPU supplémentaires n'aide pas non plus, du moins dans les architectures les plus courantes : si les configurations à plusieurs GPU peuvent accélérer les temps de formation, elles peuvent également compromettre l'intégrité des résultats de la formation, comme deux usines adjacentes travaillant sur le même produit, avec seulement un téléphone. ligne pour coordonner leurs efforts.

Images redimensionnées intelligemment

Ce qui reste, c'est que les sections les plus pertinentes d'une image typique pour un ensemble de données de vision par ordinateur pourraient, avec la nouvelle méthode, être préservées intactes dans le redimensionnement automatique qui se produit lorsque des images à très haute résolution doivent être réduites pour s'adapter à un pipeline ML.

Il s'agit d'un défi distinct au problème de artefacts avec perte dans les ensembles de données d'apprentissage automatique, où la qualité est perdue dans les pipelines de redimensionnement automatisés, car le codec de compression rejette trop d'informations (généralement irrécupérables).

En fait, dans ce cas, même l'enregistrement dans un format d'image sans perte (tel que PNG avec compression LZW) ne peut pas récupérer les informations qui sont généralement rejetées lors du redimensionnement (par exemple) d'une imagerie par résonance magnétique (IRM) souvent dimensions record à une résolution typique plus crédible de 256 × 256 ou 512 × 512 pixels.

Pour aggraver les choses, selon les exigences du cadre, des bordures noires seront souvent ajoutées aux images source rectangulaires en tant que tâche de traitement de données de routine, afin de produire un format d'entrée véritablement carré pour le traitement du réseau neuronal, réduisant encore l'espace disponible pour potentiellement données cruciales.

Les chercheurs de l'UCL et de Microsoft proposent plutôt de rendre le processus de redimensionnement plus intelligent, en utilisant efficacement ce qui a toujours été une étape générique dans le pipeline pour mettre en évidence les zones d'intérêt, déchargeant une partie de la charge d'interprétation du système d'apprentissage automatique à travers lequel le les images finiront par passer.

La méthode, selon les chercheurs, améliore une offre de 2019 (image ci-dessous) qui recherchait des gains similaires en concentrant l'attention sur la qualité au frontières d'objets.

Extrait de "Efficient Segmentation : Learning Downsampling Near Semantic Boundaries", Marin et al., 2019. Source : https://arxiv.org/pdf/1907.07156.pdf

Extrait de « Segmentation efficace : apprentissage du sous-échantillonnage près des limites sémantiques », Marin et al., 2019. Source : https://arxiv.org/pdf/1907.07156.pdf

Comme le note le nouveau travail, cette approche suppose que les zones d'intérêt se rassemblent aux frontières, alors que les exemples de l'imagerie médicale, tels que les régions cancéreuses annotées, dépendent d'un contexte de niveau supérieur et peuvent apparaître comme des détails facilement ignorés dans des zones plus larges d'une image. , plutôt que sur les bords.

Sous-échantillonneur apprenable

La nouvelle recherche propose une sous-échantillonneur apprenable appelé module de déformation, qui est formé conjointement avec un module de segmentation parallèle, et peut donc être informé des zones d'intérêt identifiées par segmentation sémantique, et les hiérarchiser pendant le processus de sous-échantillonnage.

Les auteurs ont testé le système sur plusieurs ensembles de données populaires, y compris Paysages urbains, Globe profond et un ensemble de données histologiques locales sur le cancer de la prostate, « PCa-Histo ».

Trois approches : à gauche, sous-échantillonnage « uniforme » existant ; au milieu, l'approche « avantage optimal » de l'article de 2019 ; à droite, l'architecture derrière le nouveau système, informée par la reconnaissance d'entités dans une couche de segmentation sémantique.

Trois approches : à gauche, le sous-échantillonnage « uniforme » existant ; au milieu, l'approche « bord optimal » de l'article de 2019 ; à droite, l'architecture derrière le nouveau système, informée par la reconnaissance d'entités dans une couche de segmentation sémantique.

Une approche similaire a été essayée pour un classifieur proposée dans 2019, mais les auteurs de l'article actuel soutiennent que cette méthode ne régularise pas adéquatement les zones d'accentuation, manquant potentiellement des zones vitales dans un contexte d'imagerie médicale.

Résultats

Le module de déformation du nouveau système est un petit réseau neuronal convolutif (CNN), tandis que la couche de segmentation est une architecture CNN profonde utilisant HRNetV2-W48. Réseau d'analyse de scène pyramidale (PSP-net) a été utilisé comme couche de contrôle d'intégrité pour les tests CityScapes.

Les ensembles de données susmentionnés ont été testés avec le nouveau cadre, en utilisant le rééchantillonnage uniforme (la méthode habituelle), la méthode de bord optimal de 2019 et l'exploitation de la segmentation sémantique par la nouvelle approche.

Les auteurs rapportent que la nouvelle méthode montre « avantage évident dans l'identification et la distinction des classes les plus importantes sur le plan clinique », avec une précision accrue de 15 à 20 %. Ils observent en outre que la distance entre ces classes est souvent définie comme « le seuil entre la santé et le cancer ».

Analyse d'intersection sur union (IoU) par classe selon les trois méthodes : rééchantillonnage standard à gauche ; milieu, bord optimal ; et à droite, la nouvelle approche. CityScapes a été sous-échantillonné à seulement 64 x 128, avec PCaHisto à 80 x 800 et DeepGlobe à 300 pixels carrés.

Analyse d'intersection sur union (IoU) par classe selon les trois méthodes : rééchantillonnage standard à gauche ; milieu, bord optimal ; et à droite, la nouvelle approche. CityScapes a été sous-échantillonné à seulement 64 x 128, avec PCaHisto à 80 x 800 et DeepGlobe à 300 pixels carrés.

Le rapport indique que leur méthode « peut apprendre une stratégie de sous-échantillonnage, mieux préserver les informations et permettre un meilleur compromis. », concluant que le nouveau cadre « Peut apprendre efficacement où « investir » le budget limité de pixels lors du sous-échantillonnage pour obtenir le meilleur rendement global en termes de précision de segmentation ».

 

L'image principale de cet article provient de thispersondoesnotexist.com. Mise à jour à 3h35 GMT+2 suite à une erreur de texte.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai