Connect with us

Intelligence artificielle

Utilisation de la compression JPEG pour améliorer la formation de réseaux de neurones

mm
An AI-generated image, using ChatGPTY-4o, with the prompt ' Please create a panoramic photorealistic image of a landscape sunset where the right half of the image gradually becomes full of ugly JPEG artifacts'

Un nouveau document de recherche du Canada a proposé un cadre qui introduit intentionnellement la compression JPEG dans le schéma de formation d’un réseau de neurones, et parvient à obtenir de meilleurs résultats – et une meilleure résistance aux attaques adverses.

C’est une idée assez radicale, puisque la sagesse générale actuelle est que les artefacts JPEG, qui sont optimisés pour la vision humaine, et non pour l’apprentissage automatique, ont généralement un effet délétère sur les réseaux de neurones formés sur des données JPEG.

Un exemple de la différence de clarté entre les images JPEG compressées à différentes valeurs de perte (une perte plus élevée permet une taille de fichier plus petite, au détriment de la netteté et du banding sur les gradients de couleur, entre autres types d'artefacts). Source : https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Un exemple de la différence de clarté entre les images JPEG compressées à différentes valeurs de perte (une perte plus élevée permet une taille de fichier plus petite, au détriment de la netteté et du banding sur les gradients de couleur, entre autres types d’artefacts). Source : https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Un rapport de 2022 de l’Université du Maryland et de Facebook AI affirme que la compression JPEG ‘entraîne une pénalité de performance significative’ dans la formation de réseaux de neurones, malgré des travaux précédents qui prétendent que les réseaux de neurones sont relativement résistants aux artefacts de compression d’image.

Un an avant cela, un nouveau courant de pensée était apparu dans la littérature : que la compression JPEG pourrait être réellement exploitée pour améliorer les résultats de la formation de modèles.

Cependant, même si les auteurs de cet article ont pu obtenir de meilleurs résultats dans la formation d’images JPEG de niveaux de qualité variables, le modèle qu’ils ont proposé était si complexe et lourd qu’il n’était pas praticable. De plus, l’utilisation par le système des paramètres d’optimisation JPEG par défaut (quantification) s’est avérée être un obstacle à l’efficacité de la formation.

Un projet ultérieur (2023, JPEG Compliant Compression for DNN Vision) a expérimenté un système qui a obtenu de légèrement meilleurs résultats à partir d’images d’entraînement compressées JPEG en utilisant un modèle de réseau de neurones profonds (DNN) gelé. Cependant, geler des parties d’un modèle pendant la formation tend à réduire la polyvalence du modèle, ainsi que sa résilience plus large aux données nouvelles.

JPEG-DL

Au lieu de cela, les nouveaux travaux, intitulés JPEG Inspired Deep Learning, offrent une architecture beaucoup plus simple, qui peut même être imposée sur des modèles existants.

Les chercheurs, de l’Université de Waterloo, déclarent :

‘Les résultats montrent que JPEG-DL surpasse de manière significative et constante le DL standard sur diverses architectures de DNN, avec une augmentation négligeable de la complexité du modèle.

‘Plus précisément, JPEG-DL améliore la précision de classification de jusqu’à 20,9 % sur certains ensembles de données de classification fine, tout en n’ajoutant que 128 paramètres entraînables à la pipeline DL. De plus, la supériorité de JPEG-DL sur le DL standard est encore démontrée par la robustesse accrue aux attaques adverses des modèles appris et la réduction de la taille des fichiers des images d’entrée.’

Les auteurs soutiennent qu’un niveau de qualité de compression JPEG optimal peut aider un réseau de neurones à distinguer le(s) sujet(s) central(i) d’une image. Dans l’exemple ci-dessous, nous voyons les résultats de base (gauche) qui fondent l’oiseau dans l’arrière-plan lorsque les caractéristiques sont obtenues par le réseau de neurones. En revanche, JPEG-DL (droite) parvient à distinguer et à délimiter le sujet de la photo.

Tests contre les méthodes de base pour JPEG-DL. Source : https://arxiv.org/pdf/2410.07081

Tests contre les méthodes de base pour JPEG-DL. Source : https://arxiv.org/pdf/2410.07081

‘Ce phénomène,’ expliquent-ils, ‘appelé “compression helps” dans le document de 2021, est justifié par le fait que la compression peut supprimer le bruit et les caractéristiques de l’arrière-plan perturbatrices, mettant ainsi en évidence l’objet principal d’une image, ce qui aide les DNN à faire de meilleures prédictions.’

Méthode

JPEG-DL introduit un quantificateur souple différentiable, qui remplace l’opération de quantification non différentiable dans une routine d’optimisation JPEG standard.

Cela permet une optimisation basée sur le gradient des images. Ceci n’est pas possible dans la codification JPEG conventionnelle, qui utilise un quantificateur uniforme avec une opération d’arrondi qui approxime le coefficient le plus proche.

La différentiabilité du schéma JPEG-DL permet l’optimisation conjointe des paramètres du modèle de formation et de la quantification JPEG (niveau de compression). L’optimisation conjointe signifie que le modèle et les données de formation sont adaptés l’un à l’autre dans le processus de bout en bout, et qu’aucun gel de couches n’est nécessaire.

Essentiellement, le système personnalise la compression JPEG d’un (ensemble de données brut) pour s’adapter à la logique du processus de généralisation.

Schéma pour JPEG-DL.

Schéma conceptuel pour JPEG-DL.

On pourrait supposer que les données brutes seraient l’alimentation idéale pour la formation ; après tout, les images sont complètement décompressées dans un espace de couleur plein lorsque elles sont exécutées par lots ; quelle différence fait le format d’origine ?

Eh bien, puisque la compression JPEG est optimisée pour la vision humaine, elle jette des zones de détails ou de couleur de manière concordante avec cet objectif. Étant donné une image d’un lac sous un ciel bleu, des niveaux de compression accrus seront appliqués au ciel, car il ne contient pas de ‘détails essentiels’.

D’un autre côté, un réseau de neurones manque de filtres excentriques qui nous permettent de nous concentrer sur les sujets centraux. Au lieu de cela, il est probable qu’il considère tout artefact de banding dans le ciel comme des données valides à assimiler dans son espace latent.

Bien qu'un humain rejette le banding dans le ciel, dans une image fortement compressée (gauche), un réseau de neurones n'a aucune idée que ce contenu doit être jeté, et aura besoin d'une image de meilleure qualité (droite). Source : https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Bien qu’un humain rejette le banding dans le ciel, dans une image fortement compressée (gauche), un réseau de neurones n’a aucune idée que ce contenu doit être jeté, et aura besoin d’une image de meilleure qualité (droite). Source : https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Par conséquent, un niveau de compression JPEG est peu susceptible de convenir à l’ensemble du contenu d’un ensemble de données de formation, à moins qu’il ne représente un domaine très spécifique. Des images de foules nécessiteront beaucoup moins de compression que une image à focus étroit d’un oiseau, par exemple.

Les auteurs observent que ceux qui ne sont pas familiers avec les défis de la quantification, mais qui sont familiers avec les bases de l’architecture transformers, peuvent considérer ces processus comme une opération d’attention, de manière générale.

Données et tests

JPEG-DL a été évalué contre des architectures basées sur les réseaux de neurones convolutionnels (CNN) et les transformateurs. Les architectures utilisées étaient EfficientFormer-L1 ; ResNet ; VGG ; MobileNet ; et ShuffleNet.

Les versions de ResNet utilisées étaient spécifiques à l’ensemble de données CIFAR : ResNet32, ResNet56 et ResNet110. VGG8 et VGG13 ont été choisis pour les tests basés sur VGG.

Pour les CNN, la méthodologie de formation était dérivée du travail de 2020 Contrastive Representation Distillation (CRD). Pour EfficientFormer-L1 (basé sur les transformateurs), la méthode du travail de 2023 Initializing Models with Larger Ones a été utilisée.

Pour les tâches de grain fin présentées dans les tests, quatre ensembles de données ont été utilisés : Stanford Dogs ; l’ensemble de données Flowers de l’Université d’Oxford ; CUB-200-2011 (CalTech Birds) ; et Pets (‘Chats et chiens’, une collaboration entre l’Université d’Oxford et Hyderabad en Inde).

Pour les tâches de grain fin sur les CNN, les auteurs ont utilisé PreAct ResNet-18 et DenseNet-BC. Pour EfficientFormer-L1, la méthodologie décrite dans le Initializing Models With Larger Ones susmentionné a été utilisée.

Sur les tâches CIFAR-100 et de grain fin, les différentes magnitudes des fréquences de transformation de cosinus discret (DCT) dans l’approche de compression JPEG ont été traitées avec l’optimiseur Adam, afin d’adapter le taux d’apprentissage pour la couche JPEG sur les modèles testés.

Dans les tests sur ImageNet-1K, sur tous les tests, les auteurs ont utilisé PyTorch, avec SqueezeNet, ResNet-18 et ResNet-34 comme modèles principaux.

Pour l’évaluation de l’optimisation de la couche JPEG, les chercheurs ont utilisé Stochastic Gradient Descent (SGD) au lieu d’Adam, pour une performance plus stable. Cependant, pour les tests ImageNet-1K, la méthode du document de 2019 Learned Step Size Quantization a été employée.

Au-dessus de la précision de validation de niveau 1 pour la ligne de base par rapport à JPEG-DL sur CIFAR-100, avec des déviations standard et moyennes sur trois exécutions. En dessous, la précision de validation de niveau 1 sur diverses tâches de classification d'images de grain fin, sur diverses architectures de modèles, à nouveau, moyennées sur trois passes.

Au-dessus de la précision de validation de niveau 1 pour la ligne de base par rapport à JPEG-DL sur CIFAR-100, avec des déviations standard et moyennes sur trois exécutions. En dessous, la précision de validation de niveau 1 sur diverses tâches de classification d’images de grain fin, sur diverses architectures de modèles, à nouveau, moyennées sur trois passes.

En commentant les résultats initiaux illustrés ci-dessus, les auteurs déclarent :

‘Sur les sept modèles testés pour CIFAR-100, JPEG-DL fournit systématiquement des améliorations, avec des gains allant jusqu’à 1,53 % en précision de niveau 1. Dans les tâches de grain fin, JPEG-DL offre une augmentation de performance substantielle, avec des améliorations allant jusqu’à 20,90 % sur tous les ensembles de données en utilisant deux modèles différents.’

Les résultats des tests ImageNet-1K sont présentés ci-dessous :

Résultats de précision de validation de niveau 1 sur ImageNet sur divers cadres.

Résultats de précision de validation de niveau 1 sur ImageNet sur divers cadres.

Ici, le document indique :

‘Avec une augmentation négligeable de complexité (en ajoutant 128 paramètres), JPEG-DL réalise un gain de 0,31 % en précision de niveau 1 pour SqueezeNetV1.1 par rapport à la ligne de base en utilisant une seule ronde d’opération de quantification.

‘En augmentant le nombre de rondes de quantification à cinq, nous observons une amélioration supplémentaire de 0,20 %, ce qui conduit à un gain total de 0,51 % par rapport à la ligne de base.’

Les chercheurs ont également testé le système en utilisant des données compromises par les approches d’attaque adverses Fast Gradient Signed Method (FGSM) et Projected Gradient Descent (PGD).

Les attaques ont été menées sur CIFAR-100 sur deux des modèles :

Résultats de test pour JPEG-DL, contre deux cadres d'attaque adverses standard.

Résultats de test pour JPEG-DL, contre deux cadres d’attaque adverses standard.

Les auteurs déclarent :

‘[Les] modèles JPEG-DL améliorent considérablement la robustesse aux attaques adverses par rapport aux modèles DNN standard, avec des améliorations allant jusqu’à 15 % pour FGSM et 6 % pour PGD.’

En outre, comme illustré plus tôt dans l’article, les auteurs ont effectué une comparaison des cartes de fonctionnalités extraites en utilisant GradCAM++ – un cadre qui peut mettre en évidence les fonctionnalités extraites de manière visuelle.

Une illustration GradCAM++ pour la classification d'images de base et JPEG-DL, avec des fonctionnalités extraites mises en évidence.

Une illustration GradCAM++ pour la classification d’images de base et JPEG-DL, avec des fonctionnalités extraites mises en évidence.

Le document note que JPEG-DL produit un résultat amélioré, et qu’il a même pu classer une image que le modèle de base n’a pas pu identifier. En ce qui concerne l’image illustrée plus tôt avec les oiseaux, les auteurs déclarent :

‘[Il] est évident que les cartes de fonctionnalités du modèle JPEG-DL montrent un contraste nettement meilleur entre les informations de premier plan (l’oiseau) et l’arrière-plan par rapport aux cartes de fonctionnalités générées par le modèle de base.

‘Plus précisément, l’objet de premier plan dans les cartes de fonctionnalités JPEG-DL est enfermé dans un contour bien défini, ce qui le rend visuellement distinguishable de l’arrière-plan.

‘En revanche, les cartes de fonctionnalités du modèle de base montrent une structure plus mélangée, où le premier plan contient une énergie plus élevée dans les basses fréquences, ce qui le fait fondre plus doucement avec l’arrière-plan.’

Conclusion

JPEG-DL est destiné à être utilisé dans des situations où des données brutes sont disponibles – mais il serait intéressant de voir si certains des principes présentés dans ce projet pourraient être appliqués à la formation de jeux de données conventionnels, dans lesquels le contenu peut être de qualité inférieure (comme c’est souvent le cas avec les jeux de données hyperscale extraits d’Internet).

Comme il en est, cela reste en grande partie un problème d’annotation, bien qu’il ait été abordé dans la reconnaissance d’images basée sur le trafic, et ailleurs.

 

Publié pour la première fois le jeudi 10 octobre 2024

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.