Intelligence artificielle

Résoudre le problème des artefacts JPEG dans les jeux de données de vision par ordinateur

mm

Une nouvelle étude de l’Université du Maryland et de Facebook AI a constaté qu’il existe une « pénalité de performance significative » pour les systèmes d’apprentissage automatique qui utilisent des images JPEG fortement compressées dans leurs jeux de données, et propose de nouvelles méthodes pour atténuer les effets de ce phénomène.

Le rapport, intitulé Analyse et atténuation des défauts de compression JPEG dans l’apprentissage automatique, prétend être « nettement plus complet » que les études précédentes sur les effets des artefacts dans les jeux de données de vision par ordinateur. L’article constate que « la compression JPEG [lourde] à modérée entraîne une pénalité de performance significative sur les métriques standard », et que les réseaux de neurones ne sont peut-être pas aussi résistants à ces perturbations que le suggèrent les travaux précédents précédents.

Une photo d'un chien de la base de données MobileNetV2 de 2018. À la qualité 10 (gauche), un système de classification échoue à identifier la bonne race 'Pembroke Welsh Corgi', préférant 'Norwich terrier' (le système sait déjà que c'est une photo de chien, mais pas la race) ; deuxième à gauche, une version corrigée des artefacts JPEG du commerce échoue à nouveau à identifier la bonne race ; deuxième à droite, la correction ciblée des artefacts restaure la classification correcte ; et à droite, la photo originale, correctement classifiée. Source: https://arxiv.org/pdf/2011.08932.pdf

Une photo d’un chien de la base de données MobileNetV2 de 2018. À la qualité 10 (gauche), un système de classification échoue à identifier la bonne race ‘Pembroke Welsh Corgi’, préférant ‘Norwich terrier’ (le système sait déjà que c’est une photo de chien, mais pas la race) ; deuxième à gauche, une version corrigée des artefacts JPEG du commerce échoue à nouveau à identifier la bonne race ; deuxième à droite, la correction ciblée des artefacts restaure la classification correcte ; et à droite, la photo originale, correctement classifiée. Source: https://arxiv.org/pdf/2011.08932.pdf

Les artefacts de compression comme « données »

La compression JPEG extrême est susceptible de créer des bordures visibles ou semi-visibles autour des blocs 8×8 à partir desquels une image JPEG est assemblée dans une grille de pixels. Une fois que ces artefacts de blocage ou de « sonnerie » apparaissent, ils sont susceptibles d’être mal interprétés par les systèmes d’apprentissage automatique comme des éléments du monde réel de l’image, à moins qu’une compensation ne soit apportée pour cela.

Au-dessus, un système d'apprentissage automatique de vision par ordinateur extrait une image de gradient « propre » à partir d'une photo de bonne qualité. En dessous, les artefacts de « blocage » dans une sauvegarde de moindre qualité de l'image obscurcissent les caractéristiques de l'objet, et peuvent finir par « infecter » les caractéristiques dérivées d'un ensemble d'images, en particulier dans les cas où des images de haute et de basse qualité se produisent dans le jeu de données, comme dans les collections web-scraped auxquelles seule une nettoyage de données génériques a été appliqué. Source: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Au-dessus, un système d’apprentissage automatique de vision par ordinateur extrait une image de gradient « propre » à partir d’une photo de bonne qualité. En dessous, les artefacts de « blocage » dans une sauvegarde de moindre qualité de l’image obscurcissent les caractéristiques de l’objet, et peuvent finir par « infecter » les caractéristiques dérivées d’un ensemble d’images, en particulier dans les cas où des images de haute et de basse qualité se produisent dans le jeu de données, comme dans les collections web-scraped auxquelles seule une nettoyage de données génériques a été appliqué. Source: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Comme on le voit dans la première image ci-dessus, de tels artefacts peuvent affecter les tâches de classification d’images, avec des implications également pour les algorithmes de reconnaissance de texte, qui peuvent échouer à identifier correctement les caractères affectés par les artefacts.

Dans le cas des systèmes de formation de synthèse d’images (tels que les logiciels de deepfake ou les systèmes de génération d’images basés sur GAN), un « bloc » de faible qualité, fortement compressé, d’images dans un jeu de données peut soit faire baisser la qualité médiane de la reproduction, soit être subsumé et essentiellement remplacé par un plus grand nombre de caractéristiques de meilleure qualité extraites à partir de meilleures images dans l’ensemble. Dans les deux cas, de meilleures données sont souhaitables – ou, au moins, des données cohérentes.

JPEG – Habituellement « suffisant »

La compression JPEG est un codec à perte irréversible qui peut être appliqué à divers formats d’image, bien qu’il soit principalement appliqué au format de fichier d’image JFIF enveloppe. Malgré cela, le format JPEG (.jpg) a été nommé d’après sa méthode de compression associée, et non l’enveloppe JFIF pour les données d’image.

Des architectures d’apprentissage automatique entières ont émergé ces dernières années qui incluent la mitigation des artefacts JPEG comme partie des routines de mise à l’échelle/restore dirigées par l’IA, et la suppression des artefacts de compression basée sur l’IA est maintenant intégrée dans un certain nombre de produits commerciaux, tels que la suite d’images/vidéos Topaz, et les fonctions neuronales des versions récentes d’Adobe Photoshop.

Depuis que le schéma JPEG de 1986 actuellement en usage courant a été verrouillé dans les années 1990, il n’est pas possible d’ajouter des métadonnées à une image qui indiqueraient quel niveau de qualité (1-100) une image JPEG a été enregistrée – du moins, pas sans modifier plus de trente ans de logiciels consommateurs, professionnels et académiques qui n’attendaient pas de telles métadonnées.

Par conséquent, il n’est pas rare de personnaliser les routines de formation de l’apprentissage automatique en fonction de la qualité évaluée ou connue des données d’image JPEG, comme les chercheurs l’ont fait pour le nouveau document (voir ci-dessous). En l’absence d’une entrée de métadonnées « qualité », il est actuellement nécessaire de connaître les détails de la façon dont l’image a été compressée (c’est-à-dire compressée à partir d’une source sans perte), ou d’estimer la qualité à l’aide d’algorithmes perceptuels ou de classification manuelle.

Un compromis économique

JPEG n’est pas la seule méthode de compression à perte qui peut affecter la qualité des jeux de données d’apprentissage automatique ; les paramètres de compression dans les fichiers PDF peuvent également supprimer des informations de cette manière, et peuvent être définis sur des niveaux de qualité très bas pour économiser de l’espace disque pour les archives locales ou réseau.

Ceci peut être constaté en échantillonnant divers PDF à travers archive.org, dont certains ont été compressés si fortement qu’ils constituent un défi notable pour les systèmes de reconnaissance d’images ou de texte. Dans de nombreux cas, tels que les livres sous copyright, cette compression intense semble avoir été appliquée comme une forme de DRM bon marché, de la même manière que les détenteurs de droits d’auteur peuvent choisir de réduire la résolution des vidéos téléchargées par les utilisateurs sur lesquelles ils détiennent les droits de propriété intellectuelle, laissant les vidéos « bloquées » comme jetons promotionnels pour inspirer des achats de « pleine résolution », plutôt que de les supprimer.

Dans de nombreux autres cas, la résolution ou la qualité d’image est faible simplement parce que les données sont très anciennes et datent d’une époque où le stockage local et le réseau étaient plus coûteux, et où les vitesses de réseau limitées favorisaient des images hautement optimisées et portables plutôt qu’une reproduction de haute qualité.

Il a été soutenu que JPEG, bien qu’il ne soit pas la meilleure solution maintenant, a été « érigé » comme une infrastructure héritée indémontable qui est essentiellement entrelacée avec les fondements de l’Internet.

Fardeau hérité

Bien que les innovations ultérieures telles que JPEG 2000, PNG et (plus récemment) le format .webp offrent une qualité supérieure, la rééchantillonnage de jeux de données de vision par ordinateur plus anciens et très populaires serait susceptible de « réinitialiser » la continuité et l’histoire des défis de vision par ordinateur d’année en année dans la communauté universitaire – un obstacle qui s’appliquerait également dans le cas de la réenregistrement d’images de jeu de données PNG à des paramètres de qualité plus élevés. Cela pourrait être considéré comme une sorte de dette technique.

Alors que des bibliothèques de traitement d’images serveur telles que ImageMagick prennent en charge de meilleurs formats, notamment .webp, les exigences de transformation d’images se produisent fréquemment dans des systèmes hérités qui ne sont pas configurés pour autre chose que JPG ou PNG (qui offre une compression sans perte, mais au prix de la latence et de l’espace disque). Même WordPress, le CMS qui alimente près de 40 % de tous les sites Web, n’a ajouté le support .webp il y a trois mois.

PNG a été une entrée tardive (à juste titre) dans le secteur des formats d’image, émergeant comme une solution open source dans la deuxième moitié des années 1990 en réponse à une déclaration de 1995 de Unisys et CompuServe selon laquelle des redevances seraient désormais payables sur le format de compression LZW utilisé dans les fichiers GIF, qui étaient couramment utilisés à l’époque pour les logos et les éléments à plat, même si la résurrection du format GIF dans les années 2010 s’est concentrée sur sa capacité à fournir un contenu animé à faible bande passante et réactif (ironiquement, les PNG animés n’ont jamais gagné en popularité ou en support étendu, et ont même été interdits de Twitter en 2019).

Malgré ses limites, la compression JPEG est rapide, efficace en termes d’espace et profondément ancrée dans les systèmes de tous types – et donc peu susceptible de disparaître complètement de la scène de l’apprentissage automatique dans un avenir proche.

Faire le meilleur de la détente AI/JPEG

Dans une certaine mesure, la communauté de l’apprentissage automatique s’est adaptée aux caprices de la compression JPEG : en 2011, la Société européenne de radiologie (ESR) a publié une étude sur la « utilisabilité de la compression d’image irréversible en imagerie radiologique », fournissant des lignes directrices pour la « perte acceptable » ; lorsque la vénérable base de données de reconnaissance de texte MNIST (dont les données d’image étaient à l’origine fournies dans un format binaire novateur) a été portée sur un format d’image « régulier », JPEG, et non PNG, a été choisi ; et une collaboration antérieure (2020) des auteurs du nouveau document a proposé une nouvelle architecture pour calibrer les systèmes d’apprentissage automatique aux limites de la qualité d’image JPEG variable, sans que les modèles aient besoin d’être formés à chaque paramètre de qualité JPEG – une fonctionnalité utilisée dans le nouveau travail.

En effet, la recherche sur l’utilité des données JPEG à qualité variable est un domaine relativement prospère en apprentissage automatique. Un projet (sans rapport) de 2016 du Center for Automation Research de l’Université du Maryland se concentre sur le domaine DCT (où les artefacts JPEG se produisent à des paramètres de qualité faible) comme moyen d’extraction de fonctionnalités profondes ; un autre projet de 2019 se concentre sur la lecture au niveau des octets des données JPEG sans la nécessité fastidieuse de décompresser réellement les images (c’est-à-dire les ouvrir à un moment donné dans un flux de travail automatisé) ; et une étude de 2019 en France active la compression JPEG au service des routines de reconnaissance d’objets.

Test et conclusions

Pour revenir à l’étude la plus récente de l’UoM et de Facebook, les chercheurs ont cherché à tester la compréhensibilité et l’utilité de JPEG sur des images compressées entre 10-90 (en dessous duquel l’image est impossiblement perturbée, et au-dessus duquel elle est égale à la compression sans perte). Les images utilisées dans les tests ont été pré-compressées à chaque valeur dans la plage de qualité ciblée, ce qui implique au moins huit sessions de formation.

Les modèles ont été formés sur une descente de gradient stochastique sur quatre méthodes : base, où aucune mitigation supplémentaire n’a été ajoutée ; fine-tuning supervisé, où l’ensemble de formation a l’avantage de poids pré-formés et de données étiquetées (bien que les chercheurs reconnaissent que cela soit difficile à reproduire dans les applications de consommation) ; correction d’artefact, où une amélioration est effectuée sur les images compressées avant la formation ; et correction d’artefact ciblée sur la tâche, où le réseau de correction d’artefact est affiné sur les erreurs renvoyées.

La formation s’est produite sur une grande variété de jeux de données appropriés, notamment plusieurs variantes de ResNet, FastRCNN, MobileNetV2, MaskRCNN et Keras’ InceptionV3.

Les résultats de perte d’échantillon après la correction ciblée des artefacts sont visualisés ci-dessous (plus bas = mieux).

Il n’est pas possible de plonger dans les détails des résultats obtenus dans l’étude, car les conclusions des chercheurs sont divisées entre l’objectif d’évaluer les artefacts JPEG et les nouvelles méthodes pour atténuer cela ; la formation a été itérée par qualité sur tant de jeux de données ; et les tâches comprenaient plusieurs objectifs tels que la détection d’objets, le masquage et la classification. Essentiellement, le nouveau rapport se positionne comme une référence complète traitant de plusieurs problèmes.

Cependant, l’article conclut en gros que « la compression JPEG a une pénalité abrupte dans l’ensemble pour les paramètres de compression lourde à modérée ». Il soutient également que ses stratégies de mitigation non étiquetées nouvelles obtiennent de meilleurs résultats parmi les approches similaires ; que, pour les tâches complexes, la méthode supervisée des chercheurs surpasse également ses pairs, malgré le fait qu’elle n’a pas accès aux étiquettes de vérité ; et que ces méthodologies nouvelles permettent la réutilisation de modèles, puisque les poids obtenus sont transférables entre les tâches.

En termes de tâches de classification, l’article indique explicitement que « JPEG dégrade la qualité du gradient ainsi que les erreurs de localisation ».

Les auteurs espèrent étendre les études futures pour couvrir d’autres méthodes de compression telles que le largement négligé JPEG 2000, ainsi que WebP, HEIF et BPG. Ils suggèrent en outre que leur méthodologie pourrait être appliquée à des recherches analogues sur les algorithmes de compression vidéo.

Puisque la méthode de correction ciblée des artefacts a prouvé son succès dans l’étude, les auteurs signalent également leur intention de publier les poids formés pendant le projet, anticipant que « [nombreux] applications bénéficieront de l’utilisation de nos poids TTAC sans modification ».

 

n.b. L’image source de l’article provient de thispersondoesnotexist.com

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.