Intelligence artificielle
Recherche Disney propose une compression d’image basée sur l’IA améliorée – Mais elle peut halluciner des détails

Le bras de recherche de Disney propose une nouvelle méthode de compression d’images, en exploitant le modèle Stable Diffusion V1.2 open source pour produire des images plus réalistes à des débits inférieurs que les méthodes concurrentes.

La méthode de compression de Disney comparée aux approches précédentes. Les auteurs affirment une récupération améliorée des détails, tout en offrant un modèle qui n’exige pas des centaines de milliers de dollars de formation, et qui fonctionne plus rapidement que la méthode concurrente la plus proche. Source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
La nouvelle approche (définie comme un ‘codec’ malgré sa complexité accrue par rapport aux codecs traditionnels tels que JPEG et AV1) peut fonctionner sur n’importe quel Modèle de diffusion latente (LDM). Dans des tests quantitatifs, elle surpasse les méthodes antérieures en termes de précision et de détails, et nécessite nettement moins de formation et de coût de calcul.
La principale intuition de ce nouveau travail est que l’erreur de quantification (un processus central dans toute compression d’image) est similaire à bruit (un processus central dans les modèles de diffusion).
Par conséquent, une image quantifiée de manière traditionnelle peut être traitée comme une version bruyante de l’image originale, et utilisée dans le processus de débruitage d’un LDM au lieu de bruit aléatoire, afin de reconstruire l’image à un débit cible.

Autres comparaisons de la nouvelle méthode Disney (mise en évidence en vert), en contraste avec les approches rivales.
Les auteurs affirment :
‘[Nous] formons la suppression de l’erreur de quantification comme une tâche de débruitage, en utilisant la diffusion pour récupérer les informations perdues dans l’image latente transmise. Notre approche nous permet de réaliser moins de 10 % du processus de génération de diffusion complet et n’exige pas de modifications architecturales du modèle de diffusion, permettant l’utilisation de modèles de base comme un fort a priori sans réglage fin supplémentaire du backbone.
‘Notre codec proposé surpasse les méthodes antérieures en termes de réalisme quantitatif, et nous vérifions que nos reconstructions sont préférées qualitativement par les utilisateurs finals, même lorsque les autres méthodes utilisent deux fois le débit.’
Cependant, comme d’autres projets qui cherchent à exploiter les capacités de compression des modèles de diffusion, la sortie peut halluciner des détails. En revanche, les méthodes de perte telles que JPEG produiront des zones de détail clairement distordues ou lissées, qui peuvent être reconnues comme des limitations de compression par l’utilisateur occasionnel.
Au lieu de cela, le codec de Disney peut modifier les détails à partir du contexte qui n’était pas présent dans l’image source, en raison de la nature grossière du Variational Autoencoder (VAE) utilisé dans les modèles typiques formés sur des données hyperscale.
‘Semblable à d’autres approches génératives, notre méthode peut supprimer certaines caractéristiques d’image tout en synthétisant des informations similaires sur le côté du récepteur. Dans des cas spécifiques, cependant, cela peut entraîner une reconstruction incorrecte, telle que la courbure de lignes droites ou la déformation de la limite d’objets petits.
‘Ces problèmes sont bien connus du modèle de base sur lequel nous nous appuyons, qui peuvent être attribués à la dimension de caractéristiques relativement faible de son VAE.’
Alors que cela a certaines implications pour les représentations artistiques et la véracité des photographies occasionnelles, cela pourrait avoir un impact plus critique dans les cas où de petits détails constituent des informations essentielles, telles que des preuves pour des affaires judiciaires, des données pour la reconnaissance faciale, des analyses pour la reconnaissance optique de caractères (OCR), et une grande variété d’autres cas d’utilisation possibles, dans l’éventualité de la popularisation d’un codec avec cette capacité.
À ce stade nascent de la progression de la compression d’image améliorée par l’IA, tous ces scénarios possibles sont loin dans le futur. Cependant, le stockage d’images est un défi mondial hyperscale, touchant des questions autour du stockage de données, de la diffusion et de la consommation d’électricité, outre d’autres préoccupations. Par conséquent, la compression basée sur l’IA pourrait offrir un compromis tentant entre précision et logistique. L’histoire montre que les meilleurs codecs ne gagnent pas toujours la base d’utilisateurs la plus large, lorsque des questions telles que la licence et la capture de marché par des formats propriétaires sont des facteurs d’adoption.
Disney expérimente la formation automatique comme méthode de compression depuis longtemps. En 2020, l’un des chercheurs de la nouvelle étude était impliqué dans un projet basé sur VAE pour une compression de vidéo améliorée.
Le nouveau document de recherche de Disney a été mis à jour début octobre. Aujourd’hui, l’entreprise a publié une vidéo YouTube accompagnante. Le projet est intitulé Compression d’image avec perte utilisant des modèles de diffusion de base, et provient de quatre chercheurs de l’ETH Zürich (affiliés aux projets d’IA de Disney) et de Disney Research. Les chercheurs offrent également un document supplémentaire.
Méthode
La nouvelle méthode utilise un VAE pour encoder une image dans sa représentation latente compressée. À ce stade, l’image d’entrée se compose de caractéristiques dérivées – des représentations vectorielles de bas niveau. L’embedding latent est ensuite quantifié en bitstream, puis en espace de pixels.
Cette image quantifiée est ensuite utilisée comme modèle pour le bruit qui alimente généralement une image basée sur la diffusion, avec un nombre variable d’étapes de débruitage (où il y a souvent un compromis entre des étapes de débruitage accrues et une plus grande précision, vs. une latence plus faible et une efficacité plus élevée).

Schéma de la nouvelle méthode de compression de Disney.
Les paramètres de quantification et le nombre total d’étapes de débruitage peuvent être contrôlés sous le nouveau système, grâce à la formation d’un réseau de neurones qui prédit les variables pertinentes liées à ces aspects de l’encodage. Ce processus est appelé quantification adaptative, et le système de Disney utilise le cadre Entroformer comme modèle d’entropie qui alimente la procédure.
Les auteurs déclarent :
‘Intuitivement, notre méthode apprend à supprimer les informations (à travers la transformation de quantification) qui peuvent être synthétisées pendant le processus de diffusion. Puisque les erreurs introduites pendant la quantification sont similaires à l’ajout de [bruit] et que les modèles de diffusion sont fonctionnellement des modèles de débruitage, ils peuvent être utilisés pour supprimer le bruit de quantification introduit pendant le codage.’
La diffusion stable V2.1 est le modèle de diffusion de base pour le système, choisi parce que l’ensemble du code et les poids de base sont disponibles publiquement. Cependant, les auteurs soulignent que leur schéma est applicable à un plus grand nombre de modèles.
Essentiel à l’économie du processus est la prédiction de l’étape de temps, qui évalue le nombre optimal d’étapes de débruitage – un équilibre entre efficacité et performance.

Prédictions d’étapes de débruitage, avec le nombre optimal d’étapes de débruitage indiqué avec une bordure rouge. Veuillez vous référer au PDF source pour une résolution précise.
Le montant de bruit dans l’embedding latent doit être pris en compte lors de la prédiction du meilleur nombre d’étapes de débruitage.
Données et tests
Le modèle a été formé sur le jeu de données Vimeo-90k. Les images ont été découpées aléatoirement à 256x256px pour chaque époque (c’est-à-dire chaque ingestion complète du jeu de données raffiné par l’architecture de formation du modèle).
Le modèle a été optimisé pour 300 000 étapes à un taux d’apprentissage de 1e-4. Ceci est le plus courant parmi les projets de vision par ordinateur, et également la valeur la plus basse et la plus fine généralement praticable, comme un compromis entre une généralisation large des concepts et des caractéristiques du jeu de données, et une capacité à reproduire des détails fins.
Les auteurs commentent certaines des considérations logistiques pour un système économique mais efficace* :
‘Pendant la formation, il est prohibitivement coûteux de rétropropager le gradient à travers plusieurs passes du modèle de diffusion tel qu’il s’exécute pendant l’échantillonnage DDIM. Par conséquent, nous effectuons uniquement une itération d’échantillonnage DDIM et utilisons directement [cela] comme les données complètement débruitées.’
Les jeux de données utilisés pour tester le système étaient Kodak ; CLIC2022 ; et COCO 30k. Le jeu de données a été prétraité selon la méthodologie exposée dans l’offre 2023 de Google Multi-Realism Image Compression with a Conditional Generator.
Les métriques utilisées étaient Peak Signal-to-Noise Ratio (PSNR) ; Learned Perceptual Similarity Metrics (LPIPS) ; Multiscale Structural Similarity Index (MS-SSIM) ; et Fréchet Inception Distance (FID).
Les cadres antérieurs concurrents testés étaient divisés entre les anciens systèmes qui utilisaient des réseaux antagonistes génératifs (GAN), et les offres plus récentes basées sur des modèles de diffusion. Les systèmes GAN testés étaient High-Fidelity Generative Image Compression (HiFiC) ; et ILLM (qui offre certaines améliorations par rapport à HiFiC).
Les systèmes basés sur la diffusion étaient Lossy Image Compression with Conditional Diffusion Models (CDC) et High-Fidelity Image Compression with Score-based Generative Models (HFD).

Résultats quantitatifs contre les cadres antérieurs sur divers jeux de données.
Pour les résultats quantitatifs (visualisés ci-dessus), les chercheurs déclarent :
‘Notre méthode établit un nouveau référence en termes de réalisme des images reconstruites, surpassant toutes les références dans les courbes de débit FID. Dans certaines métriques de distorsion (notamment LPIPS et MS-SSIM), nous surpassons tous les codecs basés sur la diffusion tout en restant compétitifs avec les codecs génératifs les plus performants.
‘Comme prévu, notre méthode et les autres méthodes génératives souffrent lorsqu’elles sont mesurées en PSNR car nous favorisons les reconstructions agréables du point de vue perceptuel plutôt que la réplication exacte des détails.’
Pour l’étude utilisateur, une méthode de choix forcé à deux alternatives (2AFC) a été utilisée, dans un contexte de tournoi où les images préférées passeraient à des tours ultérieurs. L’étude a utilisé le système de notation Elo à l’origine développé pour les tournois d’échecs.
Par conséquent, les participants visionneraient et sélectionneraient la meilleure des deux images présentées de 512x512px à travers les différentes méthodes génératives. Une expérience supplémentaire a été entreprise dans laquelle toutes les comparaisons d’images d’un même utilisateur ont été évaluées, via une simulation de Monte Carlo sur 10 000 itérations, avec le score médian présenté dans les résultats.

Évaluations Elo estimées pour l’étude utilisateur, présentant des tournois Elo pour chaque comparaison (à gauche) et également pour chaque participant, avec des valeurs plus élevées étant meilleures.
Ici, les auteurs commentent :
‘Comme on le voit dans les scores Elo, notre méthode surpasse de manière significative toutes les autres, même par rapport à CDC, qui utilise en moyenne deux fois les bits de notre méthode. Cela reste vrai quelle que soit la stratégie de tournoi Elo utilisée.’
Dans le document original, ainsi que dans le document supplémentaire, les auteurs fournissent des comparaisons visuelles supplémentaires, dont l’une est présentée plus tôt dans cet article. Cependant, en raison de la granularité de la différence entre les échantillons, nous renvoyons le lecteur au PDF source, afin que ces résultats puissent être jugés équitablement.
Le document conclut en notant que sa méthode proposée fonctionne deux fois plus rapidement que le rival CDC (3,49 vs 6,87 secondes, respectivement). Il observe également que ILLM peut traiter une image en 0,27 seconde, mais que ce système nécessite une formation lourde.
Conclusion
Les chercheurs de l’ETH/Disney sont clairs, à la conclusion du document, sur le potentiel de leur système pour générer de faux détails. Cependant, aucun des échantillons proposés dans le matériel ne se concentre sur cette question.
Pour être honnête, ce problème n’est pas limité à la nouvelle approche de Disney, mais est un effet collatéral inévitable de l’utilisation de modèles de diffusion – une architecture inventive et interprétative – pour compresser les images.
Intéressant, il y a seulement cinq jours, deux autres chercheurs de l’ETH Zurich ont produit un document intitulé Hallucinations conditionnelles pour la compression d’images, qui examine la possibilité d’un ‘niveau optimal d’hallucination’ dans les systèmes de compression basés sur l’IA.
Les auteurs font valoir que :
‘Pour le contenu de type texture, tel que l’herbe, les taches de rousseur et les murs de pierre, générer des pixels qui correspondent réaliste à une texture donnée est plus important que reconstruire des valeurs de pixel précises ; générer tout échantillon de la distribution d’une texture est généralement suffisant.’
Ainsi, ce deuxième document plaide en faveur de la compression pour être optimale ‘créative’ et représentative, plutôt que de recréer avec précision les traits et les caractéristiques de l’image non compressée originale.
On se demande ce que la communauté photographique et créative ferait de cette redéfinition radicale de ‘compression’.
*Ma conversion des citations en ligne des auteurs en liens hypertexte.
Publié pour la première fois mercredi 30 octobre 2024












