Intelligenza artificiale

Risolvere il Problema degli Artifact JPEG nei Set di Dati di Visione Artificiale

Published September 22, 2021

Updated April 5, 2026

Martin Anderson

Uno studio recente dell’Università del Maryland e di Facebook AI ha scoperto una ‘penalità di prestazioni significativa’ per i sistemi di apprendimento profondo che utilizzano immagini JPEG altamente compresse nei loro set di dati e offre alcuni nuovi metodi per mitigare gli effetti di questo.

Il rapporto, intitolato Analizzare e Mitigare i Difetti di Compressione JPEG nell’Apprendimento Profondo, afferma di essere ‘significativamente più completo’ rispetto a studi precedenti sugli effetti degli artifact in set di dati di visione artificiale. Il documento afferma che ‘[la compressione JPEG pesante] o moderata comporta una penalità di prestazioni significativa sulle metriche standard’ e che le reti neurali potrebbero non essere così resilienti a tali perturbazioni come suggerito da lavori precedenti precedenti.

Una foto di un cane dal set di dati MobileNetV2 del 2018. A qualità 10 (a sinistra), un sistema di classificazione non riesce a identificare la razza corretta ‘Pembroke Welsh Corgi’, invece indovina ‘Norwich terrier’ (il sistema già sa che si tratta di una foto di un cane, ma non della razza); seconda da sinistra, una versione corretta degli artifact JPEG di una foto acquistata non identifica nuovamente la razza corretta; seconda da destra, la correzione degli artifact mirata ripristina la classificazione corretta; e a destra, la foto originale, classificata correttamente. Fonte: https://arxiv.org/pdf/2011.08932.pdf

Artifact di Compressione come ‘Dati’

La compressione JPEG estrema è probabile che crei bordi visibili o semivisibili intorno ai blocchi 8×8 con cui una JPEG è assemblata in una griglia di pixel. Una volta che questi artifact di blocco o ‘ringing’ appaiono, è probabile che vengano mal interpretati dai sistemi di apprendimento automatico come elementi del mondo reale del soggetto dell’immagine, a meno che non venga fatta alcuna compensazione per questo.

Sopra, un sistema di apprendimento automatico di visione artificiale estrae un’immagine di gradiente ‘pulita’ da una foto di buona qualità. Sotto, gli artifact di ‘blocco’ in una versione di bassa qualità dell’immagine oscurano le caratteristiche del soggetto e possono finire per ‘infectare’ le caratteristiche derivate da un set di immagini, in particolare nei casi in cui immagini di alta e bassa qualità si verificano nel set di dati, come in raccolte web-scraped a cui è stata applicata solo una pulizia dei dati generica. Fonte: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

Come si vede nella prima immagine sopra, tali artifact possono influire sui compiti di classificazione delle immagini, con implicazioni anche per gli algoritmi di riconoscimento del testo, che potrebbero non riuscire a identificare correttamente i caratteri influenzati dagli artifact.

Nel caso dei sistemi di formazione di sintesi di immagini (come il software di deepfake o i sistemi di generazione di immagini basati su GAN), un ‘blocco’ di immagini di bassa qualità e altamente compresse in un set di dati potrebbe trascinare verso il basso la qualità mediana della riproduzione o essere assorbito e sostanzialmente annullato da un numero maggiore di caratteristiche di alta qualità estratte da migliori immagini nel set. In entrambi i casi, si desiderano dati migliori – o, almeno, dati coerenti.

JPEG – Di Solito ‘Sufficiente’

La compressione JPEG è un codec a perdita irreversibile che può essere applicato a vari formati di immagine, sebbene venga applicato principalmente al wrapper di file di immagine JFIF wrapper. Nonostante ciò, il formato JPEG (.jpg) è stato nominato dopo il suo metodo di compressione associato e non il wrapper JFIF per i dati dell’immagine.

Interi architetture di apprendimento automatico sono sorte negli ultimi anni che includono la mitigazione degli artifact JPEG come parte delle routine di upscaling/ripristino guidate dall’AI e la rimozione degli artifact di compressione basata sull’AI è ora incorporata in numerosi prodotti commerciali, come la suite di immagini/video Topaz e le funzionalità neurali delle versioni recenti di Adobe Photoshop.

Dal momento che lo schema JPEG del 1986 attualmente in uso comune è stato sostanzialmente bloccato all’inizio degli anni ’90, non è possibile aggiungere metadati a un’immagine che indichino quale livello di qualità (1-100) un’immagine JPEG è stata salvata – almeno, non senza modificare oltre trent’anni di sistemi di software legacy per consumatori, professionisti e accademici che non si aspettavano che tali metadati fossero disponibili.

Di conseguenza, non è insolito adattare le routine di formazione dell’apprendimento automatico alla qualità valutata o nota dei dati di immagine JPEG, come hanno fatto i ricercatori per il nuovo articolo (vedi sotto). In assenza di un entry di metadati ‘qualità’, è attualmente necessario conoscere i dettagli di come l’immagine è stata compressa (ad esempio, compressa da una sorgente lossless) o stimare la qualità attraverso algoritmi percettivi o classificazione manuale.

Un Compromesso Economico

JPEG non è l’unico metodo di compressione a perdita che può influire sulla qualità dei set di dati di apprendimento automatico; le impostazioni di compressione nei file PDF possono anche scartare informazioni in questo modo e possono essere impostate su livelli di qualità molto bassi per risparmiare spazio su disco per scopi di archiviazione locale o di rete.

Ciò può essere visto campionando vari PDF su archive.org, alcuni dei quali sono stati compressi così tanto da essere una sfida notevole per i sistemi di riconoscimento di immagini o testo. In molti casi, come i libri protetti da copyright, questa compressione intensa sembra essere stata applicata come una forma di DRM a buon mercato, allo stesso modo in cui i titolari del copyright possono scegliere di ridurre la risoluzione dei video caricati dagli utenti su YouTube su cui detengono la proprietà intellettuale, lasciando i video ‘a blocchi’ come token promozionali per ispirare acquisti ‘full res’, piuttosto che eliminarli.

In molti altri casi, la risoluzione o la qualità dell’immagine è bassa semplicemente perché i dati sono molto vecchi e risalgono a un’epoca in cui l’archiviazione locale e di rete era più costosa e le velocità di rete limitate favorivano immagini altamente ottimizzate e portatili rispetto alla riproduzione di alta qualità.

È stato sostenuto che JPEG, sebbene non sia la migliore soluzione ora, è stato ‘consacrato’ come infrastruttura legacy irremovibile che è essenzialmente intrecciata con le fondamenta di Internet.

Onere Legacy

Sebbene innovazioni successive come JPEG 2000, PNG e (più recentemente) il formato .webp offrano una qualità superiore, ri-campionare set di dati di apprendimento automatico più vecchi e molto popolari arguirebbe ‘azzerare’ la continuità e la storia delle sfide di visione artificiale anno dopo anno nella comunità accademica – un ostacolo che si applicherebbe anche nel caso di ri-salvare immagini del set di dati PNG a impostazioni di qualità più elevate. Ciò potrebbe essere considerato come una sorta di debito tecnico.

Mentre librerie di elaborazione di immagini server-driven come ImageMagick supportano formati migliori, tra cui .webp, le esigenze di trasformazione delle immagini si verificano frequentemente in sistemi legacy che non sono configurati per nulla altro che JPG o PNG (che offre compressione lossless, ma a scapito della latenza e dello spazio su disco). Anche WordPress, il CMS che alimenta quasi il 40% di tutti i siti web, ha aggiunto il supporto per .webp solo tre mesi fa.

PNG è stata un’entrata tardiva (arguably troppo tardiva) nel settore dei formati di immagine, sorta come una soluzione open source nella seconda metà degli anni ’90 in risposta a una dichiarazione del 1995 di Unisys e CompuServe che i diritti d’autore sarebbero stati pagabili sul formato di compressione LZW utilizzato nei file GIF, che erano comunemente utilizzati all’epoca per loghi ed elementi a colori piatti, anche se la sua resurrezione all’inizio degli anni 2010 si è concentrata sulla sua capacità di fornire contenuti animati a bassa larghezza di banda e veloci (ironicamente, le PNG animate non hanno mai guadagnato popolarità o ampio supporto e sono state bandite da Twitter nel 2019).

Nonostante le sue carenze, la compressione JPEG è rapida, efficiente in termini di spazio e profondamente radicata in sistemi di tutti i tipi – e quindi non è probabile che scompaia completamente dalla scena dell’apprendimento automatico nel prossimo futuro.

Fare il Meglio della Detente AI/JPEG

In una certa misura, la comunità dell’apprendimento automatico si è adattata alle peculiarità della compressione JPEG: nel 2011 la Società Europea di Radiologia (ESR) ha pubblicato uno studio sull’ ‘utilizzabilità della compressione di immagine irreversibile nella diagnostica per immagini’, fornendo linee guida per la ‘perdita accettabile’; quando il venerabile set di dati MNIST di riconoscimento del testo (il cui set di dati di immagine era originariamente fornito in un formato binario innovativo) è stato portato su un formato di immagine ‘regolare’, JPEG, non PNG, è stato scelto; e una collaborazione precedente (2020) degli autori del nuovo articolo ha offerto ‘un’architettura innovativa’ per calibrare i sistemi di apprendimento automatico alle carenze della qualità dell’immagine JPEG variabile, senza la necessità che i modelli siano formati in ogni impostazione di qualità JPEG – una funzionalità utilizzata nel nuovo lavoro.

In effetti, la ricerca sull’utilità dei dati JPEG a qualità variabile è un campo relativamente fiorente nell’apprendimento automatico. Un progetto (non correlato) del 2016 del Center for Automation Research dell’Università del Maryland si concentra sul dominio DCT (dove gli artifact JPEG si verificano a impostazioni di qualità basse) come una via per l’estrazione di caratteristiche profonde; un altro progetto del 2019 si concentra sulla lettura a livello di byte dei dati JPEG senza la necessità di decomprimere le immagini (ad esempio, aprirle in qualche punto di un flusso di lavoro automatizzato); e uno studio della Francia nel 2019 sfrutta attivamente la compressione JPEG al servizio delle routine di riconoscimento di oggetti.

Test e Conclusioni

Per tornare allo studio più recente dell’Università del Maryland e di Facebook, i ricercatori hanno cercato di testare la comprensibilità e l’utilità di JPEG su immagini compresse tra 10-90 (al di sotto del quale l’immagine è perturbata in modo impossibile e al di sopra del quale è equivalente alla compressione lossless). Le immagini utilizzate nei test sono state pre-comprimate a ogni valore all’interno dell’intervallo di qualità target, comportando almeno otto sessioni di formazione.