mozzicone Ridimensionamento delle immagini ad alta risoluzione con il machine learning - Unite.AI
Seguici sui social

Intelligenza Artificiale

Ridimensionamento delle immagini ad alta risoluzione con l'apprendimento automatico

mm
aggiornato on

Una nuova ricerca dal Regno Unito ha proposto un metodo di apprendimento automatico migliorato per ridimensionare le immagini, basato sul valore percepito delle varie parti del contenuto dell'immagine, invece di ridurre indiscriminatamente la dimensione (e quindi la qualità e le caratteristiche estraibili) per tutti i pixel in l'immagine.

Come parte di un crescente interesse per i sistemi di compressione guidati dall'intelligenza artificiale, è un approccio che potrebbe alla fine informare nuovi codec per la compressione generale delle immagini, sebbene il lavoro sia motivato dall'imaging sanitario, dove il downsampling arbitrario di immagini mediche ad alta risoluzione potrebbe portare alla perdita di informazioni salvavita.

Architettura rappresentativa del nuovo sistema. Il modulo di deformazione interstiziale produce una mappa di deformazione che corrisponde alle aree di interesse nell'immagine. La densità e la direzione dei punti rossi indicano queste aree. La mappa viene utilizzata non solo per eseguire il downsampling, ma anche per ricostruire le aree di interesse primario quando il contenuto dell'immagine viene ridimensionato in modo non uniforme all'altro lato del processo di addestramento. Fonte: https://arxiv.org/pdf/2109.11071.pdf

Architettura rappresentativa del nuovo sistema. Il modulo di deformazione interstiziale produce una mappa di deformazione che corrisponde alle aree di interesse nell'immagine. La densità e la direzione dei punti rossi indicano queste aree. La mappa viene utilizzata non solo per eseguire il downsampling, ma anche per ricostruire le aree di interesse primario quando il contenuto dell'immagine viene ridimensionato in modo non uniforme all'altro lato del processo di addestramento.  Fonte: https://arxiv.org/pdf/2109.11071.pdf

Il sistema si applica segmentazione semantica alle immagini: ampi blocchi, rappresentati come blocchi di colore nell'immagine sopra, che racchiudono entità riconosciute all'interno dell'immagine, come ad esempio 'strada', 'bicicletta', 'lesione', et al. La disposizione delle mappe di segmentazione semantica viene quindi utilizzata per calcolare quali parti della foto non devono essere sottocampionate eccessivamente.

Intitolata Imparare a eseguire il downsampling per la segmentazione di immagini ad altissima risoluzione, le nuovo documento è una collaborazione tra ricercatori del Center for Medical Image Computing dell'University College di Londra e ricercatori del dipartimento Healthcare Intelligence di Microsoft Cambridge.

Il mondo (abbastanza) a bassa risoluzione della formazione sulla visione artificiale

L'addestramento dei sistemi di visione artificiale è notevolmente limitato dalla capacità delle GPU. I set di dati possono contenere molte migliaia di immagini da cui è necessario estrarre le funzionalità, ma anche le GPU di ambito industriale tendono a raggiungere il picco di 24 GB di VRAM, con carenze in corso influenzando la disponibilità e il costo.

Ciò significa che i dati devono essere alimentati attraverso i tensor core limitati della GPU in batch gestibili, con 8-16 immagini tipiche di molti flussi di lavoro di addestramento alla visione artificiale.

Non ci sono molte soluzioni ovvie: anche se la VRAM fosse illimitata e le architetture della CPU potessero accogliere quel tipo di throughput dalla GPU senza formare un collo di bottiglia architetturale, lotti di dimensioni molto elevate tenderanno a derivare funzionalità di alto livello a scapito delle trasformazioni più dettagliate che può essere fondamentale per l'utilità dell'algoritmo finale.

Aumentare la risoluzione delle immagini di input significa dover utilizzare batch di dimensioni più piccole per adattare i dati allo "spazio latente" dell'addestramento della GPU. Ciò, al contrario, è probabile che produca un modello "eccentrico" e sovradimensionato.

Né l'aggiunta di GPU extra aiuta, almeno nelle architetture più comuni: mentre le configurazioni con più GPU possono accelerare i tempi di formazione, possono anche compromettere l'integrità dei risultati della formazione, come due fabbriche adiacenti che lavorano sullo stesso prodotto, con solo un telefono linea per coordinare i loro sforzi.

Immagini ridimensionate in modo intelligente

Ciò che resta è che le sezioni più rilevanti di un'immagine tipica per un set di dati di visione artificiale potrebbero, con il nuovo metodo, essere conservate intatte nel ridimensionamento automatico che si verifica quando le immagini ad altissima risoluzione devono essere ridimensionate per adattarsi a una pipeline ML.

Questa è una sfida separata al problema di artefatti con perdita nei set di dati di machine learning, in cui la qualità viene persa nelle pipeline di ridimensionamento automatico perché il codec di compressione elimina troppe informazioni (di solito irrecuperabili).

Piuttosto, in questo caso, anche il salvataggio in un formato di immagine senza perdita (come PNG con compressione LZW) non può recuperare le informazioni che vengono generalmente scartate durante il ridimensionamento (ad esempio) di una scansione con risonanza magnetica (MRI) da spesso dimensioni da record a una risoluzione tipica più credibile di 256 × 256 o 512 × 512 pixel.

A peggiorare le cose, a seconda dei requisiti del framework, i bordi neri verranno spesso aggiunti alle immagini sorgente rettangolari come attività di elaborazione dati di routine, al fine di produrre un formato di input genuinamente quadrato per l'elaborazione della rete neurale, riducendo ulteriormente lo spazio disponibile per potenzialmente dati cruciali.

I ricercatori di UCL e Microsoft propongono invece di rendere più intelligente il processo di ridimensionamento, utilizzando di fatto quella che è sempre stata una fase generica della pipeline per evidenziare aree di interesse, scaricando parte del fardello interpretativo dal sistema di machine learning attraverso il quale il le immagini alla fine passeranno.

Il metodo, affermano i ricercatori, migliora rispetto a un'offerta del 2019 (immagine sotto) che cercava guadagni simili concentrando l'attenzione sulla qualità al confini di oggetti.

Da "Efficient Segmentation: Learning Downsampling Near Semantic Boundaries", Marin et al., 2019. Fonte: https://arxiv.org/pdf/1907.07156.pdf

Da "Segmentazione efficiente: apprendimento del downsampling vicino ai confini semantici", Marin et al., 2019. Fonte: https://arxiv.org/pdf/1907.07156.pdf

Come rileva il nuovo lavoro, questo approccio presuppone che le aree di interesse si raccolgano ai confini, mentre gli esempi di imaging medico, come le regioni tumorali annotate, dipendono dal contesto di livello superiore e possono apparire come dettagli facilmente scartati all'interno di aree più ampie in un'immagine , piuttosto che ai bordi.

Downsampler apprendibile

La nuova ricerca propone a downsampler apprendibile chiamato modulo di deformazione, che viene addestrato congiuntamente con un modulo di segmentazione parallela e può quindi essere informato sulle aree di interesse identificate dalla segmentazione semantica e assegnarle la priorità durante il processo di downsampling.

Gli autori hanno testato il sistema su diversi set di dati popolari, tra cui Cityscapes, Deep Globe e un set di dati di istologia del cancro alla prostata locale, "PCa-Histo".

Tre approcci: a sinistra, downsampling 'uniforme' esistente; al centro, l'approccio del "bordo ottimale" del documento del 2019; a destra, l'architettura alla base del nuovo sistema, informata dal riconoscimento di entità in uno strato di segmentazione semantica.

Tre approcci: a sinistra, downsampling 'uniforme' esistente; al centro, l'approccio del "bordo ottimale" del documento del 2019; a destra, l'architettura alla base del nuovo sistema, informata dal riconoscimento di entità in uno strato di segmentazione semantica.

Un approccio simile è stato provato per un classificatore proposto in 2019, ma gli autori del presente documento sostengono che questo metodo non regolarizza adeguatamente le aree di enfasi, potenzialmente mancando di aree vitali in un contesto di imaging medico.

Risultati

Il modulo di deformazione nel nuovo sistema è una piccola rete neurale convoluzionale (CNN), mentre lo strato di segmentazione è un'architettura CNN profonda che impiega HRNetV2-W48. Rete di analisi della scena piramidale (Rete PSP) è stato utilizzato come livello di controllo di integrità per i test CityScapes.

I suddetti set di dati sono stati testati con il nuovo framework, utilizzando il ricampionamento uniforme (il metodo consueto), il metodo edge ottimale del 2019 e l'utilizzo della segmentazione semantica da parte del nuovo approccio.

Gli autori riferiscono che il nuovo metodo mostra "chiaro vantaggio nell'identificare e distinguere le classi clinicamente più importanti", con un aumento della precisione del 15-20%. Osservano inoltre che la distanza tra queste classi è spesso definita come "la soglia dal sano al cancro".

Analisi di intersezione su unione (IoU) di classe attraverso i tre metodi: sinistra, ricampionamento standard; bordo medio, ottimale; e giusto, il nuovo approccio. CityScapes è stato sottoposto a downsampling a soli 64 x 128, con PCaHisto fino a 80 x 800 e DeepGlobe fino a 300 pixel quadrati.

Analisi di intersezione su unione (IoU) di classe attraverso i tre metodi: sinistra, ricampionamento standard; bordo medio, ottimale; e giusto, il nuovo approccio. CityScapes è stato sottoposto a downsampling a soli 64 x 128, con PCaHisto fino a 80 x 800 e DeepGlobe fino a 300 pixel quadrati.

Il rapporto afferma che il loro metodo "può apprendere una strategia di downsampling, conservare meglio le informazioni e consentire un migliore compromesso.", concludendo che il nuovo quadro "può apprendere in modo efficiente dove "investire" il budget limitato di pixel durante il downsampling per ottenere il massimo ritorno complessivo nell'accuratezza della segmentazione".

 

L'immagine principale per l'articolo di questa funzione è stata tratta da thispersondoesnotexist.com. Aggiornato alle 3:35 GMT+2 per errore di testo.