mozzicone I ricercatori sviluppano nuove tecniche per migliorare le immagini degradate - Unite.AI
Seguici sui social

Intelligenza Artificiale

I ricercatori sviluppano nuove tecniche per migliorare le immagini degradate

aggiornato on

Un team di ricercatori dello Yale-NUS College ha sviluppato nuovi approcci alla visione artificiale e al deep learning per estrarre dati più accurati dalla visione a basso livello nei video causata da fattori ambientali come la pioggia e le condizioni notturne. Hanno inoltre migliorato la precisione della stima della posa umana 3D nei video. 

La tecnologia di visione artificiale, utilizzata in applicazioni come sistemi di sorveglianza automatica, veicoli autonomi e strumenti sanitari e di distanziamento sociale, è spesso influenzata da fattori ambientali, che possono causare problemi con i dati estratti.

La nuova ricerca è stata presentata al Conferenza 2021 su Computer Vision e Pattern Recognition (CVPR)

Impatto ambientale sulle immagini

Condizioni come scarsa illuminazione ed effetti di luce creati dall'uomo come abbagliamento, bagliore e riflettori influenzano le immagini notturne. Le immagini della pioggia sono influenzate anche dalle strisce di pioggia o dall'accumulo di pioggia. 

Il professore associato di scienze dell'Università Yale-NUS Robby Tan ha guidato il gruppo di ricerca. 

“Molti sistemi di visione artificiale, come la sorveglianza automatica e le auto a guida autonoma, si affidano a una chiara visibilità dei video in ingresso per funzionare bene. Ad esempio, le auto a guida autonoma non possono funzionare in modo affidabile in caso di forti piogge e i sistemi di sorveglianza automatica CCTV spesso si guastano di notte, in particolare se le scene sono buie o in presenza di abbagliamento significativo o illuminazione notturna", ha affermato Assoc. Prof Tan.

Il team si è basato su due studi separati che hanno introdotto algoritmi di deep learning per migliorare la qualità dei video notturni e dei video sulla pioggia. 

Il primo studio si è concentrato sull'aumento della luminosità sopprimendo contemporaneamente il rumore e gli effetti di luce, come bagliori, bagliori e riflettori per creare immagini notturne nitide. La nuova tecnica ha lo scopo di migliorare la nitidezza delle immagini e dei video notturni quando c'è un abbagliamento inevitabile, cosa che i metodi esistenti devono ancora fare. 

Nei paesi in cui le forti piogge sono comuni, l'accumulo di pioggia ha un impatto negativo sulla visibilità nei video. Il secondo studio si proponeva di affrontare il problema introducendo un metodo che impiega un allineamento dei fotogrammi, che consente migliori informazioni visive senza essere influenzato dalle strisce di pioggia, che spesso appaiono casualmente in diversi fotogrammi. Il team ha utilizzato una telecamera in movimento per utilizzare la stima della profondità, che ha contribuito a rimuovere l'effetto di velatura della pioggia. Mentre i metodi esistenti ruotano attorno alla rimozione delle strisce di pioggia, quelli di nuova concezione possono rimuovere contemporaneamente sia le strisce di pioggia che l'effetto di velatura della pioggia. 

Immagine: Yale-NUS College

Stima della posa umana 3D

Insieme alle nuove tecniche, il team ha anche presentato la sua ricerca sulla stima della posa umana in 3D, che può essere utilizzata nella videosorveglianza, nei videogiochi e nelle trasmissioni sportive. 

La stima della posa 3D di più persone da un video monoculare, o da un video ripreso da una singola telecamera, è stata oggetto di ricerche sempre più frequenti negli ultimi anni. A differenza dei video di più fotocamere, i video monoculari sono più flessibili e possono essere ripresi con una singola fotocamera, ad esempio un telefono cellulare. 

Detto questo, un'attività elevata come più individui nella stessa scena influisce sulla precisione nel rilevamento umano. Ciò è particolarmente vero quando gli individui interagiscono da vicino o si sovrappongono l'uno con l'altro nel video monoculare. 

Il terzo studio del team ha stimato la posa umana 3D da un video combinando due metodi esistenti, che erano approcci top-down e bottom-up. Il nuovo metodo produce una stima della posa più affidabile in contesti con più persone rispetto agli altri due ed è meglio attrezzato per gestire la distanza tra gli individui. 

“Come prossimo passo nella nostra ricerca sulla stima della posa umana in 3D, che è supportata dalla National Research Foundation, esamineremo come proteggere le informazioni sulla privacy dei video. Per quanto riguarda i metodi di miglioramento della visibilità, ci sforziamo di contribuire ai progressi nel campo della visione artificiale, poiché sono fondamentali per molte applicazioni che possono influenzare la nostra vita quotidiana, come consentire alle auto a guida autonoma di funzionare meglio in condizioni meteorologiche avverse ", ha affermato Assoc. Prof Tan.

Alex McFarland è un giornalista e scrittore specializzato in intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup e pubblicazioni di intelligenza artificiale in tutto il mondo.