Connect with us

Les chercheurs développent de nouvelles techniques pour améliorer les images dégradées

Intelligence artificielle

Les chercheurs développent de nouvelles techniques pour améliorer les images dégradées

mm

Une équipe de chercheurs de Yale-NUS College a développé de nouvelles approches de vision par ordinateur et d’apprentissage profond pour extraire des données plus précises à partir de la vision basse dans les vidéos causées par des facteurs environnementaux tels que la pluie et les conditions nocturnes. Ils ont également amélioré la précision de l’estimation de la pose humaine 3D dans les vidéos. 

La technologie de vision par ordinateur, qui est utilisée dans des applications telles que les systèmes de surveillance automatique, les véhicules autonomes, les outils de santé et de distanciation sociale, est souvent affectée par des facteurs environnementaux, qui peuvent causer des problèmes avec les données extraites.

Les nouvelles recherches ont été présentées à la Conférence 2021 sur la vision par ordinateur et la reconnaissance de formes (CVPR)

Impact environnemental sur les images

Des conditions telles que la faible lumière et les effets de lumière artificielle tels que les reflets, la lumière et les projecteurs affectent les images nocturnes. Les images de pluie sont également affectées par les traînées de pluie ou l’accumulation de pluie. 

Le professeur associé de science Robby Tan de Yale-NUS College a dirigé l’équipe de recherche. 

« De nombreux systèmes de vision par ordinateur, tels que la surveillance automatique et les voitures autonomes, dépendent d’une visibilité claire des vidéos d’entrée pour fonctionner correctement. Par exemple, les voitures autonomes ne peuvent pas fonctionner de manière robuste sous la pluie forte et les systèmes de surveillance automatique par CCTV échouent souvent la nuit, en particulier si les scènes sont sombres ou s’il y a des reflets ou des projecteurs importants », a déclaré le prof. Tan.

L’équipe s’est appuyée sur deux études distinctes qui ont introduit des algorithmes d’apprentissage profond pour améliorer la qualité des vidéos nocturnes et des vidéos de pluie. 

La première étude s’est concentrée sur l’amélioration de la luminosité tout en supprimant simultanément le bruit et les effets de lumière, tels que les reflets, la lumière et les projecteurs, pour créer des images nocturnes claires. La nouvelle technique vise à améliorer la clarté des images et des vidéos nocturnes lorsque des reflets inévitables sont présents, ce que les méthodes existantes n’ont pas encore fait. 

Dans les pays où les fortes pluies sont courantes, l’accumulation de pluie affecte négativement la visibilité dans les vidéos. La deuxième étude a cherché à résoudre le problème en introduisant une méthode qui utilise un alignement de trames, ce qui permet une meilleure information visuelle sans être affectée par les traînées de pluie, qui apparaissent souvent de manière aléatoire dans différentes trames. L’équipe a utilisé une caméra mobile pour employer l’estimation de la profondeur, ce qui a aidé à supprimer l’effet de voile de pluie. Alors que les méthodes existantes tournent autour de la suppression des traînées de pluie, les nouvelles méthodes développées peuvent supprimer à la fois les traînées de pluie et l’effet de voile de pluie simultanément. 

Image: Yale-NUS College

Estimation de la pose humaine 3D

En plus des nouvelles techniques, l’équipe a également présenté ses recherches sur l’estimation de la pose humaine 3D, qui peut être utilisée dans la surveillance vidéo, les jeux vidéo et la diffusion sportive. 

L’estimation de la pose humaine 3D à partir d’une vidéo monocular, ou d’une vidéo prise avec une seule caméra, a été de plus en plus étudiée ces dernières années. Contrairement aux vidéos provenant de plusieurs caméras, les vidéos monoculaires sont plus flexibles et peuvent être prises avec une seule caméra, telle qu’un téléphone mobile. 

Cependant, une activité élevée comme plusieurs individus dans la même scène affecte la précision de la détection humaine. C’est particulièrement vrai lorsque les individus interagissent étroitement ou se chevauchent les uns les autres dans la vidéo monocular. 

La troisième étude de l’équipe a estimé la pose humaine 3D à partir d’une vidéo en combinant deux méthodes existantes, qui étaient les approches de haut en bas et de bas en haut. La nouvelle méthode produit une estimation de pose plus fiable dans les paramètres multi-personnes par rapport aux deux autres, et elle est mieux équipée pour gérer la distance entre les individus. 

« Dans l’étape suivante de nos recherches sur l’estimation de la pose humaine 3D, qui est soutenue par la National Research Foundation, nous allons examiner comment protéger les informations de confidentialité des vidéos. Pour les méthodes d’amélioration de la visibilité, nous nous efforçons de contribuer aux progrès dans le domaine de la vision par ordinateur, car ils sont essentiels à de nombreuses applications qui peuvent affecter notre vie quotidienne, telles que permettre aux voitures autonomes de fonctionner mieux dans des conditions météorologiques défavorables », a déclaré le prof. Tan.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.