Intelligence Artificielle
Des chercheurs développent de nouvelles techniques pour améliorer les images dégradées

Une équipe de chercheurs du Yale-NUS College a développé de nouvelles approches de vision par ordinateur et d'apprentissage profond pour extraire des données plus précises de la vision de bas niveau dans les vidéos causées par des facteurs environnementaux tels que la pluie et les conditions nocturnes. Ils ont également amélioré la précision de l’estimation de la pose humaine en 3D dans les vidéos.
La technologie de vision par ordinateur, qui est utilisée dans des applications telles que les systèmes de surveillance automatique, les véhicules autonomes et les outils de santé et de distanciation sociale, est souvent affectée par des facteurs environnementaux, qui peuvent causer des problèmes avec les données extraites.
La nouvelle recherche a été présentée au Conférence 2021 sur la vision par ordinateur et la reconnaissance de formes (CVPR).
Impact environnemental sur les images
Des conditions telles que la faible luminosité et les effets de lumière artificielle tels que l'éblouissement, la lueur et les projecteurs affectent les images nocturnes. Les images de pluie sont également affectées par les traînées de pluie ou l'accumulation de pluie.
Le professeur agrégé de sciences du Yale-NUS College, Robby Tan, a dirigé l'équipe de recherche.
« De nombreux systèmes de vision par ordinateur, comme la surveillance automatique et les voitures autonomes, reposent sur une visibilité claire des vidéos d'entrée pour bien fonctionner. Par exemple, les voitures autonomes ne peuvent pas fonctionner de manière robuste sous de fortes pluies et les systèmes de surveillance automatique CCTV échouent souvent la nuit, en particulier si les scènes sont sombres ou s'il y a des reflets ou des projecteurs importants », a déclaré Assoc. Pr Tan.
L'équipe s'est appuyée sur deux études distinctes qui ont introduit des algorithmes d'apprentissage en profondeur pour améliorer la qualité des vidéos de nuit et des vidéos de pluie.
La première étude s'est concentrée sur l'augmentation de la luminosité tout en supprimant simultanément les effets de bruit et de lumière, tels que l'éblouissement, la lueur et les projecteurs pour créer des images nocturnes claires. La nouvelle technique vise à améliorer la clarté des images et des vidéos nocturnes lorsqu'il y a un éblouissement inévitable, ce que les méthodes existantes n'ont pas encore fait.
Dans les pays où les fortes pluies sont courantes, l'accumulation de pluie a un impact négatif sur la visibilité des vidéos. La deuxième étude visait à résoudre le problème en introduisant une méthode qui utilise un alignement de trame, qui permet une meilleure information visuelle sans être affecté par les traînées de pluie, qui apparaissent souvent de manière aléatoire dans différentes trames. L'équipe a utilisé une caméra mobile pour estimer la profondeur, ce qui a permis de supprimer l'effet de voile de pluie. Alors que les méthodes existantes tournent autour de la suppression des traînées de pluie, les méthodes nouvellement développées peuvent supprimer simultanément les traînées de pluie et l'effet de veling de la pluie.

Image: Collège Yale-NUS
Estimation de pose humaine 3D
Parallèlement aux nouvelles techniques, l'équipe a également présenté ses recherches sur l'estimation de la pose humaine 3D, qui peuvent être utilisées dans la vidéosurveillance, les jeux vidéo et la diffusion sportive.
L'estimation de pose 3D multi-personnes à partir d'une vidéo monoculaire, ou d'une vidéo prise à partir d'une seule caméra, a fait l'objet de plus en plus de recherches au cours des dernières années. Contrairement aux vidéos provenant de plusieurs caméras, les vidéos monoculaires sont plus flexibles et peuvent être prises avec une seule caméra, comme un téléphone portable.
Cela dit, une activité élevée comme plusieurs individus dans la même scène affecte la précision de la détection humaine. Cela est particulièrement vrai lorsque les individus interagissent étroitement ou se chevauchent dans la vidéo monoculaire.
La troisième étude de l'équipe a estimé la pose humaine 3D à partir d'une vidéo en combinant deux méthodes existantes, qui étaient des approches descendantes et ascendantes. La nouvelle méthode produit une estimation de pose plus fiable dans des environnements multi-personnes par rapport aux deux autres, et elle est mieux équipée pour gérer la distance entre les individus.
"Dans la prochaine étape de notre recherche sur l'estimation de la pose humaine en 3D, qui est soutenue par la National Research Foundation, nous examinerons comment protéger les informations de confidentialité des vidéos. Pour les méthodes d'amélioration de la visibilité, nous nous efforçons de contribuer aux progrès dans le domaine de la vision par ordinateur, car ils sont essentiels à de nombreuses applications qui peuvent affecter notre vie quotidienne, comme permettre aux voitures autonomes de mieux fonctionner dans des conditions météorologiques défavorables », a déclaré Assoc. Pr Tan.












