Suivez nous sur

Des chercheurs développent de nouvelles techniques pour améliorer les images dégradées

Intelligence Artificielle

Des chercheurs développent de nouvelles techniques pour améliorer les images dégradées

mm

Une Ă©quipe de chercheurs du Yale-NUS College a dĂ©veloppĂ© de nouvelles approches de vision par ordinateur et d'apprentissage profond pour extraire des donnĂ©es plus prĂ©cises de la vision de bas niveau dans les vidĂ©os causĂ©es par des facteurs environnementaux tels que la pluie et les conditions nocturnes. Ils ont Ă©galement amĂ©liorĂ© la prĂ©cision de l’estimation de la pose humaine en 3D dans les vidĂ©os. 

La technologie de vision par ordinateur, qui est utilisée dans des applications telles que les systèmes de surveillance automatique, les véhicules autonomes et les outils de santé et de distanciation sociale, est souvent affectée par des facteurs environnementaux, qui peuvent causer des problèmes avec les données extraites.

La nouvelle recherche a été présentée au Conférence 2021 sur la vision par ordinateur et la reconnaissance de formes (CVPR)

Impact environnemental sur les images

Des conditions telles que la faible luminositĂ© et les effets de lumière artificielle tels que l'Ă©blouissement, la lueur et les projecteurs affectent les images nocturnes. Les images de pluie sont Ă©galement affectĂ©es par les traĂ®nĂ©es de pluie ou l'accumulation de pluie. 

Le professeur agrĂ©gĂ© de sciences du Yale-NUS College, Robby Tan, a dirigĂ© l'Ă©quipe de recherche. 

« De nombreux systèmes de vision par ordinateur, comme la surveillance automatique et les voitures autonomes, reposent sur une visibilité claire des vidéos d'entrée pour bien fonctionner. Par exemple, les voitures autonomes ne peuvent pas fonctionner de manière robuste sous de fortes pluies et les systèmes de surveillance automatique CCTV échouent souvent la nuit, en particulier si les scènes sont sombres ou s'il y a des reflets ou des projecteurs importants », a déclaré Assoc. Pr Tan.

L'Ă©quipe s'est appuyĂ©e sur deux Ă©tudes distinctes qui ont introduit des algorithmes d'apprentissage en profondeur pour amĂ©liorer la qualitĂ© des vidĂ©os de nuit et des vidĂ©os de pluie. 

La première Ă©tude s'est concentrĂ©e sur l'augmentation de la luminositĂ© tout en supprimant simultanĂ©ment les effets de bruit et de lumière, tels que l'Ă©blouissement, la lueur et les projecteurs pour crĂ©er des images nocturnes claires. La nouvelle technique vise Ă  amĂ©liorer la clartĂ© des images et des vidĂ©os nocturnes lorsqu'il y a un Ă©blouissement inĂ©vitable, ce que les mĂ©thodes existantes n'ont pas encore fait. 

Dans les pays oĂą les fortes pluies sont courantes, l'accumulation de pluie a un impact nĂ©gatif sur la visibilitĂ© des vidĂ©os. La deuxième Ă©tude visait Ă  rĂ©soudre le problème en introduisant une mĂ©thode qui utilise un alignement de trame, qui permet une meilleure information visuelle sans ĂŞtre affectĂ© par les traĂ®nĂ©es de pluie, qui apparaissent souvent de manière alĂ©atoire dans diffĂ©rentes trames. L'Ă©quipe a utilisĂ© une camĂ©ra mobile pour estimer la profondeur, ce qui a permis de supprimer l'effet de voile de pluie. Alors que les mĂ©thodes existantes tournent autour de la suppression des traĂ®nĂ©es de pluie, les mĂ©thodes nouvellement dĂ©veloppĂ©es peuvent supprimer simultanĂ©ment les traĂ®nĂ©es de pluie et l'effet de veling de la pluie. 

Image: Collège Yale-NUS

Estimation de pose humaine 3D

Parallèlement aux nouvelles techniques, l'Ă©quipe a Ă©galement prĂ©sentĂ© ses recherches sur l'estimation de la pose humaine 3D, qui peuvent ĂŞtre utilisĂ©es dans la vidĂ©osurveillance, les jeux vidĂ©o et la diffusion sportive. 

L'estimation de pose 3D multi-personnes Ă  partir d'une vidĂ©o monoculaire, ou d'une vidĂ©o prise Ă  partir d'une seule camĂ©ra, a fait l'objet de plus en plus de recherches au cours des dernières annĂ©es. Contrairement aux vidĂ©os provenant de plusieurs camĂ©ras, les vidĂ©os monoculaires sont plus flexibles et peuvent ĂŞtre prises avec une seule camĂ©ra, comme un tĂ©lĂ©phone portable. 

Cela dit, une activitĂ© Ă©levĂ©e comme plusieurs individus dans la mĂŞme scène affecte la prĂ©cision de la dĂ©tection humaine. Cela est particulièrement vrai lorsque les individus interagissent Ă©troitement ou se chevauchent dans la vidĂ©o monoculaire. 

La troisième Ă©tude de l'Ă©quipe a estimĂ© la pose humaine 3D Ă  partir d'une vidĂ©o en combinant deux mĂ©thodes existantes, qui Ă©taient des approches descendantes et ascendantes. La nouvelle mĂ©thode produit une estimation de pose plus fiable dans des environnements multi-personnes par rapport aux deux autres, et elle est mieux Ă©quipĂ©e pour gĂ©rer la distance entre les individus. 

"Dans la prochaine étape de notre recherche sur l'estimation de la pose humaine en 3D, qui est soutenue par la National Research Foundation, nous examinerons comment protéger les informations de confidentialité des vidéos. Pour les méthodes d'amélioration de la visibilité, nous nous efforçons de contribuer aux progrès dans le domaine de la vision par ordinateur, car ils sont essentiels à de nombreuses applications qui peuvent affecter notre vie quotidienne, comme permettre aux voitures autonomes de mieux fonctionner dans des conditions météorologiques défavorables », a déclaré Assoc. Pr Tan.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.