Kunstig intelligens
Forskere utvikler nye teknikker for å forbedre forringede bilder

Et team av forskere ved Yale-NUS College har utviklet nye datasyn og dyplæringsmetoder for å trekke ut mer nøyaktige data fra syn på lavt nivå i videoer forårsaket av miljøfaktorer som regn og natteforhold. De forbedret også nøyaktigheten av 3D-estimering av menneskelig positur i videoer.
Datasynsteknologi, som brukes i applikasjoner som automatiske overvåkingssystemer, autonome kjøretøy og verktøy for helsetjenester og sosial distansering, påvirkes ofte av miljøfaktorer, som kan forårsake problemer med de uthentede dataene.
Den nye forskningen ble presentert på 2021-konferanse om datasyn og mønstergjenkjenning (CVPR).
Miljøpåvirkning på bilder
Forhold som lite lys og menneskeskapte lyseffekter som gjenskinn, glød og flomlys påvirker nattbilder. Regnbilder påvirkes også av regnstriper eller regnansamlinger.
Yale-NUS College førsteamanuensis i naturvitenskap Robby Tan ledet forskerteamet.
"Mange datasynssystemer som automatisk overvåking og selvkjørende biler, er avhengige av klar synlighet av inndatavideoene for å fungere bra. For eksempel kan ikke selvkjørende biler fungere robust i kraftig regn og CCTV automatiske overvåkingssystemer svikter ofte om natten, spesielt hvis scenene er mørke eller det er betydelig gjenskinn eller flomlys, sier Assoc. Prof Tan.
Teamet stolte på to separate studier som introduserte dype læringsalgoritmer for å forbedre kvaliteten på nattvideoer og regnvideoer.
Den første studien fokuserte på å øke lysstyrken og samtidig undertrykke støy og lyseffekter, som gjenskinn, glød og flomlys for å lage klare nattbilder. Den nye teknikken er rettet mot å forbedre klarheten i nattbilder og videoer når det er uunngåelig gjenskinn, noe eksisterende metoder ennå ikke har gjort.
I land der mye regn er vanlig, påvirker opphopning av regn negativt synligheten i videoer. Den andre studien tok sikte på å løse problemet ved å introdusere en metode som bruker en rammejustering, som muliggjør bedre visuell informasjon uten å bli påvirket av regnstriper, som ofte vises tilfeldig i forskjellige rammer. Teamet brukte et bevegelig kamera for å bruke dybdeestimering, noe som hjalp til med å fjerne regnsløringseffekten. Mens eksisterende metoder dreier seg om å fjerne regnstriper, kan de nyutviklede fjerne både regnstriper og regnvelingeffekten samtidig.

Bilde: Yale-NUS College
3D Human Pose Estimation
Sammen med de nye teknikkene presenterte teamet også sin forskning på 3D-estimering av menneskelig positur, som kan brukes i videoovervåking, videospilling og sportskringkasting.
3D multi-person positur estimering fra en monokulær video, eller video tatt fra et enkelt kamera, har blitt stadig mer forsket på de siste årene. I motsetning til videoer fra flere kameraer, er monokulære videoer mer fleksible og kan tas med ett enkelt kamera, for eksempel en mobiltelefon.
Med det sagt, påvirker høy aktivitet som flere individer i samme scene nøyaktigheten i menneskelig deteksjon. Dette gjelder spesielt når individer samhandler tett eller overlapper hverandre i den monokulære videoen.
Teamets tredje studie estimerte 3D-menneskelig positur fra en video ved å kombinere to eksisterende metoder, som var top-down og bottom-up tilnærminger. Den nye metoden gir mer pålitelig estimering av posering i multi-person-innstillinger sammenlignet med de to andre, og den er bedre rustet til å håndtere avstand mellom individer.
"Som et neste trinn i vår 3D-undersøkelse for menneskelig positur-estimering, som støttes av National Research Foundation, vil vi se på hvordan vi kan beskytte personverninformasjonen til videoene. For synlighetsforbedringsmetodene streber vi etter å bidra til fremskritt innen datasyn, siden de er kritiske for mange applikasjoner som kan påvirke hverdagen vår, for eksempel å gjøre selvkjørende biler i stand til å fungere bedre under ugunstige værforhold. Assoc. Prof Tan.