Συνδεθείτε μαζί μας

Ερευνητές αναπτύσσουν νέες τεχνικές για τη βελτίωση των υποβαθμισμένων εικόνων

Τεχνητή νοημοσύνη

Ερευνητές αναπτύσσουν νέες τεχνικές για τη βελτίωση των υποβαθμισμένων εικόνων

mm

Μια ομάδα ερευνητών στο Yale-NUS College έχει αναπτύξει νέες προσεγγίσεις όρασης υπολογιστή και βαθιάς μάθησης για να εξάγει πιο ακριβή δεδομένα από την όραση χαμηλού επιπέδου σε βίντεο που προκαλούνται από περιβαλλοντικούς παράγοντες όπως η βροχή και οι νυχτερινές συνθήκες. Βελτίωσαν επίσης την ακρίβεια της τρισδιάστατης εκτίμησης ανθρώπινης πόζας στα βίντεο. 

Η τεχνολογία υπολογιστικής όρασης, η οποία χρησιμοποιείται σε εφαρμογές όπως συστήματα αυτόματης επιτήρησης, αυτόνομα οχήματα και εργαλεία υγειονομικής περίθαλψης και κοινωνικής απόστασης, συχνά επηρεάζεται από περιβαλλοντικούς παράγοντες, οι οποίοι μπορούν να προκαλέσουν προβλήματα με τα εξαγόμενα δεδομένα.

Η νέα έρευνα παρουσιάστηκε στο 2021 Συνέδριο για την όραση και την αναγνώριση προτύπων υπολογιστή (CVPR)

Περιβαλλοντικές επιπτώσεις στις εικόνες

Συνθήκες όπως ο χαμηλός φωτισμός και τα ανθρωπογενή εφέ φωτός όπως η λάμψη, η λάμψη και οι προβολείς επηρεάζουν τις νυχτερινές εικόνες. Οι εικόνες βροχής επηρεάζονται επίσης από ραβδώσεις βροχής ή συσσώρευση βροχής. 

Ο αναπληρωτής καθηγητής Επιστήμης του Κολλεγίου Yale-NUS Robby Tan ηγήθηκε της ερευνητικής ομάδας. 

«Πολλά συστήματα υπολογιστικής όρασης, όπως η αυτόματη επιτήρηση και τα αυτοοδηγούμενα αυτοκίνητα, βασίζονται στην καθαρή ορατότητα των εισερχόμενων βίντεο για να λειτουργούν καλά. Για παράδειγμα, τα αυτοοδηγούμενα αυτοκίνητα δεν μπορούν να λειτουργήσουν σθεναρά σε δυνατή βροχή και τα συστήματα αυτόματης παρακολούθησης CCTV συχνά αποτυγχάνουν τη νύχτα, ιδιαίτερα εάν οι σκηνές είναι σκοτεινές ή υπάρχει σημαντική λάμψη ή προβολείς», δήλωσε ο Αναπλ. Καθ. Ταν.

Η ομάδα βασίστηκε σε δύο ξεχωριστές μελέτες που εισήγαγαν αλγόριθμους βαθιάς μάθησης για να βελτιώσουν την ποιότητα των νυχτερινών βίντεο και των βίντεο βροχής. 

Η πρώτη μελέτη επικεντρώθηκε στην ενίσχυση της φωτεινότητας, ενώ ταυτόχρονα καταστέλλει το θόρυβο και τα εφέ φωτός, όπως η λάμψη, η λάμψη και οι προβολείς για τη δημιουργία καθαρών εικόνων τη νύχτα. Η νέα τεχνική στοχεύει στη βελτίωση της ευκρίνειας στις νυχτερινές εικόνες και τα βίντεο όταν υπάρχει αναπόφευκτη λάμψη, κάτι που δεν έχουν κάνει ακόμη οι υπάρχουσες μέθοδοι. 

Σε χώρες όπου η έντονη βροχόπτωση είναι συχνή, η συσσώρευση βροχής επηρεάζει αρνητικά την ορατότητα στα βίντεο. Η δεύτερη μελέτη ξεκίνησε να αντιμετωπίσει το πρόβλημα εισάγοντας μια μέθοδο που χρησιμοποιεί μια ευθυγράμμιση πλαισίων, η οποία επιτρέπει καλύτερες οπτικές πληροφορίες χωρίς να επηρεάζεται από ραβδώσεις βροχής, οι οποίες συχνά εμφανίζονται τυχαία σε διαφορετικά καρέ. Η ομάδα χρησιμοποίησε μια κινούμενη κάμερα για να χρησιμοποιήσει την εκτίμηση βάθους, η οποία βοήθησε στην αφαίρεση του φαινομένου της βροχής. Ενώ οι υπάρχουσες μέθοδοι περιστρέφονται γύρω από την αφαίρεση των ραβδώσεων βροχής, οι πρόσφατα αναπτυγμένες μπορούν να αφαιρέσουν ταυτόχρονα τόσο τις λωρίδες βροχής όσο και το φαινόμενο της βροχής. 

Εικόνα: Yale-NUS College

Τρισδιάστατη εκτίμηση ανθρώπινης στάσης

Μαζί με τις νέες τεχνικές, η ομάδα παρουσίασε επίσης την έρευνά της για την εκτίμηση της ανθρώπινης πόζας 3D, η οποία μπορεί να χρησιμοποιηθεί σε βιντεοπαρακολούθηση, βιντεοπαιχνίδια και αθλητικές εκπομπές. 

Η τρισδιάστατη εκτίμηση πόζας πολλών ατόμων από ένα μονόφθαλμο βίντεο ή βίντεο που λαμβάνεται από μία μόνο κάμερα, ερευνάται όλο και περισσότερο τα τελευταία χρόνια. Σε αντίθεση με τα βίντεο από πολλές κάμερες, τα μονόφθαλμα βίντεο είναι πιο ευέλικτα και μπορούν να ληφθούν με μία μόνο κάμερα, όπως ένα κινητό τηλέφωνο. 

Με αυτό, η υψηλή δραστηριότητα όπως πολλά άτομα στην ίδια σκηνή επηρεάζει την ακρίβεια στην ανίχνευση του ανθρώπου. Αυτό ισχύει ιδιαίτερα όταν τα άτομα αλληλεπιδρούν στενά ή επικαλύπτονται μεταξύ τους στο μονόφθαλμο βίντεο. 

Η τρίτη μελέτη της ομάδας υπολόγισε την τρισδιάστατη ανθρώπινη στάση από ένα βίντεο συνδυάζοντας δύο υπάρχουσες μεθόδους, οι οποίες ήταν προσεγγίσεις από πάνω προς τα κάτω και από κάτω προς τα πάνω. Η νέα μέθοδος παράγει πιο αξιόπιστη εκτίμηση πόζας σε ρυθμίσεις πολλών ατόμων σε σύγκριση με τις άλλες δύο, και είναι καλύτερα εξοπλισμένη για να χειρίζεται την απόσταση μεταξύ των ατόμων. 

«Ως επόμενο βήμα στην έρευνα μας για την εκτίμηση της ανθρώπινης πόζας 3D, η οποία υποστηρίζεται από το Εθνικό Ίδρυμα Ερευνών, θα εξετάσουμε πώς να προστατεύσουμε τις πληροφορίες απορρήτου των βίντεο. Όσον αφορά τις μεθόδους βελτίωσης της ορατότητας, προσπαθούμε να συμβάλουμε στις εξελίξεις στον τομέα της όρασης υπολογιστών, καθώς είναι κρίσιμες για πολλές εφαρμογές που μπορούν να επηρεάσουν την καθημερινότητά μας, όπως η δυνατότητα των αυτοοδηγούμενων αυτοκινήτων να λειτουργούν καλύτερα σε αντίξοες καιρικές συνθήκες», είπε. Αναπλ. Καθ. Ταν.

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις AI παγκοσμίως.