Connect with us

Συνθετική Εικόνα Ανθρώπου από Ανακλώμενες Ραδιοκύματα

Τεχνητή νοημοσύνη

Συνθετική Εικόνα Ανθρώπου από Ανακλώμενες Ραδιοκύματα

mm

Ερευνητές από την Κίνα έχουν αναπτύξει μια μέθοδο για τη σύνθεση φωτογραφιών που μοιάζουν με φωτογραφίες ανθρώπων χωρίς τη χρήση κάμερας, χρησιμοποιώντας ραδιοκύματα και Δικτυακά Ανταγωνιστικά Μοντέλα (GANs). Το σύστημα που έχουν αναπτύξει έχει εκπαιδευτεί σε πραγματικές εικόνες που έχουν ληφθεί σε καλό φως, αλλά είναι ικανό να καταγράφει σχετικά αυθεντικές “φωτογραφίες” ανθρώπων ακόμη και όταν οι συνθήκες είναι σκοτεινές – και ακόμη και μέσω σημαντικών εμποδίων που θα κρύβουν τους ανθρώπους από τις συμβατικές κάμερες.

Οι εικόνες βασίζονται σε “χαρτες θερμότητας” από δύο ραδιοαντένες, μια που καταγράφει δεδομένα από το ταβάνι προς τα κάτω, και μια άλλη που καταγράφει διαταραχές ραδιοκυμάτων από μια “όρθια” θέση.

Οι εικόνες που προκύπτουν από τα πειράματα των ερευνητών έχουν ένα πρόσωπο χωρίς χαρακτηριστικά, με ένα “J-Horror” στυλ:

Βασισμένο στην εκπαίδευση πραγματικών εικόνων ανθρώπων στο ίδιο περιβάλλον, το RFGAN χρησιμοποιεί χαρτες θερμότητας ραδιοκυμάτων για να καταγράψει την ανθρώπινη δραστηριότητα και να δημιουργήσει φωτογραφίες που προσεγγίζουν αυτό που η περιορισμένη ανάλυση των χαμηλής συχνότητας ραδιοσημάτων αντιλαμβάνεται. Τα φώτα δεν είναι απαραίτητα,既然 τα χρώματα (παραφράζοντας) αντιλαμβάνονται με τον τρόπο που τα ραδιοκύματα διαταράσσονται από την παρουσία των ανθρώπων και από τις διακυμάνσεις της συχνότητας καθώς τα ραδιοκύματα επιστρέφουν με διαφορετικά χαρακτηριστικά. Πηγή: https://arxiv.org/pdf/2112.03727.pdf

Το RFGAN έχει εκπαιδευτεί σε εικόνες πραγματικών ανθρώπων σε ελεγχόμενα περιβάλλοντα και σε χαρτες θερμότητας ραδιοκυμάτων που καταγράφουν την ανθρώπινη δραστηριότητα. Έχοντας μάθει χαρακτηριστικά από τα δεδομένα, το RFGAN μπορεί να δημιουργήσει φωτογραφίες με βάση νέα δεδομένα ραδιοκυμάτων. Η αποτελούμενη εικόνα είναι μια προσέγγιση, με βάση την περιορισμένη ανάλυση των χαμηλής συχνότητας ραδιοσημάτων που είναι διαθέσιμα. Αυτή η διαδικασία λειτουργεί ακόμη και σε σκοτεινά περιβάλλοντα, και μέσω ποικίλων πιθανών εμποδίων. Πηγή: https://arxiv.org/pdf/2112.03727.pdf

Για την εκπαίδευση του GAN, που ονομάζεται RFGAN, οι ερευνητές χρησιμοποίησαν δεδομένα από μια τυπική κάμερα RGB και από τους συνδεδεμένους αντίστοιχους χάρτες θερμότητας ραδιοκυμάτων που παράχθηκαν στο ακριβές моментό της λήψης. Οι εικόνες συνθετικών ανθρώπων στο νέο έργο έχουν μια θολή εμφάνιση, παρόμοια με την πρώιμη φωτογραφία Daguerreotype, επειδή η ανάλυση των ραδιοκυμάτων που χρησιμοποιούνται είναι πολύ χαμηλή, με μια ανάλυση βάθους 7,5 εκατοστών και μια γωνιακή ανάλυση περίπου 1,3 μοιρών.

Πάνω, η εικόνα που τροφοδοτεί το δίκτυο GAN – κάτω, οι δύο χάρτες θερμότητας, οριζόντιος και κατακόρυφος, που χαρακτηρίζουν τον άνθρωπο στο δωμάτιο, και που συνθέτουν τον εαυτό τους μέσα στην αρχιτεκτονική σε μια τρισδιάστατη αναπαράσταση των διαταραχθέντων δεδομένων.

Πάνω, η εικόνα που τροφοδοτεί το δίκτυο GAN – κάτω, οι δύο χάρτες θερμότητας, οριζόντιος και κατακόρυφος, που χαρακτηρίζουν τον άνθρωπο στο δωμάτιο, και που συνθέτουν τον εαυτό τους μέσα στην αρχιτεκτονική σε μια τρισδιάστατη αναπαράσταση των διαταραχθέντων δεδομένων.

Το νέο έγγραφο, με τίτλο RFGAN: RF-Based Human Synthesis, προέρχεται από έξι ερευνητές από το Πανεπιστήμιο Ηλεκτρονικής Επιστήμης και Τεχνολογίας της Κίνας.

Δεδομένα και Αρχιτεκτονική

Λόγω της έλλειψης προηγούμενων συνόλων δεδομένων ή έργων που μοιράζονται αυτό το πεδίο, και του γεγονότος ότι τα σήματα ραδιοσυχνότητας δεν έχουν χρησιμοποιηθεί πριν σε ένα πλαίσιο σύνθεσης εικόνας GAN, οι ερευνητές έπρεπε να αναπτύξουν νέες μεθοδολογίες.

Η βασική αρχιτεκτονική του RFGAN.

Η βασική αρχιτεκτονική του RFGAN.

Χρησιμοποιήθηκε προσαρμοστική κανονικοποίηση για να ερμηνευθούν οι δίδυμοι χάρτες θερμότητας κατά την εκπαίδευση, ώστε να αντιστοιχούν χωρικά με τα δεδομένα εικόνας που καταγράφηκαν.

Τα συσκευές λήψης ραδιοκυμάτων ήταν ραντάρ mmWave που διαμορφώθηκαν ως δύο πίνακες κεραιών, οριζόντιος και κατακόρυφος. Χρησιμοποιήθηκαν FMCW και γραμμικές κεραίες για τη μετάδοση και λήψη.

Ο Γεννήτωρ λαμβάνει ένα πηγή-πλαίσιο ως εισαγωγική στρώση, με την RF-σύντηξη (χάρτης θερμότητας) που διευθύνει το δίκτυο μέσω κανονικοποίησης στο επίπεδο των στρωμάτων σύγκλισης.

Δεδομένα

Τα δεδομένα συλλέχθηκαν από ανακλώμενες ραδιοκύματα από την κεραία mmWave σε μια ταχύτητα μόλις 20Hz, με ταυτόχρονη λήψη βίντεο ανθρώπων σε μια πολύ χαμηλή ταχύτητα 10fps. Εννέα εσωτερικά σκηνικά καταγράφηκαν, χρησιμοποιώντας έξι εθελοντές, οι οποίοι φόρεσαν διαφορετικά ρούχα για διάφορες συνεδρίες της συλλογής δεδομένων.

Το αποτέλεσμα ήταν δύο ξεχωριστά σύνολα δεδομένων, RF-Activity και RF-Walk, το πρώτο περιέχει 68.860 εικόνες ανθρώπων σε διάφορες θέσεις (όπως squat και walk), μαζί με 137.760 αντίστοιχους πλαισιωμένους χάρτες θερμότητας· και το δεύτερο περιέχει 67.860 πλαισιωμένες εικόνες τυχαίας περπατήματος ανθρώπων, μαζί με 135.720 ζευγάρια συνδεδεμένων χαρτών θερμότητας.

Τα δεδομένα, σύμφωνα με τη συνήθεια, χωρίστηκαν ανισόμορφα μεταξύ εκπαίδευσης και δοκιμής, με 55.225 πλαισιωμένες εικόνες και 110.450 ζευγάρια χαρτών θερμότητας που χρησιμοποιήθηκαν για εκπαίδευση, και το υπόλοιπο κρατήθηκε για δοκιμή. Οι πλαισιωμένες εικόνες RGB μετρήθηκαν σε 320×180, και οι χάρτες θερμότητας μετρήθηκαν σε 201×160.

Το μοντέλο εκπαιδεύτηκε με Adam σε μια σταθερή ταχύτητα μάθησης 0,0002 για τον γεννήτορα και τον διακρίτη, σε μια εποχή 80 και μια πολύ σπάνια μέγεθος δείγματος 2. Η εκπαίδευση πραγματοποιήθηκε μέσω PyTorch σε μια κατανάλωση-επίπεδο GTX-1080 GPU, της οποίας τα 8GB VRAM θα θεωρούνταν γενικά khá modest για ένα τέτοιο έργο (εξηγώντας τη χαμηλή μέγεθος δείγματος).

Αν και οι ερευνητές προσάρμοσαν μερικά συμβατικά μετρικά για δοκιμή της πραγματικότητας της εξόδου (περιλαμβάνονται στο έγγραφο), και πραγματοποίησαν τις συνήθεις δοκιμές αφαίρεσης, δεν υπήρχε ισοδύναμο προηγούμενο έργο με το οποίο να μετρηθεί η απόδοση του RFGAN.

Ανοιχτό Ενδιαφέρον για Κρυφά Σήματα

Το RFGAN δεν είναι το πρώτο έργο που προσπάθησε να χρησιμοποιήσει ραδιοκύματα για να δημιουργήσει một τρισδιάστατη εικόνα του τι συμβαίνει σε ένα δωμάτιο. Το 2019 ερευνητές από το MIT CSAIL ανέπτυξαν μια αρχιτεκτονική που ονομάζεται RF-Avatar, ικανή να αναπαράγει τρισδιάστατους ανθρώπους με βάση σήματα ραδιοσυχνότητας στο εύρος Wi-Fi, υπό σκληρές συνθήκες αποκρύψεως.

Στο έργο του MIT CSAIL από το 2019, τα ραδιοκύματα χρησιμοποιήθηκαν για να αφαιρέσουν αποκρύψεις, ακόμη και συμπεριλαμβανομένων τοίχων και ρούχων, για να αναπαράγει τους καταγεγραμμένους υποκειμένους σε μια πιο παραδοσιακή ροή εργασίας CGI. Πηγή: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Στο έργο του MIT CSAIL από το 2019, τα ραδιοκύματα χρησιμοποιήθηκαν για να αφαιρέσουν αποκρύψεις, ακόμη και συμπεριλαμβανομένων τοίχων και ρούχων, για να αναπαράγει τους καταγεγραμμένους υποκειμένους σε μια πιο παραδοσιακή ροή εργασίας CGI. Πηγή: https://people.csail.mit.edu/mingmin/papers/rf-avatar.pdf

Οι ερευνητές του νέου εγγράφου αναγνωρίζουν επίσης χαλαρά σχετιζόμενο προηγούμενο έργο γύρω από την χαρτογράφηση περιβάλλοντος με ραδιοκύματα (κανένα από αυτά δεν προσπάθησε να αναπαράγει φωτογραφικούς ανθρώπους), που ζητούσε να εκτιμήσει την ταχύτητα ανθρώπων· δείτε μέσω τοίχων με Wi-Fi· αξιολογήστε τις στάσεις ανθρώπων· και ακόμη αναγνωρίστε τις χειρονομίες ανθρώπων, μεταξύ άλλων στόχων.

Μεταφορικότητα και Ευρύτερη Εφαρμογή

Οι ερευνητές στη συνέχεια προσπάθησαν να δουν αν η ανακάλυψή τους ήταν υπερ-προσαρμοσμένη στο αρχικό περιβάλλον λήψης και τις συνθήκες εκπαίδευσης, αν και το έγγραφο προσφέρει λίγες λεπτομέρειες για αυτή τη φάση του πειράματος. Δηλώνουν:

‘Για να αναπτύξουμε το μοντέλο μας σε ένα νέο σκηνικό, δεν χρειάζεται να ξαναεκπαιδεύσουμε ολόκληρο το μοντέλο από την αρχή. Μπορούμε να tinh chỉnh το προ-εκπαιδευμένο RFGAN χρησιμοποιώντας πολύ λίγα δεδομένα (περίπου 40s δεδομένα) για να πάρουμε παρόμοια αποτελέσματα.’

Και συνεχίζουν:

‘Οι συναρτήσεις απώλειας και οι υπερπαράμετροι είναι οι ίδιες με το στάδιο εκπαίδευσης. Από τα ποσοτικά αποτελέσματα, βρήκαμε ότι το προ-εκπαιδευμένο μοντέλο RFGAN μπορεί να δημιουργήσει επιθυμητές πλαισιωμένες εικόνες ανθρώπων στο νέο σκηνικό μετά από tinh chỉnh με μόνο λίγα δεδομένα, που σημαίνει ότι το προτεινόμενο μοντέλο μας έχει τη δυνατότητα να χρησιμοποιηθεί ευρέως.’

Βασισμένο στις λεπτομέρειες του εγγράφου για αυτή τη σεμναλική εφαρμογή της νέας τεχνικής, δεν είναι σαφές αν το δίκτυο που έχουν δημιουργήσει οι ερευνητές είναι ‘fit-εκπαιδευμένο’ αποκλειστικά για τους αρχικούς υποκειμένους, ή αν οι χάρτες θερμότητας ραδιοκυμάτων μπορούν να καταλάβουν λεπτομέρειες όπως το χρώμα των ρούχων, καθώς αυτό φαίνεται να διασχίζει τις δύο διαφορετικές συχνότητες που εμπλέκονται στις οπτικές και ραδιο-αποθήκες μεθόδους.

Είτε τρόπο, το RFGAN είναι ένας καινοτόμος τρόπος για να χρησιμοποιηθούν οι μιμητικές και αναπαραστατικές δυνάμεις των Δικτυακών Ανταγωνιστικών Μοντέλων για να δημιουργήσουν μια νέα και ενδιαφέρουσα μορφή επιτήρησης – μια που θα μπορούσε να λειτουργήσει ακόμη και στο σκοτάδι και μέσω τοίχων, με έναν τρόπο ακόμη πιο εντυπωσιακό από τις πρόσφατες προσπάθειες να δείτε γύρω από γωνίες με ανακλώμενο φως.

 

 

8th Δεκεμβρίου 2021 (ημέρα πρώτης δημοσίευσης), 8:04μμ GMT+2 – αφαιρέθηκε επαναλαμβανόμενο λόγο. – MA

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]