Κυβερνοασφάλεια
Ανακάλυψη ψευδών βίντεο-συνεδριών με τη λειτουργία ‘δονητή’ του smartphone

Νέα έρευνα από τη Σιγκαπούρη έχει προτείνει einen νέο μέθοδο για την ανίχνευση εάν κάποιος στην άλλη πλευρά ενός εργαλείου τηλεδιάσκεψης smartphone χρησιμοποιεί μεθόδους όπως το DeepFaceLive για να υποδυθεί κάποιον άλλον.
Ο τίτλος SFake, η νέα προσέγγιση εγκαταλείπει τις παθητικές μεθόδους που χρησιμοποιούνται από τα περισσότερα συστήματα και προκαλεί το τηλέφωνο του χρήστη να δονηθεί (χρησιμοποιώντας τους ίδιους μηχανισμούς ‘δονητή’ που είναι κοινοί στα smartphones), και να θολώσει το πρόσωπό του.
Αν και τα συστήματα live deepfaking είναι ικανά να αναπαράγουν θόλωμα κίνησης, εφόσον το θολωμένο βίντεο περιλαμβανόταν στα δεδομένα εκπαίδευσης, ή τουλάχιστον στα δεδομένα προ-εκπαίδευσης, δεν μπορούν να ανταποκριθούν αρκετά γρήγορα στο απρόσμενο θόλωμα αυτού του είδους και συνεχίζουν να εξοδεύουν μη θολωμένα τμήματα προσώπων, αποκαλύπτοντας την ύπαρξη μιας ψευδούς τηλεδιάσκεψης.

Το DeepFaceLive δεν μπορεί να ανταποκριθεί αρκετά γρήγορα για να προσομοιώσει το θόλωμα που προκαλείται από τις δονήσεις της κάμερας. Πηγή: https://arxiv.org/pdf/2409.10889v1
Τα αποτελέσματα των δοκιμών στους ερευνητές’ αυτο-δημιουργημένο dataset (καθώς δεν υπάρχουν datasets που να περιλαμβάνουν ενεργό δόνηση κάμερας) έδειξαν ότι το SFake υπερέβη τις ανταγωνιστικές μεθόδους ανίχνευσης ψευδών βίντεο, ακόμη και όταν αντιμετώπισε δύσκολες περιστάσεις, όπως η φυσική κίνηση του χεριού που συμβαίνει όταν ο άλλος άνθρωπος σε μια τηλεδιάσκεψη κρατάει την κάμερα με το χέρι του, αντί να χρησιμοποιεί einen στατικό phone mount.
Η αυξανόμενη ανάγκη για ανίχνευση ψευδών βίντεο
Η έρευνα για την ανίχνευση ψευδών βίντεο έχει αυξηθεί πρόσφατα. Σε μια περίοδο několika ετών με επιτυχημένες φωνητικές ψευδείς κλοπές, νωρίτερα αυτό το έτος ένας εργαζόμενος της τραπεζικής χρησιμοποιήθηκε για να μεταφέρει 25 εκατομμύρια δολάρια σε einen απάτη που χρησιμοποιούσε einen ψευδή τηλεδιάσκεψη με το DeepFaceLive.
Αν και ένα σύστημα αυτού του είδους απαιτεί υψηλό επίπεδο πρόσβασης στο υλικό, πολλοί χρήστες smartphone είναι ήδη συνηθισμένοι σε υπηρεσίες επαλήθευσης που μας ζητούν να καταγράψουμε τα χαρακτηριστικά του προσώπου μας για επαλήθευση προσώπου (πράγματι, αυτό είναι μέρος της διαδικασίας επαλήθευσης του LinkedIn).
Επομένως, φαίνεται πιθανό ότι τέτοιες μεθόδους θα επιβληθούν όλο και περισσότερο για συστήματα τηλεδιάσκεψης, καθώς αυτό το είδος εγκλήματος συνεχίζει να κάνει τα νέα.
Οι περισσότερες λύσεις που αντιμετωπίζουν την ψευδής τηλεδιάσκεψη σε πραγματικό χρόνο υποθέτουν μια πολύ στατική σκηνή, όπου ο επικοινωνούντος χρησιμοποιεί einen στατικό webcam, και δεν υπάρχουν κινήσεις ή υπερβολικές αλλαγές περιβάλλοντος ή φωτισμού. Eine τηλεδιάσκεψη με smartphone δεν προσφέρει τέτοια ‘σταθερή’ κατάσταση.
Αντίθετα, το SFake χρησιμοποιεί eine σειρά από μεθόδους ανίχνευσης για να αντισταθμίσει τον μεγάλο αριθμό οπτικών παραλλαγών σε eine τηλεδιάσκεψη με smartphone, και φαίνεται να είναι η πρώτη έρευνα που αντιμετωπίζει το ζήτημα με χρήση стандάρδων μηχανισμών δονητή που είναι ενσωματωμένοι στα smartphones.
Το έγγραφο με τίτλο Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, και προέρχεται από δύο ερευνητές από το Nanyang Technological University στη Σιγκαπούρη.
Μέθοδος
Το SFake σχεδιάζεται ως eine cloud- आधική υπηρεσία, όπου eine τοπική εφαρμογή θα στείλει δεδομένα σε eine απομακρυσμένη API υπηρεσία για επεξεργασία, και τα αποτελέσματα θα σταλούν πίσω.
Ωστόσο, η μικρή του αποτύπωση 450mb και η βελτιστοποιημένη μεθοδολογία του επιτρέπουν να επεξεργαστεί την ανίχνευση ψευδών βίντεο εξ ολοκλήρου στο ίδιο το συσκευή, σε περιπτώσεις όπου η σύνδεση δικτύου θα μπορούσε να προκαλέσει υπερβολική συμπίεση των εικόνων, επηρεάζοντας τη διαγνωστική διαδικασία.
Η εκτέλεση ‘all local’ σε αυτόν τον τρόπο σημαίνει ότι το σύστημα θα είχε άμεση πρόσβαση στο ρεύμα κάμερας του χρήστη, χωρίς την παρέμβαση του codec που συχνά συναντάται στις τηλεδιασκέψεις.
Ο μέσος χρόνος ανάλυσης απαιτεί ένα δείγμα βίντεο τεσσάρων δευτερολέπτων, κατά τη διάρκεια του οποίου ο χρήστης ζητείται να παραμείνει ακίνητος, και κατά τη διάρκεια του οποίου το SFake στέλνει ‘προbes’ για να προκαλέσει δονήσεις κάμερας σε επιλεγμένα τυχαία διαστήματα που τα συστήματα όπως το DeepFaceLive δεν μπορούν να ανταποκριθούν εγκαίρως.
(Πρέπει να επαναληφθεί ότι οποιοσδήποτε επιτιθέμενος που δεν έχει περιλαμβάνει θολωμένο περιεχόμενο στο σύνολο δεδομένων εκπαίδευσης είναι απίθανο να能够 να παράγει θόλωμα ακόμη και υπό πολύ πιο ευνοϊκές περιστάσεις, και ότι το DeepFaceLive δεν μπορεί να ‘προσθέσει’ αυτή τη λειτουργικότητα σε ένα μοντέλο που έχει εκπαιδευτεί σε ένα σύνολο δεδομένων που δεν έχει περιλαμβάνει θόλωμα)
Το σύστημα επιλέγει επιλεγμένες περιοχές του προσώπου ως περιοχές πιθανής ψευδούς περιεχομένου, εξαιρώντας τα μάτια και τα φρύδια (καθώς το αναπνοή και άλλες κινήσεις του προσώπου σε αυτήν την περιοχή είναι έξω από το πεδίο της ανίχνευσης θόλωματος, και δεν είναι ένας ιδανικός δείκτης).

Σχέδιο SFake.
Όπως μπορούμε να δούμε στο σχέδιο SFake παραπάνω, μετά την επιλογή των κατάλληλων και μη προβλέψιμων μοτίβων δονητών, την επιλογή του καλύτερου εστιακού μήκους, και την εκτέλεση αναγνώρισης προσώπου (συμπεριλαμβανομένης της ανίχνευσης ορόσημων μέσω ενός Dlib component που εκτιμά ένα τυπικό 68 ορόσημα προσώπου), το SFake εξάγει gradient από το εισαγόμενο πρόσωπο και επικεντρώνεται στις επιλεγμένες περιοχές αυτών των gradient.
Η ακολουθία διακύμανσης λαμβάνεται με την ανάλυση κάθε καρέ σε ένα σύντομο clip υπό μελέτη, μέχρι να φθάσουμε στο μέσο ή ‘ιδεατό’ clip, και να αγνοήσουμε τα υπόλοιπα.
Αυτό παρέχει εξαγόμενα χαρακτηριστικά που μπορούν να χρησιμοποιηθούν ως ποσοτικοποιητής για την πιθανότητα ψευδούς περιεχομένου, με βάση το εκπαιδευμένο σύνολο δεδομένων (για το οποίο, περισσότερα σε λίγο).
Το σύστημα απαιτεί eine ανάλυση εικόνας 1920×1080 pixel, καθώς και τουλάχιστον eine απαιτούμενη zoom 2x για το φακό. Το έγγραφο σημειώνει ότι τέτοιες αναλύσεις (και ακόμη υψηλότερες αναλύσεις) υποστηρίζονται στο Microsoft Teams, Skype, Zoom, και Tencent Meeting.
Τα περισσότερα smartphones έχουν eine πρόσθια και eine οπίσθια κάμερα, και συχνά μόνο η μία από αυτές έχει τις zoom ικανότητες που απαιτούνται από το SFake. Η εφαρμογή θα απαιτούσε από τον επικοινωνούντα να χρησιμοποιήσει οποιαδήποτε από τις δύο κάμερες που πληροί τις απαιτήσεις.
Ο στόχος εδώ είναι να ληφθεί eine σωστή αναλογία του προσώπου του χρήστη στο ρεύμα βίντεο που θα αναλυθεί από το σύστημα. Το έγγραφο παρατηρεί ότι η μέση απόσταση που οι γυναίκες χρησιμοποιούν συσκευές κινητών είναι 34.7cm, και για τους άνδρες, 38.2cm (όπως αναφέρθηκε στο Journal of Optometry), και ότι το SFake λειτουργεί πολύ καλά σε αυτές τις αποστάσεις.
Καθώς η σταθεροποίηση είναι ένα ζήτημα με τηλεδιάσκεψη με χέρι, και καθώς το θόλωμα που συμβαίνει από κίνηση χεριού είναι ένα εμπόδιο για τη λειτουργία του SFake, οι ερευνητές προσπάθησαν beberapa μεθόδους για να αντισταθμίσουν. Η πιο επιτυχημένη από αυτές ήταν η υπολογισμός του κεντρικού σημείου των εκτιμώμενων ορόσημων και η χρήση αυτού ως ‘anchor’ – αποτελεσματικά eine αλγοριθμική τεχνική σταθεροποίησης. Με αυτή τη μέθοδο, μια ακρίβεια 92% επιτεύχθηκε.
Δεδομένα και δοκιμές
Καθώς δεν υπήρχαν κατάλληλα datasets για τον σκοπό, οι ερευνητές δημιούργησαν το δικό τους:
‘Χρησιμοποιούμε 8 διαφορετικά brands smartphones για να καταγράψουμε 15 συμμετέχοντες διαφόρων φύλων και ηλικιών για να δημιουργήσουμε το δικό μας dataset. Τοποθετούμε το smartphone σε ένα phone holder 20 cm μακριά από τον συμμετέχοντα και zoom σε δύο φορές, με στόχο το πρόσωπο του συμμετέχοντα για να περιλαμβάνει όλα τα χαρακτηριστικά του προσώπου του, ενώ δονητές το smartphone σε διαφορετικά μοτίβα.
‘Για τα τηλέφωνα των οποίων οι πρόσθιες κάμερες δεν μπορούν να zoom, χρησιμοποιούμε τις πίσω κάμερες ως αντικατάσταση. Καταγράφουμε 150 μεγάλες βίντεο, κάθε eine 20 δευτερολέπτων διάρκειας. Καθώς η περίοδος ανίχνευσης διαρκεί 4 δευτερόλεπτα. Κόβουμε 10 clips 4 δευτερολέπτων από ένα μεγάλο βίντεο με τυχαία επιλογή του χρόνου έναρξης. Έτσι, λαμβάνουμε συνολικά 1500 πραγματικά clips, κάθε eine 4 δευτερόλεπτα. ‘
Αν και το DeepFaceLive (GitHub link) ήταν το κεντρικό στόχο της μελέτης, καθώς είναι目前 το πιο ευρέως χρησιμοποιούμενο ανοιχτό σύστημα live deepfaking, οι ερευνητές συμπεριέλαβαν τέσσερις άλλες μεθόδους για να εκπαιδεύσουν το βασικό μοντέλο ανίχνευσης: Hififace; FS-GANV2; RemakerAI; και MobileFaceSwap – η τελευταία από αυτές eine ιδιαίτερα κατάλληλη επιλογή, δεδομένου του στόχου περιβάλλοντος.
1500 ψευδείς βίντεο χρησιμοποιήθηκαν για την εκπαίδευση, μαζί με τον ίδιο αριθμό πραγματικών και αμετάβλητων βίντεο.
Το SFake δοκιμάστηκε ενάντια σε几个 διαφορετικά ταξινομητές, συμπεριλαμβανομένων SBI; FaceAF; CnnDetect; LRNet; DefakeHop variants; και την δωρεάν online υπηρεσία ανίχνευσης ψευδών βίντεο Deepaware. Για κάθε eine από αυτές τις μεθόδους ψευδών βίντεο, 1500 ψευδείς και 1500 πραγματικές βίντεο εκπαιδεύτηκαν.
Για τον βασικό ταξινομητή δοκιμής, χρησιμοποιήθηκε ένα απλό δίκτυο νευρώνων με eine ReLU activation function. 1000 πραγματικές και 1000 ψευδείς βίντεο επιλέχθηκαν τυχαία (αν και τα ψευδείς βίντεο ήταν αποκλειστικά παραδείγματα DeepFaceLive).
Η περιοχή κάτω από την καμπύλη ROC (AUC/AUROC) και η ακρίβεια (ACC) χρησιμοποιήθηκαν ως μετρικές.
Για την εκπαίδευση και την ενημέρωση, χρησιμοποιήθηκε ένα NVIDIA RTX 3060, και οι δοκιμές εκτελέστηκαν υπό Ubuntu. Τα βίντεο δοκιμής ηχογραφήθηκαν με ένα Xiaomi Redmi 10x, ένα Xiaomi Redmi K50, ένα OPPO Find x6, ένα Huawei Nova9, ένα Xiaomi 14 Ultra, ένα Honor 20, ένα Google Pixel 6a, και ένα Huawei P60.
Για να συμμορφωθεί με τις υπάρχουσες μεθόδους ανίχνευσης, οι δοκιμές υλοποιήθηκαν σε PyTorch. Τα κύρια αποτελέσματα δοκιμών εμφανίζονται στον πίνακα παρακάτω:

Αποτελέσματα για SFake ενάντια σε ανταγωνιστικές μεθόδους.
Εδώ οι συγγραφείς σχολιάζουν:
‘Σε όλες τις περιπτώσεις, η ακρίβεια ανίχνευσης του SFake υπερέβη το 95%. Μεταξύ των πέντε αλγορίθμων ψευδών βίντεο, εκτός από το Hififace, το SFake εκτελεί καλύτερα ενάντια σε άλλους αλγορίθμους ψευδών βίντεο από τις άλλες έξι μεθόδους ανίχνευσης. Καθώς ο ταξινομητής μας εκπαιδεύτηκε χρησιμοποιώντας ψευδείς εικόνες που παράγονται από το DeepFaceLive, φτάνει στο υψηλότερο ποσοστό ακρίβειας 98.8% όταν ανιχνεύει το DeepFaceLive.
‘Όταν αντιμετωπίζουμε ψευδείς πρόσωπα που παράγονται από το RemakerAI, άλλες μεθόδους ανίχνευσης εκτελούν खरά. Υποθέτουμε ότι αυτό μπορεί να οφείλεται στην αυτόματη συμπίεση των βίντεο όταν κατεβάζονται από το διαδίκτυο, με αποτέλεσμα την απώλεια λεπτομερειών εικόνας και επομένως την μείωση της ακρίβειας ανίχνευσης. Ωστόσο, αυτό δεν επηρεάζει την ανίχνευση από το SFake, το οποίο επιτυγχάνει ακρίβεια 96.8% στην ανίχνευση ενάντια στο RemakerAI.’
Οι συγγραφείς σημειώνουν επίσης ότι το SFake είναι το πιο αποτελεσματικό σύστημα στην περίπτωση μιας 2x zoom που εφαρμόζεται στο φακό, поскольку αυτό τονίζει την κίνηση, και είναι eine εξαιρετικά δύσκολη προοπτική. Ακόμη και σε αυτήν την περίπτωση, το SFake ήταν σε θέση να επιτύχει αναγνώριση ακρίβειας 84% και 83%, αντίστοιχα για 2.5 και 3 παράγοντες μεγέθυνσης.
Συμπέρασμα
Ένα έργο που χρησιμοποιεί τις αδυναμίες ενός συστήματος live deepfaking ενάντια στον εαυτό του είναι eine φρέσκια προσφορά σε ένα έτος όπου η ανίχνευση ψευδών βίντεο έχει κυριαρχηθεί από έγγραφα που έχουν απλώς ανακατεύθυνε τις παραδοσιακές προσεγγίσεις γύρω από την ανάλυση συχνότητας (η οποία είναι μακράν ασφαλής από τις καινοτομίες στο χώρο των ψευδών βίντεο).
Στο τέλος του 2022, ένα άλλο σύστημα χρησιμοποιούσε την αλλαγή της φωτεινότητας του монιτόρ ως einen ανιχνευτή. Και το ίδιο έτος, η δική μου επίδειξη της αδυναμίας του DeepFaceLive να αντιμετωπίσει σκληρές προφίλ 90 μοιρών κέρδισε κάποιο ενδιαφέρον της κοινότητας.
Το DeepFaceLive είναι ο σωστός στόχος για ένα τέτοιο έργο, καθώς είναι几乎 σίγουρα ο στόχος του εγκληματικού ενδιαφέροντος σε σχέση με τις ψευδείς τηλεδιασκέψεις.
Ωστόσο, έχω πρόσφατα δει κάποια ανεκδοτικά στοιχεία ότι το σύστημα LivePortrait, το οποίο είναι τώρα πολύ δημοφιλές στη κοινότητα VFX, χειρίζεται προφίλ προβολής πολύ καλύτερα από το DeepFaceLive. Θα ήταν ενδιαφέρον αν θα μπορούσε να συμπεριληφθεί σε αυτήν την μελέτη.
Πρώτη δημοσίευση την Τρίτη, 24 Σεπτεμβρίου 2024
