Connect with us

Πώς ένα εργαλείο AI για την ψυχική υγεία ανακάλυψε τυχαία την ακριβή ανίχνευση Deepfake

Τεχνητή νοημοσύνη

Πώς ένα εργαλείο AI για την ψυχική υγεία ανακάλυψε τυχαία την ακριβή ανίχνευση Deepfake

mm

Όταν η τεχνολογική εταιρεία Open AI έκανε την επίσημη κυκλοφορία του旗艦 μοντέλου Sora 2 για βίντεο και ήχο τον Σεπτέμβριο του 2025, τα deepfake βίντεο έχουν κατακλύσει τις πλατφόρμες των κοινωνικών μέσων, καθιστώντας το κοινό ολοένα και πιο εξοικειωμένο με πιθανώς επικίνδυνες υπερ-ρεαλιστικές περιεχομένου.

Αν και η Open AI θεωρούσε την υπεύθυνη κυκλοφορία του Sora 2 ως πρώτη προτεραιότητα, ιδιαίτερα ότι θα έδινε στους χρήστες «τα εργαλεία και την επιλογή να ελέγχουν τι βλέπουν στη διαδικτυακή τους ροή» και τον έλεγχο της ομοιότητας τους από άκρη σε άκρη, μια μελέτη του Οκτωβρίου 2025 βρήκε ότι το μοντέλο παρήγαγε ψευδείς βίντεο 80% της φοράς.

Από βίντεο που μιμούνταν τις ειδήσεις για einen Moldovan εκλογικό αξιωματούχο που καταστρέφει ψηφοδέλτια σε ψευδείς σκηνές ενός νηπίου που κρατείται από αξιωματούχους μετανάστευσης ή einem εκπρόσωπου της Coca-Cola που ανακοινώνει ότι η εταιρεία δεν θα χορηγήσει τον Σούπερ Μπόουλ, τα στοιχήματα για την παραγωγή ψευδών πληροφοριών σε έναν διασυνδεδεμένο κόσμο δεν θα μπορούσαν να είναι υψηλότερα.

Πέρα από το Sora: Vishing

Ακόμη και πριν από την κυκλοφορία του εργαλείου της Open AI, η δημιουργία και διαδικτυακή διάδοση αρχείων deepfake ήταν σε αύξηση. Σύμφωνα με μια αναφορά του Σεπτεμβρίου 2025 από την εταιρεία κυβερνοασφάλειας DeepStrike, το περιεχόμενο deepfake αυξήθηκε από 500.000 το 2023 σε ένα καταπληκτικό 8 εκατομμύρια το 2025, από τα οποία το μεγαλύτερο μέρος χρησιμοποιήθηκε για απάτες.

Η τάση δεν δείχνει κανένα σημάδι που να σταματάει· οι απάτες AI στις Ηνωμένες Πολιτείες μόνο τους αναμένεται να αγγίξουν τα 40 δισεκατομμύρια δολάρια ΗΠΑ μέχρι το 2027.

Eine τέτοια αύξηση δεν είναι περιορισμένη μόνο στην ποσότητα. Με εργαλεία όπως το Sora 2 και το Veo 3 της Google, το περιεχόμενο των AI-γεννημένων προσώπων, φωνών και πλήρως σωματικών επιδόσεων είναι τώρα πιο ρεαλιστικό από ποτέ. Όπως σηματοδοτήθηκε από τον επιστήμονα υπολογιστών και ερευνητή deepfake Siwei Lyu, τα σύγχρονα μοντέλα είναι ικανά να παράγουν σταθερά πρόσωπα χωρίς διαστρέβλωση ή παραμορφώσεις, ενώ η κλωνοποίηση φωνής έχει ξεπεράσει ένα «αδιακρίτως όριο».

Η αλήθεια είναι ότι τα deepfakes ξεπερνούν την ανίχνευση. Αυτό που οι εταιρείες τεχνολογίας πουλάνε ως διασκεδαστικά εργαλεία για την δημιουργία mọiTHING από ολυμπιακά γυμναστικά προγράμματα έως σύνθετα φωνητικά τοπία, έχει επίσης χρησιμοποιηθεί από εγκληματίες για να στοχεύσουν επιχειρήσεις και άτομα. Μόνο στο πρώτο εξάμηνο του 2025, τα περιστατικά deepfake προκάλεσαν ζημιές 356 εκατομμυρίων δολαρίων ΗΠΑ για τις εταιρείες και 541 εκατομμύρια δολάρια ΗΠΑ για τα άτομα.

Η παραδοσιακή ανίχνευση deepfake – περιλαμβάνοντας την αναγνώριση watermarks, αερογράφων προσώπων και ελέγχους metadata – αποτυγχάνει. Και, καθώς οι φωνητικές deepfakes παραμένουν η δεύτερη πιο συχνή μορφή απάτης που βασίζεται στην τεχνητή νοημοσύνη και η φωνητική απάτη (vishing) αυξήθηκε 442% το 2025, οι συνέπειες ήδη νιώθονται.

«Μια vài δευτερόλεπτα ήχου αρκούν για να δημιουργηθεί μια πειστική κλωνοποίηση – πλήρης με φυσική προσωδία, ρυθμό, έμφαση, συναισθήματα, παύσεις και θορύβους αναπνοής», έγραψε ο Lyu.

Η Επιστήμη του Ακροαματίου των Ανθρώπων

Η Kintsugi, μια εταιρεία υγείας που αναπτύσσει τεχνολογία βιοδεικτών φωνής AI για την ανίχνευση σημάτων κλινικής κατάθλιψης και αγχώδους. Η δουλειά τους ξεκίνησε από μια φαινομενικά απλή υπόθεση: πρέπει να ακούσουμε τους ανθρώπους.

«Ξεκίνησα την Kintsugi λόγω ενός προβλήματος που έζησα προσωπικά. Πέρασα σχεδόν πέντε μήνες καλώντας τον πάροχο μου για να προγραμματίσω μια αρχική συνεδρία θεραπείας, και κανείς δεν επέστρεψε τις κλήσεις μου. Συνέχισα να προσπαθώ – αλλά θυμάμαι ότι σκεφτόμουν πολύ καθαρά ότι αν αυτό ήταν ο πατέρας μου ή ο αδερφός μου, θα είχαν σταματήσει πολύ πριν από μένα», είπε η CEO Grace Chang σε μια συνομιλία με το Unite.AI.

Η εταιρεία με έδρα την Καλιφόρνια ιδρύθηκε το 2019 ως λύση σε αυτό που ο Chang περιέγραψε ως «μπατζέτα τριών». Ο ιδρυτής πίστευε ότι η ανίχνευση της βαρύτητας νωρίτερα και παθητικά θα μπορούσε να βοηθήσει τους ανθρώπους να φτάσουν στο σωστό επίπεδο φροντίδας γρηγορότερα. Και, μέσω της Kintsugi Voice, οι βιοδείκτες φωνής αναγνωρίζουν την κλινική κατάθλιψη και την αγχώδη.

Η έρευνα abounds που αποδεικνύει την επιτυχή χρήση της ανάλυσης ομιλίας και φωνής που οδηγείται από την τεχνητή νοημοσύνη ως βιοδείκτη για τις ψυχικές ασθένειες. Ένα έγγραφο του Μαΐου 2025, για παράδειγμα, βρήκε ότι οι ακουστικοί βιοδείκτες μπορούν να αναγνωρίσουν τα πρώιμα σημάδια ψυχικής υγείας και νευροδιαφορών, και υποστήριξε την ενσωμάτωση της ανάλυσης τραγουδιών σε κλινικές ρυθμίσεις για να αξιολογήσουν τις πιθανές γνωστικές πτώσεις των ασθενών.

Οι μετρήσεις φωνής, στην πραγματικότητα, έχουν ένα ποσοστό ακρίβειας 78% έως 96% στην αναγνώριση ατόμων με κατάθλιψη έναντι εκείνων χωρίς, σύμφωνα με την Αμερικανική Ψυχιατρική Εταιρεία. Eine άλλη μελέτη χρησιμοποίησε έναの一 λεπτού τεστ λεκτικής ευκολίας στο οποίο ένα άτομο ονόμασε όσο το δυνατόν περισσότερες λέξεις μέσα σε μια δεδομένη κατηγορία – βρήκε 70% έως 83% ακρίβεια στην ανίχνευση όταν ένα θέμα είχε και κατάθλιψη και αγχώδη.

Για να αξιολογήσουν την ψυχική υγεία των χρηστών τους, η Kintsugi ζητάει ένα σύντομο clip ομιλίας, μετά από οποία η τεχνολογία βιοδεικτών φωνής αναλύει την πίεση, την προσωδία, την τονική και τις παύσεις – δείκτες βρίσκονται να σχετίζονται με καταστάσεις όπως η κατάθλιψη, η αγχώδη, η διπολική διαταραχή και η άνοια.

Τι δεν συνειδητοποίησε αρχικά η Chang, ωστόσο, ήταν ότι η τεχνολογία είχε ξεκλειδώσει одну από τις πιο πιεστικές σύγχρονες προκλήσεις της βιομηχανίας ασφαλείας: την ταυτότητα των ανθρώπινων φωνών.

Από την Περίθαλψη Ψυχικής Υγείας στην Κυβερνοασφάλεια

Κατά την παραμονή της σε ένα συνέδριο στη Νέα Υόρκη στα τέλη του 2025, η Chang ανέφερε σε einen φίλο στο πεδίο της κυβερνοασφάλειας ότι η ομάδα της είχε πειραματιστεί με συνθετικές φωνές.

«Εξερευνούσαμε συνθετικά δεδομένα για να ενισχύσουμε την εκπαίδευση για τα μοντέλα ψυχικής υγείας μας, αλλά οι γεννημένες φωνές ήταν τόσο διαφορετικές από την αυθεντική ανθρώπινη ομιλία που μπορούσαμε να τις αναγνωρίσουμε σχεδόν 100% της φοράς», είπε.

«Σταμάτησε και μου είπε, ‘Γκρέις – αυτό δεν είναι ένα λυμένο πρόβλημα στην ασφάλεια’. Αυτή ήταν η στιγμή που όλα συνδέθηκαν. Από τότε, οι συνομιλίες με εταιρείες ασφαλείας, χρηματοοικονομικών υπηρεσιών και τηλεπικοινωνιών έχουν επιβεβαιώσει πόσο γρήγορα αυξάνονται οι επιθέσεις φωνητικών deepfake – και πόσο πραγματική είναι η ανάγκη να διακρίνουμε τις ανθρώπινες φωνές από τις συνθετικές σε ζωντανούς τηλεφωνικούς διαλόγους», πρόσθεσε η CEO.

Τον Απρίλιο του προηγούμενου έτους, το FBI προειδοποίησε για μια κακόβουλη εκστρατεία κειμένου και φωνητικών μηνυμάτων που παρουσιάζονταν ως επικοινωνίες από ανώτερους αξιωματούχους των ΗΠΑ και στόχευαν πρώην εργαζόμενους της κυβέρνησης και τους συνεργάτες τους. Οι μεγάλες εθνικές τράπεζες στις Ηνωμένες Πολιτείες επίσης στόχθηκαν με 5,5 μέσες ημερήσιες απόπειρες απάτης φωνητικής χειραγώγησης, και το προσωπικό του νοσοκομείου στο Vanderbilt University Medical Center ανέφερε επιθέσεις vishing από απατεώνες που παρουσιάζονταν ως φίλοι, επιβλέποντες και συνεργάτες.

Ανεξάρτητα, τα deepfakes δεν ήταν αρχικά μέρος του έργου της Kintsugi. Καθώς η ομάδα της εταιρείας είχε χρησιμοποιήσει off-the-shelf μοντέλα όπως Cartesia, Sesame και ElevenLabs για να πειραματιστεί με συνθετικές φωνές για διαχειριστές call center και εξερχόμενες ροές εργασίας, η απάτη deepfake δεν ήταν ο στόχος τους giữa σε μια拥挤 και προσιτή αγορά που χαρακτηρίζεται από μοντέλα όπως το Sora.

Τα ανθρώπινα σήματα που δείχνουν την αυθεντικότητα της φωνής, ωστόσο, είναι οι ίδιοι βιοδείκτες που κάνουν κάποιον άνθρωπο. Ανεξάρτητα από τη γλώσσα ή τη σημασιολογία, η Kintsugi Voice λειτουργεί με επεξεργασία σήματος και τη φυσική καθυστέρηση της ομιλίας, κατεβάζοντας τις λεπτές χρονικές παραλλαγές, την προσωδική μεταβλητότητα, τη γνωστική φόρτιση και τις φυσιολογικές δείκτες που αντανακλούν πώς παράγεται η ομιλία… όχι τι λέγεται.

«Οι συνθετικές φωνές possono να ακούγονται ομαλές, αλλά δεν φέρουν τα ίδια βιολογικά και γνωστικά αποτυπώματα», είπε η Chang. Το μοντέλο της εταιρείας είναι συνεχώς ένας κορυφαίος εκτελεστής στην ακρίβεια ανίχνευσης, χρησιμοποιώντας μόνο 3 έως 5 δευτερόλεπτα ήχου.

Η Kintsugi μπορεί να είναι επαναστατική για εκείνους που πασχίζουν με την ψυχική υγεία, ιδιαίτερα σε περιοχές όπου η λήψη θεραπείας με επαγγελματίες απαιτεί χρόνο και πόρους. Από την άλλη πλευρά, η τεχνολογία της εταιρείας προτείνει μια επανάσταση για την ανίχνευση deepfake και την κυβερνοασφάλεια γενικότερα: ανίχνευση αυθεντικότητας αντί για αναγνώριση deepfake.

Το Μέλλον Βρίσκεται στην Ανθρώπινη Κεντρική Τεχνολογία

Η κυβερνοασφάλεια έχει επικεντρωθεί για καιρό στην κακόβουλη χρήση τεχνολογιών ή τους ίδιους τους δράστες. Η τυχαία ανακάλυψη της Kintsugi, ωστόσο, στοιχηματίζει στην ανθρωπότητα herself.

«Λειτουργούμε σε ένα完全 διαφορετικό επιφάνεια: την ανθρώπινη αυθεντικότητα. Οι LLMs δεν μπορούν να αναγνωρίσουν με συνέπεια το περιεχόμενο που παράγουν οι LLMs, και οι μεθόδους που βασίζονται σε αποτυπώματα είναι εύθραυστες. Η συλλογή μεγάλων, κλινικά επισημασμένων συνόλων δεδομένων που κωδικοποιούν την πραγματική ανθρώπινη μεταβλητότητα είναι ακριβή, αργή και έξω από την πυρήνα εμπειρογνωμοσύνη των περισσότερων εταιρειών ασφαλείας — το οποίο καθιστά αυτήν την προσέγγιση δύσκολο να αναπαραχθεί», σημείωσε η Chang.

Η προσέγγιση της εταιρείας επίσης υποδηλώνει μια ευρύτερη μετατόπιση: καινοτομία διαμέσου τομέων. Οι πρωτοπόροι στην περίθαλψη υγείας μπορεί να οδηγήσουν την επιτάχυνση στην ανίχνευση vishing που υποστηρίζεται από την τεχνητή νοημοσύνη, όπως και οι καινοτόμοι στην τεχνολογία διαστήματος θα μπορούσαν να υποστηρίξουν νέες μηχανισμούς έκτακτης ανάγκης, ή οι gamers αρχιτεκτονική και πολεοδομία.

Όσον αφορά την Chang, σχεδιάζει να γίνει πρότυπο για την επαλήθευση των πραγματικών ανθρώπων και, τελικά, πραγματικών προθέσεων μέσω φωνητικών συναλλαγών.

«Όπως το HTTPS έγινε ένα προεπιλεγμένο επίπεδο εμπιστοσύνης για το web, πιστεύουμε ότι η «απόδειξη ανθρώπου» θα γίνει ένα θεμελιώδες επίπεδο για φωνητικά συστήματα. Το σήμα είναι η αρχή αυτής της υποδομής», είπε.

Όσο η γεννητική τεχνητή νοημοσύνη συνεχίζει να επιταχύνεται, τα πιο αποτελεσματικά μέτρα ασφαλείας μπορεί να έρθουν από την κατανόηση του τι κάνει τους ανθρώπους… καλά, ανθρώπους.

Η Salomé είναι μια δημοσιογράφος γεννημένη στο Medellín και Senior Reporter στο Espacio Media Incubator. Με υπόβαθρο στην Ιστορία και την Πολιτική, το έργο της Salomé τονίζει τη κοινωνική επικαιρότητα των αναδυόμενων τεχνολογιών. Έχει παρουσιαστεί στο Al Jazeera, Latin America Reports, και The Sociable, μεταξύ άλλων

Γνωστοποίηση διαφημιζόμενων: Το Unite.AI δεσμεύεται σε αυστηρά συντακτικά πρότυπα για την παροχή ακριβών πληροφοριών και ειδήσεων στους αναγνώστες μας. Ενδέχεται να λάβουμε αποζημίωση όταν κάνετε κλικ σε συνδέσμους προς προϊόντα που έχουμε αξιολογήσει.