Intelligenza artificiale
Come uno strumento di intelligenza artificiale per la salute mentale ha accidentalmente scoperto un metodo di rilevamento di deepfake accurato

Mentre il gigante tecnologico Open AI lanciava il suo modello generativo di video e audio Sora 2 nel settembre 2025, i video deepfake hanno inondato le piattaforme dei social media, rendendo il pubblico sempre più familiare con contenuti iper-realistici potenzialmente pericolosi.
Sebbene Open AI considerasse il lancio responsabile di Sora 2 come una priorità assoluta, affermando che avrebbe dato agli utenti “gli strumenti e l’opzione di essere in controllo di ciò che vedono nel loro feed” e il controllo sulla loro somiglianza dall’inizio alla fine, uno studio di ottobre 2025 ha scoperto che il modello produceva video con false affermazioni l’80% del tempo.
Da video che mimicavano notizie di un funzionario elettorale moldavo che distruggeva le schede elettorali a scene fabbricate di un bambino detenuto da ufficiali di immigrazione o un portavoce di Coca-Cola che annunciava che l’azienda non avrebbe sponsorizzato il Super Bowl, le poste per la produzione di informazioni false in un mondo interconnesso non potrebbero essere più alte.
Oltre Sora: Vishing
Anche prima che lo strumento di Open AI fosse lanciato, la creazione e la diffusione online di file deepfake erano in aumento. Secondo un rapporto di settembre 2025 della società di sicurezza informatica DeepStrike, il contenuto deepfake è aumentato da 500.000 nel 2023 a un impressionanti 8 milioni nel 2025, gran parte del quale è stato utilizzato per scopi fraudolenti.
La tendenza non mostra segni di rallentamento; la frode AI negli Stati Uniti da soli è previsto raggiungere i 40 miliardi di dollari entro il 2027.
Un tale aumento non è limitato alla quantità. Con strumenti come Sora 2 e Veo 3 di Google, il contenuto di volti, voci e prestazioni generate da AI sono ora più realistici che mai. Come segnalato dal ricercatore di deepfake e scienziato informatico Siwei Lyu, i modelli contemporanei sono in grado di produrre volti stabili senza distorsioni o alterazioni, mentre la clonazione vocale ha superato una “soglia indistinguibile”.
La verità è che i deepfake stanno superando la rilevazione. Ciò che le società tecnologiche vendono come strumenti divertenti per generare tutto, dalle routine di ginnastica olimpica a sfondi sonori sofisticati, è stato anche utilizzato da criminali per prendere di mira aziende e individui. Solo nel primo semestre del 2025, gli incidenti di deepfake hanno causato perdite di 356 milioni di dollari per le aziende e 541 milioni di dollari per gli individui.
La rilevazione tradizionale dei deepfake – compresa l’identificazione di watermark, volti ritoccati e controlli dei metadati – sta fallendo. E, poiché i deepfake vocali rimangono la seconda forma più comune di frode abilitata da AI e la frode di phishing vocale (vishing) è aumentata del 442% nel 2025, le conseguenze sono già state avvertite.
“Pochi secondi di audio sono sufficienti per generare un clone convincente – completo di intonazione naturale, ritmo, enfasi, emozione, pause e rumore di respirazione,” Lyu ha scritto.
La scienza dell’ascolto degli esseri umani
Kintsugi, una startup di healthtech che sviluppa tecnologia di biomarcatore vocale AI per rilevare segni di depressione clinica e ansia. Il loro lavoro è iniziato da una premessa apparentemente semplice: dobbiamo ascoltare gli esseri umani.
“Ho iniziato Kintsugi a causa di un problema che ho sperimentato personalmente. Ho trascorso quasi cinque mesi chiamando il mio fornitore solo per pianificare un appuntamento di terapia iniziale, e nessuno ha mai risposto alle mie chiamate. Ho continuato a provare – ma ricordo di aver pensato molto chiaramente che se fosse stato mio padre o mio fratello, avrebbero smesso molto prima di me,” ha detto il CEO Grace Chang in conversazione con Unite.AI.
La società con sede in California è stata fondata nel 2019 come soluzione a ciò che Chang ha descritto come un “collo di bottiglia di triage”. Il fondatore credeva che rilevare la gravità in anticipo e in modo passivo potesse aiutare le persone a ricevere il livello di cura appropriato più velocemente. E, attraverso Kintsugi Voice, i biomarcatori vocali identificano la depressione clinica e l’ansia.
La ricerca abbonda che dimostra l’uso efficace dell’analisi del discorso e della voce guidata da AI come biomarcatore per le condizioni di salute mentale. Un articolo di maggio 2025, ad esempio, ha scoperto che i biomarcatori acustici possono rilevare i primi segni di salute mentale e neurodivergenza, e ha sostenuto l’integrazione dell’analisi del canto nelle strutture cliniche per valutare il possibile declino cognitivo dei pazienti.
Le misure vocali, in effetti, hanno un tasso di accuratezza del 78% al 96% nell’identificare le persone con depressione rispetto a quelle senza, secondo l’American Psychiatric Association. Un altro studio ha utilizzato un test di fluenza verbale di un minuto in cui un individuo ha nominato il maggior numero di parole possibile all’interno di una categoria data – trovando un’accuratezza del 70% all’83% nel rilevare quando un soggetto aveva sia depressione che ansia.
Per valutare la salute mentale dei propri utenti, Kintsugi richiede un breve clip di discorso, dopo di che la sua tecnologia di biomarcatore vocale analizza il tono, l’intonazione, la pausa e le pause – marcatori ritenuti associati a condizioni come depressione, ansia, disturbo bipolare e demenza.
Cosa Chang non si è resa conto inizialmente, tuttavia, era che la tecnologia aveva sbloccato una delle sfide più pressanti dell’industria della sicurezza: identificare ciò che rende le voci umane umane.
Dalla cura della salute mentale alla sicurezza informatica
Mentre partecipava a un vertice a New York alla fine del 2025, Chang ha menzionato a un amico nel settore della sicurezza informatica che il suo team stava sperimentando voci sintetiche.
“Stavamo esplorando dati sintetici per aumentare l’addestramento dei nostri modelli di salute mentale, ma le voci generate erano così diverse dal discorso umano autentico che potevamo dire quasi il 100% del tempo,” ha detto.
“Mi ha fermato e ha detto: ‘Grace – questo non è un problema risolto nella sicurezza.’ Quello è stato il momento in cui tutto ha cliccato. Da allora, le conversazioni con società di sicurezza, servizi finanziari e telco hanno confermato quanto rapidamente gli attacchi di deepfake vocale stanno aumentando – e quanto reale è il bisogno di distinguere le voci umane da quelle sintetiche nelle chiamate in tempo reale,” ha aggiunto il CEO.
Nell’aprile dell’anno scorso, l’FBI ha avvertito di una campagna di messaggistica vocale e testuale maligna che si spacciava per comunicazioni di funzionari senior degli Stati Uniti e prendeva di mira ex dipendenti del governo e i loro contatti. Le grandi banche nazionali negli Stati Uniti sono state anche prese di mira con 5,5 tentativi di frode di manipolazione vocale al giorno in media, e il personale dell’ospedale del Centro Medico dell’Università di Vanderbilt ha segnalato attacchi di vishing da impersonatori che si spacciavano per amici, supervisori e colleghi.
Tuttavia, i deepfake non erano inizialmente un fattore nel lavoro di Kintsugi. Mentre il team della società stava utilizzando modelli pronti all’uso come Cartesia, Sesame e ElevenLabs per sperimentare voci sintetiche per agenti di call center amministrativi e flussi di lavoro in uscita, la frode di deepfake non era il loro focus in un mercato affollato e accessibile con modelli come Sora.
I segnali umani che indicano l’autenticità della voce, tuttavia, sono gli stessi biomarcatori che rendono qualcuno umano per primo. Indipendentemente dalla lingua o dalla semantica, Kintsugi Voice opera con l’elaborazione del segnale e la latenza fisica del discorso, catturando tempi sottili, variabilità prosodica, carico cognitivo e marcatori fisiologici che riflettono come il discorso è prodotto… non ciò che è detto.
“Le voci sintetiche possono suonare fluide, ma non portano gli stessi artefatti biologici e cognitivi,” ha detto Chang. Il modello della società è costantemente un performer di livello superiore nell’accuratezza di rilevamento, utilizzando solo 3-5 secondi di audio.
Kintsugi potrebbe essere rivoluzionario per coloro che lottano con la salute mentale, specialmente nelle aree in cui ottenere un trattamento con professionisti richiede tempo e risorse. Allo stesso tempo, la sua tecnologia rappresenta una rivoluzione per il rilevamento di deepfake e la sicurezza informatica in generale: rilevamento dell’autenticità piuttosto che riconoscimento di deepfake.
Il futuro si trova nella tecnologia centrata sull’uomo
La sicurezza informatica si è sempre concentrata sull’uso maligno delle tecnologie o sui perpetratori stessi. La scoperta accidentale di Kintsugi, tuttavia, scommette sull’umanità stessa.
“Stiamo operando su una superficie completamente diversa: l’autenticità umana stessa. I LLM non possono rilevare in modo affidabile il contenuto generato da LLM, e i metodi basati su artefatti sono fragili. La cattura di grandi set di dati clinici etichettati che codificano la vera variabilità umana è costosa, lenta e al di fuori della competenza principale della maggior parte delle società di sicurezza – il che rende questo approccio difficile da replicare,” ha notato Chang.
L’approccio della startup suggerisce anche un cambiamento più ampio: innovazione cross-domain. Coloro che sono in prima linea nel settore sanitario potrebbero guidare la carica nel rilevamento di vishing supportato da AI, proprio come gli innovatori nella tecnologia spaziale potrebbero sostenere nuovi meccanismi di risposta alle emergenze, o gli architetti di giochi e pianificatori urbani.
Per quanto riguarda Chang, pianifica di diventare uno standard per verificare gli esseri umani reali e, alla fine, l’intento reale attraverso interazioni vocali.
“Proprio come HTTPS è diventato uno strato di fiducia predefinito per il web, crediamo che ‘la prova di umanità’ diventerà uno strato fondamentale per i sistemi basati sulla voce. Signal è l’inizio di quell’infrastruttura,” ha detto.
Mentre l’intelligenza artificiale generativa continua ad accelerare, le misure di salvaguardia più efficaci potrebbero provenire dalla comprensione di ciò che rende gli esseri umani… beh, umani.












