Intelligenza artificiale
Come uno strumento di intelligenza artificiale per la salute mentale ha accidentalmente scoperto un metodo di rilevamento di deepfake accurato

Mentre il gigante tecnologico Open AI lanciava il suo modello di generazione video e audio di bandiera Sora 2 nel settembre 2025, i video deepfake hanno inondato le piattaforme dei social media, rendendo il pubblico sempre più familiare con contenuti iperrealistici potenzialmente pericolosi.
Sebbene Open AI considerasse il lancio responsabile di Sora 2 come una priorità assoluta, affermando che avrebbe dato agli utenti “gli strumenti e l’opzione di essere in controllo di ciò che vedono nel loro feed” e il controllo del loro aspetto dall’inizio alla fine, uno studio di ottobre 2025 ha scoperto che il modello produceva video di false affermazioni l’80% delle volte.
Da video che mimicano notizie di un funzionario elettorale moldavo che distrugge le schede elettorali a scene fabbricate di un bambino detenuto da ufficiali di immigrazione o di un portavoce di Coca-Cola che annuncia che l’azienda non sponsorizzerà il Super Bowl, le poste per la produzione di disinformazione in un mondo interconnesso non potrebbero essere più alte.
Oltre Sora: Vishing
Anche prima del lancio dello strumento di Open AI, la creazione e la diffusione online di file deepfake erano in aumento. Secondo un rapporto di settembre 2025 della società di sicurezza informatica DeepStrike, i contenuti deepfake sono aumentati da 500.000 nel 2023 a un impressionante 8 milioni nel 2025, la maggior parte dei quali è stata utilizzata per scopi fraudolenti.
La tendenza non mostra segni di rallentamento; la frode AI negli Stati Uniti da sola è previsto che raggiunga i 40 miliardi di dollari entro il 2027.
Un tale aumento non è limitato alla quantità. Con strumenti come Sora 2 e Google Veo 3, i contenuti di volti, voci e prestazioni full-body generate da AI sono ora più realistici che mai. Come segnalato dal ricercatore di deepfake e scienziato informatico Siwei Luy, i modelli contemporanei sono in grado di produrre volti stabili senza distorsioni o alterazioni, mentre il cloning vocale ha superato la soglia dell’indistinguibilità.
La verità è che i deepfake stanno superando la rilevazione. Quello che le società tecnologiche vendono come strumenti divertenti per generare tutto, dalle routine di ginnastica olimpica a sfondi sonori sofisticati, è stato anche utilizzato da criminali per prendere di mira aziende e individui. Solo nel primo semestre del 2025, gli incidenti deepfake hanno causato perdite di 356 milioni di dollari per le aziende e 541 milioni di dollari per gli individui.
La rilevazione tradizionale dei deepfake – inclusa l’identificazione di filigrane, volti ritoccati e controlli dei metadati – sta fallendo. E, poiché i deepfake vocali rimangono la seconda forma più comune di frode abilitata da AI e il vishing (vishing) è aumentato del 442% nel 2025, le conseguenze sono già state avvertite.
“Alcuni secondi di audio sono sufficienti per generare un clone convincente – completo di intonazione naturale, ritmo, enfasi, emozione, pause e rumore di respirazione”, ha scritto Lyu.
La scienza dell’ascolto degli esseri umani
Kintsugi, una startup di healthtech che sviluppa tecnologia di biomarcatore vocale AI per rilevare i segni di depressione clinica e ansia. Il loro lavoro è iniziato da una premessa apparentemente semplice: dobbiamo ascoltare gli esseri umani.
“Ho iniziato Kintsugi a causa di un problema che ho sperimentato personalmente. Ho trascorso quasi cinque mesi chiamando il mio fornitore solo per pianificare un appuntamento di terapia iniziale, e nessuno ha mai richiamato. Ho continuato a provare – ma ricordo di aver pensato molto chiaramente che se fosse stato mio padre o mio fratello, avrebbero smesso molto prima di me”, ha detto il CEO Grace Chang in conversazione con Unite.AI.
La società con sede in California è stata fondata nel 2019 come soluzione a ciò che Chang ha descritto come un “collo di bottiglia di triage”. Il fondatore credeva che rilevare la gravità in anticipo e in modo passivo potesse aiutare le persone a ricevere il livello di cura appropriato più velocemente. E, attraverso Kintsugi Voice, i biomarcatori vocali identificano la depressione clinica e l’ansia.
La ricerca abbonda che prova l’uso efficace dell’analisi del discorso e della voce guidata da AI come biomarcatore per le condizioni di salute mentale. Un articolo di maggio 2025, ad esempio, ha scoperto che i biomarcatori acustici possono rilevare i segni precoci di salute mentale e neurodivergenza, e ha sostenuto l’integrazione delle analisi del canto in ambienti clinici per valutare il possibile declino cognitivo dei pazienti.
Le misure vocali, in effetti, hanno un tasso di accuratezza dell’78% al 96% nell’identificare le persone con depressione rispetto a quelle senza, secondo l’American Psychiatric Association. Un altro studio ha utilizzato un test di fluenza verbale di un minuto in cui un individuo ha nominato il maggior numero di parole possibile all’interno di una categoria data – trovando un’accuratezza del 70% all’83% nel rilevare quando un soggetto aveva sia depressione che ansia.
Per valutare la salute mentale dei propri utenti, Kintsugi richiede un breve clip di discorso, dopo di che la sua tecnologia di biomarcatore vocale analizza il tono, l’intonazione, il tono e le pause – marcatori ritenuti associati a condizioni come depressione, ansia, disturbo bipolare e demenza.
Cosa Chang non si rendeva conto inizialmente, tuttavia, era che la tecnologia aveva sbloccato una delle sfide più pressanti dell’industria della sicurezza contemporanea: identificare cosa rende le voci umane umane.
Dalla cura della salute mentale alla sicurezza informatica
Mentre partecipava a un vertice a New York alla fine del 2025, Chang ha menzionato a un amico nel settore della sicurezza informatica che il team di sperimentazione con voci sintetiche era stato deludente.
“Stavamo esplorando dati sintetici per aumentare l’addestramento dei nostri modelli di salute mentale, ma le voci generate erano così diverse dal discorso umano autentico che potevamo dire quasi il 100% delle volte”, ha detto.
“Mi ha fermato e ha detto: ‘Grace – questo non è un problema risolto nella sicurezza’. Quello è stato il momento in cui tutto ha fatto clic. Da allora, le conversazioni con società di sicurezza, servizi finanziari e telco hanno confermato quanto rapidamente gli attacchi di voci deepfake stanno aumentando – e quanto reale è il bisogno di distinguere le voci umane da quelle sintetiche nelle chiamate in diretta”, ha aggiunto il CEO.
Nell’aprile dell’anno scorso, l’FBI ha avvertito di una campagna di messaggistica vocale e testuale maligna che si spacciava per comunicazioni di funzionari senior degli Stati Uniti e prendeva di mira ex dipendenti del governo e i loro contatti. Le grandi banche nazionali negli Stati Uniti sono state anche prese di mira con 5,5 tentativi di frode di manipolazione vocale al giorno, e il personale dell’ospedale del Vanderbilt University Medical Center ha segnalato attacchi di vishing da impersonatori che si spacciavano per amici, supervisori e colleghi.
Indipendentemente da questo, i deepfake non sono inizialmente entrati nel lavoro di Kintsugi. Mentre il team della società stava utilizzando modelli pronti all’uso come Cartesia, Sesame e ElevenLabs per sperimentare con voci sintetiche per agenti di call center amministrativi e flussi di lavoro in uscita, la frode deepfake non era il loro focus in un mercato affollato e accessibile che presentava modelli come Sora.
I segnali umani di livello che indicano l’autenticità della voce sono gli stessi biomarcatori che rendono qualcuno umano per prima cosa. Indipendentemente dalla lingua o dalla semantica, Kintsugi Voice opera con l’elaborazione del segnale e la latenza fisica del discorso, catturando la sottile temporizzazione, la variabilità prosodica, il carico cognitivo e i marcatori fisiologici che riflettono come il discorso è prodotto… non cosa viene detto.
“Le voci sintetiche possono suonare fluide, ma non portano gli stessi artefatti biologici e cognitivi”, ha detto Chang. Il modello della società è costantemente un performer del decile superiore in termini di accuratezza di rilevamento, utilizzando solo 3-5 secondi di audio.
Kintsugi potrebbe essere rivoluzionario per coloro che lottano con la salute mentale, specialmente in aree in cui ottenere un trattamento con professionisti richiede tempo e risorse. Allo stesso tempo, la sua tecnologia rappresenta una rivoluzione per il rilevamento dei deepfake e la sicurezza informatica in generale: rilevamento dell’autenticità piuttosto che riconoscimento dei deepfake.
Il futuro si trova nella tecnologia centrata sull’uomo
La sicurezza informatica si è sempre concentrata sull’uso maligno delle tecnologie o sui perpetratori stessi. La scoperta accidentale di Kintsugi, tuttavia, scommette sull’umanità stessa.
“Stiamo operando su una superficie completamente diversa: l’autenticità umana stessa. I LLM non possono rilevare in modo affidabile il contenuto generato da LLM, e i metodi basati su artefatti sono fragili. Catturare grandi set di dati clinici etichettati che codificano la variabilità umana reale è costoso, lento e al di fuori della competenza principale della maggior parte delle società di sicurezza – il che rende questo approccio difficile da replicare”, ha notato Chang.
L’approccio della startup suggerisce anche un più ampio spostamento: innovazione cross-domain. Coloro che sono in prima linea nel settore sanitario potrebbero guidare la carica nel rilevamento del vishing supportato da AI, proprio come gli innovatori nella tecnologia spaziale potrebbero supportare nuovi meccanismi di risposta alle emergenze, o gli architetti di giochi potrebbero supportare la pianificazione urbanistica.
Per quanto riguarda Chang, pianifica di diventare uno standard per verificare gli esseri umani reali e, alla fine, le intenzioni reali attraverso interazioni vocali.
“Proprio come HTTPS è diventato uno strato di fiducia predefinito per il web, crediamo che la ‘prova di umanità’ diventerà uno strato fondamentale per i sistemi basati sulla voce”, ha detto.
Mentre l’AI generativa continua ad accelerare, le salvaguardie più efficaci potrebbero provenire dalla comprensione di ciò che rende gli esseri umani… beh, umani.










