Intelligenza artificiale
Vijay Balasubramaniyan, Co-Fondatore & CEO di Pindrop – Serie di Interviste

Vijay Balasubramaniyan è Co-Fondatore & CEO di Pindrop. Ha ricoperto vari ruoli di ingegneria e ricerca con Google, Siemens, IBM Research e Intel.
Pindrop‘s soluzioni stanno guidando il futuro della voce stabilendo lo standard per l’identità, la sicurezza e la fiducia per ogni interazione vocale. Le soluzioni di Pindrop proteggono alcuni dei più grandi istituti bancari, assicurativi e retailer del mondo utilizzando tecnologie brevettate che estraggono informazioni da ogni chiamata e voce incontrata. Le soluzioni di Pindrop aiutano a rilevare i truffatori e autenticare i clienti genuini, riducendo la frode e i costi operativi mentre migliorano l’esperienza del cliente e proteggono la reputazione del marchio. Pindrop, un’azienda privata con sede ad Atlanta, GA, è stata fondata nel 2011 da Dr. Vijay Balasubramaniyan, Dr. Paul Judge e Dr. Mustaque Ahamad ed è finanziata da Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP e Vitruvian Partners. Per ulteriori informazioni, visita pindrop.com.
Quali sono i principali punti chiave del Rapporto di Intelligenza e Sicurezza Vocale di Pindrop del 2024 riguardo l’attuale stato della frode e della sicurezza basata sulla voce?
Il rapporto fornisce un’analisi approfondita dei problemi di sicurezza urgenti e delle tendenze future, in particolare all’interno dei centri di contatto che servono istituti finanziari e non finanziari. I principali risultati del rapporto includono:
- Aumento Significativo della Frode nel Centro di Contatto: la frode nel centro di contatto è aumentata del 60% negli ultimi due anni, raggiungendo i livelli più alti dal 2019. Entro la fine di quest’anno, si prevede che una chiamata su 730 al centro di contatto sarà fraudolenta.
- Aumento della Sophisticazione degli Attaccanti che Utilizzano Deepfake: gli attacchi Deepfake, inclusi cloni vocali sintetici sofisticati, sono in aumento, rappresentando un rischio di frode stimato di 5 miliardi di dollari per i centri di contatto degli Stati Uniti. Questa tecnologia viene utilizzata per migliorare le tattiche di frode come la ricognizione dei conti automatizzata e ad alta scala, l’impersonificazione vocale, lo smishing mirato e l’ingegneria sociale.
- I Metodi Tradizionali di Rilevamento e Autenticazione della Frode non Funzionano: le aziende si affidano ancora all’autenticazione manuale dei consumatori, che è lunga, costosa e inefficace nel fermare la frode. 350 milioni di vittime di violazioni dei dati, 12 miliardi di dollari spesi ogni anno per l’autenticazione e 10 miliardi di dollari persi a causa della frode sono la prova che i metodi di sicurezza attuali non funzionano.
- Nuovi Approcci e Tecnologie sono Richiesti: la rilevazione della vitalità è cruciale per combattere il cattivo uso dell’AI e migliorare la sicurezza. L’analisi vocale è ancora importante, ma deve essere abbinata alla rilevazione della vitalità e all’autenticazione a più fattori.
Secondo il rapporto, il 67,5% dei consumatori statunitensi è preoccupato per i deepfake nel settore bancario. Può spiegare i tipi di minacce di deepfake che gli istituti finanziari stanno affrontando?
La frode bancaria tramite canali telefonici è in aumento a causa di diversi fattori. Poiché gli istituti finanziari si affidano fortemente ai clienti per confermare l’attività sospetta, i centri di contatto possono diventare obiettivi principali per i truffatori. I truffatori utilizzano tattiche di ingegneria sociale per ingannare i rappresentanti del servizio clienti, convincendoli a rimuovere le restrizioni o aiutare a reimpostare le credenziali di accesso online. Secondo un cliente bancario di Pindrop, il 36% delle chiamate di frode identificate aveva come obiettivo principale la rimozione delle restrizioni imposte dai controlli di frode. Un altro cliente bancario di Pindrop riferisce che il 19% delle chiamate di frode aveva come obiettivo l’accesso all’online banking. Con l’aumento dell’AI generativa e dei deepfake, questi tipi di attacchi sono diventati più potenti e scalabili. Ora uno o due truffatori in un garage possono creare qualsiasi numero di voci sintetiche e lanciare attacchi simultanei su più istituti finanziari e amplificare le loro tattiche. Ciò ha creato un livello di rischio e preoccupazione elevato tra i consumatori su whether il settore bancario sia preparato a respingere questi attacchi sofisticati.
Come i progressi dell’AI generativa hanno contribuito all’aumento dei deepfake e quali sfide specifiche pongono per i sistemi di sicurezza?
Sebbene i deepfake non siano nuovi, i progressi dell’AI generativa li hanno resi un vettore potente nel corso dell’ultimo anno, poiché sono stati in grado di diventare più credibili su una scala più grande. I progressi dell’AI generativa hanno reso i modelli di linguaggio più adatti a creare discorsi e linguaggio credibili. Ora è possibile creare discorsi sintetici (falsi) che suonano naturali a un costo molto basso e su larga scala. Questi sviluppi hanno reso i deepfake accessibili a tutti, inclusi i truffatori. I deepfake sfidano i sistemi di sicurezza abilitando attacchi di phishing molto convincenti, diffondendo disinformazione e facilitando la frode finanziaria attraverso impersonificazioni realistiche. Sottovalutano i metodi di autenticazione tradizionali, creano rischi di reputazione significativi e richiedono tecnologie di rilevamento avanzate per stare al passo con la loro rapida evoluzione e scalabilità.
Come Pindrop Pulse ha contribuito a identificare il motore TTS utilizzato nell’attacco di robocall al Presidente Biden e quali implicazioni ha per la rilevazione di deepfake futura?
Pindrop Pulse ha svolto un ruolo critico nell’identificazione di ElevenLabs, il motore TTS utilizzato nell’attacco di robocall al Presidente Biden. Utilizzando la nostra tecnologia di rilevamento di deepfake avanzata, abbiamo implementato un processo di analisi a quattro fasi che include la filtrazione audio e la pulizia, l’estrazione delle caratteristiche, l’analisi dei segmenti e il punteggio continuo. Questo processo ci ha permesso di filtrare i frame non di parlato, di campionare l’audio per replicare le condizioni telefoniche tipiche e di estrarre caratteristiche spettro-temporali a basso livello.
Dividendo l’audio in 155 segmenti e assegnando punteggi di vitalità, abbiamo determinato che l’audio era costantemente artificiale. Utilizzando “impronte false”, abbiamo confrontato l’audio con 122 sistemi TTS e identificato con una probabilità del 99% che ElevenLabs o un sistema simile era stato utilizzato. Questo risultato è stato validato con una probabilità dell’84% attraverso il classificatore di SpeechAI di ElevenLabs. La nostra analisi dettagliata ha rivelato artefatti di deepfake, in particolare in frasi con fricative ricche e espressioni insolite per il Presidente Biden.
Questo caso sottolinea l’importanza dei nostri sistemi di rilevamento di deepfake scalabili e spiegabili, che migliorano l’accuratezza, costruiscono la fiducia e si adattano alle nuove tecnologie. Sottolinea anche la necessità per i sistemi di AI generativa di incorporare salvaguardie contro l’uso improprio, assicurando che la clonazione vocale sia acconsentita da individui reali. Il nostro approccio stabilisce un punto di riferimento per affrontare le minacce dei media sintetici, sottolineando il monitoraggio e la ricerca continuativi per stare al passo con i metodi di deepfake in evoluzione.
Il rapporto menziona preoccupazioni significative sui deepfake che colpiscono i media e le istituzioni politiche. Può fornire esempi di tali incidenti e del loro impatto potenziale?
La nostra ricerca ha scoperto che i consumatori statunitensi sono più preoccupati per il rischio di deepfake e cloni vocali nel settore bancario e finanziario. Ma oltre a questo, la minaccia di deepfake per danneggiare i nostri media e istituzioni politiche rappresenta una sfida altrettanto significativa. Al di fuori degli Stati Uniti, l’uso di deepfake è stato osservato in Indonesia (Suharto deepfake) e Slovacchia (Michal Šimečka e Monika Tódová voice deepfake).
Il 2024 è un anno di elezioni significative negli Stati Uniti e in India. Con 4 miliardi di persone in 40 paesi che si preparano a votare, la proliferazione della tecnologia di intelligenza artificiale rende più facile che mai ingannare le persone su Internet. Ci aspettiamo un aumento degli attacchi di deepfake mirati su istituzioni governative, società di media, altre testate giornalistiche e la popolazione in generale, che sono destinati a creare sfiducia nelle nostre istituzioni e a diffondere disinformazione nel discorso pubblico.
Può spiegare le tecnologie e le metodologie che Pindrop utilizza per rilevare i deepfake e le voci sintetiche in tempo reale?
Pindrop utilizza una gamma di tecnologie e metodologie avanzate per rilevare i deepfake e le voci sintetiche in tempo reale, tra cui:
-
- Rilevamento della vitalità: Pindrop utilizza l’apprendimento automatico su larga scala per analizzare i frame non di parlato (ad esempio silenzio, rumore, musica) e estrarre caratteristiche spettro-temporali a basso livello che distinguono tra discorso generato da macchina e discorso umano generico
- Impronta audio – Questo comporta la creazione di una firma digitale per ogni voce in base alle sue proprietà acustiche, come il tono, il timbro e il ritmo. Queste firme vengono utilizzate per confrontare e abbinare voci tra chiamate e interazioni diverse.
- Analisi del comportamento – Viene utilizzato per analizzare i modelli di comportamento che sembrano fuori dall’ordinario, tra cui l’accesso anomalo a vari account, l’attività dei bot rapida, la ricognizione dei conti e il dialing robotico.
- Analisi vocale – Analizzando le caratteristiche vocali come le caratteristiche del tratto vocale, le variazioni fonetiche e lo stile di parlato, Pindrop può creare un’impronta vocale per ogni individuo. Qualsiasi deviazione dall’impronta vocale attesa può scatenare un allarme.
- Approccio di sicurezza a più strati – Ciò comporta la combinazione di diversi metodi di rilevamento per verificare i risultati incrociati e aumentare l’accuratezza del rilevamento. Ad esempio, i risultati dell’impronta audio potrebbero essere verificati incrociati con l’analisi biometrica per confermare un sospetto.
- Apprendimento e adattamento continuo – Pindrop aggiorna continuamente i suoi modelli e algoritmi. Ciò include l’incorporazione di nuovi dati, il perfezionamento delle tecniche di rilevamento e il mantenimento del passo con le minacce emergenti. L’apprendimento continuo garantisce che le capacità di rilevamento migliorino nel tempo e si adattino a nuovi tipi di attacchi di voci sintetiche.
Cosa è la Garanzia Deepfake Pulse, e come aumenta la fiducia del cliente nelle capacità di Pindrop di gestire le minacce di deepfake?
La Garanzia Deepfake Pulse è una garanzia senza precedenti che offre un rimborso contro la frode vocale sintetica nel centro di contatto. Mentre ci troviamo sull’orlo di un cambiamento significativo nel panorama degli attacchi informatici, i danni finanziari potenziali sono previsti aumentare a 10,5 trilioni di dollari entro il 2025, la Garanzia Deepfake Pulse aumenta la fiducia del cliente offrendo diversi vantaggi chiave:
- Fiducia aumentata: la Garanzia Deepfake Pulse dimostra la fiducia di Pindrop nei propri prodotti e tecnologie, offrendo ai clienti una soluzione di sicurezza affidabile quando servono i loro titolari di conto.
- Rimborso per perdite: i clienti di Pindrop possono ricevere un rimborso per gli eventi di frode vocale sintetica non rilevati dalla Suite di Prodotti di Pindrop.
- Miglioramento continuo: le richieste dei clienti di Pindrop ricevute nel programma di garanzia aiutano Pindrop a stare al passo con le tattiche di frode vocale sintetica in evoluzione.
Esistono casi di studio notevoli in cui le tecnologie di Pindrop hanno mitigato con successo le minacce di deepfake? Quali sono stati gli esiti?
L’Incidente della Scuola Superiore di Pikesville: il 16 gennaio 2024, è emersa una registrazione su Instagram che presumeva di avere il preside della Scuola Superiore di Pikesville a Baltimora, nel Maryland. L’audio conteneva commenti denigratori sugli studenti e gli insegnanti neri, scatenando un putiferio di proteste pubbliche e preoccupazioni serie.
Alla luce di questi sviluppi, Pindrop ha condotto un’indagine approfondita, conducendo tre analisi indipendenti per scoprire la verità. I risultati della nostra indagine approfondita hanno portato a una conclusione sfumata: sebbene l’audio di gennaio fosse stato alterato, mancava delle caratteristiche definitive del discorso sintetico generato da AI. La nostra fiducia in questa determinazione è supportata da una certezza del 97% in base ai nostri metriche di analisi. Questo risultato cruciale sottolinea l’importanza di condurre analisi dettagliate e oggettive prima di fare dichiarazioni pubbliche sulla natura dei media potenzialmente manipolati.
In una grande banca statunitense, Pindrop ha scoperto che un truffatore stava utilizzando una voce sintetica per bypassare l’autenticazione nell’IVR. Abbiamo scoperto che il truffatore stava utilizzando una voce generata da macchina per bypassare l’autenticazione dell’IVR per conti mirati, fornendo le risposte corrette alle domande di sicurezza e, in un caso, anche superando i codici di accesso una tantum (OTP). I bot che si sono autenticati con successo nell’IVR hanno identificato i conti da prendere di mira attraverso richieste di base di saldo. Le chiamate successive a questi conti provenivano da un essere umano reale per perpetrare la frode. Pindrop ha avvertito la banca di questo frode in tempo reale utilizzando la tecnologia Pulse e è stato in grado di fermare il truffatore.
In un’altra istituzione finanziaria, Pindrop ha scoperto che alcuni truffatori stavano addestrando i propri voicebot per mimare i sistemi di risposta automatica della banca.
Esperimento Indipendente di Audio Deepfake di NPR: La sicurezza digitale è una corsa continua tra truffatori e fornitori di tecnologia di sicurezza. Ci sono diversi fornitori, tra cui Pindrop, che hanno affermato di rilevare costantemente gli audio deepfake – NPR ha messo alla prova queste affermazioni per valutare se le soluzioni tecnologiche attuali sono in grado di rilevare gli audio deepfake generati da AI in modo costante.
Pindrop Pulse ha rilevato con successo 81 campioni audio su 84, traducendosi in un tasso di accuratezza del 96,4%. Inoltre, Pindrop Pulse ha rilevato il 100% dei campioni di deepfake. Mentre altri fornitori sono stati valutati nello studio, Pindrop è emerso come leader dimostrando che la sua tecnologia può rilevare in modo affidabile e accurato sia i deepfake che gli audio genuini.
Quali tendenze future nella frode e nella sicurezza basate sulla voce prevede, in particolare con lo sviluppo rapido delle tecnologie di intelligenza artificiale? Come Pindrop si sta preparando ad affrontare queste?
Ci aspettiamo che la frode nel centro di contatto continui a salire nel 2024. Sulla base dell’analisi dei tassi di frode dall’inizio dell’anno tra i vari settori, stimiamo conservativamente che il tasso di frode raggiungerà 1 su ogni 730 chiamate, rappresentando un aumento del 4-5% rispetto ai livelli attuali.
La maggior parte dell’aumento della frode dovrebbe colpire il settore bancario, poiché assicurazioni, brokeraggio e altri segmenti finanziari dovrebbero rimanere ai livelli attuali. Stimiamo che questi tassi di frode rappresentino un’esposizione alla frode di 7 miliardi di dollari per le istituzioni finanziarie negli Stati Uniti, che deve essere protetta. Tuttavia, ci aspettiamo un cambiamento significativo, in particolare con i truffatori che utilizzano gli IVR come terreno di prova. Di recente, abbiamo osservato un aumento dei truffatori che inseriscono manualmente le informazioni di identificazione personale (PII) per verificare i dettagli dei conti.
Per aiutare a combattere questo, continueremo ad avanzare le soluzioni correnti di Pindrop e a lanciare nuovi e innovativi strumenti, come Pindrop Pulse, che proteggono i nostri clienti.
Oltre alle tecnologie attuali, quali nuovi strumenti e tecniche sono in sviluppo per migliorare la prevenzione della frode vocale e l’autenticazione?
Le tecniche di prevenzione della frode vocale e di autenticazione sono in continua evoluzione per stare al passo con i progressi tecnologici e la sofisticazione delle attività di frode. Alcuni strumenti e tecniche emergenti includono:
- Rilevamento della frode e indagine continua: Fornisce una “visione storica” degli eventi di frode con le nuove informazioni ora disponibili. Con questo approccio, gli analisti di frode possono “ascoltare” per nuovi segnali di frode, scansionare le chiamate storiche che potrebbero essere correlate e riscoreggiare quelle chiamate. Ciò fornisce alle aziende una prospettiva continua e globale sulla frode in tempo reale.
- Analisi vocale intelligente: I sistemi di biometria vocale tradizionali sono vulnerabili agli attacchi di deepfake. Per migliorare le loro difese, sono necessarie nuove tecnologie come la non corrispondenza vocale e l’abbinamento vocale negativo. Queste tecnologie forniscono un ulteriore livello di difesa riconoscendo e differenziando più voci, chiamate ripetute e identificando dove una voce che suona diversa potrebbe rappresentare una minaccia.
- Rilevamento precoce della frode: Le tecnologie di rilevamento della frode che forniscono un segnale di frode rapido e affidabile all’inizio del processo di chiamata sono inestimabili. Oltre al rilevamento della vitalità, tecnologie come l’analisi dei metadati del carrier, la rilevazione dello spoofing dell’ID del chiamante e la rilevazione dello spoofing audio forniscono protezione contro gli attacchi di frode all’inizio di una conversazione, quando le difese sono più vulnerabili.
Grazie per la grande intervista, per saperne di più leggi il Rapporto di Intelligenza e Sicurezza Vocale di Pindrop del 2024 o visita Pindrop.












