Intelligence artificielle

Vijay Balasubramaniyan, Co-Fondateur & PDG de Pindrop – Série d’entretiens

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan est Co-Fondateur & PDG de Pindrop. Il a occupé divers postes d’ingénieur et de recherche chez Google, Siemens, IBM Research et Intel.

Vijay détient des brevets en matière de sécurité et de scalabilité VoIP et il intervient fréquemment sur les menaces de fraude téléphonique lors de conférences techniques, notamment RSA, Black Hat, FS-ISAC, CCS et ICDCS. Vijay est titulaire d’un doctorat en informatique de l’Institut de technologie de Géorgie. Sa thèse de doctorat portait sur la sécurité des télécommunications.

Pindrop‘s solutions sont à la pointe de l’avenir de la voix en établissant la norme pour l’identité, la sécurité et la confiance pour chaque interaction vocale. Les solutions de Pindrop protègent certaines des plus grandes banques, compagnies d’assurance et détaillants du monde en utilisant une technologie brevetée qui extrait l’intelligence de chaque appel et voix rencontrés. Les solutions de Pindrop aident à détecter les fraudeurs et à authentifier les clients légitimes, réduisant ainsi la fraude et les coûts opérationnels tout en améliorant l’expérience client et en protégeant la réputation de la marque. Pindrop, une entreprise privée dont le siège est situé à Atlanta, GA, a été fondée en 2011 par Dr. Vijay Balasubramaniyan, Dr. Paul Judge et Dr. Mustaque Ahamad et est financée par Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP et Vitruvian Partners. Pour plus d’informations, veuillez visiter pindrop.com.

Quels sont les points clés du rapport Pindrop’s 2024 Voice Intelligence and Security Report concernant l’état actuel de la fraude et de la sécurité basées sur la voix ?

Le rapport propose une analyse approfondie des problèmes de sécurité urgents et des tendances futures, en particulier dans les centres de contact qui servent les institutions financières et non financières. Les principales conclusions du rapport incluent :

Augmentation significative de la fraude dans les centres de contact : La fraude dans les centres de contact a augmenté de 60 % au cours des deux dernières années, atteignant les niveaux les plus élevés depuis 2019. D’ici la fin de cette année, on s’attend à ce qu’une fraude sur 730 appels à un centre de contact soit frauduleuse.
Augmentation de la sophistication des attaques utilisant les deepfakes : Les attaques de deepfakes, y compris les clones vocaux synthétiques sophistiqués, sont en augmentation, représentant un risque de fraude estimé à 5 milliards de dollars pour les centres de contact américains. Cette technologie est utilisée pour améliorer les tactiques de fraude telles que la reconnaissance automatique de comptes, l’impersonnalisation vocale, le smishing ciblé et l’ingénierie sociale.
Les méthodes traditionnelles de détection et d’authentification de la fraude ne fonctionnent pas : Les entreprises s’appuient toujours sur l’authentification manuelle des consommateurs, qui est longue, coûteuse et inefficace pour arrêter la fraude. 350 millions de victimes de violations de données. 12 milliards de dollars dépensés chaque année en authentification et 10 milliards de dollars perdus en raison de la fraude sont la preuve que les méthodes de sécurité actuelles ne fonctionnent pas.
De nouvelles approches et technologies sont nécessaires : La détection de l’activité est cruciale pour lutter contre les mauvaises intentions et améliorer la sécurité. L’analyse vocale est toujours importante, mais elle doit être associée à la détection de l’activité et à l’authentification multifacteur.

Selon le rapport, 67,5 % des consommateurs américains s’inquiètent des deepfakes dans le secteur bancaire. Pouvez-vous élaborer sur les types de menaces de deepfakes auxquelles les institutions financières sont confrontées ?

La fraude bancaire via les canaux téléphoniques est en augmentation en raison de plusieurs facteurs. Puisque les institutions financières s’appuient fortement sur les clients pour confirmer les activités suspectes, les centres de contact peuvent devenir des cibles principales pour les fraudeurs. Les fraudeurs utilisent des tactiques d’ingénierie sociale pour tromper les représentants du service client, les persuadant de supprimer les restrictions ou d’aider à réinitialiser les informations d’identification en ligne. Selon un client bancaire de Pindrop, 36 % des appels de fraude identifiés visaient principalement à supprimer les retenues imposées par les contrôles de fraude. Un autre client bancaire de Pindrop signale que 19 % des appels de fraude visaient à accéder aux services bancaires en ligne. Avec l’essor de l’IA générative et des deepfakes, ces types d’attaques sont devenus plus puissants et plus évolutifs. Maintenant, un ou deux fraudeurs dans un garage peuvent créer de nombreuses voix synthétiques et lancer des attaques simultanées contre plusieurs institutions financières et amplifier leurs tactiques. Cela a créé un niveau de risque et de préoccupation élevé parmi les consommateurs quant à la capacité du secteur bancaire à repousser ces attaques sophistiquées.

Comment les progrès de l’IA générative ont-ils contribué à l’augmentation des deepfakes, et quels défis spécifiques posent-ils aux systèmes de sécurité ?

Bien que les deepfakes ne soient pas nouveaux, les progrès de l’IA générative les ont rendus un vecteur puissant au cours de la dernière année, car ils ont pu devenir plus crédibles à une échelle beaucoup plus large. Les progrès de l’IA générative ont rendu les modèles de langage plus aptes à créer des discours et des langues crédibles. Maintenant, des discours synthétiques (faux) peuvent être créés très facilement et à grande échelle. Ces développements ont rendu les deepfakes accessibles à tous, y compris les fraudeurs. Ces deepfakes défient les systèmes de sécurité en permettant des attaques de phishing très convaincantes, en répandant des informations erronées et en facilitant la fraude financière grâce à des impersonnalisations réalistes. Ils sapent les méthodes d’authentification traditionnelles, créent des risques de réputation importants et exigent des technologies de détection avancées pour suivre leur évolution et leur évolutivité rapides.

Comment Pindrop Pulse a-t-il contribué à identifier le moteur TTS utilisé dans l’attaque de robocall du président Biden, et quelles sont les implications pour la détection future de deepfakes ?

Pindrop Pulse a joué un rôle crucial dans l’identification d’ElevenLabs, le moteur TTS utilisé dans l’attaque de robocall du président Biden. En utilisant notre technologie de détection de deepfakes avancée, nous avons mis en œuvre un processus d’analyse en quatre étapes impliquant le filtrage audio et le nettoyage, l’extraction de fonctionnalités, l’analyse de segments et le scoring continu. Ce processus nous a permis de filtrer les trames non vocales, de rééchantillonner l’audio pour reproduire les conditions téléphoniques typiques et d’extraire les fonctionnalités spectro-temporelles de bas niveau.

En divisant l’audio en 155 segments et en attribuant des scores de vivacité, nous avons déterminé que l’audio était artificiel de manière cohérente. En utilisant des “empreintes de faux”, nous avons comparé l’audio à 122 systèmes TTS et identifié avec une probabilité de 99 % qu’ElevenLabs ou un système similaire a été utilisé. Cette découverte a été validée avec une probabilité de 84 % à l’aide du classificateur SpeechAI d’ElevenLabs. Notre analyse détaillée a révélé des artefacts de deepfakes, en particulier dans les phrases avec des fricatives riches et des expressions inhabituelles pour le président Biden.

Cet incident souligne l’importance de nos systèmes de détection de deepfakes évolutifs et explicables, qui améliorent la précision, renforcent la confiance et s’adaptent aux nouvelles technologies. Cela met également en évidence la nécessité pour les systèmes d’IA générative d’intégrer des garanties contre les abus, en veillant à ce que le clonage vocal soit consenti par les individus réels. Notre approche fixe une référence pour résoudre les menaces de médias synthétiques, en mettant l’accent sur la surveillance et la recherche continues pour rester en tête des méthodes de deepfakes en évolution.

Le rapport mentionne des préoccupations importantes concernant les deepfakes qui affectent les médias et les institutions politiques. Pouvez-vous fournir des exemples de tels incidents et de leur impact potentiel ?

Nos recherches ont révélé que les consommateurs américains sont les plus préoccupés par le risque de deepfakes et de clones vocaux dans le secteur bancaire. Mais au-delà de cela, la menace que les deepfakes font peser sur les médias et les institutions politiques pose un défi tout aussi important. En dehors des États-Unis, l’utilisation de deepfakes a également été observée en Indonésie (deepfake de Suharto) et en Slovaquie (deepfake de la voix de Michal Šimečka et Monika Tódová).

2024 est une année d’élections importantes aux États-Unis et en Inde. Avec 4 milliards de personnes attendues pour voter dans 40 pays, la prolifération de la technologie d’intelligence artificielle rend plus facile que jamais de tromper les gens sur Internet. Nous nous attendons à une augmentation des attaques de deepfakes ciblées contre les institutions gouvernementales, les sociétés de médias sociaux, les autres médias et la population en général, qui visent à créer de la méfiance dans nos institutions et à semer la désinformation dans le discours public.

Pouvez-vous expliquer les technologies et les méthodologies que Pindrop utilise pour détecter les deepfakes et les voix synthétiques en temps réel ?

Pindrop utilise une gamme de technologies et de méthodologies avancées pour détecter les deepfakes et les voix synthétiques en temps réel, notamment :

- Détection de l’activité : Pindrop utilise l’apprentissage automatique à grande échelle pour analyser les trames non vocales (par exemple, le silence, le bruit, la musique) et extraire les fonctionnalités spectro-temporelles de bas niveau qui distinguent le discours généré par machine du discours humain générique.
- Empreintes audio – Cela implique la création d’une signature numérique pour chaque voix en fonction de ses propriétés acoustiques, telles que la hauteur, le ton et le rythme. Ces signatures sont ensuite utilisées pour comparer et faire correspondre les voix à travers différents appels et interactions.
- Analyse du comportement – Utilisé pour analyser les modèles de comportement qui semblent hors de l’ordinaire, y compris l’accès anormal à divers comptes, l’activité de bot à grande échelle, la reconnaissance de comptes, l’extraction de données et le dialing robotique.

Analyse vocale – En analysant les fonctionnalités vocales telles que les caractéristiques du tractus vocal, les variations phonétiques et le style de parole, Pindrop peut créer une empreinte vocale pour chaque individu. Toute déviation de l’empreinte vocale attendue peut déclencher une alerte.

Approche de sécurité multiforme – Cela implique de combiner différentes méthodes de détection pour vérifier les résultats et augmenter la précision de la détection. Par exemple, les résultats de l’empreinte audio peuvent être croisés avec l’analyse biométrique pour confirmer une suspicion.
Apprentissage et adaptation continus – Pindrop met continuellement à jour ses modèles et algorithmes. Cela implique d’intégrer de nouvelles données, d’affiner les techniques de détection et de rester en tête des menaces émergentes. L’apprentissage continu garantit que les capacités de détection s’améliorent avec le temps et s’adaptent aux nouveaux types d’attaques de voix synthétiques.

Qu’est-ce que la Garantie Deepfake Pulse, et comment améliore-t-elle la confiance des clients dans les capacités de Pindrop à gérer les menaces de deepfakes ?

La Garantie Deepfake Pulse est une garantie inédite qui offre une indemnisation contre la fraude vocale synthétique dans le centre de contact. Alors que nous sommes au seuil d’un changement sismique dans le paysage des cyberattaques, les pertes financières potentielles sont estimées à 10,5 billions de dollars d’ici 2025, la Garantie Deepfake Pulse améliore la confiance des clients en offrant plusieurs avantages clés :

Confiance renforcée : La Garantie Deepfake Pulse démontre la confiance de Pindrop dans ses produits et technologies, offrant aux clients une solution de sécurité fiable lorsqu’ils gèrent les comptes de leurs clients.
Remboursement des pertes : Les clients de Pindrop peuvent recevoir des remboursements pour les événements de fraude vocale synthétique non détectés par la Suite de produits Pindrop.
Amélioration continue : Les demandes des clients de Pindrop reçues dans le cadre du programme de garantie aident Pindrop à rester en tête des tactiques de fraude vocale synthétique en évolution.

Existe-t-il des études de cas notables où les technologies de Pindrop ont réussi à atténuer les menaces de deepfakes ? Quels en ont été les résultats ?

L’incident de Pikesville High School : Le 16 janvier 2024, une enregistrement est apparu sur Instagram prétendument mettant en scène le principal de Pikesville High School à Baltimore, dans le Maryland. L’audio contenait des remarques dénigrantes sur les étudiants et les enseignants noirs, déclenchant un tollé public et une grave préoccupation.

À la lumière de ces développements, Pindrop a mené une enquête approfondie, réalisant trois analyses indépendantes pour découvrir la vérité. Les résultats de notre enquête approfondie ont conduit à une conclusion nuancée : bien que l’audio de janvier ait été modifié, il ne présentait pas les caractéristiques définitives du discours synthétique généré par IA. Notre confiance dans cette détermination est étayée par une certitude de 97 % sur la base de nos métriques d’analyse. Cette constatation cruciale souligne l’importance de mener des analyses détaillées et objectives avant de faire des déclarations publiques sur la nature des médias potentiellement manipulés.

Dans une grande banque américaine, Pindrop a découvert qu’un fraudeur utilisait une voix synthétique pour contourner l’authentification dans l’IVR. Nous avons constaté que le fraudeur utilisait une voix générée par machine pour contourner l’authentification IVR pour les comptes ciblés, fournissant les bonnes réponses aux questions de sécurité et, dans un cas, même en passant les mots de passe à usage unique (OTP). Les bots qui se sont authentifiés avec succès dans l’IVR ont identifié des comptes à cibler via des demandes de solde de base. Les appels suivants sur ces comptes provenaient d’un humain réel pour perpétrer la fraude. Pindrop a alerté la banque de cette fraude en temps réel en utilisant la technologie Pulse et a pu arrêter le fraudeur.

Dans une autre institution financière, Pindrop a constaté que certains fraudeurs formaient leurs propres voicebots pour imiter les systèmes de réponse automatique de la banque. Dans ce qui ressemblait à un premier appel étrange, un voicebot a appelé l’IVR de la banque non pas pour faire de la reconnaissance de comptes, mais pour répéter les invites de l’IVR. De multiples appels sont arrivés dans différents embranchements de l’arbre de conversation IVR, et toutes les deux secondes, le bot répétait ce qu’il entendait. Une semaine plus tard, d’autres appels ont été observés en faisant la même chose, mais cette fois, le voicebot répétait les phrases avec exactement la même voix et les mêmes manières que l’IVR de la banque. Nous croyons qu’un fraudeur formait un voicebot pour imiter l’IVR de la banque en tant que point de départ d’une attaque de smishing. Avec l’aide de Pindrop Pulse, l’institution financière a pu contrer cette attaque avant qu’elle ne cause des dommages.

Expérience de deepfake audio indépendante de NPR : La sécurité numérique est une course aux armements constamment évolutive entre les fraudeurs et les fournisseurs de technologie de sécurité. Il existe plusieurs fournisseurs, notamment Pindrop, qui ont affirmé détecter les deepfakes audio de manière cohérente – NPR a mis ces affirmations à l’épreuve pour évaluer si les solutions technologiques actuelles sont capables de détecter les deepfakes audio générés par IA de manière cohérente.

Pindrop Pulse a détecté avec précision 81 des 84 échantillons audio correctement, ce qui se traduit par un taux de précision de 96,4 %. De plus, Pindrop Pulse a détecté 100 % des échantillons de deepfakes en tant que tels. Alors que d’autres fournisseurs ont également été évalués dans l’étude, Pindrop est apparu comme le leader en démontrant que sa technologie peut détecter de manière fiable et précise à la fois les deepfakes et les audio authentiques.

Quelles tendances futures en matière de fraude et de sécurité basées sur la voix prévoyez-vous, en particulier avec le développement rapide des technologies d’IA ? Comment Pindrop se prépare-t-il à relever ces défis ?

Nous nous attendons à ce que la fraude dans les centres de contact continue d’augmenter en 2024. Sur la base de l’analyse des taux de fraude à ce jour dans les différents secteurs, nous estimons de manière conservatrice que le taux de fraude atteindra 1 fraude pour 730 appels, ce qui représente une augmentation de 4 à 5 % par rapport aux niveaux actuels.

La plupart de l’augmentation de la fraude devrait toucher le secteur bancaire, car les secteurs de l’assurance, de la courtage et d’autres institutions financières devraient rester aux niveaux actuels. Nous estimons que ces taux de fraude représentent une exposition à la fraude de 7 milliards de dollars pour les institutions financières aux États-Unis, qui doivent être sécurisées. Cependant, nous prévoyons un changement important, en particulier avec les fraudeurs qui utilisent les IVR comme terrain d’essai. Récemment, nous avons observé une augmentation des fraudeurs qui saisissent manuellement des informations personnelles (PII) pour vérifier les détails du compte.

Pour lutter contre cela, nous allons continuer à faire progresser les solutions actuelles de Pindrop et à lancer de nouveaux outils innovants, comme Pindrop Pulse, qui protègent nos clients.

Au-delà des technologies actuelles, quels nouveaux outils et techniques sont en développement pour améliorer la prévention de la fraude vocale et l’authentification ?

Les techniques de prévention de la fraude vocale et d’authentification évoluent en permanence pour suivre les progrès de la technologie et la sophistication des activités frauduleuses. Certains outils et techniques émergents incluent :

Détection et investigation continues de la fraude : Fournit un aperçu historique des instances de fraude avec les nouvelles informations maintenant disponibles. Avec cette approche, les analystes de la fraude peuvent “écouter” les nouveaux signaux de fraude, analyser les appels historiques qui peuvent être liés et rescorer ces appels. Cela fournit aux entreprises une perspective continue et complète sur la fraude en temps réel.
Analyse vocale intelligente : Les systèmes de biométrie vocale traditionnels sont vulnérables aux attaques de deepfakes. Pour renforcer leur défense, de nouvelles technologies telles que la non-concordance vocale et la correspondance vocale négative sont nécessaires. Ces technologies fournissent une couche de défense supplémentaire en reconnaissant et en différenciant plusieurs voix, les appelants répétés et en identifiant les voix qui pourraient poser une menace.
Détection précoce de la fraude : Les technologies de détection de la fraude qui fournissent un signal de fraude rapide et fiable au début du processus d’appel sont inestimables. En plus de la détection de l’activité, les technologies telles que l’analyse des métadonnées des transporteurs, la détection de l’usurpation d’identité de l’appelant et la détection de l’usurpation audio fournissent une protection contre les attaques de fraude au début d’une conversation, lorsque les défenses sont les plus vulnérables.

Merci pour cette grande interview, pour en savoir plus, lisez le Rapport d’intelligence vocale et de sécurité 2024 de Pindrop ou visitez Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.

Unite.AI

Vijay Balasubramaniyan, Co-Fondateur & PDG de Pindrop – Série d’entretiens

You may like