Inteligencia artificial
Vijay Balasubramaniyan, Co-Fundador y CEO de Pindrop – Serie de Entrevistas

Vijay Balasubramaniyan es Co-Fundador y CEO de Pindrop. Ha ocupado varios puestos de ingeniería y investigación en Google, Siemens, IBM Research e Intel.
Pindrop‘s soluciones están liderando el camino hacia el futuro de la voz al establecer el estándar para la identidad, la seguridad y la confianza para cada interacción de voz. Las soluciones de Pindrop protegen a algunos de los bancos, aseguradoras y minoristas más grandes del mundo utilizando tecnología patentada que extrae inteligencia de cada llamada y voz encontrada. Las soluciones de Pindrop ayudan a detectar a los estafadores y a autenticar a los clientes genuinos, reduciendo el fraude y los costos operativos mientras mejoran la experiencia del cliente y protegen la reputación de la marca. Pindrop, una empresa privada con sede en Atlanta, GA, fue fundada en 2011 por el Dr. Vijay Balasubramaniyan, el Dr. Paul Judge y el Dr. Mustaque Ahamad y cuenta con el respaldo de Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP y Vitruvian Partners. Para obtener más información, visite pindrop.com.
¿Cuáles son las conclusiones clave del Informe de Inteligencia y Seguridad de Voz de Pindrop 2024 sobre el estado actual del fraude y la seguridad basados en la voz?
El informe ofrece una visión profunda de los problemas de seguridad urgentes y las tendencias futuras, particularmente dentro de los centros de contacto que sirven a instituciones financieras y no financieras. Los hallazgos clave del informe incluyen:
- Aumento significativo del fraude en los centros de contacto: El fraude en los centros de contacto ha aumentado un 60% en los últimos dos años, alcanzando los niveles más altos desde 2019. Para finales de este año, se espera que una de cada 730 llamadas a un centro de contacto sea fraudulenta.
- Aumento de la sofisticación de los atacantes que utilizan Deepfake: Los ataques de Deepfake, incluidas clonaciones de voz sintéticas sofisticadas, están en aumento, lo que supone un riesgo de fraude estimado de $5 mil millones para los centros de contacto de EE. UU. Esta tecnología se está utilizando para mejorar las tácticas de fraude, como la investigación de cuentas automatizada y a gran escala, la impersonación de voz, el smishing dirigido y la ingeniería social.
- Los métodos tradicionales de detección y autenticación de fraude no están funcionando: Las empresas aún confían en la autenticación manual de los consumidores, lo que es engorroso, costoso e ineficaz para detener el fraude. 350 millones de víctimas de violaciones de datos. $12 mil millones gastados anualmente en autenticación y $10 mil millones perdidos por fraude son evidencia de que los métodos de seguridad actuales no están funcionando
- Se requieren nuevos enfoques y tecnologías: La detección de vitalidad es crucial para luchar contra la mala IA y mejorar la seguridad. El análisis de voz sigue siendo importante, pero debe combinarse con la detección de vitalidad y la autenticación multifactor.
Según el informe, el 67,5% de los consumidores de EE. UU. están preocupados por los deepfakes en el sector bancario. ¿Puede elaborar sobre los tipos de amenazas de deepfakes que enfrentan las instituciones financieras?
El fraude bancario a través de canales telefónicos está en aumento debido a varios factores. Dado que las instituciones financieras confían en gran medida en que los clientes confirmen la actividad sospechosa, los centros de llamadas pueden convertirse en objetivos principales para los estafadores. Los estafadores utilizan tácticas de ingeniería social para engañar a los representantes del servicio al cliente, persuadiéndolos para que eliminen restricciones o ayuden a restablecer las credenciales de banca en línea. Según un cliente bancario de Pindrop, el 36% de las llamadas de fraude identificadas apuntaban principalmente a eliminar las retenciones impuestas por los controles de fraude. Otro cliente bancario de Pindrop informa que el 19% de las llamadas de fraude apuntaban a obtener acceso a la banca en línea. Con el auge de la IA generativa y los deepfakes, estos tipos de ataques se han vuelto más potentes y escalables. Ahora, uno o dos estafadores en un garaje pueden crear cualquier número de voces sintéticas y lanzar ataques simultáneos contra múltiples instituciones financieras y amplificar sus tácticas. Esto ha creado un nivel elevado de riesgo y preocupación entre los consumidores sobre si el sector bancario está preparado para repeler estos ataques sofisticados.
¿Cómo han contribuido los avances en la IA generativa al aumento de los deepfakes, y qué desafíos específicos plantean para los sistemas de seguridad?
Si bien los deepfakes no son nuevos, los avances en la IA generativa los han convertido en un vector potente en el último año, ya que han podido volverse más creíbles a una escala mucho mayor. Los avances en la IA generativa han hecho que los modelos de lenguaje grande sean más hábiles para crear habla y lenguaje creíbles. Ahora, el habla sintética (falsa) que suena natural se puede crear muy barata y a gran escala. Estos desarrollos han hecho que los deepfakes sean accesibles para todos, incluidos los estafadores. Estos deepfakes desafían a los sistemas de seguridad al permitir ataques de phishing muy convincentes, difundir información errónea y facilitar el fraude financiero a través de impersonaciones realistas. Socavan los métodos de autenticación tradicionales, crean riesgos de reputación significativos y exigen tecnologías de detección avanzadas para mantenerse al día con su rápida evolución y escalabilidad.
¿Cómo contribuyó Pindrop Pulse a identificar el motor TTS utilizado en el ataque de robocall del presidente Biden, y qué implicaciones tiene esto para la detección de deepfakes en el futuro?
Pindrop Pulse desempeñó un papel fundamental en la identificación de ElevenLabs, el motor TTS utilizado en el ataque de robocall del presidente Biden. Utilizando nuestra tecnología de detección de deepfakes avanzada, implementamos un proceso de análisis de cuatro etapas que involucraba filtrado de audio y limpieza, extracción de características, análisis de segmentos y puntuación continua. Este proceso nos permitió filtrar los marcos de no habla, muestrear el audio para replicar las condiciones típicas de la telefonía y extraer características espectro-temporales de bajo nivel.
Al dividir el audio en 155 segmentos y asignar puntuaciones de vitalidad, determinamos que el audio era consistentemente artificial. Utilizando “huellas dactilares falsas”, comparamos el audio con 122 sistemas TTS y identificamos con una probabilidad del 99% que ElevenLabs o un sistema similar se utilizó. Este hallazgo se validó con una probabilidad del 84% a través del clasificador de habla de ElevenLabs. Nuestro análisis detallado reveló artefactos de deepfake, particularmente en frases con fricativas ricas y expresiones poco comunes para el presidente Biden.
Este caso subraya la importancia de nuestros sistemas de detección de deepfakes escalables y explicables, que mejoran la precisión, crean confianza y se adaptan a nuevas tecnologías. También destaca la necesidad de que los sistemas de IA generativa incorporen salvaguardias contra su uso indebido, garantizando que la clonación de voz se realice con el consentimiento de los individuos reales. Nuestro enfoque establece un estándar para abordar las amenazas de los medios sintéticos, enfatizando el monitoreo y la investigación continuos para mantenernos por delante de los métodos de deepfake en evolución.
El informe menciona preocupaciones significativas sobre los deepfakes que afectan a los medios y las instituciones políticas. ¿Puede proporcionar ejemplos de tales incidentes y su impacto potencial?
Nuestra investigación ha encontrado que los consumidores de EE. UU. están más preocupados por el riesgo de deepfakes y clonaciones de voz en el sector bancario y financiero. Pero más allá de eso, la amenaza de los deepfakes para dañar a nuestros medios e instituciones políticas plantea un desafío igualmente significativo. Fuera de EE. UU., se ha observado el uso de deepfakes en Indonesia (deepfake de Suharto) y Eslovaquia (deepfake de voz de Michal Šimečka y Monika Tódová).
2024 es un año electoral significativo en EE. UU. y la India. Con 4.000 millones de personas en 40 países esperando votar, la proliferación de la tecnología de inteligencia artificial hace que sea más fácil que nunca engañar a la gente en Internet. Esperamos un aumento en los ataques de deepfakes dirigidos a instituciones gubernamentales, empresas de medios sociales, otros medios de comunicación y la población en general, que tienen como objetivo crear desconfianza en nuestras instituciones y difundir información errónea en el discurso público.
¿Puede explicar las tecnologías y metodologías que Pindrop utiliza para detectar deepfakes y voces sintéticas en tiempo real?
Pindrop utiliza una serie de tecnologías y metodologías avanzadas para detectar deepfakes y voces sintéticas en tiempo real, incluyendo:
-
- Detección de vitalidad: Pindrop utiliza el aprendizaje automático a gran escala para analizar los marcos de no habla (por ejemplo, silencio, ruido, música) y extraer características espectro-temporales de bajo nivel que distinguen entre el habla generado por máquina y el habla humana genérica
- Huella dactilar de audio: Esto implica crear una firma digital para cada voz en función de sus propiedades acústicas, como el tono, el timbre y el ritmo. Estas firmas se utilizan para comparar y emparejar voces en diferentes llamadas e interacciones.
- Análisis de comportamiento: Se utiliza para analizar los patrones de comportamiento que parecen fuera de lo común, incluyendo el acceso anormal a varias cuentas, la actividad de bots a gran escala, la investigación de cuentas y el marcado robótico.
- Análisis de voz: Al analizar las características de la voz, como las características del tracto vocal, las variaciones fonéticas y el estilo de habla, Pindrop puede crear una huella de voz para cada individuo. Cualquier desviación de la huella de voz esperada puede desencadenar una alerta.
- Enfoque de seguridad en capas: Esto implica combinar diferentes métodos de detección para verificar los resultados y aumentar la precisión de la detección. Por ejemplo, los resultados de la huella dactilar de audio pueden cruzarse con el análisis biométrico para confirmar una sospecha.
- Aprendizaje y adaptación continuos: Pindrop actualiza continuamente sus modelos y algoritmos. Esto implica incorporar nuevos datos, refinar las técnicas de detección y mantenerse por delante de las amenazas emergentes. El aprendizaje continuo garantiza que las capacidades de detección de Pindrop mejoren con el tiempo y se adapten a nuevos tipos de ataques de voz sintética.
¿Qué es la Garantía Deepfake de Pulse, y cómo mejora la confianza del cliente en las capacidades de Pindrop para manejar las amenazas de deepfakes?
La Garantía Deepfake de Pulse es una garantía de primera línea que ofrece reembolso contra el fraude de voz sintética en el centro de llamadas. A medida que nos encontramos al borde de un cambio sísmico en el panorama de los ciberataques, los daños potenciales se espera que aumenten a $10.5 billones para 2025, la Garantía Deepfake de Pulse mejora la confianza del cliente al ofrecer varias ventajas clave:
- Confianza mejorada: La Garantía Deepfake de Pulse demuestra la confianza de Pindrop en sus productos y tecnología, ofreciendo a los clientes una solución de seguridad confiable al atender a sus titulares de cuentas.
- Reembolso por pérdidas: Los clientes de Pindrop pueden recibir reembolsos por eventos de fraude de voz sintética no detectados por la Suite de Productos de Pindrop.
- Mejora continua: Las solicitudes de los clientes de Pindrop recibidas bajo el programa de garantía ayudan a Pindrop a mantenerse por delante de las tácticas de fraude de voz sintética en evolución.
¿Hay estudios de caso notables en los que las tecnologías de Pindrop hayan mitigado con éxito las amenazas de deepfakes? ¿Cuáles fueron los resultados?
El incidente de la Escuela Secundaria Pikesville: El 16 de enero de 2024, una grabación apareció en Instagram que presuntamente presentaba al director de la Escuela Secundaria Pikesville en Baltimore, Maryland. El audio contenía comentarios despectivos sobre los estudiantes y maestros negros, lo que desencadenó un escándalo público y una seria preocupación.
En vista de estos acontecimientos, Pindrop llevó a cabo una investigación exhaustiva, realizando tres análisis independientes para descubrir la verdad. Los resultados de nuestra investigación exhaustiva llevaron a una conclusión matizada: aunque el audio de enero había sido alterado, carecía de las características definitorias del habla sintética generada por IA. Nuestra confianza en esta determinación está respaldada por una certeza del 97% basada en nuestras métricas de análisis. Este hallazgo crucial subraya la importancia de realizar análisis detallados y objetivos antes de hacer declaraciones públicas sobre la naturaleza de los medios potencialmente manipulados.
En un gran banco de EE. UU., Pindrop descubrió que un estafador estaba utilizando voz sintética para evitar la autenticación en el IVR. Encontramos que el estafador estaba utilizando voz generada por máquina para evitar la autenticación del IVR para cuentas objetivo, proporcionando las respuestas correctas para las preguntas de seguridad y, en un caso, incluso superando las contraseñas de un solo uso (OTP). Los bots que se autenticaron con éxito en el IVR identificaron cuentas dignas de ser objetivo a través de consultas básicas de saldo. Las llamadas posteriores a estas cuentas provenían de un ser humano real para perpetuar el fraude. Pindrop alertó al banco sobre este fraude en tiempo real utilizando la tecnología Pulse y pudo detener al estafador.
En otra institución financiera, Pindrop descubrió que algunos estafadores estaban entrenando a sus propios voicebots para imitar los sistemas de respuesta automatizados del banco.
Experimento de audio Deepfake de NPR independiente: La seguridad digital es una carrera armamentista en constante evolución entre los estafadores y los proveedores de tecnología de seguridad. Hay varios proveedores, incluido Pindrop, que han afirmado detectar audio deepfakes de manera consistente – NPR puso a prueba estas afirmaciones para evaluar si las soluciones tecnológicas actuales son capaces de detectar audio deepfakes generados por IA de manera consistente.
Pindrop Pulse detectó con precisión 81 de las 84 muestras de audio correctamente, lo que se traduce en una tasa de precisión del 96,4%. Además, Pindrop Pulse detectó el 100% de todas las muestras de deepfake como tales. Si bien otros proveedores también fueron evaluados en el estudio, Pindrop emergió como el líder al demostrar que su tecnología puede detectar de manera fiable y precisa tanto el audio deepfake como el audio genuino.
¿Qué tendencias futuras en el fraude y la seguridad basados en la voz prevé, especialmente con el rápido desarrollo de las tecnologías de IA? ¿Cómo se está preparando Pindrop para abordar estos?
Esperamos que el fraude en los centros de contacto continúe aumentando en 2024. Según el análisis de las tasas de fraude año a año en diferentes sectores, estimamos conservadoramente que la tasa de fraude alcanzará 1 de cada 730 llamadas, lo que representa un aumento del 4-5% con respecto a los niveles actuales.
La mayor parte del aumento del fraude se espera que afecte al sector bancario, ya que el seguro, la correduría y otros segmentos financieros probablemente permanezcan en los niveles actuales. Estimamos que estas tasas de fraude representan una exposición al fraude de $7 mil millones para las instituciones financieras en EE. UU., que debe ser asegurada. Sin embargo, anticipamos un cambio significativo, particularmente con los estafadores que utilizan los IVR como un terreno de prueba. Recientemente, hemos observado un aumento en los estafadores que ingresan manualmente información de identificación personal (PII) para verificar los detalles de la cuenta.
Para ayudar a combatir esto, continuaremos avanzando en las soluciones actuales de Pindrop y lanzando nuevas y innovadoras herramientas, como Pindrop Pulse, que protegen a nuestros clientes.
¿Más allá de las tecnologías actuales, qué nuevas herramientas y técnicas se están desarrollando para mejorar la prevención del fraude de voz y la autenticación?
Las técnicas de prevención del fraude de voz y autenticación están evolucionando constantemente para mantener el ritmo de los avances tecnológicos y la sofisticación de las actividades fraudulentas. Algunas herramientas y técnicas emergentes incluyen:
- Detección y investigación de fraude continuas: Proporciona una visión retrospectiva histórica de los casos de fraude con nueva información que ahora está disponible. Con este enfoque, los analistas de fraude pueden “escuchar” nuevos señales de fraude, escanear llamadas históricas que pueden estar relacionadas y volver a puntuar esas llamadas. Esto proporciona a las empresas una perspectiva continua y completa del fraude en tiempo real.
- Análisis de voz inteligente: Los sistemas de biometría de voz tradicionales son vulnerables a los ataques de deepfake. Para mejorar sus defensas, se necesitan nuevas tecnologías como la Detección de No Coincidencia de Voz y la Coincidencia de Voz Negativa. Estas tecnologías proporcionan una capa adicional de defensa al reconocer y diferenciar múltiples voces, llamadas repetidas e identificar dónde una voz con un sonido diferente puede suponer una amenaza.
- Detección temprana de fraude: Las tecnologías de detección de fraude que proporcionan una señal de fraude rápida y confiable al comienzo del proceso de llamada son invaluables. Además de la detección de vitalidad, tecnologías como el análisis de metadatos del portador, la detección de suplantación de ID de llamada y la detección de suplantación de audio basada en audio proporcionan protección contra los ataques de fraude al comienzo de una conversación cuando las defensas son más vulnerables.
Gracias por la excelente entrevista, para obtener más información lea el Informe de Inteligencia y Seguridad de Voz de Pindrop 2024 o visite Pindrop.












