Inteligência artificial

Vijay Balasubramaniyan, Co-Fundador & CEO da Pindrop – Série de Entrevistas

Published June 3, 2024

Updated April 27, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vijay Balasubramaniyan é Co-Fundador & CEO da Pindrop. Ele ocupou vários cargos de engenharia e pesquisa na Google, Siemens, IBM Research e Intel.

Vijay detém patentes em segurança e escalabilidade de VoIP e frequentemente fala sobre ameaças de fraude telefônica em conferências técnicas, incluindo RSA, Black Hat, FS-ISAC, CCS e ICDCS. Vijay obteve um PhD em Ciência da Computação no Instituto de Tecnologia da Geórgia. Sua tese de PhD foi sobre segurança de telecomunicações.

Pindrop‘s soluções estão liderando o caminho para o futuro da voz, estabelecendo o padrão para identidade, segurança e confiança para cada interação de voz. As soluções da Pindrop protegem alguns dos maiores bancos, seguradoras e varejistas do mundo, usando tecnologia patenteada que extrai inteligência de cada chamada e voz encontrada. As soluções da Pindrop ajudam a detectar fraudadores e autenticar clientes legítimos, reduzindo a fraude e os custos operacionais, enquanto melhoram a experiência do cliente e protegem a reputação da marca. A Pindrop, uma empresa de capital fechado sediada em Atlanta, GA, foi fundada em 2011 por Dr. Vijay Balasubramaniyan, Dr. Paul Judge e Dr. Mustaque Ahamad e é apoiada por Andreessen Horowitz, Citi Ventures, Felicis Ventures, CapitalG, GV, IVP e Vitruvian Partners. Para obter mais informações, visite pindrop.com.

Quais são as principais conclusões do Relatório de Inteligência e Segurança de Voz da Pindrop de 2024 sobre o estado atual da fraude e segurança baseada em voz?

O relatório fornece uma análise aprofundada sobre questões de segurança urgentes e tendências futuras, particularmente dentro de centros de contato que atendem instituições financeiras e não financeiras. As principais descobertas do relatório incluem:

Aumento Significativo na Fraude de Centro de Contato: A fraude de centro de contato aumentou 60% nos últimos dois anos, atingindo os níveis mais altos desde 2019. Até o final deste ano, espera-se que uma em cada 730 chamadas para um centro de contato seja fraudulenta.
Aumento da Sofisticação dos Ataques com Deepfakes: Os ataques com deepfakes, incluindo clones de voz sintéticos sofisticados, estão aumentando, representando um risco de fraude estimado em $5 bilhões para os centros de contato nos EUA. Essa tecnologia está sendo utilizada para melhorar táticas de fraude, como reconhecimento de contas automatizado e em grande escala, impersonação de voz, smishing direcionado e engenharia social.
Métodos Tradicionais de Detecção e Autenticação de Fraude não Estão Funcionando: As empresas ainda dependem da autenticação manual dos consumidores, que é demorada, cara e ineficaz para parar a fraude. 350 milhões de vítimas de violações de dados, $12 bilhões gastos anualmente em autenticação e $10 bilhões perdidos para a fraude são evidências de que os métodos de segurança atuais não estão funcionando.
Novas Abordagens e Tecnologias São Necessárias: A detecção de vivacidade é crucial para combater a IA ruim e melhorar a segurança. A análise de voz ainda é importante, mas precisa ser combinada com detecção de vivacidade e autenticação multifator.

De acordo com o relatório, 67,5% dos consumidores dos EUA estão preocupados com deepfakes no setor bancário. Pode elaborar sobre os tipos de ameaças de deepfakes que as instituições financeiras estão enfrentando?

A fraude bancária via canais telefônicos está aumentando devido a vários fatores. Como as instituições financeiras dependem fortemente dos clientes para confirmar atividades suspeitas, os centros de contato podem se tornar alvos principais para fraudadores. Os fraudadores usam táticas de engenharia social para enganar os representantes de serviço ao cliente, persuadindo-os a remover restrições ou ajudar a redefinir credenciais de banco online. De acordo com um cliente bancário da Pindrop, 36% das chamadas de fraude identificadas visavam principalmente remover seguras impostas por controles de fraude. Outro cliente bancário da Pindrop relata que 19% das chamadas de fraude visavam obter acesso ao banco online. Com o aumento da IA geradora e dos deepfakes, esses tipos de ataques se tornaram mais potentes e escaláveis. Agora, um ou dois fraudadores em uma garagem podem criar qualquer número de vozes sintéticas e lançar ataques simultâneos em múltiplas instituições financeiras e ampliar suas táticas. Isso criou um nível elevado de risco e preocupação entre os consumidores sobre se o setor bancário está preparado para repelir esses ataques sofisticados.

Como os avanços na IA geradora contribuíram para o aumento dos deepfakes, e quais desafios específicos esses posem para os sistemas de segurança?

Embora os deepfakes não sejam novos, os avanços na IA geradora os tornaram um vetor potente nos últimos anos, pois se tornaram mais convincentes em uma escala muito maior. Os avanços na IA geradora tornaram os grandes modelos de linguagem mais habilidosos em criar discurso e linguagem convincentes. Agora, discurso sintético natural soa pode ser criado muito barato e em grande escala. Esses desenvolvimentos tornaram os deepfakes acessíveis a todos, incluindo fraudadores. Esses deepfakes desafiam os sistemas de segurança, permitindo ataques de phishing altamente convincentes, disseminação de informações falsas e facilitação de fraude financeira por meio de impersonações realistas. Eles minam os métodos de autenticação tradicionais, criam riscos de reputação significativos e exigem tecnologias de detecção avançadas para acompanhar sua evolução rápida e escalabilidade.

Como a Pindrop Pulse contribuiu para identificar o mecanismo TTS usado no ataque de robocall do Presidente Biden, e quais implicações isso tem para a detecção de deepfakes no futuro?

A Pindrop Pulse desempenhou um papel crítico na identificação do ElevenLabs, o mecanismo TTS usado no ataque de robocall do Presidente Biden. Usando nossa tecnologia de detecção de deepfakes avançada, implementamos um processo de análise em quatro etapas, envolvendo filtragem e limpeza de áudio, extração de recursos, análise de segmentos e pontuação contínua. Esse processo permitiu que filtrássemos quadros de não-fala, reduzíssemos a amostragem do áudio para replicar condições típicas de telefone e extrairmos recursos espectro-temporais de baixo nível.

Dividindo o áudio em 155 segmentos e atribuindo pontuações de vivacidade, determinamos que o áudio era consistentemente artificial. Usando “impressões digitais de áudio”, comparamos o áudio com 122 sistemas TTS e identificamos com 99% de probabilidade que o ElevenLabs ou um sistema semelhante foi usado. Essa descoberta foi validada com 84% de probabilidade por meio do Classificador de SpeechAI do ElevenLabs. Nossa análise detalhada revelou artefatos de deepfakes, particularmente em frases com fricativas ricas e expressões incomuns para o Presidente Biden.

Esse caso destaca a importância de nossos sistemas de detecção de deepfakes escaláveis e explicáveis, que melhoram a precisão, construímos confiança e se adaptam a novas tecnologias. Também destaca a necessidade de os sistemas de IA geradora incorporarem salvaguardas contra o uso indevido, garantindo que a clonagem de voz seja consentida por indivíduos reais. Nossa abordagem estabelece um padrão para lidar com ameaças de mídia sintética, enfatizando o monitoramento e a pesquisa contínuos para ficar à frente dos métodos de deepfakes em evolução.

O relatório menciona preocupações significativas sobre deepfakes afetando a mídia e as instituições políticas. Pode fornecer exemplos de tais incidentes e seu impacto potencial?

Nossa pesquisa encontrou que os consumidores dos EUA estão mais preocupados com o risco de deepfakes e clones de voz no setor bancário e financeiro. Mas além disso, a ameaça de deepfakes para prejudicar nossas instituições de mídia e políticas representa um desafio igualmente significativo. Fora dos EUA, o uso de deepfakes também foi observado na Indonésia (deepfake de Suharto) e na Eslováquia (deepfake de voz de Michal Šimečka e Monika Tódová).

2024 é um ano de eleições significativas nos EUA e na Índia. Com 4 bilhões de pessoas em 40 países esperados para votar, a proliferação da tecnologia de inteligência artificial torna mais fácil do que nunca enganar as pessoas na internet. Esperamos um aumento nos ataques de deepfakes direcionados a instituições governamentais, empresas de mídia social, outras empresas de mídia e a população em geral, que visam criar desconfiança em nossas instituições e disseminar informações falsas no discurso público.

Pode explicar as tecnologias e metodologias que a Pindrop usa para detectar deepfakes e vozes sintéticas em tempo real?

A Pindrop usa uma variedade de tecnologias e metodologias avançadas para detectar deepfakes e vozes sintéticas em tempo real, incluindo:

- Detecção de vivacidade: A Pindrop usa aprendizado de máquina em larga escala para analisar quadros de não-fala (por exemplo, silêncio, ruído, música) e extrair recursos espectro-temporais de baixo nível que distinguem entre discurso gerado por máquina e discurso humano genérico.
- Imprimir digital de áudio – Isso envolve criar uma assinatura digital para cada voz com base em suas propriedades acústicas, como tom, timbre e cadência. Essas assinaturas são usadas para comparar e corresponder vozes em diferentes chamadas e interações.
- Análise de comportamento – Usada para analisar padrões de comportamento que parecem fora do comum, incluindo acesso anormal a várias contas, atividade de bot rápida, reconhecimento de contas e mineração de dados e discagem robótica.

Análise de voz – Ao analisar recursos de voz, como características do trato vocal, variações fonéticas e estilo de fala, a Pindrop pode criar uma impressão digital de voz para cada indivíduo. Qualquer desvio da impressão digital de voz esperada pode disparar um alerta.

Abordagem de segurança em camadas – Isso envolve combinar diferentes métodos de detecção para verificar resultados cruzados e aumentar a precisão da detecção. Por exemplo, os resultados da impressão digital de áudio podem ser cruzados com a análise biométrica para confirmar uma suspeita.
Aprendizado contínuo e adaptação – A Pindrop atualiza continuamente seus modelos e algoritmos. Isso envolve incorporar novos dados, refinar técnicas de detecção e ficar à frente de ameaças emergentes. O aprendizado contínuo garante que as capacidades de detecção melhorem com o tempo e se adaptem a novos tipos de ataques de voz sintética.

O que é a Garantia Deepfake Pulse, e como ela melhora a confiança do cliente nas capacidades da Pindrop para lidar com ameaças de deepfakes?

A Garantia Deepfake Pulse é uma garantia inédita que oferece reembolso contra fraude de voz sintética no centro de contato. À medida que nos aproximamos de uma mudança sísmica no cenário de ataques cibernéticos, perdas financeiras potenciais esperadas para atingir $10.5 trilhões até 2025, a Garantia Deepfake Pulse melhora a confiança do cliente, oferecendo várias vantagens principais:

Confiança Aumentada: A Garantia Deepfake Pulse demonstra a confiança da Pindrop em seus produtos e tecnologia, oferecendo aos clientes uma solução de segurança confiável ao atender seus titulares de contas.
Reembolso de Perdas: Os clientes da Pindrop podem receber reembolsos por eventos de fraude de voz sintética não detectados pela Suíte de Produtos da Pindrop.
Melhoria Contínua: Os pedidos de clientes da Pindrop recebidos pelo programa de garantia ajudam a Pindrop a ficar à frente das táticas de fraude de voz sintética em evolução.

Há algum estudo de caso notável onde as tecnologias da Pindrop tenham mitigado com sucesso ameaças de deepfakes? Quais foram os resultados?

O Incidente da Escola Secundária Pikesville: Em 16 de janeiro de 2024, uma gravação surgiu no Instagram, supostamente com o diretor da Escola Secundária Pikesville em Baltimore, Maryland. O áudio continha comentários depreciativos sobre estudantes e professores negros, inflamando um incêndio de indignação pública e preocupação séria.

À luz desses desenvolvimentos, a Pindrop realizou uma investigação abrangente, conduzindo três análises independentes para descobrir a verdade. Os resultados de nossa investigação minuciosa levaram a uma conclusão matizada: embora o áudio de janeiro tivesse sido alterado, faltavam as características definitivas de discurso sintético gerado por IA. Nossa confiança nessa determinação é apoiada por uma certeza de 97% com base em nossas métricas de análise. Essa descoberta crucial destaca a importância de realizar análises detalhadas e objetivas antes de fazer declarações públicas sobre a natureza de mídia potencialmente manipulada.

Em um grande banco dos EUA, a Pindrop descobriu que um fraudador estava usando voz sintética para bypassar a autenticação no IVR. Descobrimos que o fraudador estava usando voz gerada por máquina para bypassar a autenticação do IVR para contas específicas, fornecendo as respostas certas para as perguntas de segurança e, em um caso, até passando senhas de uso único (OTP). Bots que autenticaram com sucesso no IVR identificaram contas dignas de serem visadas por meio de consultas básicas de saldo. Chamadas subsequentes para essas contas eram de um ser humano real para cometer a fraude. A Pindrop alertou o banco para essa fraude em tempo real usando a tecnologia Pulse e foi capaz de parar o fraudador.

Em outra instituição financeira, a Pindrop descobriu que alguns fraudadores estavam treinando seus próprios voicebots para imitar sistemas de resposta automatizados de bancos. Em uma chamada que soou como uma primeira chamada estranha, um voicebot ligou para o IVR do banco não para fazer reconhecimento de contas, mas para repetir os prompts do IVR. Múltiplas chamadas chegaram ao IVR de diferentes branches da árvore de conversa e, a cada dois segundos, o bot repetia o que ouviu. Uma semana depois, mais chamadas foram observadas fazendo o mesmo, mas desta vez o voicebot repetia as frases com precisamente a mesma voz e maneirismos do IVR do banco. Acreditamos que um fraudador estava treinando um voicebot para espelhar o IVR do banco como um ponto de partida de um ataque de smishing. Com a ajuda da tecnologia Pulse da Pindrop, a instituição financeira foi capaz de frustrar esse ataque antes que qualquer dano fosse causado.

Experimento Independente de Áudio Deepfake da NPR: A segurança digital é uma corrida armamentista constante entre fraudadores e provedores de tecnologia de segurança. Há vários provedores, incluindo Pindrop, que reivindicam detectar áudio deepfakes consistentemente – a NPR testou essas reivindicações para avaliar se as soluções de tecnologia atuais são capazes de detectar áudio deepfakes gerados por IA de forma consistente.

A Pindrop Pulse detectou corretamente 81 das 84 amostras de áudio, traduzindo-se em uma taxa de precisão de 96,4%. Além disso, a Pindrop Pulse detectou 100% de todas as amostras de deepfakes como tal. Embora outros provedores também tenham sido avaliados no estudo, a Pindrop se destacou como líder, demonstrando que sua tecnologia pode detectar de forma confiável e precisa tanto áudio deepfake quanto áudio legítimo.

Quais tendências futuras em fraude e segurança baseada em voz você prevê, especialmente com o rápido desenvolvimento de tecnologias de IA? Como a Pindrop está se preparando para lidar com essas?

Esperamos que a fraude de centro de contato continue aumentando em 2024. Com base na análise dos índices de fraude ano a ano em diferentes setores, estimamos que a taxa de fraude atinja 1 em cada 730 chamadas, representando um aumento de 4-5% em relação aos níveis atuais.

A maioria do aumento da fraude deve afetar o setor bancário, pois seguros, corretoras e outros segmentos financeiros devem permanecer em torno dos níveis atuais. Estimamos que essas taxas de fraude representam uma exposição à fraude de $7 bilhões para as instituições financeiras nos EUA, que precisa ser segurada. No entanto, antecipamos uma mudança significativa, particularmente com os fraudadores utilizando os IVRs como um terreno de teste. Recentemente, observamos um aumento nos fraudadores inserindo manualmente informações de identificação pessoal (PII) para verificar detalhes de contas.

Para ajudar a combater isso, continuaremos a avançar com as soluções atuais da Pindrop e lançar novas e inovadoras ferramentas, como a Pindrop Pulse, que protegem nossos clientes.

Além das tecnologias atuais, quais novas ferramentas e técnicas estão sendo desenvolvidas para melhorar a prevenção e autenticação de fraude de voz?

As técnicas de prevenção e autenticação de fraude de voz estão em constante evolução para acompanhar os avanços na tecnologia e a sofisticação das atividades fraudulentas. Algumas ferramentas e técnicas emergentes incluem:

Detecção contínua de fraude e investigação: Fornece uma visão retrospectiva histórica de instâncias de fraude com novas informações agora disponíveis. Com essa abordagem, os analistas de fraude podem “ouvir” por novos sinais de fraude, varrer chamadas históricas que possam estar relacionadas e reavaliar essas chamadas. Isso fornece às empresas uma perspectiva contínua e abrangente sobre a fraude em tempo real.
Análise de voz inteligente: Os sistemas de biometria de voz tradicionais são vulneráveis a ataques de deepfakes. Para melhorar suas defesas, novas tecnologias, como Mismatch de Voz e Correspondência de Voz Negativa, são necessárias. Essas tecnologias fornecem uma camada adicional de defesa, reconhecendo e diferenciando múltiplas vozes, chamadas repetidas e identificando onde uma voz com som diferente pode representar uma ameaça.
Detecção precoce de fraude: Tecnologias de detecção de fraude que fornecem um sinal de fraude rápido e confiável no início do processo de chamada são inestimáveis. Além da detecção de vivacidade, tecnologias como análise de metadados de operadora, detecção de spoofing de ID de chamada e detecção de spoofing de áudio baseado em áudio fornecem proteção contra ataques de fraude no início de uma conversa, quando as defesas estão mais vulneráveis.

Obrigado pela grande entrevista, para saber mais, leia o Relatório de Inteligência e Segurança de Voz da Pindrop de 2024 ou visite Pindrop.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.

Unite.AI

Vijay Balasubramaniyan, Co-Fundador & CEO da Pindrop – Série de Entrevistas

You may like