Inteligência artificial
Como uma Ferramenta de Inteligência Artificial de Saúde Mental Acidentalmente Descobriu a Detecção Precisa de Deepfakes

À medida que o gigante da tecnologia Open AI lançou seu modelo de vídeo e áudio geracional Sora 2 em setembro de 2025, os vídeos deepfake inundaram as plataformas de mídia social, tornando o público cada vez mais familiarizado com conteúdo hiper-realista potencialmente perigoso.
Embora a Open AI considerasse o lançamento responsável do Sora 2 como uma prioridade, afirmando que daria aos usuários “as ferramentas e opções para controlar o que veem em sua feed” e controle sobre sua semelhança de ponta a ponta, um estudo de outubro de 2025 encontrou que o modelo produziu vídeos de afirmações falsas 80% do tempo.
Desde vídeos que imitam relatórios de notícias de um oficial eleitoral da Moldávia destruindo cédulas até cenas fabricadas de uma criança pequena sendo detida por oficiais de imigração ou um porta-voz da Coca-Cola anunciando que a empresa não patrocinaria o Super Bowl, as apostas para produzir informações erradas em um mundo interconectado não poderiam ser maiores.
Além do Sora: Vishing
Mesmo antes do lançamento da ferramenta da Open AI, a criação e disseminação online de arquivos deepfake estavam em ascensão. De acordo com um relatório de setembro de 2025 da empresa de cibersegurança DeepStrike, o conteúdo deepfake aumentou de 500.000 em 2023 para um impressionante 8 milhões em 2025, grande parte do qual foi usado para fins fraudulentos.
A tendência não mostra sinais de parar; a fraude de IA nos EUA sozinho é esperado atingir US$ 40 bilhões até 2027.
Tal aumento não é limitado à quantidade. Com ferramentas como Sora 2 e Veo 3 do Google, o conteúdo de rostos, vozes e performances de corpo inteiro gerados por IA são mais realistas do que nunca. À medida que os deepfakes de voz permanecem a segunda forma mais comum de fraude habilitada por IA e phishing de voz (vishing) aumentou 442% em 2025, as consequências já estão sendo sentidas.
“Alguns segundos de áudio agora são suficientes para gerar um clone convincente – completo com entonação natural, ritmo, ênfase, emoção, pausas e ruído de respiração”, escreveu Lyu.
A Ciência de Ouvir os Humanos
Kintsugi, uma startup de healthtech que desenvolve tecnologia de biomarcador de voz de IA para detectar sinais de depressão clínica e ansiedade. Seu trabalho começou a partir de uma premissa aparentemente simples: devemos ouvir os humanos.
“Eu comecei a Kintsugi porque de um problema que eu experimentei pessoalmente. Passei quase cinco meses ligando para o meu provedor apenas para marcar um compromisso de terapia inicial, e ninguém nunca retornou minhas ligações. Continuei tentando – mas lembro-me claramente de pensar muito claramente que, se isso fosse meu pai ou meu irmão, eles teriam parado muito antes de eu fazer”, disse a CEO Grace Chang em conversa com Unite.AI.
A empresa com sede na Califórnia foi fundada em 2019 como uma solução para o que Chang descreveu como um “gargalo de triagem”. A fundadora acreditava que detectar a gravidade mais cedo e passivamente poderia ajudar as pessoas a obter o nível de cuidado certo mais rápido. E, por meio da Kintsugi Voice, biomarcadores de voz identificam depressão clínica e ansiedade.
Pesquisas abundam comprovando o uso bem-sucedido de análise de fala e voz impulsionada por IA como um biomarcador para condições de saúde mental. Um artigo de maio de 2025, por exemplo, encontrou que biomarcadores acústicos podem detectar sinais precoces de saúde mental e neurodivergência, e argumentou pela integração de análises de canto em ambientes clínicos para avaliar o declínio cognitivo potencial dos pacientes.
Medidas de voz, de fato, têm uma taxa de precisão de 78% a 96% na identificação de pessoas com depressão versus aquelas sem ela, de acordo com a Associação Americana de Psiquiatria. Outro estudo usou um teste de fluência verbal de um minuto no qual um indivíduo nomeou tantas palavras quanto possível dentro de uma categoria dada – encontrando 70% a 83% de precisão na detecção de quando um sujeito tinha depressão e ansiedade.
Para avaliar a saúde mental de seus usuários, a Kintsugi solicita um clipe de fala curto, após o qual sua tecnologia de biomarcador de voz analisa tom, entonação, tom e pausas – marcadores encontrados para estar associados a condições como depressão, ansiedade, transtorno bipolar e demência.
O que Chang não percebeu inicialmente, no entanto, foi que a tecnologia havia desbloqueado um dos desafios contemporâneos mais prementes da indústria de segurança: identificar o que torna as vozes humanas humanas.
Da Assistência à Saúde à Cibersegurança
Enquanto participava de um encontro em Nova York no final de 2025, Chang mencionou a um amigo no campo da cibersegurança que a equipe da Kintsugi havia experimentado com vozes sintéticas, mas os resultados foram desapontadores.
“Estávamos explorando dados sintéticos para aumentar o treinamento para nossos modelos de saúde mental, mas as vozes geradas eram tão diferentes da fala humana autêntica que podíamos dizer quase 100% do tempo”, disse ela.
“Ele me parou e disse: ‘Grace – isso não é um problema resolvido na segurança.’ Foi o momento em que tudo fez sentido. Desde então, conversas com empresas de segurança, serviços financeiros e telecomunicações confirmaram o quão rapidamente os ataques de voz deepfake estão aumentando – e quão real é a necessidade de distinguir vozes humanas de sintéticas em chamadas ao vivo”, acrescentou a CEO.
Em abril do ano passado, o FBI advertiu sobre uma campanha maliciosa de mensagens de texto e voz que se passava por comunicações de oficiais seniores dos EUA e visava ex-funcionários do governo e seus contatos. Grandes bancos nacionais nos EUA também foram visados com 5,5 tentativas diárias médias de fraude de manipulação de voz, e a equipe do hospital do Centro Médico da Universidade Vanderbilt relatou ataques de vishing de impostores se passando por amigos, supervisores e colegas de trabalho.
Independentemente disso, os deepfakes não fizeram parte inicialmente do trabalho da Kintsugi. Embora a equipe da empresa estivesse usando modelos prontos como Cartesia, Sesame e ElevenLabs para experimentar com vozes sintéticas para agentes de call center administrativos e fluxos de saída, a fraude de deepfake não era o foco em um mercado movimentado e acessível que apresentava modelos como o Sora.
Os sinais humanos de nível que indicam a autenticidade da voz, no entanto, são os mesmos biomarcadores que tornam alguém humano em primeiro lugar. Independentemente do idioma ou semântica, a Kintsugi Voice opera com processamento de sinal e latência física da fala, capturando tempo sutil, variabilidade prosódica, carga cognitiva e marcadores fisiológicos que refletem como a fala é produzida… não o que é dito.
“Vozes sintéticas podem soar fluentes, mas não carregam os mesmos artefatos biológicos e cognitivos”, disse Chang. O modelo da empresa é consistentemente um desempenho de nível superior em precisão de detecção, usando apenas 3 a 5 segundos de áudio.
A Kintsugi pode ser revolucionária para aqueles que lutam com a saúde mental, especialmente em áreas onde obter tratamento com profissionais leva tempo e recursos. Do mesmo modo, sua tecnologia representa uma revolução para a detecção de deepfakes e cibersegurança em geral: detecção de autenticidade em vez de reconhecimento de deepfakes.
O Futuro Está na Tecnologia Centrada no Humano
A cibersegurança tem se concentrado por muito tempo no uso maligno de tecnologias ou nos próprios perpetradores. A descoberta acidental da Kintsugi, no entanto, aposta na humanidade em si.
“Estamos operando em uma superfície completamente diferente: a autenticidade humana em si. LLMs não podem detectar confiavelmente o conteúdo gerado por LLMs, e os métodos baseados em artefatos são frágeis. Capturar grandes conjuntos de dados rotulados clinicamente que codifiquem a variabilidade humana real é caro, lento e fora da expertise central da maioria das empresas de segurança — o que torna essa abordagem difícil de replicar”, observou Chang.
A abordagem da startup também sugere uma mudança mais ampla: inovação entre domínios. Os líderes em saúde podem liderar o caminho na detecção de vishing com suporte de IA, assim como os inovadores em tecnologia espacial podem apoiar novos mecanismos de resposta a emergências, ou os arquitetos de jogos podem contribuir para a arquitetura e planejamento urbano.
Quanto a Chang, ela planeja se tornar um padrão para verificar humanos reais e, eventualmente, intenção real por meio de interações de voz.
“Assim como o HTTPS se tornou uma camada de confiança padrão para a web, acreditamos que a ‘prova de humano’ se tornará uma camada fundamental para sistemas baseados em voz”, disse ela.
À medida que a IA gerativa continua a acelerar, as salvaguardas mais eficazes podem vir da compreensão do que torna os humanos… bem, humanos.










