Inteligencia artificial

Cómo una herramienta de inteligencia artificial de salud mental descubrió accidentalmente la detección precisa de deepfakes

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

Cuando el gigante tecnológico Open AI lanzó su modelo generativo de video y audio Sora 2 en septiembre de 2025, los videos deepfake inundaron las plataformas de redes sociales, haciendo que la audiencia se familiarizara cada vez más con contenido hiperrealista potencialmente peligroso.

Aunque Open AI consideró que el lanzamiento responsable de Sora 2 era una prioridad, afirmó que daría a los usuarios “las herramientas y la opción de controlar lo que ven en su feed” y el control sobre su semejanza de principio a fin, un estudio de octubre de 2025 encontró que el modelo produjo videos de afirmaciones falsas el 80% del tiempo.

Desde videos que imitaban informes de noticias de un funcionario electoral de Moldavia destruyendo boletas hasta escenas fabricadas de un niño pequeño detenido por oficiales de inmigración o un portavoz de Coca-Cola anunciando que la empresa no patrocinaría el Super Bowl, las apuestas para producir información errónea en un mundo interconectado no podrían ser más altas.

Más allá de Sora: Vishing

Incluso antes de que la herramienta de Open AI se lanzara, la creación y difusión en línea de archivos deepfake estaban en aumento. Según un informe de septiembre de 2025 de la empresa de ciberseguridad DeepStrike, el contenido deepfake aumentó de 500,000 en 2023 a 8 millones en 2025, gran parte del cual se utilizó para fines fraudulentos.

La tendencia no muestra signos de detenerse; el fraude de IA en EE. UU. solo se espera alcanzar $40 mil millones de USD para 2027.

Este aumento no se limita a la cantidad. Con herramientas como Sora 2 y Veo 3 de Google, el contenido de caras, voces y actuaciones de cuerpo completo generadas por IA es más realista que nunca. A medida que señaló el científico informático y investigador de deepfakes Siwei Luy, los modelos contemporáneos son capaces de producir caras estables sin deformaciones o distorsiones, mientras que la clonación de voces ha cruzado un “umbral indistinguible”.

La verdad es que los deepfakes están superando a la detección. Lo que las empresas tecnológicas venden como herramientas divertidas para generar todo, desde rutinas de gimnasia olímpica hasta paisajes sonoros sofisticados, también ha sido aprovechado por delincuentes para atacar a empresas y particulares. Solo en el primer semestre de 2025, los incidentes de deepfake provocaron pérdidas de $356 millones de USD para las empresas y $541 millones de USD para los particulares.

La detección tradicional de deepfake, incluyendo la identificación de marcas de agua, caras retocadas y comprobaciones de metadatos, está fallando. Y, a medida que los deepfakes de voz siguen siendo la segunda forma más común de fraude habilitado por IA y el phishing de voz (vishing) aumentó 442% en 2025, las consecuencias ya se están sintiendo.

“Unos pocos segundos de audio ahora bastan para generar un clon convincente – completo con entonación natural, ritmo, énfasis, emoción, pausas y ruido de respiración”, escribió Lyu.

La ciencia de escuchar a los humanos

Kintsugi, una startup de salud que desarrolla tecnología de biomarcadores de voz de IA para detectar signos de depresión clínica y ansiedad. Su trabajo comenzó a partir de un principio aparentemente simple: debemos escuchar a los humanos.

“Comencé Kintsugi debido a un problema que experimenté personalmente. Pasé casi cinco meses llamando a mi proveedor solo para programar una cita de terapia inicial, y nadie nunca devolvió mis llamadas. Seguí intentando – pero recuerdo pensar muy claramente que si esto fuera mi padre o mi hermano, habrían dejado de intentarlo mucho antes que yo”, dijo la CEO Grace Chang en conversación con Unite.AI.

La empresa con sede en California se fundó en 2019 como una solución a lo que Chang describió como un “cuello de botella de triaje”. La fundadora creía que detectar la gravedad antes y de forma pasiva podría ayudar a que las personas lleguen al nivel de atención adecuado más rápido. Y, a través de Kintsugi Voice, los biomarcadores de voz identifican la depresión clínica y la ansiedad.

La investigación abunda en la utilización exitosa del análisis de habla y voz impulsado por IA como biomarcador para trastornos de salud mental. Un artículo de mayo de 2025, por ejemplo, encontró que los biomarcadores acústicos pueden detectar signos tempranos de salud mental y neurodivergencia, y argumentó a favor de la integración de análisis de canto en entornos clínicos para evaluar el posible declive cognitivo de los pacientes.

Las medidas de voz, de hecho, tienen una tasa de precisión del 78% al 96% para identificar a las personas con depresión en comparación con aquellos sin ella, según la Asociación Americana de Psiquiatría. Otro estudio utilizó una prueba de fluidez verbal de un minuto en la que un individuo nombró tantas palabras como posible dentro de una categoría determinada – encontrando una precisión del 70% al 83% para detectar cuando un sujeto tenía depresión y ansiedad.

Para evaluar la salud mental de sus usuarios, Kintsugi solicita un clip de habla corto, después de lo cual su tecnología de biomarcadores de voz analiza el tono, entonación, tono y pausas – marcadores encontrados para estar asociados con condiciones como la depresión, la ansiedad, el trastorno bipolar y la demencia.

Lo que Chang no se dio cuenta inicialmente, sin embargo, fue que la tecnología había desbloqueado uno de los desafíos de seguridad más apremiantes de la industria: identificar qué hace que las voces humanas sean humanas.

De la atención a la salud mental a la ciberseguridad

Mientras asistía a una cumbre en Nueva York a fines de 2025, Chang mencionó a un amigo en el campo de la ciberseguridad que el experimento de su equipo con voces sintéticas había sido decepcionante.

“Estábamos explorando datos sintéticos para aumentar el entrenamiento de nuestros modelos de salud mental, pero las voces generadas eran tan diferentes del habla auténtica humana que pudimos decir casi el 100% de las veces”, dijo.

“Se detuvo y me dijo: ‘Grace – ese no es un problema resuelto en seguridad’. Ese fue el momento en que todo encajó. Desde entonces, conversaciones con empresas de seguridad, servicios financieros y telecomunicaciones han confirmado lo rápido que están aumentando los ataques de deepfake de voz – y lo real que es la necesidad de distinguir entre voces humanas y sintéticas en llamadas en vivo”, agregó la CEO.

En abril del año pasado, el FBI advirtió sobre una campaña maliciosa de mensajes de texto y voz que se hacía pasar por comunicaciones de funcionarios seniors de EE. UU. y que apuntaba a ex trabajadores del gobierno y sus contactos. Los grandes bancos nacionales en EE. UU. también fueron objetivo de 5,5 intentos diarios promedio de fraude de manipulación de voz, y el personal del hospital en el Centro Médico de la Universidad de Vanderbilt informó ataques de vishing de impostores que se hacían pasar por amigos, supervisores y compañeros de trabajo.

Sin embargo, los deepfakes no fueron inicialmente un factor en el trabajo de Kintsugi. Mientras que el equipo de la empresa había estado utilizando modelos de venta como Cartesia, Sesame y ElevenLabs para experimentar con voces sintéticas para agentes de centro de llamadas administrativas y flujos de trabajo de salida, el fraude de deepfake no era su enfoque en un mercado abarrotado y accesible que presentaba modelos como Sora.

Las señales de nivel humano que indican la autenticidad de la voz son los mismos biomarcadores que hacen que alguien sea humano en primer lugar. Independientemente del lenguaje o la semántica, Kintsugi Voice opera con procesamiento de señales y la latencia física del habla, capturando la variabilidad prosódica sutil, la carga cognitiva y los marcadores fisiológicos que reflejan cómo se produce el habla… no lo que se dice.

“Las voces sintéticas pueden sonar fluidas, pero no llevan los mismos artefactos biológicos y cognitivos”, dijo Chang. El modelo de la empresa es consistentemente un rendimiento de decil superior en precisión de detección, utilizando tan solo 3 a 5 segundos de audio.

Kintsugi puede ser revolucionario para aquellos que luchan con la salud mental, especialmente en áreas donde obtener tratamiento con profesionales lleva tiempo y recursos. Al mismo tiempo, su tecnología plantea una revolución para la detección de deepfakes y la ciberseguridad en general: detección de autenticidad en lugar de reconocimiento de deepfake.

El futuro se encuentra en la tecnología centrada en el ser humano

La ciberseguridad ha estado enfocada durante mucho tiempo en el uso maligno de tecnologías o en los perpetradores en sí. El descubrimiento accidental de Kintsugi, sin embargo, apuesta por la humanidad en sí.

“Estamos operando en una superficie completamente diferente: la autenticidad humana en sí. Los LLM no pueden detectar de manera confiable el contenido generado por LLM, y los métodos basados en artefactos son frágiles. Capturar grandes conjuntos de datos etiquetados clínicamente que codifiquen la variabilidad humana real es costoso, lento y fuera del expertise central de la mayoría de las empresas de seguridad — lo que hace que este enfoque sea difícil de replicar”, señaló Chang.

El enfoque de la startup también sugiere un cambio más amplio: innovación entre dominios. Es posible que los líderes en atención a la salud puedan liderar el cargo en la detección de vishing respaldada por IA, al igual que los innovadores en tecnología espacial podrían respaldar nuevos mecanismos de respuesta a emergencias, o los arquitectos de juegos y la planificación urbana.

En cuanto a Chang, planea convertirse en un estándar para verificar a humanos reales y, eventualmente, intención real a través de interacciones de voz.

“Al igual que HTTPS se convirtió en una capa de confianza predeterminada para la web, creemos que la ‘prueba de humano’ se convertirá en una capa fundamental para los sistemas basados en voz”, dijo.

A medida que la IA generativa continúa acelerándose, las salvaguardas más efectivas pueden provenir de comprender qué hace que los humanos… sean humanos.

Salomé Beyer Velez

Salomé es una periodista nacida en Medellín y reportera senior en Espacio Media Incubator. Con una formación en Historia y Política, el trabajo de Salomé enfatiza la relevancia social de las tecnologías emergentes. Ha sido destacada en Al Jazeera, Latin America Reports, y The Sociable, entre otros.