Inteligencia artificial

Cómo una herramienta de inteligencia artificial para la salud mental descubrió accidentalmente la detección precisa de deepfakes

mm

Cuando el gigante tecnológico Open AI lanzó su modelo generativo de video y audio Sora 2 en septiembre de 2025, los videos deepfakes inundaron las plataformas de redes sociales, haciendo que las audiencias se familiarizaran cada vez más con contenido hiperrealista potencialmente peligroso.

Aunque Open AI consideró que el lanzamiento responsable de Sora 2 era una prioridad, afirmó que daría a los usuarios “las herramientas y la opción de controlar lo que ven en su feed” y el control sobre su parecido de principio a fin, un estudio de octubre de 2025 encontró que el modelo produjo videos con afirmaciones falsas el 80% del tiempo.

Desde videos que imitaban informes de noticias de un funcionario electoral de Moldavia destruyendo boletas hasta escenas fabricadas de un niño detenido por oficiales de inmigración o un portavoz de Coca-Cola anunciando que la empresa no patrocinaría el Super Bowl, las apuestas para producir información errónea en un mundo interconectado no podrían ser más altas.

Más allá de Sora: Vishing

Incluso antes de que se lanzara la herramienta de Open AI, la creación y difusión en línea de archivos deepfakes estaban en aumento. Según un informe de septiembre de 2025 de la empresa de ciberseguridad DeepStrike, el contenido deepfake aumentó de 500,000 en 2023 a 8 millones en 2025, gran parte del cual se utilizó para fines fraudulentos.

La tendencia no muestra signos de detenerse; el fraude de IA en EE. UU. solo se espera alcanzar los 40.000 millones de USD para 2027.

Un aumento tan grande no se limita a la cantidad. Con herramientas como Sora 2 y Google’s Veo 3, el contenido de caras, voces y actuaciones generadas por IA es más realista que nunca. Como señaló el científico informático y investigador de deepfakes Siwei Luy, los modelos actuales pueden producir caras estables sin deformaciones, mientras que la clonación de voces ha cruzado un “umbral indistinguible”.

La verdad es que los deepfakes están superando a la detección. Lo que las empresas tecnológicas venden como herramientas divertidas para generar desde rutinas de gimnasia olímpica hasta paisajes sonoros sofisticados, también ha sido utilizado por delincuentes para atacar a empresas y particulares por igual. Solo en el primer semestre de 2025, los incidentes de deepfakes provocaron pérdidas de 356 millones de USD para las empresas y 541 millones de USD para los particulares.

La detección tradicional de deepfakes, incluyendo la identificación de marcas de agua, caras retocadas y comprobaciones de metadatos, está fallando. Y, como los deepfakes de voz siguen siendo la segunda forma más común de fraude habilitado por IA y el phishing de voz (vishing) aumentó un 442% en 2025, las consecuencias ya se están sintiendo.

“Unos pocos segundos de audio ahora son suficientes para generar un clon convincente – completo con entonación natural, ritmo, énfasis, emoción, pausas y ruido de respiración”, escribió Lyu.

La ciencia de escuchar a los humanos

Kintsugi, una startup de salud que desarrolla tecnología de biomarcadores de voz de IA para detectar signos de depresión clínica y ansiedad. Su trabajo comenzó con un principio aparentemente simple: debemos escuchar a los humanos.

“Comencé Kintsugi debido a un problema que experimenté personalmente. Pasé casi cinco meses llamando a mi proveedor para programar una cita de terapia inicial, y nadie nunca devolvió mis llamadas. Seguí intentándolo – pero recuerdo pensar muy claramente que si esto fuera mi padre o mi hermano, habrían dejado de intentarlo mucho antes que yo”, dijo la CEO Grace Chang en conversación con Unite.AI.

La empresa con sede en California se fundó en 2019 como una solución a lo que Chang describió como un “cuello de botella de triaje”. La fundadora creía que detectar la gravedad antes y de manera pasiva podría ayudar a que las personas lleguen al nivel de atención adecuado más rápido. Y, a través de Kintsugi Voice, los biomarcadores de voz identifican la depresión clínica y la ansiedad.

La investigación abunda en la prueba del uso exitoso del análisis de habla y voz impulsado por IA como biomarcador para trastornos de salud mental. Un artículo de mayo de 2025, por ejemplo, encontró que los biomarcadores acústicos pueden detectar signos tempranos de salud mental y neurodivergencia, y argumentó a favor de la integración de análisis de canto en entornos clínicos para evaluar el posible declive cognitivo de los pacientes.

Las medidas de voz, de hecho, tienen una tasa de precisión del 78% al 96% para identificar a las personas con depresión en comparación con aquellos sin ella, según la Asociación Americana de Psiquiatría. Otro estudio utilizó una prueba de fluidez verbal de un minuto en la que un individuo nombró tantas palabras como posible dentro de una categoría determinada – encontrando una precisión del 70% al 83% para detectar cuando un sujeto tenía depresión y ansiedad.

Para evaluar la salud mental de sus usuarios, Kintsugi solicita un clip de habla corto, después de lo cual su tecnología de biomarcadores de voz analiza el tono, la entonación, el tono y las pausas – marcadores encontrados para estar asociados con condiciones como la depresión, la ansiedad, el trastorno bipolar y la demencia.

Lo que Chang no se dio cuenta inicialmente, sin embargo, fue que la tecnología había desbloqueado uno de los desafíos contemporáneos más apremiantes de la industria de la seguridad: identificar lo que hace que las voces humanas sean humanas.

De la atención a la salud mental a la ciberseguridad

Mientras asistía a una cumbre en Nueva York a finales de 2025, Chang mencionó a un amigo en el campo de la ciberseguridad que su equipo había experimentado con voces sintéticas.

“Estábamos explorando datos sintéticos para aumentar el entrenamiento de nuestros modelos de salud mental, pero las voces generadas eran tan diferentes de la habla humana auténtica que pudimos decir casi el 100% del tiempo”, dijo.

“Me detuvo y dijo: ‘Grace, eso no es un problema resuelto en la seguridad’. Ese fue el momento en que todo encajó. Desde entonces, conversaciones con empresas de seguridad, servicios financieros y telecomunicaciones han confirmado lo rápido que están aumentando los ataques de deepfakes de voz y lo real que es la necesidad de distinguir entre voces humanas y sintéticas en llamadas en vivo”, agregó la CEO.

En abril del año pasado, el FBI advirtió sobre una campaña de mensajería de texto y voz maliciosa que se hacía pasar por comunicaciones de funcionarios estadounidenses y apuntaba a ex trabajadores del gobierno y sus contactos. Los grandes bancos nacionales en EE. UU. también fueron objetivo de 5,5 intentos diarios promedio de fraude de manipulación de voz, y el personal del hospital en el Centro Médico de la Universidad de Vanderbilt informó ataques de vishing de impostores que se hacían pasar por amigos, supervisores y compañeros de trabajo.

Sin embargo, los deepfakes no fueron inicialmente un factor en el trabajo de Kintsugi. Mientras que el equipo de la empresa había estado utilizando modelos estándar como Cartesia, Sesame y ElevenLabs para experimentar con voces sintéticas para agentes de centro de llamadas administrativas y flujos de trabajo de salida, el fraude de deepfakes no fue su enfoque en un mercado accesible y concurrido que presentaba modelos como Sora.

Las señales humanas que indican la autenticidad de la voz, sin embargo, son los mismos biomarcadores que hacen que alguien sea humano en primer lugar. Independientemente del lenguaje o la semántica, Kintsugi Voice opera con procesamiento de señales y la latencia física del habla, capturando tiempos sutiles, variabilidad prosódica, carga cognitiva y marcadores fisiológicos que reflejan cómo se produce el habla… no lo que se dice.

“Las voces sintéticas pueden sonar fluidas, pero no llevan los mismos artefactos biológicos y cognitivos”, dijo Chang. El modelo de la empresa es consistentemente un rendimiento de detección de precisión de decil superior, utilizando tan solo 3 a 5 segundos de audio.

Kintsugi puede ser revolucionario para aquellos que luchan con la salud mental, especialmente en áreas donde obtener tratamiento con profesionales lleva tiempo y recursos. Al mismo tiempo, su tecnología plantea una revolución para la detección de deepfakes y la ciberseguridad en general: detección de autenticidad en lugar de reconocimiento de deepfakes.

El futuro se basa en la tecnología centrada en el ser humano

La ciberseguridad ha estado enfocada durante mucho tiempo en el uso maligno de tecnologías o en los perpetradores mismos. El descubrimiento accidental de Kintsugi, sin embargo, apuesta por la humanidad en sí.

“Estamos operando en una superficie completamente diferente: la autenticidad humana en sí. Los LLM no pueden detectar de manera confiable el contenido generado por LLM, y los métodos basados en artefactos son frágiles. Capturar grandes conjuntos de datos clínicamente etiquetados que codifiquen la variabilidad humana real es costoso, lento y fuera del expertise central de la mayoría de las empresas de seguridad — lo que hace que este enfoque sea difícil de replicar”, señaló Chang.

El enfoque de la startup también sugiere un cambio más amplio: innovación entre dominios. Los líderes en atención a la salud podrían liderar la carga en la detección de vishing respaldada por IA, al igual que los innovadores en tecnología espacial podrían respaldar nuevos mecanismos de respuesta a emergencias, o los arquitectos y planificadores urbanos podrían apoyar la arquitectura y la planificación urbana.

En cuanto a Chang, planea convertirse en un estándar para verificar humanos reales y, eventualmente, intención real a través de interacciones de voz.

“Al igual que HTTPS se convirtió en una capa de confianza predeterminada para la web, creemos que ‘prueba de humano’ se convertirá en una capa fundamental para sistemas basados en voz. Signal es el comienzo de esa infraestructura”, dijo.

A medida que la IA generativa continúa acelerándose, las salvaguardas más efectivas podrían provenir de comprender qué hace que los humanos… sean humanos.

Salomé es una periodista nacida en Medellín y reportera senior en Espacio Media Incubator. Con una formación en Historia y Política, el trabajo de Salomé enfatiza la relevancia social de las tecnologías emergentes. Ha sido destacada en Al Jazeera, Latin America Reports, y The Sociable, entre otros.