Connect with us

Comment un outil d’intelligence artificielle pour la santé mentale a accidentellement découvert une détection de deepfake précise

Intelligence artificielle

Comment un outil d’intelligence artificielle pour la santé mentale a accidentellement découvert une détection de deepfake précise

mm

Alors que le géant de la technologie Open AI lançait son modèle génératif de vidéo et d’audio Sora 2 en septembre 2025, les vidéos deepfake ont inondé les plateformes de réseaux sociaux, rendant le public de plus en plus familier avec un contenu hyper-réaliste potentiellement dangereux.

Bien que Open AI ait considéré le lancement responsable de Sora 2 comme une priorité absolue, affirmant qu’il donnerait aux utilisateurs « les outils et les options pour contrôler ce qu’ils voient dans leur fil » et contrôler leur ressemblance de bout en bout, une étude d’octobre 2025 a constaté que le modèle produisait des vidéos à fausses allégations 80 % du temps.

Des vidéos qui imitaient des reportages d’actualité sur un fonctionnaire électoral moldave détruisant des bulletins de vote à des scènes fabriquées d’un enfant en bas âge détenu par des agents de l’immigration ou d’un porte-parole de Coca-Cola annonçant que l’entreprise ne parrainerait pas le Super Bowl, les enjeux de la production de fausses informations dans un monde interconnecté ne pourraient être plus élevés.

Au-delà de Sora : Vishing

Même avant le lancement de l’outil d’Open AI, la création et la diffusion en ligne de fichiers deepfake étaient en augmentation. Selon un rapport de septembre 2025 de la société de cybersécurité DeepStrike, le contenu deepfake a augmenté de 500 000 en 2023 à un chiffre stupéfiant de 8 millions en 2025, dont une grande partie a été utilisée à des fins frauduleuses.

La tendance ne montre aucun signe de ralentissement ; la fraude à l’IA aux États-Unis seule devrait atteindre 40 milliards de dollars américains d’ici 2027.

Une telle augmentation n’est pas limitée à la quantité. Avec des outils comme Sora 2 et Google’s Veo 3, le contenu de visages, de voix et de performances de corps entièrement générés par IA est plus réaliste que jamais. Alors que le signale le chercheur en deepfake et informaticien Siwei Luy, les modèles contemporains sont capables de produire des visages stables sans déformation ou distorsion, tandis que le clonage de voix a franchi un « seuil indiscernable ».

La vérité est que les deepfakes dépassent la détection. Ce que les sociétés de technologie vendent comme des outils amusants pour générer tout, des routines de gymnastique olympique aux paysages sonores sophistiqués, a également été utilisé par les criminels pour cibler les entreprises et les particuliers. Nothing dans le premier semestre 2025, les incidents de deepfake ont provoqué des pertes de 356 millions de dollars américains pour les entreprises et de 541 millions de dollars américains pour les particuliers.

La détection traditionnelle de deepfake – y compris l’identification de filigranes, de visages retouchés et de vérifications de métadonnées – échoue. Et, alors que les deepfakes de voix restent la deuxième forme la plus courante de fraude activée par IA et de phishing vocal (vishing) a augmenté de 442 % en 2025, les conséquences sont déjà ressenties.

« Quelques secondes d’audio suffisent désormais pour générer un clone convaincant – avec intonation naturelle, rythme, accent, émotion, pauses et bruit de respiration », a écrit Lyu.

La science de l’écoute des humains

Kintsugi, une startup de santé qui développe une technologie de biomarqueur vocal basée sur l’IA pour détecter les signes de dépression clinique et d’anxiété. Leur travail a commencé à partir d’un principe apparemment simple : nous devons écouter les humains.

« J’ai créé Kintsugi à cause d’un problème que j’ai personnellement rencontré. J’ai passé près de cinq mois à appeler mon fournisseur pour simplement planifier un rendez-vous de thérapie initial, et personne n’a jamais rappelé. J’ai continué à essayer – mais je me souviens clairement que si c’était mon père ou mon frère, ils auraient arrêté longtemps avant que je ne le fasse », a déclaré le PDG Grace Chang lors d’une conversation avec Unite.AI.

La société californienne a été fondée en 2019 comme une solution à ce que Chang a décrit comme un « goulet d’étranglement de triage ». Le fondateur croyait que la détection de la gravité plus tôt et de manière passive pourrait aider les gens à obtenir le bon niveau de soins plus rapidement. Et, grâce à Kintsugi Voice, les biomarqueurs vocaux identifient la dépression clinique et l’anxiété.

Des recherches abondent prouvant l’utilisation réussie de l’analyse de la parole et de la voix basée sur l’IA comme biomarqueur pour les troubles de santé mentale. Un article de mai 2025, par exemple, a constaté que les biomarqueurs acoustiques peuvent détecter les premiers signes de santé mentale et de neurodivergence, et a plaidé pour l’intégration d’analyses de chant dans les milieux cliniques pour évaluer le déclin cognitif potentiel des patients.

Les mesures vocales, en fait, ont un taux de précision de 78 % à 96 % pour identifier les personnes atteintes de dépression par rapport à celles qui n’en sont pas atteintes, selon l’Association américaine de psychiatrie. Une autre étude a utilisé un test de fluence verbale d’une minute au cours duquel un individu a nommé autant de mots que possible dans une catégorie donnée – trouvant une précision de 70 % à 83 % pour détecter si un sujet avait à la fois de la dépression et de l’anxiété.

Pour évaluer la santé mentale de leurs utilisateurs, Kintsugi demande un court extrait de parole, après quoi sa technologie de biomarqueur vocal analyse la hauteur, l’intonation, le ton et les pauses – des marqueurs trouvés pour être associés à des conditions comme la dépression, l’anxiété, le trouble bipolaire et la démence.

Ce que Chang n’avait pas initialement réalisé, cependant, c’est que la technologie avait débloqué l’un des défis de sécurité les plus pressants de l’industrie : identifier ce qui rend les voix humaines humaines.

De la santé mentale à la cybersécurité

Alors qu’elle assistait à un sommet à New York à la fin de 2025, Chang a mentionné à un ami dans le domaine de la cybersécurité que les expériences de son équipe avec les voix synthétiques avaient été décevantes.

« Nous explorions les données synthétiques pour augmenter la formation de nos modèles de santé mentale, mais les voix générées étaient si différentes de la parole humaine authentique que nous pouvions en détecter près de 100 % du temps », a-t-elle déclaré.

« Il m’a arrêtée et a dit : « Grace – ce n’est pas un problème résolu en sécurité ». C’était le moment où tout a cliqué. Depuis, des conversations avec des sociétés de sécurité, des services financiers et des entreprises de télécommunications ont confirmé à quel point les attaques de voix deepfake sont en augmentation – et à quel point le besoin de distinguer les voix humaines des voix synthétiques dans les appels en direct est réel », a ajouté le PDG.

En avril de l’année dernière, le FBI a averti d’une campagne de messagerie vocale et textuelle malveillante se faisant passer pour des communications de hauts fonctionnaires américains et ciblant d’anciens employés du gouvernement et leurs contacts. De grandes banques nationales aux États-Unis ont également été ciblées par des tentatives de fraude de manipulation vocale en moyenne 5,5 fois par jour, et le personnel hospitalier du Vanderbilt University Medical Center a signalé des attaques de vishing de la part d’usurpateurs se faisant passer pour des amis, des superviseurs et des collègues de travail.

Quoi qu’il en soit, les deepfakes n’ont pas initialement fait partie du travail de Kintsugi. Alors que l’équipe de la société utilisait des modèles standards comme Cartesia, Sesame et ElevenLabs pour expérimenter avec des voix synthétiques pour des agents de centre d’appels administratifs et des flux de travail sortants, la fraude deepfake n’était pas leur objectif dans un marché encombré et accessible mettant en vedette des modèles comme Sora.

Les signaux humains qui indiquent l’authenticité vocale sont les mêmes biomarqueurs qui font qu’une personne est humaine en premier lieu. Indépendamment de la langue ou de la sémantique, Kintsugi Voice fonctionne avec le traitement du signal et la latence physique de la parole, capturant des temps subtils, une variabilité prosodique, une charge cognitive et des marqueurs physiologiques qui reflètent la façon dont la parole est produite… et non ce qui est dit.

« Les voix synthétiques peuvent paraître fluides, mais elles ne portent pas les mêmes artefacts biologiques et cognitifs », a déclaré Chang. Le modèle de la société est régulièrement un performant du top décile en termes de précision de détection, en utilisant aussi peu que 3 à 5 secondes d’audio.

Kintsugi peut être révolutionnaire pour ceux qui luttent contre la santé mentale, en particulier dans les zones où obtenir un traitement avec des professionnels prend du temps et des ressources. Dans le même temps, sa technologie pose une révolution pour la détection de deepfake et la cybersécurité en général : la détection d’authenticité plutôt que la reconnaissance de deepfake.

L’avenir réside dans la technologie centrée sur l’humain

La cybersécurité a longtemps été axée sur l’utilisation malveillante des technologies ou les auteurs eux-mêmes. La découverte accidentelle de Kintsugi, cependant, mise sur l’humanité elle-même.

« Nous opérons sur une surface complètement différente : l’authenticité humaine elle-même. Les LLM ne peuvent pas détecter de manière fiable le contenu généré par LLM, et les méthodes basées sur les artefacts sont fragiles. La capture de grands ensembles de données cliniquement étiquetés qui encodent la variabilité humaine réelle est coûteuse, lente et en dehors de l’expertise principale de la plupart des sociétés de sécurité — ce qui rend cette approche difficile à reproduire », a noté Chang.

L’approche de la startup suggère également un changement plus large : l’innovation interdomaine. Les premiers de la santé pourraient bien mener la charge dans la détection de vishing basée sur l’IA, tout comme les innovateurs de la technologie spatiale pourraient soutenir de nouveaux mécanismes de réponse d’urgence, ou les architectes de jeux pourraient soutenir la planification urbaine.

En ce qui concerne Chang, elle prévoit de devenir une norme pour vérifier les humains réels et, éventuellement, les intentions réelles à travers les interactions vocales.

« Tout comme HTTPS est devenu une couche de confiance par défaut pour le Web, nous croyons que la « preuve d’humain » deviendra une couche fondamentale pour les systèmes basés sur la voix », a-t-elle déclaré.

Alors que l’IA générative continue d’accélérer, les sauvegardes les plus efficaces pourraient provenir de la compréhension de ce qui rend les humains… bien humains.

Salomé est une journaliste née à Medellín et reporter senior chez Espacio Media Incubator. Avec une formation en histoire et en politique, le travail de Salomé met l'accent sur la pertinence sociale des technologies émergentes. Elle a été présentée sur Al Jazeera, Latin America Reports et The Sociable, entre autres.