Santé
Diagnostiquer les troubles de santé mentale grâce à l’évaluation des expressions faciales par l’IA

Les chercheurs allemands ont développé une méthode pour identifier les troubles mentaux en fonction des expressions faciales interprétées par la vision par ordinateur.
La nouvelle approche peut non seulement distinguer les sujets non affectés des sujets affectés, mais peut également distinguer correctement la dépression de la schizophrénie, ainsi que le degré auquel le patient est actuellement affecté par la maladie.
Les chercheurs ont fourni une image composite qui représente le groupe de contrôle pour leurs tests (à gauche dans l’image ci-dessous) et les patients qui souffrent de troubles mentaux (à droite). Les identités de plusieurs personnes sont mélangées dans les représentations, et aucune image ne représente un individu en particulier :
Les personnes atteintes de troubles affectifs ont tendance à avoir des sourcils levés, des regards lourds, des visages gonflés et des expressions de bouche triste. Pour protéger la vie privée des patients, ces images composites sont les seules qui sont mises à disposition pour soutenir le nouveau travail.
Jusqu’à présent, la reconnaissance des affects faciaux a été principalement utilisée comme outil potentiel pour le diagnostic de base. La nouvelle approche, en revanche, offre une méthode possible pour évaluer la progression des patients tout au long du traitement, ou encore (potentiellement, bien que l’article ne le suggère pas) dans leur propre environnement domestique pour une surveillance ambulatoire.
L’article indique* :
‘Aller au-delà du diagnostic de la dépression par ordinateur dans l’informatique affective, qui a été développé dans des études précédentes, nous montrons que l’état affectif mesurable estimé par des moyens de vision par ordinateur contient beaucoup plus d’informations que la classification catégorique pure.’
Les chercheurs ont baptisé cette technique Électroencéphalographie optoélectronique (OEG), une méthode complètement passive d’inférence de l’état mental par analyse d’images faciales au lieu de capteurs topiques ou de technologies d’imagerie médicale à base de rayons.
Les auteurs concluent que l’OEG pourrait potentiellement ne pas être seulement un simple outil secondaire pour le diagnostic et le traitement, mais, à long terme, un remplacement potentiel pour certaines parties évaluatives de la chaîne de traitement, et qui pourrait réduire le temps nécessaire pour la surveillance et le diagnostic initial des patients. Ils notent :
‘Dans l’ensemble, les résultats prédits par la machine montrent de meilleures corrélations par rapport aux questionnaires de notation basés sur les observations cliniques pures et sont également objectifs. La période de mesure relativement courte de quelques minutes pour les approches de vision par ordinateur est également notable, alors que des heures sont parfois nécessaires pour les entretiens cliniques.’
Cependant, les auteurs sont prompts à souligner que les soins aux patients dans ce domaine sont une poursuite multimodale, avec de nombreux autres indicateurs de l’état du patient à prendre en compte que leurs seules expressions faciales, et qu’il est trop tôt pour considérer qu’un tel système pourrait entièrement substituer les approches traditionnelles des troubles mentaux. Néanmoins, ils considèrent l’OEG comme une technologie auxiliaire prometteuse, en particulier comme méthode pour évaluer les effets des traitements pharmacologiques dans le régime prescrit d’un patient.
L’article est intitulé Le visage des troubles affectifs, et provient de huit chercheurs issus d’un large éventail d’institutions du secteur de la recherche médicale privée et publique.
Données
(Le nouvel article traite principalement des diverses théories et méthodes qui sont actuellement populaires dans le diagnostic des patients atteints de troubles mentaux, avec moins d’attention que d’habitude aux technologies et processus réels utilisés dans les tests et les expériences)
La collecte de données a eu lieu à l’hôpital universitaire d’Aix-la-Chapelle, avec 100 patients équilibrés en termes de genre et un groupe de contrôle de 50 personnes non affectées. Les patients comprenaient 35 personnes atteintes de schizophrénie et 65 personnes souffrant de dépression.
Pour la partie patient du groupe de test, les mesures initiales ont été prises au moment de l’hospitalisation initiale, et la deuxième avant leur sortie de l’hôpital, sur une période moyenne de 12 semaines. Les participants du groupe de contrôle ont été recrutés de manière arbitraire dans la population locale, avec leur propre induction et leur « sortie » reproduisant celle des patients réels.
En effet, la « vérité fondamentale » la plus importante pour une telle expérience doit être les diagnostics obtenus par des méthodes approuvées et standard, et c’était le cas pour les essais OEG.
Cependant, la phase de collecte de données a obtenu des données supplémentaires plus adaptées à l’interprétation par machine : des entretiens d’une durée moyenne de 90 minutes ont été capturés en trois phases avec une webcam Logitech c270 grand public fonctionnant à 25 images par seconde.
La première session comprenait un entretien standard Hamilton (basé sur des recherches originales autour de 1960), tel qu’il serait normalement administré à l’admission. Dans la deuxième phase, de manière inhabituelle, les patients (et leurs homologues dans le groupe de contrôle) ont été montrés des vidéos de séries d’expressions faciales, et ont été invités à imiter chacune de ces expressions, tout en déclarant leur propre estimation de leur état mental à ce moment-là, y compris leur état émotionnel et leur intensité. Cette phase a duré environ dix minutes.
Dans la troisième et dernière phase, les participants ont été montrés 96 vidéos d’acteurs, d’une durée d’un peu plus de dix secondes chacune, apparemment racontant des expériences émotionnelles intenses. Les participants ont ensuite été invités à évaluer l’émotion et l’intensité représentées dans les vidéos, ainsi que leurs propres sentiments correspondants. Cette phase a duré environ 15 minutes.
Méthode
Pour obtenir la moyenne des visages capturés (voir première image, ci-dessus), des repères émotionnels ont été capturés avec le cadre EmoNet. Par la suite, la correspondance entre la forme du visage et la forme du visage moyenne (moyennée) a été déterminée par transformation affine pièce à pièce.
La reconnaissance des émotions dimensionnelles et la prédiction du regard ont été effectuées sur chaque segment de repère identifié dans la phase précédente.
À ce stade, l’inférence émotionnelle basée sur l’audio a indiqué qu’un moment d’enseignement est arrivé dans l’état mental du patient, et la tâche consiste à capturer l’image faciale correspondante et à développer cette dimension et ce domaine de leur état affectif.
(Dans la vidéo ci-dessus, nous voyons le travail développé par les auteurs des technologies de reconnaissance des émotions dimensionnelles utilisées par les chercheurs pour le nouveau travail).
La géodésique de la forme du matériau a été calculée pour chaque trame des données, et une réduction de la décomposition des valeurs singulières (SVD) a été appliquée. Les données de série chronologique résultantes ont finalement été modélisées comme un processus VAR, et ensuite réduites via SVD avant adaptation MAP.
Les valeurs de valence et d’excitation dans le réseau EmoNet ont également été traitées de la même manière avec la modélisation VAR et le calcul du noyau de séquence.
Expériences
Comme expliqué précédemment, le nouveau travail est principalement un article de recherche médicale plutôt qu’un article standard de vision par ordinateur, et nous renvoyons le lecteur à l’article lui-même pour une couverture approfondie des diverses expériences OEG menées par les chercheurs.
Néanmoins, pour résumer une sélection d’entre elles :
Indices de troubles affectifs
Ici, 40 participants (pas du groupe de contrôle ou du groupe de patients) ont été invités à évaluer les visages moyens évalués (voir ci-dessus) en fonction d’un certain nombre de questions, sans être informés du contexte des données. Les questions étaient :
Quel est le sexe des deux visages ?
Les visages ont-ils une apparence attrayante ?
Sont-ce des personnes de confiance ?
Comment évaluez-vous la capacité de ces personnes à agir ?
Quelle est l’émotion des deux visages ?
Quelle est l’apparence de la peau des deux visages ?
Quelle est l’impression du regard ?
Les deux visages ont-ils des coins de bouche tombants ?
Les deux visages ont-ils des sourcils levés ?
Sont-ce des patients cliniques?
Les chercheurs ont constaté que ces évaluations aveugles étaient corrélées à l’état enregistré des données traitées :
Évaluation clinique
Pour évaluer l’utilité de l’OEG dans l’évaluation initiale, les chercheurs ont d’abord évalué à quel point l’évaluation clinique standard est efficace par elle-même, en mesurant les niveaux d’amélioration entre l’induction et la deuxième phase (à laquelle le patient reçoit généralement des traitements médicamenteux.
Les chercheurs ont conclu que le statut et la gravité des symptômes pouvaient être bien évalués par cette méthode, obtenant une corrélation de 0,82. Cependant, un diagnostic précis de la schizophrénie ou de la dépression s’est avéré plus difficile, la méthode standard n’obtenant qu’un score de -0,03 à ce stade précoce.
Les auteurs commentent :
‘En substance, le statut du patient peut être déterminé de manière relativement bonne en utilisant les questionnaires habituels. Cependant, c’est essentiellement tout ce qui peut être conclu à partir de cela. Que quelqu’un soit déprimé ou schizophrène n’est pas indiqué. La même chose s’applique à la réponse au traitement.’
Les résultats du processus de machine ont pu obtenir des scores plus élevés dans ce domaine de problème, et des scores comparables pour l’aspect d’évaluation initiale du patient :

Des nombres plus élevés sont meilleurs. À gauche, les résultats de l’évaluation basée sur les entretiens standard à travers les quatre phases de l’architecture de test ; à droite, les résultats basés sur la machine.
Diagnostic de troubles
Distinguer la dépression de la schizophrénie à partir d’images faciales statiques n’est pas une question triviale. Validés par cross-validation, le processus de machine a pu obtenir des scores de précision élevés à travers les diverses phases des essais :
Dans d’autres expériences, les chercheurs ont pu démontrer des preuves que l’OEG peut percevoir l’amélioration des patients grâce au traitement pharmacologique, et au traitement général du trouble :
‘L’inférence causale sur les connaissances empiriques a priori de la collecte de données a ajusté le traitement pharmacologique pour observer un retour à la régulation physiologique de la dynamique faciale. Un tel retour n’a pas pu être observé pendant la prescription clinique.
‘Actuellement, il n’est pas clair si une telle recommandation basée sur la machine entraînerait effectivement un succès thérapeutique significativement meilleur. Surtout parce qu’il est connu que les médicaments peuvent avoir des effets secondaires sur une longue période de temps.
‘Cependant, [ce type] d’approches personnalisées pour les patients briserait les barrières du schéma de classification catégorique courant encore dominamment utilisé dans la vie quotidienne.’
* Ma conversion des citations en ligne des auteurs en hyperliens.
Publié pour la première fois le 3 août 2022.
















