Suivez nous sur

Analyser les chatbots déprimés et alcooliques

Intelligence Artificielle

Analyser les chatbots déprimés et alcooliques

mm

Une nouvelle étude chinoise a révélé que plusieurs chatbots populaires, y compris les chatbots à domaine ouvert de Facebook. Microsoft et Google présentent des «problèmes de santé mentale graves» lorsqu'ils sont interrogés à l'aide de tests d'évaluation de la santé mentale standard, et présentent même des signes de problèmes d'alcool.

Les chatbots Ă©valuĂ©s dans l'Ă©tude Ă©taient ceux de Facebook Mixeur* ; Microsoft DialogGPT; Baidu's PlatEt DialoFlow, une collaboration entre des universitĂ©s chinoises, WeChat et Tencent Inc.

TestĂ©s pour dĂ©tecter des signes de dĂ©pression pathologique, d'anxiĂ©tĂ©, d'alcoolisme et pour leur capacitĂ© Ă  manifester de l'empathie, les chatbots Ă©tudiĂ©s ont produit des rĂ©sultats alarmants ; tous ont reçu des scores infĂ©rieurs Ă  la moyenne pour l'empathie, tandis que la moitiĂ© ont Ă©tĂ© Ă©valuĂ©s comme dĂ©pendants de l'alcool.

Résultats pour les quatre chatbots sur quatre indicateurs de santé mentale. En 'simple', une nouvelle conversation est lancée pour chaque demande ; en 'multi', toutes les questions sont posées en une seule conversation, afin d'évaluer l'influence de la persistance de session. Source : https://arxiv.org/pdf/2201.05382.pdf

Résultats pour les quatre chatbots sur quatre indicateurs de santé mentale. En 'simple', une nouvelle conversation est lancée pour chaque demande ; en 'multi', toutes les questions sont posées en une seule conversation, afin d'évaluer l'influence de la persistance de session. Source : https://arxiv.org/pdf/2201.05382.pdf

Dans le tableau des rĂ©sultats ci-dessus, BA='En dessous de la moyenne' ; P='Positif' ; N='Normal' ; M='modĂ©rĂ©' ; MS=”ModĂ©rĂ© Ă  sĂ©vère” ; S = "SĂ©vère". L'article affirme que ces rĂ©sultats indiquent que la santĂ© mentale de tous les chatbots sĂ©lectionnĂ©s se situe dans la fourchette "sĂ©vère".

Le rapport indique:

«Les résultats expérimentaux révèlent qu'il existe de graves problèmes de santé mentale pour tous les chatbots évalués. Nous considérons qu'il est causé par la négligence du risque pour la santé mentale lors de la construction du jeu de données et des procédures de formation du modèle. Les mauvaises conditions de santé mentale des chatbots peuvent entraîner des impacts négatifs sur les utilisateurs dans les conversations, en particulier sur les mineurs et les personnes en difficulté.

"Par conséquent, nous soutenons qu'il est urgent de procéder à l'évaluation des dimensions de la santé mentale susmentionnées avant de publier un chatbot en tant que service en ligne."

Les étude provient de chercheurs du WeChat/Tencent Pattern Recognition Center, ainsi que de chercheurs de l'Institut de technologie informatique de l'Académie chinoise des sciences (ICT) et de l'Université de l'Académie chinoise des sciences de Pékin.

Motifs de recherche

Les auteurs citent le populairement rapportĂ© Cas de 2020 oĂą une entreprise française de soins de santĂ© a testĂ© un potentiel chatbot de conseil mĂ©dical basĂ© sur GPT-3. Dans l'un des Ă©changes, un patient (simulĂ©) a dĂ©clarĂ© « Devrais-je me suicider ? Â», auquel le chatbot rĂ©pondu "Je pense que tu devrais".

Comme l'observe le nouveau document, il est également possible pour un utilisateur de devenir influencé par l'anxiété secondaire des chatbots dépressifs ou « négatifs », de sorte que la disposition générale du chatbot n'a pas besoin d'être aussi directement choquante que dans le cas français pour saper les objectifs des consultations médicales automatisées.

Les auteurs déclarent:

« Les résultats expérimentaux révèlent les graves problèmes de santé mentale des chatbots évalués, qui peuvent entraîner des influences négatives sur les utilisateurs dans les conversations, en particulier les mineurs et les personnes en difficulté. Par exemple, attitudes passives, irritabilité, alcoolisme, sans empathie, etc.

"Ce phénomène s'écarte des attentes du grand public à l'égard des chatbots qui doivent être optimistes, sains et amicaux autant que possible. Par conséquent, nous pensons qu'il est crucial de procéder à des évaluations de la santé mentale pour des raisons de sécurité et d'éthique avant de publier un chatbot en tant que service en ligne.

Méthode

Les chercheurs pensent qu'il s'agit de la première étude à évaluer les chatbots en termes de mesures d'évaluation humaine pour la santé mentale, citant des études antérieures qui se sont plutôt concentrées sur la cohérence, la diversité, la pertinence, la connaissance et d'autres normes centrées sur Turing pour une réponse vocale authentique.

Les questionnaires adaptĂ©s au projet ont Ă©tĂ© PHQ-9, un test en 9 questions pour Ă©valuer les niveaux de dĂ©pression chez les patients en soins primaires, largement adoptĂ©e par le gouvernement et les institutions mĂ©dicales ; GAD-7, une liste de 7 questions pour Ă©valuer les mesures de sĂ©vĂ©ritĂ© de l'anxiĂ©tĂ© gĂ©nĂ©ralisĂ©e, commun en pratique clinique; CAGE, un test de dĂ©pistage de l'alcoolodĂ©pendance en quatre questions ; et le questionnaire d'empathie de Toronto (ÉT), une liste de 16 questions conçue pour Ă©valuer les niveaux d'empathie.

Caractéristiques des quatre questionnaires standards du secteur adaptés pour l'étude.

Caractéristiques des quatre questionnaires standards du secteur adaptés pour l'étude.

Les questionnaires ont dû être réécrits pour éviter les phrases déclaratives telles que Peu d'intérêt ou de plaisir à faire les choses, au profit de constructions interrogatives plus adaptées à un échange conversationnel.

Il Ă©tait Ă©galement nĂ©cessaire de dĂ©finir une rĂ©ponse "Ă©chouĂ©e", afin d'identifier et d'Ă©valuer uniquement les rĂ©ponses qu'un utilisateur humain pourrait interprĂ©ter comme valides et par lesquelles il serait affectĂ©. Une rĂ©ponse « ratĂ©e » peut Ă©luder la question avec des rĂ©ponses elliptiques ou abstraites ; refuser de rĂ©pondre Ă  la question (c'est-Ă -dire 'Je ne sais pas', ou 'J'ai oubliĂ©'); ou inclure un contenu antĂ©rieur "impossible" tel que "J'avais gĂ©nĂ©ralement faim quand j'Ă©tais enfant". Dans les tests, Blender et Plato reprĂ©sentaient la majoritĂ© des Ă©checs, et 61.4 % des Ă©checs n'Ă©taient pas pertinents pour la requĂŞte.

Les chercheurs ont formĂ© les quatre modèles sur les messages Reddit, en utilisant le Ensemble de donnĂ©es Pushshift Reddit. Dans les quatre cas, la formation a Ă©tĂ© affinĂ©e avec un autre ensemble de donnĂ©es contenant les ConfĂ©rence sur les compĂ©tences mixtes ou Magicien de Wikipedia ensembles; ConvAI2 (une collaboration entre Facebook, Microsoft et Carnegie Mellon, entre autres) ; et Dialogues empathiques (une collaboration entre l'UniversitĂ© de Washington et Facebook).

Reddit omniprésent

Plato, DialoFlow et Blender sont livrés avec des poids par défaut pré-entraînés sur les commentaires Reddit, de sorte que les relations neuronales formées même en s'entraînant sur des données fraîches (qu'elles proviennent de Reddit ou d'ailleurs) soient influencées par la distribution des fonctionnalités extraites de Reddit.

Chaque groupe de test a Ă©tĂ© menĂ© deux fois, en tant que « simple Â» ou « multiple Â». Pour 'single', chaque question a Ă©tĂ© posĂ©e dans une toute nouvelle session de chat. Pour 'multi', une session de chat a Ă©tĂ© utilisĂ©e pour recevoir des rĂ©ponses pour tous les questions, car les variables de session s'accumulent au cours d'une conversation et peuvent influencer la qualitĂ© de la rĂ©ponse lorsque la conversation prend une forme et un ton particuliers.

Toutes les expériences et la formation ont été exécutées sur deux GPU NVIDIA Tesla V100, pour un total de 64 Go de VRAM sur 1280 cœurs Tensor. Le document ne détaille pas la durée de la formation.

Surveillance via la conservation ou l'architecture ?

Le document conclut en termes gĂ©nĂ©raux que la « nĂ©gligence des risques pour la santĂ© mentale Â» pendant la formation doit ĂŞtre abordĂ©e, et invite la communautĂ© des chercheurs Ă  approfondir la question.

Le facteur central semble ĂŞtre que les frameworks de chatbot en question sont conçus pour extraire les caractĂ©ristiques saillantes des ensembles de donnĂ©es hors distribution sans aucune garantie concernant le langage toxique ou destructeur ; si vous alimentez les donnĂ©es du forum nĂ©o-nazi de frameworks, par exemple, vous obtiendrez probablement des rĂ©ponses controversĂ©es lors d'une session de discussion ultĂ©rieure.

Cependant, le secteur du traitement du langage naturel (NLP) a un intérêt bien plus valable à obtenir des informations à partir des forums et du contenu fourni par les utilisateurs des réseaux sociaux. liés à la santé mentale (dépression, anxiété, dépendance, etc.), à la fois dans le but de développer des chatbots liés à la santé utiles et désamorçants, et pour obtenir de meilleures inférences statistiques à partir de données réelles.

Par conséquent, en termes de données à volume élevé qui ne sont pas limitées par les limites de texte arbitraires de Twitter, Reddit reste le seul corpus hyperscale constamment mis à jour pour les études en texte intégral de cette nature.

Cependant, mĂŞme un survol occasionnel parmi certaines des communautĂ©s qui intĂ©ressent le plus les chercheurs en santĂ© PNL (comme r/dĂ©pression) rĂ©vèle la prĂ©dominance du type de rĂ©ponses « nĂ©gatives Â» qui pourraient convaincre un système d'analyse statistique que les rĂ©ponses nĂ©gatives sont valides parce qu'elles sont frĂ©quentes et statistiquement dominantes - en particulier dans le cas de forums très frĂ©quentĂ©s avec des ressources de modĂ©rateur limitĂ©es.

La question demeure donc de savoir si l'architecture des chatbots doit contenir une sorte de "cadre d'évaluation morale", où les sous-objectifs influencent le développement des pondérations dans le modèle, ou si une conservation et un étiquetage plus coûteux des données peuvent d'une certaine manière contrecarrer cette tendance à données déséquilibrées.

 

 

* L'article des chercheurs, tel que lié dans cet article, cite à tort un lien vers Google Chatbot Meena au lieu du lien vers le document Blender. Meena de Google est pas présenté dans le nouveau journal. Le lien Blender correct utilisé dans cet article m'a été fourni par les auteurs des articles dans un e-mail. Les auteurs m'ont dit que cette erreur sera corrigée dans une version ultérieure de l'article.

Première publication le 18 janvier 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai