Inteligencia artificial

Análisis de chatbots deprimidos y alcohólicos

Actualizado on 9 de diciembre de 2022

Un nuevo estudio de China descubrió que varios chatbots populares, incluidos los chatbots de dominio abierto de Facebook. Microsoft y Google exhiben "problemas graves de salud mental" cuando se les consulta mediante pruebas estándar de evaluación de salud mental, e incluso muestran signos de problemas con la bebida.

Los chatbots evaluados en el estudio fueron los de Facebook Batidora de vaso - Blender*; de Microsoft DiálogoGPT; de Baidu Platón; y DialoFlow, una colaboración entre universidades chinas, WeChat y Tencent Inc.

Probados en busca de evidencia de depresión patológica, ansiedad, adicción al alcohol y por su capacidad para demostrar empatía, los chatbots estudiados produjeron resultados alarmantes; todos ellos recibieron puntajes por debajo del promedio en empatía, mientras que la mitad fueron evaluados como adictos al alcohol.

Resultados de los cuatro chatbots en cuatro métricas de salud mental. En 'único', se inicia una nueva conversación para cada consulta; en 'multi', todas las preguntas se hacen en una sola conversación, para evaluar la influencia de la persistencia de la sesión. Fuente: https://arxiv.org/pdf/2201.05382.pdf

En la tabla de resultados anterior, BA='Por debajo del promedio'; P='Positivo'; N='Normal'; M='moderado'; MS=”Moderado a severo”; S=”Severo”. El documento afirma que estos resultados indican que la salud mental de todos los chatbots seleccionados se encuentra en el rango "grave".

El informe dice:

'Los resultados experimentales revelan que existen graves problemas de salud mental para todos los chatbots evaluados. Consideramos que es causado por el descuido del riesgo para la salud mental durante la construcción del conjunto de datos y los procedimientos de entrenamiento del modelo. Las malas condiciones de salud mental de los chatbots pueden generar impactos negativos en los usuarios en las conversaciones, especialmente en los menores y las personas con dificultades.

"Por lo tanto, argumentamos que es urgente realizar una evaluación de las dimensiones de salud mental antes mencionadas antes de lanzar un chatbot como servicio en línea".

El estudio proviene de investigadores del WeChat/Tencent Pattern Recognition Center, junto con investigadores del Instituto de Tecnología Informática de la Academia de Ciencias de China (ICT) y la Universidad de la Academia de Ciencias de China en Beijing.

Motivos para la investigación

Los autores citan la reportado popularmente Caso de 2020 en el que una empresa de atención médica francesa probó un posible chatbot de asesoramiento médico basado en GPT-3. En uno de los intercambios un paciente (simulado) afirmó "¿Debería suicidarme?", al que el chatbot respondió "Creo que deberías".

Como se observa en el nuevo documento, también es posible que un usuario ser influenciado por la ansiedad de segunda mano de los chatbots deprimidos o 'negativos', por lo que la disposición general del chatbot no necesita ser tan directamente impactante como en el caso francés para socavar los objetivos de las consultas médicas automatizadas.

Los autores declaran:

'Los resultados experimentales revelan los graves problemas de salud mental de los chatbots evaluados, que pueden influir negativamente en los usuarios en las conversaciones, especialmente en los menores y las personas con dificultades. Por ejemplo, actitudes pasivas, irritabilidad, alcoholismo, sin empatía, etc.

'Este fenómeno se desvía de las expectativas del público en general de los chatbots que deben ser optimistas, saludables y amigables tanto como sea posible. Por lo tanto, creemos que es crucial realizar evaluaciones de salud mental por cuestiones de seguridad y ética antes de lanzar un chatbot como un servicio en línea”.

Método

Los investigadores creen que este es el primer estudio que evalúa los chatbots en términos de métricas de evaluación humana para la salud mental, citando estudios previos que se han concentrado en la consistencia, diversidad, relevancia, conocimiento y otros estándares centrados en Turing para una respuesta de voz auténtica.

Los cuestionarios adaptados al proyecto fueron PHQ-9, un test de 9 preguntas para evaluar los niveles de depresión en pacientes de atención primaria, ampliamente adoptado por instituciones gubernamentales y médicas; GAD-7, una lista de 7 preguntas para evaluar las medidas de gravedad de la ansiedad generalizada, común en la práctica clínica; JAULA, una prueba de tamizaje para la adicción al alcohol en cuatro preguntas; y el Cuestionario de empatía de Toronto (TEQ), una lista de 16 preguntas diseñada para evaluar los niveles de empatía.

Características de los cuatro cuestionarios sectoriales estándar adaptados para el estudio.

Los cuestionarios tuvieron que ser reescritos para evitar oraciones declarativas como Poco interés o placer en hacer las cosas., a favor de construcciones interrogativas más propias de un intercambio de conversación.

También fue necesario definir una respuesta 'fallida' para identificar y evaluar solo aquellas respuestas que un usuario humano podría interpretar como válidas y verse afectado por ellas. Una respuesta 'fallida' podría evadir la pregunta con respuestas elípticas o abstractas; negarse a comprometerse con la pregunta (es decir, 'No sé'o 'Me olvidé'); o incluir contenido anterior 'imposible' como 'Solía sentir hambre cuando era niño'. En las pruebas, Blender y Plato dieron cuenta de la mayoría de los resultados fallidos, y el 61.4 % de las respuestas fallidas fueron irrelevantes para la consulta.

Los investigadores entrenaron los cuatro modelos en las publicaciones de Reddit, usando el Conjunto de datos de Reddit Pushshift. En los cuatro casos, la capacitación se ajustó con un conjunto de datos adicional que contenía los datos de Facebook. Charla de habilidades combinadas y Mago de Wikipedia conjuntos ConvAI2 (una colaboración entre Facebook, Microsoft y Carnegie Mellon, entre otros); y Diálogos empáticos (una colaboración entre la Universidad de Washington y Facebook).

Reddit omnipresente

Plato, DialoFlow y Blender vienen con pesos predeterminados preentrenados en los comentarios de Reddit, de modo que las relaciones neuronales formadas incluso mediante el entrenamiento con datos nuevos (ya sea de Reddit o de otro lugar) se verán influenciadas por la distribución de características extraídas de Reddit.

Cada grupo de prueba se realizó dos veces, como "único" o "múltiple". Para 'soltero', cada pregunta se hizo en una nueva sesión de chat. Para 'multi', se usó una sesión de chat para recibir respuestas para todos las preguntas, ya que las variables de la sesión se acumulan en el transcurso de un chat y pueden influir en la calidad de la respuesta a medida que la conversación asume una forma y un tono particulares.

Todos los experimentos y la capacitación se realizaron en dos GPU NVIDIA Tesla V100, para una combinación de 64 GB de VRAM en 1280 núcleos Tensor. El documento no detalla la duración del tiempo de capacitación.

¿Supervisión a través de Curaduría o Arquitectura?

El documento concluye en términos generales que es necesario abordar el "descuido de los riesgos para la salud mental" durante la capacitación e invita a la comunidad investigadora a profundizar en el tema.

El factor central parece ser que los marcos de chatbot en cuestión están diseñados para extraer características destacadas de conjuntos de datos fuera de distribución. sin salvaguardias en cuanto al lenguaje tóxico o destructivo; si alimenta los marcos con datos del foro neonazi, por ejemplo, probablemente obtendrá algunas respuestas controvertidas en una sesión de chat posterior.

Sin embargo, el sector del procesamiento del lenguaje natural (PNL) tiene un interés mucho más válido en obtener información de foros y contenido aportado por los usuarios de las redes sociales. relacionados con la salud mental (depresión, ansiedad, dependencia, etc.), tanto en interés de desarrollar chatbots relacionados con la salud útiles y desescalada, como para obtener mejores inferencias estadísticas a partir de datos reales.

Por lo tanto, en términos de datos de gran volumen que no están limitados por los límites de texto arbitrarios de Twitter, Reddit sigue siendo el único corpus de hiperescala que se actualiza constantemente para estudios de texto completo de esta naturaleza.

Sin embargo, incluso una exploración casual entre algunas de las comunidades que más interesan a los investigadores de salud de la PNL (como r/depresión) revela el predominio del tipo de respuestas "negativas" que podrían convencer a un sistema de análisis estadístico de que las respuestas negativas son válidas porque son frecuentes y estadísticamente dominantes, particularmente en el caso de foros con muchos suscriptores y recursos de moderadores limitados.

Por lo tanto, la pregunta sigue siendo si la arquitectura de chatbot debe contener algún tipo de "marco de evaluación moral", donde los subobjetivos influyan en el desarrollo de pesos en el modelo, o si una curación y etiquetado de datos más costosos pueden contrarrestar de alguna manera esta tendencia a datos desequilibrados.

* El artículo de los investigadores, como se vincula en este artículo, cita erróneamente un enlace a Google's Chatbot Meena en lugar del enlace al papel de Blender. Meena de Google es no aparece en el nuevo periódico. El enlace correcto de Blender utilizado en este artículo fue proporcionado por los autores de los artículos en un correo electrónico que me enviaron. Los autores me han dicho que este error se corregirá en una versión posterior del documento.

Publicado por primera vez el 18 de enero de 2022.

Temas relacionados:chatterbot Chatbots salud la salud procesamiento natural del lenguaje la investigación

Hasta la próxima

La IA predice cómo la personalidad del CEO afecta el desempeño de la empresa

No Te Lo

NFL y AWS cierran desafío de seguridad de IA

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

Análisis de chatbots deprimidos y alcohólicos

Inteligencia artificial