talón Un verificador de sesgo impulsado por IA para artículos de noticias, disponible en Python - Unite.AI
Contáctanos

Inteligencia artificial

Un verificador de sesgo impulsado por IA para artículos de noticias, disponible en Python

mm
Actualizado on

Investigadores en Canadá, India, China y Australia han colaborado para producir un paquete de Python disponible gratuitamente que puede usarse de manera efectiva para detectar y reemplazar el "lenguaje injusto" en las noticias.

El sistema, titulado Dbias, utiliza varias tecnologías de aprendizaje automático y bases de datos para desarrollar un flujo de trabajo circular de tres etapas que puede refinar texto sesgado hasta que devuelva una versión no sesgada, o al menos más neutral.

Dbias transforma el lenguaje cargado en un fragmento de noticias identificado como 'parcial' en una versión menos incendiaria. Fuente: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Dbias transforma el lenguaje cargado en un fragmento de noticias identificado como 'parcial' en una versión menos incendiaria. Fuente: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

El sistema representa una tubería reutilizable y autónoma que se puede instalado a través de Pip de Hugging Face e integrado en proyectos existentes como etapa complementaria, complemento o complemento.

En abril, se implementó una funcionalidad similar en Google Docs fue criticado, sobre todo por su falta de editabilidad. Dbias, por otro lado, puede entrenarse de manera más selectiva sobre cualquier corpus de noticias que desee el usuario final, conservando la capacidad de desarrollar pautas de equidad a medida.

La diferencia crítica es que la canalización de Dbias está destinada a transformar automáticamente el "lenguaje cargado" (palabras que agregan una capa crítica a la comunicación fáctica) en un lenguaje neutral o prosaico, en lugar de instruir al usuario de forma continua. Esencialmente, el usuario final definirá los filtros éticos y capacitará al sistema en consecuencia; en el enfoque de Google Docs, el sistema está, posiblemente, entrenando al usuario, de manera unilateral.

Arquitectura conceptual para el flujo de trabajo de Dbias.

Arquitectura conceptual para el flujo de trabajo de Dbias.

Según los investigadores, Dbias es el primer paquete de detección de sesgos verdaderamente configurable, en contraste con los proyectos de ensamblaje disponibles en el mercado que han caracterizado a este subsector del procesamiento del lenguaje natural (PLN) hasta la fecha.

El nuevo documento se titula Un enfoque para garantizar la equidad en los artículos de noticias, y proviene de colaboradores de la Universidad de Toronto, la Universidad Metropolitana de Toronto, la Gestión de Recursos Ambientales en Bangalore, la Academia de Ciencias DeepBlue en China y la Universidad de Sydney.

Método

El primer módulo en Dbias es Detección de sesgo, que aprovecha la DestilarBERT paquete: una versión altamente optimizada de Google bastante intensiva en máquinas BERTI. Para el proyecto, DistilBERT se ajustó en la anotación de sesgo de medios (MBIC) conjunto de datos.

MBIC consiste en artículos de noticias de una variedad de fuentes de medios, incluidos el Huffington Post, USA Today y MSNBC. Los investigadores utilizaron la versión extendida del conjunto de datos.

Aunque los datos originales fueron anotados por trabajadores colaborativos (un método que estuvo bajo fuego a fines de 2021), los investigadores del nuevo artículo pudieron identificar instancias adicionales de sesgo sin etiquetar en el conjunto de datos y las agregaron manualmente. Las incidencias identificadas de sesgo relacionadas con la raza, la educación, el origen étnico, el idioma, la religión y el género.

El próximo módulo, Reconocimiento de sesgo, usos Reconocimiento de entidad nombrada (NER) para individualizar palabras sesgadas del texto de entrada. El documento dice:

'Por ejemplo, la noticia "No compre la exageración pseudocientífica sobre los tornados y el cambio climático" ha sido clasificada como sesgada por el módulo de detección de prejuicios anterior, y el módulo de reconocimiento sesgado ahora puede identificar el término "exageración pseudocientífica". como una palabra tendenciosa.

NER no está diseñado específicamente para esta tarea, pero se ha utilizado antes para la identificación de sesgos, en particular para un Proyecto 2021 de la Universidad de Durham en el Reino Unido.

Para esta etapa, los investigadores utilizaron roberta combinado con la tubería SpaCy English Transformer NER.

La próxima etapa, Enmascaramiento de sesgo, involucra una máscara múltiple novedosa de las palabras sesgadas identificadas, que opera secuencialmente en casos de múltiples palabras sesgadas identificadas.

El lenguaje cargado se reemplaza con lenguaje pragmático en la tercera etapa de Dbias. Tenga en cuenta que 'hablar' y 'usar' equivalen a la misma acción, aunque la primera se considera burlona.

El lenguaje cargado se reemplaza con lenguaje pragmático en la tercera etapa de Dbias. Tenga en cuenta que 'hablar' y 'usar' equivalen a la misma acción, aunque la primera se considera burlona.

Según sea necesario, los comentarios de esta etapa se enviarán de regreso al comienzo de la canalización para una evaluación adicional hasta que se hayan generado varias frases o palabras alternativas adecuadas. Esta etapa utiliza modelado de lenguaje enmascarado (MLM) a lo largo de las líneas establecidas por un 2021 colaboración dirigido por Facebook Research.

Normalmente, la tarea de MLM enmascarará el 15 % de las palabras aleatoriamente, pero el flujo de trabajo de Dbias le dice al proceso que tome las palabras sesgadas identificadas como entrada.

La arquitectura se implementó y entrenó en Google Colab Pro en un NVIDIA P100 con 24 GB de VRAM en un tamaño de lote de 16, usando solo dos etiquetas (parcial y imparcial).

Examenes

Los investigadores probaron Dbias contra cinco enfoques comparables: LG-TFIDF con Regresión logística y Tfidfvectorizer (TFIDF) incrustaciones de palabras; LG-ELMO; MLP-ELMO (una red neuronal artificial de avance que contiene incrustaciones de ELMO); BERT; y ROBERTA.

Las métricas utilizadas para las pruebas fueron exactitud (ACC), precisión (PREC), recuperación (Rec) y puntuación F1. Como los investigadores no tenían conocimiento de ningún sistema existente que pudiera realizar las tres tareas en una sola canalización, se prescindió de los marcos de la competencia, evaluando solo las tareas principales de Dbias: detección y reconocimiento de sesgos.

Resultados de los ensayos de Dbias.

Resultados de los ensayos de Dbias.

Dbias logró superar los resultados de todos los marcos de la competencia, incluidos aquellos con una huella de procesamiento más pesada

El documento dice:

'El resultado también muestra que las incrustaciones neuronales profundas, en general, pueden superar a los métodos de incrustación tradicionales (p. ej., TFIDF) en la tarea de clasificación de sesgos. Esto se demuestra por el mejor rendimiento de las incrustaciones de redes neuronales profundas (es decir, ELMO) en comparación con la vectorización TFIDF cuando se usa con LG.

"Probablemente esto se deba a que las incrustaciones neuronales profundas pueden capturar mejor el contexto de las palabras en el texto en diferentes contextos". Las incrustaciones neuronales profundas y los métodos neuronales profundos (MLP, BERT, RoBERTa) también funcionan mejor que el método ML tradicional (LG).'

Los investigadores también señalan que los métodos basados ​​en transformadores superan a los métodos de la competencia en la detección de sesgos.

Una prueba adicional involucró una comparación entre Dbias y varios tipos de SpaCy Core Web, incluidos core-sm (pequeño), core-md (mediano) y core-lg (grande). Dbias también pudo liderar la junta en estas pruebas:

Los investigadores concluyen observando que las tareas de reconocimiento de sesgo generalmente muestran una mayor precisión en modelos más grandes y más caros debido, según especulan, al mayor número de parámetros y puntos de datos. También observan que la eficacia del trabajo futuro en este campo dependerá de mayores esfuerzos para anotar conjuntos de datos de alta calidad.

El bosque y los árboles

Es de esperar que este tipo de proyecto de reconocimiento de prejuicios detallado se incorpore eventualmente a los marcos de búsqueda de prejuicios que puedan adoptar una visión menos miope y tener en cuenta que elegir cubrir cualquier historia en particular es en sí mismo un acto de prejuicio que es potencialmente impulsado por más que solo estadísticas de visualización informadas.

 

Publicado por primera vez el 14 de julio de 2022.