Inteligencia artificial

La ‘Invisible’, a Menudo Infeliz Fuerza Laboral Que Está Decidiendo el Futuro de la IA

mm

Dos nuevos informes, incluyendo un documento liderado por Google Research, expresan preocupación de que la tendencia actual de confiar en un grupo barato y a menudo desempoderado de trabajadores globales para crear la verdad base para los sistemas de aprendizaje automático podría tener importantes implicaciones downstream para la IA.

Entre una serie de conclusiones, el estudio de Google encuentra que los sesgos de los trabajadores de la multitud probablemente se incorporen a los sistemas de IA cuyas verdades base se basarán en sus respuestas; que las prácticas laborales injustas generalizadas (incluyendo en EE. UU.) en las plataformas de trabajo en masa probablemente degraden la calidad de las respuestas; y que el sistema de “consenso” (efectivamente una “mini-elección” para algún fragmento de verdad base que influenciará los sistemas de IA downstream) que actualmente resuelve disputas puede en realidad descartar las mejores y/o más informadas respuestas.

Esa es la mala noticia; la peor noticia es que casi todos los remedios son costosos, consumen tiempo, o ambos.

Inseguridad, Rechazo Aleatorio y Resentimiento

El primer documento, de cinco investigadores de Google, se titula ¿De Quién es la Verdad Base? Contabilizando las Identidades Individuales y Colectivas Subyacentes a la Anotación del Conjunto de Datos; el segundo, de dos investigadores de la Universidad de Syracuse en Nueva York, se titula El Origen y Valor del Desacuerdo entre los Anotadores de Datos: Un Estudio de Caso de las Diferencias Individuales en la Anotación del Discurso de Odio.

El documento de Google señala que los trabajadores de la multitud – cuyas evaluaciones a menudo forman la base definitoria de los sistemas de aprendizaje automático que pueden afectar nuestras vidas eventualmente – a menudo operan bajo una serie de restricciones que pueden afectar la forma en que responden a las asignaciones experimentales.

Por ejemplo, las políticas actuales de Amazon Mechanical Turk permiten a los solicitantes (aquellos que dan las asignaciones) rechazar el trabajo de un anotador sin rendir cuentas*:

‘[U]na gran mayoría de los trabajadores de la multitud (94%) han tenido trabajo que fue rechazado o por el que no fueron pagados. Sin embargo, los solicitantes retienen todos los derechos sobre los datos que reciben, independientemente de si aceptan o rechazan el trabajo; Roberts (2016) describe este sistema como uno que “permite el robo de salarios”.

‘Además, rechazar el trabajo y retener el pago es doloroso porque los rechazos a menudo son causados por instrucciones poco claras y la falta de canales de retroalimentación significativos; muchos trabajadores de la multitud informan que la mala comunicación afecta negativamente su trabajo.’

Los autores recomiendan que los investigadores que utilizan servicios externalizados para desarrollar conjuntos de datos consideren cómo una plataforma de trabajo en masa trata a sus trabajadores. También señalan que en los Estados Unidos, los trabajadores de la multitud se clasifican como “contratistas independientes”, con el trabajo por lo tanto no regulado, y no cubierto por el salario mínimo establecido por la Ley de Estándares Laborales Justos.

El Contexto Es Importante

El documento también critica el uso de trabajo global ad hoc para tareas de anotación, sin considerar el contexto del anotador.

Donde el presupuesto lo permite, es común que los investigadores que utilizan AMT y plataformas de trabajo en masa similares den la misma tarea a cuatro anotadores, y se adhieran a la “regla de la mayoría” en los resultados.

La experiencia contextual, argumenta el documento, es notablemente subestimada. Por ejemplo, si una pregunta relacionada con sexismo se distribuye aleatoriamente entre tres hombres que están de acuerdo, de 18 a 57 años, y una mujer disidente de 29 años, el veredicto de los hombres gana, excepto en los casos relativamente raros en que los investigadores prestan atención a las calificaciones de sus anotadores.

De manera similar, si una pregunta sobre comportamiento de pandillas en Chicago se distribuye entre una mujer rural de EE. UU. de 36 años, un residente de Chicago de 42 años, y dos anotadores respectivamente de Bangalore y Dinamarca, la persona probablemente más afectada por el problema (el hombre de Chicago) solo tiene una participación de un cuarto en el resultado, en una configuración de externalización estándar.

Los investigadores afirman:

‘[L]a noción de “una verdad” en las respuestas de la multitud es un mito; el desacuerdo entre los anotadores, que a menudo se ve como negativo, puede en realidad proporcionar una señal de valor. En segundo lugar, dado que muchos grupos de anotadores de la multitud están sesgados sociodemográficamente, hay implicaciones para las poblaciones que se representan en los conjuntos de datos, así como para las poblaciones que enfrentan los desafíos de [trabajo en masa].

‘Contabilizar los sesgos en las demografías de los anotadores es crucial para contextualizar los conjuntos de datos y garantizar un uso responsable downstream. En resumen, hay valor en reconocer y contabilizar el trasfondo sociocultural de los trabajadores — tanto desde la perspectiva de la calidad de los datos como del impacto social.’

No Hay Opiniones ‘Neutrales’ en Temas Calientes

Incluso cuando las opiniones de cuatro anotadores no están sesgadas, demográficamente o por algún otro métrica, el documento de Google expresa preocupación de que los investigadores no están contabilizando las experiencias de vida o la disposición filosófica de los anotadores:

‘Mientras que algunas tareas tienden a plantear preguntas objetivas con una respuesta correcta (¿hay una cara humana en una imagen?), a menudo los conjuntos de datos apuntan a capturar juicios sobre tareas relativamente subjetivas sin una respuesta universalmente correcta (¿este texto es ofensivo?). Es importante ser intencional sobre si apoyarse en los juicios subjetivos de los anotadores.’

Con respecto a su ámbito específico para abordar problemas en la etiquetado del discurso de odio, el documento de Syracuse señala que preguntas más categóricas como ¿Hay un gato en esta fotografía? son notablemente diferentes a preguntar a un trabajador de la multitud si una frase es ‘tóxica’:

‘Teniendo en cuenta la complejidad de la realidad social, las percepciones de la toxicidad varían sustancialmente. Sus etiquetas de contenido tóxico se basan en sus propias percepciones.’

Al encontrar que la personalidad y la edad tienen una ‘influencia sustancial’ en la etiquetado dimensional del discurso de odio, los investigadores de Syracuse concluyen:

‘Estos hallazgos sugieren que los esfuerzos para obtener coherencia en la anotación entre anotadores con diferentes orígenes y personalidades para el discurso de odio pueden nunca tener éxito completamente.’

El Juez También Puede Estar Sesgado

Esta falta de objetividad probablemente se iterate hacia arriba también, según el documento de Syracuse, que argumenta que la intervención manual (o la política automatizada, también decidida por un ser humano) que determina el ‘ganador’ de los votos de consenso también debe ser objeto de escrutinio.

Al comparar el proceso con la moderación de foros, los autores afirman*:

‘[U]n moderador de la comunidad puede decidir el destino de ambos posts y usuarios en su comunidad promoviendo o ocultando posts, así como honrando, avergonzando o prohibiendo a los usuarios. Las decisiones de los moderadores influyen en el contenido entregado a miembros de la comunidad y audiencias y, por extensión, también influyen en la experiencia de la comunidad en la discusión.

‘Suponiendo que un moderador humano es un miembro de la comunidad que tiene homogeneidad demográfica con otros miembros de la comunidad, parece posible que el esquema mental que utilizan para evaluar el contenido coincida con el de otros miembros de la comunidad.’

Esto da alguna pista de por qué los investigadores de Syracuse han llegado a una conclusión tan desesperanzadora con respecto al futuro de la anotación del discurso de odio; la implicación es que las políticas y los juicios sobre las opiniones disidentes de la multitud no pueden aplicarse aleatoriamente según ‘principios aceptables’ que no están consagrados en ninguna parte (o no son reducibles a un esquema aplicable, incluso si existen).

Las personas que toman las decisiones (los trabajadores de la multitud) están sesgadas, y serían inútiles para tales tareas si no estuvieran sesgadas, ya que la tarea es proporcionar un juicio de valor; las personas que juzgan las disputas en los resultados de la multitud también están tomando juicios de valor al establecer políticas para las disputas.

Puede haber cientos de políticas en solo un marco de detección del discurso de odio, y a menos que cada una de ellas se lleve todo el camino hasta la Corte Suprema, ¿dónde puede ‘originar’ el consenso ‘autoritativo’?

Los investigadores de Google sugieren que ‘[los] desacuerdos entre los anotadores pueden incorporar matices valiosos sobre la tarea’. El documento propone el uso de metadatos en los conjuntos de datos que reflejen y contextualicen las disputas.

Sin embargo, es difícil ver cómo una capa de datos contextuales como esta podría conducir a métricas comparables, adaptarse a las demandas de las pruebas estándar establecidas, o apoyar algún resultado definitivo — excepto en el escenario poco realista de adoptar el mismo grupo de investigadores en trabajos posteriores.

Curando el Grupo de Anotadores

Todo esto supone que hay un presupuesto en un proyecto de investigación para múltiples anotaciones que conducirían a un voto de consenso. En muchos casos, los investigadores intentan ‘curar’ el grupo de anotación externalizado de manera más barata especificando rasgos que los trabajadores deberían tener, como la ubicación geográfica, el género u otros factores culturales, intercambiando pluralidad por especificidad.

El documento de Google sostiene que la forma de avanzar en estos desafíos podría ser mediante la creación de marcos de comunicación extendidos con los anotadores, similares a la comunicación mínima que la aplicación Uber facilita entre un conductor y un pasajero.

Una consideración tan cuidadosa de los anotadores, naturalmente, sería un obstáculo para la externalización de anotación a gran escala, lo que resultaría en conjuntos de datos más limitados y de bajo volumen que tengan una mejor justificación para sus resultados, o una ‘evaluación apresurada’ de los anotadores involucrados, obteniendo detalles limitados sobre ellos, y caracterizándolos como ‘aptos para la tarea’ basándose en demasiada poca información.

Eso es si los anotadores están siendo honestos.

Los ‘Agradadores’ en la Etiquetado de Conjuntos de Datos Externalizados

Con una fuerza laboral que está mal pagada, bajo competencia severa por las asignaciones disponibles, y deprimida por perspectivas de carrera escasas, los anotadores están motivados para proporcionar rápidamente la ‘respuesta correcta’ y pasar a la siguiente mini-asignación.

Si la ‘respuesta correcta’ es algo más complicado que ¿Tiene gato/Sin gato, el documento de Syracuse sostiene que el trabajador probablemente intentará deducir una ‘respuesta aceptable’ basada en el contenido y el contexto de la pregunta*:

‘Tanto la proliferación de conceptualizaciones alternativas como el uso generalizado de métodos de anotación simplistas están obstaculizando el progreso de la investigación sobre el discurso de odio en línea. Por ejemplo, Ross y cols. encontraron que mostrar la definición de conducta odiosa de Twitter a los anotadores les hizo alinear parcialmente sus propias opiniones con la definición. Esta reorientación resultó en una confiabilidad interevaluadora muy baja de las anotaciones.’

 

* Mi conversión de las citas en línea del documento a enlaces.

Publicado el 13 de diciembre de 2021 – Actualizado el 18 de diciembre de 2021: Etiquetas agregadas

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.