talón La fuerza laboral 'invisible', a menudo infeliz, que está decidiendo el futuro de la IA - Unite.AI
Contáctanos

Inteligencia artificial

La fuerza laboral 'invisible', a menudo infeliz, que está decidiendo el futuro de la IA

mm
Actualizado on

Dos nuevos informes, incluido un artículo dirigido por Google Research, expresan su preocupación de que la tendencia actual de depender de un grupo barato y a menudo sin poder de trabajadores globales aleatorios para crear datos reales para los sistemas de aprendizaje automático podría tener importantes implicaciones posteriores para la IA.

Entre una variedad de conclusiones, el estudio de Google encuentra que es probable que los propios sesgos de los trabajadores colectivos se integren en los sistemas de IA cuyas verdades básicas se basarán en sus respuestas; que las prácticas laborales desleales generalizadas (incluso en los EE. UU.) en las plataformas de trabajo colectivo probablemente degraden la calidad de las respuestas; y que el sistema de 'consenso' (efectivamente, una 'minielección' para alguna verdad básica que influirá en los sistemas de IA posteriores) que actualmente resuelve disputas puede en realidad tirar a la basura las mejores y/o más informadas respuestas.

Esa es la mala noticia; la peor noticia es que casi todos los remedios son costosos, consumen mucho tiempo o ambos.

Inseguridad, rechazo aleatorio y rencor

El Primer , de cinco investigadores de Google, se llama ¿De quién es la verdad fundamental? Contabilización de identidades individuales y colectivas Anotación de conjuntos de datos subyacentes; El segundo, de dos investigadores de la Universidad de Syracuse en Nueva York, se llama El origen y el valor del desacuerdo entre los etiquetadores de datos: un estudio de caso de las diferencias individuales en la anotación del discurso de odio.

El documento de Google señala que los trabajadores colectivos, cuyas evaluaciones a menudo forman la base definitoria de los sistemas de aprendizaje automático que eventualmente pueden afectar nuestras vidas, operan con frecuencia bajo una variedad de restricciones que pueden afectar la forma en que responden a las tareas experimentales.

Por ejemplo, las políticas actuales de Amazon Mechanical Turk permiten a los solicitantes (aquellos que entregan las tareas) rechazar el trabajo de un anotador sin responsabilidad*:

'[A] la gran mayoría de los trabajadores colaborativos (94%) han tenido trabajo que fue rechazado o por el cual no fueron pagados. Sin embargo, los solicitantes conservan todos los derechos sobre los datos que reciben, independientemente de si los aceptan o los rechazan; Roberto (2016) describe este sistema como uno que “permite el robo de salarios”.

'Además, rechazar el trabajo y retener el pago es doloroso porque los rechazos a menudo son causados ​​por instrucciones poco claras y la falta de canales de retroalimentación significativos; muchos trabajadores colaborativos informan que la mala comunicación afecta negativamente a su trabajo.'

Los autores recomiendan que los investigadores que utilizan servicios subcontratados para desarrollar conjuntos de datos deberían considerar cómo una plataforma de trabajo colaborativo trata a sus trabajadores. Además, señalan que en los Estados Unidos, los trabajadores en plataformas digitales se clasifican como "contratistas independientes", por lo que el trabajo no está regulado y no está cubierto por el salario mínimo exigido por la Ley de Normas Laborales Justas.

El contexto importa

El documento también critica el uso de ad-hoc mano de obra global para tareas de anotación, sin tener en cuenta los antecedentes del anotador.

Cuando el presupuesto lo permite, es común que los investigadores que utilizan AMT y plataformas de trabajo colaborativo similares den la misma tarea a cuatro anotadores y cumplan con la "regla de la mayoría" en los resultados.

La experiencia contextual, argumenta el documento, está notablemente subestimada. Por ejemplo, si una pregunta de tarea relacionada con el sexismo se distribuye aleatoriamente entre tres hombres de 18 a 57 años que están de acuerdo y una mujer de 29 años que está en desacuerdo, el veredicto de los hombres gana, excepto en los casos relativamente raros en los que los investigadores prestan atención a las calificaciones de sus anotadores.

Asimismo, si una pregunta sobre comportamiento de pandillas en Chicago se distribuye entre una mujer rural de EE. UU. de 36 años, un hombre residente de Chicago de 42 años y dos anotadores respectivamente de Bangalore y Dinamarca, la persona probablemente más afectada por el problema (el hombre de Chicago) solo tiene una cuarta parte del resultado, en un configuración de subcontratación estándar.

Los investigadores afirman:

'[La] noción de "una verdad" en las respuestas de crowdsourcing es un mito; el desacuerdo entre los anotadores, que a menudo se considera negativo, en realidad puede proporcionar una señal valiosa. En segundo lugar, dado que muchos grupos de anotadores de colaboración abierta están sesgados sociodemográficamente, hay implicaciones sobre qué poblaciones están representadas en los conjuntos de datos, así como qué poblaciones enfrentan los desafíos del [trabajo colectivo].

“Tener en cuenta los sesgos en los datos demográficos de los anotadores es fundamental para contextualizar los conjuntos de datos y garantizar un uso posterior responsable. En resumen, es valioso reconocer y tener en cuenta los antecedentes socioculturales de los trabajadores, tanto desde la perspectiva de la calidad de los datos como del impacto social.'

Sin opiniones 'neutrales' sobre temas candentes

Incluso cuando las opiniones de cuatro anotadores no están sesgadas, ya sea demográficamente o por alguna otra métrica, el documento de Google expresa su preocupación de que los investigadores no toman en cuenta las experiencias de vida o la disposición filosófica de los anotadores:

'Mientras que algunas tareas tienden a plantear preguntas objetivas con una respuesta correcta (¿hay un rostro humano en una imagen?), a menudo los conjuntos de datos tienen como objetivo capturar el juicio sobre tareas relativamente subjetivas sin una respuesta universalmente correcta (¿Este fragmento de texto es ofensivo?). Es importante ser intencional sobre si apoyarse en los juicios subjetivos de los anotadores.'

En cuanto a su ámbito específico para abordar los problemas de etiquetado del discurso de odio, el documento de Syracuse señala que preguntas más categóricas como ¿Hay un gato en esta fotografía? son notablemente diferentes de preguntarle a un crowdworker si una frase es 'tóxica':

“Teniendo en cuenta el desorden de la realidad social, las percepciones de toxicidad de las personas varían sustancialmente. Sus etiquetas de contenido tóxico se basan en sus propias percepciones.

Al descubrir que la personalidad y la edad tienen una "influencia sustancial" en el etiquetado dimensional del discurso de odio, los investigadores de Syracuse concluyen:

"Estos hallazgos sugieren que los esfuerzos para lograr la consistencia de las anotaciones entre los etiquetadores con diferentes antecedentes y personalidades para el discurso de odio pueden nunca tener un éxito total".

El juez también puede ser parcial

Es probable que esta falta de objetividad también aumente, según el documento de Syracuse, que argumenta que la intervención manual (o política automatizada, también decidida por un humano) que determina el "ganador" de los votos por consenso también debe estar sujeta a escrutinio. .

Al comparar el proceso con la moderación del foro, los autores afirman*:

'[A] los moderadores de la comunidad pueden decidir el destino de las publicaciones y los usuarios en su comunidad promoviendo u ocultando publicaciones, así como honrando, avergonzando o prohibiendo a los usuarios. Las decisiones de los moderadores influyen en el contenido entregado a miembros de la comunidad y audiencias  y por extensión también influyen en la experiencia de la discusión de la comunidad.

"Suponiendo que un moderador humano sea un miembro de la comunidad que tenga una homogeneidad demográfica con otros miembros de la comunidad, parece posible que el esquema mental que utilizan para evaluar el contenido coincida con el de otros miembros de la comunidad".

Esto da una pista de por qué los investigadores de Syracuse han llegado a una conclusión tan desalentadora con respecto al futuro de la anotación del discurso de odio; la implicación es que las políticas y los juicios sobre opiniones discrepantes no pueden aplicarse al azar de acuerdo con principios 'aceptables' que no están consagrados en ninguna parte (o no pueden reducirse a un esquema aplicable, incluso si existen).

Las personas que toman las decisiones (los crowdworkers) están sesgadas y serían inútiles para tales tareas si estuvieran no sesgada, ya que se trata de emitir un juicio de valor; las personas que juzgan las disputas en los resultados del trabajo colaborativo también emiten juicios de valor al establecer políticas para las disputas.

Puede haber cientos de políticas en un solo marco de detección del discurso de odio y, a menos que todas y cada una de ellas se lleven hasta la Corte Suprema, ¿dónde se puede originar el consenso 'autoritario'?

Los investigadores de Google sugieren que '[los] desacuerdos entre los anotadores pueden incorporar matices valiosos sobre la tarea'. El documento propone el uso de metadatos en conjuntos de datos que reflejan y contextualizan las disputas.

Sin embargo, es difícil ver cómo una capa de datos tan específica del contexto podría conducir a métricas similares, adaptarse a las demandas de las pruebas estándar establecidas o respaldar cualquier resultados definitivos, excepto en el escenario poco realista de adoptar el mismo grupo de investigadores en trabajos posteriores.

Curar el grupo de anotadores

Todo esto supone que incluso hay presupuesto en un proyecto de investigación para múltiples anotaciones que conducirían a un voto por consenso. En muchos casos, los investigadores intentan 'curar' el conjunto de anotaciones subcontratadas de manera más económica al especificar los rasgos que los trabajadores deberían tener, como la ubicación geográfica, el género u otros factores culturales, intercambiando pluralidad por especificidad.

El documento de Google sostiene que el camino a seguir para superar estos desafíos podría ser establecer marcos de comunicación extendidos con anotadores, similares a las comunicaciones mínimas que facilita la aplicación de Uber entre un conductor y un pasajero.

Una consideración tan cuidadosa de los anotadores sería, naturalmente, un obstáculo para la subcontratación de anotaciones a gran escala, lo que daría como resultado conjuntos de datos más limitados y de bajo volumen que tienen una mejor justificación para sus resultados, o una evaluación "apresurada" de los anotadores involucrados, obteniendo detalles limitados. sobre ellos, y caracterizándolos como 'aptos para la tarea' en base a muy poca información.

Eso es si los anotadores están siendo honestos.

Los 'complacientes con la gente' en el etiquetado de conjuntos de datos subcontratados

Con una mano de obra disponible que es poco pagado, bajo competencia severa para asignaciones disponibles, y deprimido por escasas perspectivas de carrera, los anotadores están motivados para proporcionar rápidamente la respuesta "correcta" y pasar a la siguiente minitarea.

Si la 'respuesta correcta' es algo más complicado que Tiene gato/No tiene gato, el documento de Syracuse sostiene que es probable que el trabajador intente deducir una respuesta 'aceptable' basada en el contenido y el contexto de la pregunta*:

“Tanto la proliferación de conceptualizaciones alternativas como el uso generalizado de métodos de anotación simplistas podrían estar obstaculizando el progreso de la investigación sobre el discurso de odio en línea. Por ejemplo, Ross, et al. encontrado que mostrar la definición de conducta odiosa de Twitter a los comentaristas hizo que alinearan parcialmente sus propias opiniones con la definición. Esta realineación dio como resultado una fiabilidad entre evaluadores muy baja de las anotaciones.'

 

* Mi conversión de las citas en línea del artículo a hipervínculos.

Publicado el 13 de diciembre de 2021 – Actualizado el 18 de diciembre de 2021: Etiquetas añadidas