Contáctenos

Los riesgos de la anotación de imágenes basada en 'Vibe'

El ángulo de Anderson

Los riesgos de la anotación de imágenes basada en 'Vibe'

mm
Un mecenas del museo de artefactos prohibidos. SDXL; Flux; Flux.1 Kontext; Firefly.

Aunque solo les paguen unos pocos dólares (o incluso nada), las personas desconocidas que evalúan imágenes en busca de contenido "hiriente" pueden cambiarte la vida con sus decisiones. Ahora, un importante artículo de Google parece sugerir que estos anotadores crean sus propias reglas sobre qué es o no "hiriente" u ofensivo, sin importar cuán extrañas o personales sean sus reacciones a una imagen en particular. ¿Qué podría salir mal?

 

Opinión Esta semana, una nueva colaboración entre Google Research y Google Mind reunió a nada menos que 13 colaboradores para un nuevo documento que explora si los "sentimientos instintivos" de quienes anotan imágenes deben tenerse en cuenta cuando las personas califican imágenes para algoritmos, incluso si sus reacciones no concuerdan con los estándares de calificación establecidos.

Esto es importante para usted, porque lo que los evaluadores y anotadores consideran ofensivo según la regla de consenso tenderá a quedar consagrado en sistemas automáticos de censura y moderación, y en los criterios para material "obsceno" o "inaceptable", en leyes como la nuevo firewall NSFW* del Reino Unido (cuya versión es viniendo a australia próximamente) y en sistemas de evaluación de contenidos en plataformas de redes sociales, entre otros entornos.

Por lo tanto, cuanto más amplios sean los criterios de infracción, mayor será el nivel potencial de censura.

Vibe-Censura

Ese no es el único punto de vista que ofrece el nuevo estudio; también descubre que las personas que califican las imágenes suelen ser más censuradoras ante lo que creen que ofenderá. Otros personas además de ellos mismos; y que las imágenes de baja calidad a menudo plantean problemas de seguridad, aunque la calidad de la imagen no tenga nada que ver con el contenido de la imagen.

En su conclusión, el artículo enfatiza estos dos hallazgos, como si la posición central del artículo hubiera fracasado, pero los investigadores estuvieran obligados a publicarlos de todos modos.

Aunque no se trata de un escenario poco común, el artículo, tras una lectura atenta, revela una corriente subyacente más siniestra: que las prácticas de anotación podrían considerar adoptar lo que solo puedo describir como anotación de vibraciones:

Nuestros hallazgos sugieren que los marcos existentes deben considerar dimensiones subjetivas y contextuales, como las reacciones emocionales, los juicios implícitos y las interpretaciones culturales del daño. El uso frecuente del lenguaje emocional por parte de los anotadores y su divergencia con las etiquetas de daño predefinidas ponen de manifiesto las deficiencias en las prácticas de evaluación actuales.

'Ampliar las pautas de anotación para incluir ejemplos ilustrativos de diversas interpretaciones culturales y emocionales puede ayudar a abordar estas brechas'.

El nuevo artículo, escasamente ilustrado, presenta ejemplos claros y comprensibles para el lector promedio, aunque el material principal es mucho más ambiguo y plantea muchas más preguntas. Aquí, debajo de cada imagen, se muestran las respuestas emocionales de los anotadores en sus respectivas imágenes. Fuente: https://arxiv.org/pdf/2507.16033

El nuevo artículo, escasamente ilustrado, presenta ejemplos claros y comprensibles para el lector promedio, aunque el material principal plantea muchas más preguntas. Aquí, debajo de cada imagen, se muestran las respuestas emocionales de los autores de las anotaciones. Fuente: https://arxiv.org/pdf/2507.16033

En un principio, esto parece una propuesta para ampliar y cuantificar mejor lo que constituye “daño” en una imagen, una iniciativa encomiable; pero el artículo reitera varias veces que esto no es deseable ni (necesariamente) factible:

Nuestros hallazgos sugieren que los marcos existentes deben considerar dimensiones subjetivas y contextuales, como las reacciones emocionales, los juicios implícitos y las interpretaciones culturales del daño. El uso frecuente del lenguaje emocional por parte de los anotadores y su divergencia con las etiquetas de daño predefinidas ponen de manifiesto las deficiencias en las prácticas de evaluación actuales.

«Ampliar las directrices de anotación para incluir ejemplos ilustrativos de diversas interpretaciones culturales y emocionales puede ayudar a abordar estas lagunas […]

'[…] El proceso mediante el cual los anotadores razonan sobre imágenes ambiguas a menudo refleja sus perspectivas personales, culturales y emocionales, que son difíciles de estructurar o estandarizar.'

Es difícil ver cómo 'Ampliar las directrices de anotación para incluir ejemplos ilustrativos de diversas interpretaciones culturales y emocionales' Puede encajar en un sistema de clasificación racional; los autores se esfuerzan por aclarar este punto o por formular una teoría clara, atacando el material repetidamente, pero sin lograrlo. En este sentido, su tema central parece estar generado por la "vibra", aun cuando aborda psicologías intangibles.

En términos sencillos, me parece que ampliar el proceso de anotación para incluir criterios de este tipo potencialmente permite la "cancelación" u ofuscación de cualquier material (o clase de tema) al que un anotador podría reaccionar fuertemente.

Juicio binario

En realidad, es difícil cuantificar hasta qué punto las imágenes y el texto pueden causar daño, sobre todo porque la alta cultura a menudo se cruza con la cultura "baja" (por ejemplo, con artículo novelas), lo que dio lugar a los primeros criterios de censura basados ​​en la "vibra": incluso si el material obsceno escapa a una definición exacta, Reconócelo cuando lo veas.

Más allá de la discusión extensa y exploratoria sobre la empatía y los matices cualitativos que se presenta en el nuevo artículo, el trabajo parece atacar silenciosamente la autoridad de las taxonomías centralizadas y estandarizadas ('violencia', 'desnudez', 'odio', etc.) que permiten a las plataformas implementar y escalar la moderación con márgenes de error tolerables.usually).

El argumento que surge es que solo la retroalimentación humana descentralizada, subjetiva y consciente del contexto puede juzgar adecuadamente el resultado de GenAI.

Sin embargo, esto es claramente inescalable, ya que no se puede ejecutar un flujo de trabajo de filtros de un billón de imágenes basado en las vibraciones y la experiencia vivida. Es necesario cuantificar el daño en diversas propiedades; limitar el alcance del sistema de filtrado resultante; y esperar nuevas directivas en casos extremos (de la misma manera que las partes afectadas a veces deben esperar la promulgación de nuevas leyes que aborden sus circunstancias particulares).

En cambio, el nuevo documento presenta un mandato tácito para un proceso de moderación automatizado que amplía su alcance. automáticamente, y peca de cauteloso hasta el punto de que incluso la reacción más particular e irrepetible de un anotador podría penalizar una imagen que no ha ofendido a nadie más.

Expansión moral

Aunque el artículo se inclina hacia la exploración en lugar de adoptar una postura firme, incorpora elementos del método científico: los autores desarrollaron un marco para identificar (aunque no medir estrictamente) un espectro más amplio de reacciones de los anotadores a las imágenes y para examinar cómo estas reacciones varían según el género y otros factores demográficos.

Además del análisis de las pruebas de enfoque en el dañoEl proceso analizó el "razonamiento moral" en los comentarios auxiliares de los participantes de la prueba, a quienes se les pidió que anotaran un conjunto de datos de prueba modificado que contenía imágenes y mensajes/textos asociados.

Este 'autor de sentimiento moral' fue diseñado para capturar los valores morales Cuidado, Igualdad, Proporcionalidad, Lealtad, Autoridady Pureza, como se define en Teoría de los fundamentos morales – una teoría psicológica que, debido a su naturaleza fluida y evolutiva, es antitética a la creación de las definiciones concretas requeridas para los sistemas de calificación humana a gran escala.

Basándose en esta teoría, los autores categorizaron dimensiones adicionales de seguridad, incluyendo: miedo, enfado, tristeza, asco, confusióny lo siniestro.

Los autores profundizan en el primero de ellos, miedo:

'Muchos anotadores usaron términos como “aterrador” (por ejemplo, para rostros distorsionados o imágenes que sugieren violencia, como un arma apuntando a un niño), “perturbador” (por ejemplo, “Absolutamente vil ver a alguien atropellado, muy angustiante y perturbador” o “Perturbador y parece sangre” para pintura roja) o “perturbador” (por ejemplo, “La imagen del niño tiene muchas distorsiones… Lo encuentro desagradable porque parece que el niño está jugando en el lado equivocado de las barandillas laterales”).

'El [gráfico a continuación] cuantifica el “miedo” como la emoción mencionada con mayor frecuencia (233 menciones, mientras que casi la mitad de estas menciones están asociadas con contenido violento; el contenido considerado no dañino también evocó la segunda mayor mención de miedo).'

Distribución de términos relacionados con las emociones en las distintas categorías de daño, con la altura de las barras indicando las proporciones de comentarios, los recuentos mostrados dentro de las barras y los recuentos totales de comentarios mostrados encima de cada categoría.

Distribución de términos relacionados con las emociones en las distintas categorías de daño, con la altura de las barras indicando las proporciones de comentarios, los recuentos mostrados dentro de las barras y los recuentos totales de comentarios mostrados encima de cada categoría.

Respecto a la inclusión de estas nuevas dimensiones de seguridad, los autores afirman:

'Estos temas emergentes resaltan una necesidad crítica de enriquecer los marcos de evaluación de imágenes de IA integrando elementos subjetivos, emocionales y perceptuales'.

Este puede ser un camino peligroso, ya que parece permitir que los procesos de anotación agreguen reglas arbitrarias basadas en reacciones que el material puede provocar en cualquier anotador individual, en lugar de requerir todas Los anotadores deben adherirse a los estándares y puntos de referencia establecidos.

Si se pudiera atribuir un imperativo económico a esta idea, sería que este enfoque permite... anotación humana a hiperescala, en el que el proceso está libre de fricciones, los participantes se autorregulan y son ellos mismos quienes deciden cuáles son las reglas y los límites.

En el marco de la anotación estándar, las reglas se establecen por consenso humano y son respetadas por anotadores humanos; en el escenario previsto en el documento, esa capa inicial de supervisión se elimina o se degrada: en efecto, cualquier imagen que pudiera ofender a alguien sería marcada (entre otras cosas, quizás porque el consenso es costoso y requiere mucho tiempo).

Juicios de Rorschach

La intención de la anotación es llegar a una descripción o definición precisa, ya sea mediante la supervisión de expertos, el consenso entre múltiples anotadores o (idealmente) ambos. En cambio, ampliar una jerarquía de daños limitada pero bien definida a una postura interpretativa intuitiva y muy personal equivale a anotar una prueba de Rorschach.

Por ejemplo, algunos anotadores, señala el artículo, interpretaron la mala calidad de la imagen (como Artefactos JPEG, así como defectos técnicos sin importancia en una imagen) como 'inquietante' or 'indicativo de daño':

Esto ocurrió a pesar de que la tarea omitió instrucciones sobre la calidad de la imagen. Además, los anotadores interpretaron estos defectos de calidad como semánticamente significativos.

Un anotador comentó: «La imagen no es dañina en absoluto; solo tiene el rostro ligeramente distorsionado». Asimismo, algunos anotadores interpretaron los defectos en la calidad de la imagen como daño intencional, atribuyendo un significado emocional a los fallos. Por ejemplo, otro anotador interpretó un rostro distorsionado en otra imagen como «indicativo de dolor».

Al elevar las reacciones subjetivas, emocionales o específicas del contexto por encima de las categorías de seguridad predefinidas, las ideas presentadas aquí abren la puerta a un régimen donde cualquier cosa pueden ser marcados arbitrariamente como dañinos y donde un "efecto paralizante" de ad hoc La eliminación o recategorización negativa de material (es decir, material que puede "ofender" a un grupo de interés especial) se convierte en una posibilidad real.

 

 

El documento “Solo una imagen extraña”: Evaluación de la “seguridad” en las tareas de anotación de seguridad de imágenes de GenAI desde la perspectiva de diversos anotadores. is disponible en Arxiv.

* Un atajo, ya que no es el tema central aquí; bajo la nueva legislación, se espera que los sitios infractores se vigilen a sí mismos; impongan sistemas de revisión complejos y costosos y tecnologías de control de edad que están fuera del alcance de todos, excepto los sitios más grandes; o bien bloqueen sus dominios del público del Reino Unido (de nuevo, a su propio costo).

Simplemente expresado en el meme "piensa en los niños", que satiriza la apropiación de la capacidad moral de otro para fines aparentemente altruistas.

 

Primera publicación: viernes 25 de julio de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai