Verbind je met ons

Anderson's hoek

De risico's van op 'vibe' gebaseerde beeldannotatie

mm
Een beschermheer van het museum voor verboden artefacten. SDXL; Flux; Flux.1 Kontext; Firefly.

Ook al krijgen ze maar een paar dollar (of zelfs niets) betaald, de onbekende mensen die afbeeldingen beoordelen op 'kwetsende' inhoud kunnen je leven veranderen met de keuzes die ze maken. Nu lijkt een belangrijk nieuw artikel van Google te suggereren dat deze annotators hun eigen regels opstellen over wat wel en niet 'kwetsend' of aanstootgevend is – hoe bizar of persoonlijk hun reacties op een bepaalde afbeelding ook zijn. Wat kan er misgaan?

 

Advies Deze week bracht een nieuwe samenwerking tussen Google Research en Google Mind maar liefst 13 bijdragers samen een nieuw papier waarin wordt onderzocht of er rekening moet worden gehouden met de 'instinctieve gevoelens' van beeldannotatoren wanneer mensen afbeeldingen beoordelen voor algoritmes, zelfs als hun reacties niet overeenkomen met de vastgestelde beoordelingsnormen.

Dit is belangrijk voor u, omdat wat beoordelaars en annotatoren aanstootgevend vinden op basis van consensus, de neiging heeft om vastgelegd te worden in automatische censuur- en moderatiesystemen en in de criteria voor 'obsceen' of 'onaanvaardbaar' materiaal, in wetgeving zoals de nieuwe NSFW-firewall* van het Verenigd Koninkrijk (waarvan een versie is naar Australië komen (binnenkort) en in systemen voor de beoordeling van inhoud op onder andere sociale-mediaplatforms.

Hoe ruimer de criteria voor overtreding, hoe groter het potentiële niveau van censuur.

Vibe-censuur

Dat is niet het enige standpunt dat het nieuwe artikel te bieden heeft; het concludeert ook dat mensen die afbeeldingen beoordelen vaak kritischer zijn over wat zij denken dat hen zal aanstootgevend zal zijn. Overige mensen buiten henzelf; en dat afbeeldingen van lage kwaliteit vaak tot zorgen over de veiligheid leiden, ook al heeft de beeldkwaliteit niets te maken met de inhoud van de afbeeldingen.

In de conclusie van het artikel worden deze twee bevindingen benadrukt, alsof de centrale positie van het artikel tekortgeschoten was, maar de onderzoekers toch verplicht waren het te publiceren.

Hoewel dat geen ongewoon scenario is, levert het artikel bij zorgvuldige lezing een sinisterdere ondertoon op: dat annotatiepraktijken zouden kunnen overwegen om over te nemen wat ik alleen maar kan omschrijven als vibe-annoteren:

'Onze bevindingen suggereren dat bestaande kaders rekening moeten houden met subjectieve en contextuele dimensies, zoals emotionele reacties, impliciete oordelen en culturele interpretaties van schade. Het frequente gebruik van emotionele taal door annotators en hun afwijking van vooraf gedefinieerde labels voor schade, benadrukken hiaten in de huidige evaluatiepraktijken.

'Door de richtlijnen voor annotatie uit te breiden met illustratieve voorbeelden van uiteenlopende culturele en emotionele interpretaties, kunnen we deze lacunes opvullen.'

De schaars geïllustreerde nieuwe publicatie begint met voorbeelden die ondubbelzinnig en sympathiek zijn voor de gemiddelde lezer, hoewel het eigenlijke kernmateriaal veel dubbelzinniger is en veel meer vragen oproept. Hier, onder elke afbeelding, zien we de emotionele reacties van de annotatoren, weergegeven bij de betreffende afbeeldingen. Bron: https://arxiv.org/pdf/2507.16033

Het schaars geïllustreerde nieuwe artikel begint met voorbeelden die ondubbelzinnig en sympathiek zijn voor de gemiddelde lezer, hoewel het eigenlijke kernmateriaal veel meer vragen oproept. Hier, onder elke afbeelding, zien we de emotionele reacties van de annotatoren bij de betreffende afbeeldingen. Bron: https://arxiv.org/pdf/2507.16033

Op het eerste gezicht lijkt dit een voorstel om de definitie van 'schade' in een afbeelding uit te breiden en beter te kwantificeren – een prijzenswaardig streven. Het artikel benadrukt echter meerdere malen dat dit noch wenselijk, noch (noodzakelijkerwijs) haalbaar is:

'Onze bevindingen suggereren dat bestaande kaders rekening moeten houden met subjectieve en contextuele dimensies, zoals emotionele reacties, impliciete oordelen en culturele interpretaties van schade. Het frequente gebruik van emotionele taal door annotators en hun afwijking van vooraf gedefinieerde labels voor schade, benadrukken hiaten in de huidige evaluatiepraktijken.

'Het uitbreiden van de richtlijnen voor annotatie met illustratieve voorbeelden van diverse culturele en emotionele interpretaties kan helpen deze lacunes op te vullen […]

'[…] Het proces waarmee annotators redeneren over dubbelzinnige beelden weerspiegelt vaak hun persoonlijke, culturele en emotionele perspectieven, die moeilijk te structureren of te standaardiseren zijn.'

Het is moeilijk te zien hoe 'Uitbreiding van de annotatierichtlijnen met illustratieve voorbeelden van diverse culturele en emotionele interpretaties' kan in een rationeel beoordelingssysteem passen; de auteurs worstelen om dit punt te verduidelijken, of om een ​​duidelijke theorie te formuleren, waarbij ze de materie herhaaldelijk aanvallen, maar er nooit de overhand in krijgen. In dit opzicht lijkt hun centrale thema zelf 'vibe'-gegenereerd, zelfs terwijl het ongrijpbare psychologieën behandelt.

Eenvoudig gezegd lijkt het mij dat het uitbreiden van de annotatiepijplijn met dit soort criteria de mogelijkheid biedt om elk materiaal (of categorie onderwerpen) waarop een annotator heftig zou kunnen reageren, te 'annuleren' of te verdoezelen.

Binair oordeel

De mate waarin beelden en tekst schade kunnen veroorzaken is inderdaad moeilijk te kwantificeren, niet in de laatste plaats omdat hoge cultuur vaak samenvalt met 'lage' cultuur (bijvoorbeeld met kunst en romans), wat leidde tot de eerste op 'vibe' gebaseerde censuurcriteria: dat zelfs als obsceen materiaal aan de exacte definitie ontsnapt, je weet het als je het ziet.

Onder de uitgebreide en verkennende bespreking van empathie en kwalitatieve nuances in het nieuwe artikel, lijkt het werk stilletjes de autoriteit aan te vallen van de gecentraliseerde, gestandaardiseerde taxonomieën ('geweld', 'naaktheid', 'haat', etc.) die platforms in staat stellen moderatie te implementeren en op te schalen met aanvaardbare foutmarges (doorgaans).

Het argument dat hieruit naar voren komt, is dat alleen gedecentraliseerde, subjectieve, contextbewuste menselijke feedback de output van GenAI goed kan beoordelen.

Dit is echter duidelijk niet schaalbaar, aangezien je geen filterpijplijn van biljoenen afbeeldingen kunt gebruiken voor 'vibes' en levenservaringen. Je moet de schade kwantificeren in diverse eigenschappen; een limiet stellen aan de reikwijdte van het resulterende filtersysteem; en wachten op nieuwe richtlijnen in 'grensgevallen' (net zoals benadeelde partijen soms moeten wachten op de invoering van nieuwe wetten die hun eigen specifieke omstandigheden aanpakken).

In plaats daarvan presenteert het nieuwe document een stilzwijgend mandaat voor een geautomatiseerde moderatiepijplijn die de reikwijdte ervan uitbreidt webmaster.en is zo voorzichtig dat zelfs de meest specifieke en niet-repliceerbare reactie van een annotator een afbeelding kan bestraffen die niemand anders heeft beledigd.

Morele expansie

Hoewel het artikel meer de nadruk legt op verkenning dan op het innemen van een vast standpunt, bevat het wel elementen van de wetenschappelijke methode: de auteurs ontwikkelden een raamwerk om een breder spectrum aan reacties van annotatoren op afbeeldingen te identificeren (maar niet strikt te meten) en om te onderzoeken hoe deze reacties variëren afhankelijk van geslacht en andere demografische factoren.

Naast de analyse van de tests van schade-focus†, het proces analyseerde 'moreel redeneren' in de aanvullende opmerkingen van testdeelnemers, die gevraagd werden om aantekeningen te maken bij een aangepaste testdataset met afbeeldingen en prompts/geassocieerde teksten.

Deze 'morele sentiment-autorater' is ontworpen om de morele waarden vast te leggen Zorg, Gelijkheid, Proportionaliteit, Loyaliteit, Autoriteiten Zuiverheid, zoals gedefinieerd in Morele grondslagen theorie – een psychologische theorie die, vanwege haar vloeiende en evoluerende aard, haaks staat op de ontwikkeling van concrete definities die nodig zijn voor grootschalige menselijke beoordelingssystemen.

Geïnspireerd door deze theorie hebben de auteurs aanvullende dimensies van veiligheid gecategoriseerd, waaronder angst, boosheid, verdriet, walging, verwarringen onheilspellendheid.

De auteurs gaan uitgebreid in op de eerste van deze punten, angst:

Veel annotators gebruikten termen als 'eng' (bijvoorbeeld voor vervormde gezichten of afbeeldingen die geweld suggereren, zoals een pistool dat op een kind is gericht), 'verontrustend' (bijvoorbeeld 'Volkomen walgelijk om iemand te zien overreden, zeer pijnlijk en verontrustend' of 'Verontrustend en het lijkt op bloed' voor rode verf) of 'verontrustend' (bijvoorbeeld 'De afbeelding van de jongen is op veel plekken vervormd... Ik vind het onsmakelijk omdat het lijkt alsof de jongen aan de verkeerde kant van de zijrails speelt').

'De [grafiek hieronder] kwantificeert 'angst' als de meest genoemde emotie (233 vermeldingen, terwijl bijna de helft van deze vermeldingen verband houdt met gewelddadige inhoud; de inhoud die als niet schadelijk wordt beschouwd, riep ook het op één na hoogste aantal vermeldingen van angst op).'

Verdeling van emotiegerelateerde termen over de verschillende schadecategorieën, waarbij de hoogte van de balken de verhoudingen van de reacties aangeeft, het aantal reacties binnen de balken en het totale aantal reacties boven elke categorie.

Verdeling van emotiegerelateerde termen over de verschillende schadecategorieën, waarbij de hoogte van de balken de verhoudingen van de reacties aangeeft, het aantal reacties binnen de balken en het totale aantal reacties boven elke categorie.

Met betrekking tot de opname van deze nieuwe dimensies van veiligheid stellen de auteurs:

'Deze opkomende thema's onderstrepen de dringende noodzaak om AI-beeldbeoordelingskaders te verrijken door subjectieve, emotionele en perceptuele elementen te integreren.'

Dit kan een gevaarlijke weg zijn om te bewandelen, omdat het annotatieprocessen lijkt toe te staan willekeurig regels toe te voegen op basis van reacties die het materiaal in een enkele annotator kan oproepen, in plaats van dat dit vereist is. allen annotatoren zich aan vastgestelde normen en benchmarks moeten houden.

Als men aan dit idee een economische noodzaak zou kunnen toeschrijven, dan is het dat deze aanpak het mogelijk maakt hyperscale menselijke annotatiewaarbij het proces frictieloos verloopt, de deelnemers zelfregulerend zijn en zij zelf de regels en grenzen bepalen.

Bij standaardannotatie worden de regels bepaald door menselijke consensus, waarna menselijke annotators zich eraan houden. In het scenario dat in het artikel wordt beschreven, wordt die eerste laag van toezicht verwijderd of gedegradeerd: in feite wordt elke afbeelding die aanstootgevend zou kunnen zijn voor wie dan ook, gemarkeerd (niet in de laatste plaats omdat consensus zowel kostbaar als tijdrovend is).

Rorschach-oordelen

Het doel van annotatie is om tot een accurate beschrijving of definitie te komen, hetzij door deskundig toezicht, gezamenlijke consensus tussen meerdere annotatoren, of (idealiter) beide. In plaats daarvan is het uitbreiden van een beperkte maar goed gedefinieerde hiërarchie van schade tot een 'intuïtieve' en zeer persoonlijke interpretatieve houding gelijk aan het annoteren van een Rorschachtest.

Sommige annotators interpreteerden de papieren aantekeningen bijvoorbeeld als een slechte beeldkwaliteit (zoals JPEG-artefacten, evenals betekenisloze technische gebreken in een afbeelding) als 'storend' or 'indicatief voor schade':

Dit gebeurde ondanks het weglaten van instructies over beeldkwaliteit. Bovendien interpreteerden annotators deze kwaliteitsartefacten als semantisch betekenisvol.

'Een annotator merkte op: "De afbeelding is helemaal niet schadelijk; hij heeft alleen een wat vervormd gezicht." Tegelijkertijd interpreteerden sommige annotators artefacten in de beeldkwaliteit als opzettelijke schade en gaven ze emotionele betekenis aan de haperingen. Zo interpreteerde een andere annotator een vervormd gezicht op een andere afbeelding als "een teken van pijn".'

Door subjectieve, emotionele of context-specifieke reacties boven vooraf gedefinieerde veiligheidscategorieën te verheffen, openen de hier gepresenteerde ideeën de deur naar een regime waarin iets willekeurig als schadelijk kunnen worden aangemerkt, en waar een 'afschrikwekkend effect' van ad hoc verwijderingen of negatieve hercategorisering van materiaal (dat wil zeggen materiaal dat een bepaalde belangengroep kan 'aanstootgeven') wordt een reëel vooruitzicht.

 

 

Het papier "Gewoon een vreemde foto": Evaluatie van 'veiligheid' in GenAI-taken voor het annoteren van beeldveiligheid vanuit de perspectieven van diverse annotatoren is verkrijgbaar bij Arxiv.

* Een korte samenvatting, aangezien dit hier niet het centrale onderwerp is. Volgens de nieuwe wetgeving wordt van websites die in overtreding zijn verwacht dat ze óf zelf controles uitvoeren, óf complexe en dure beoordelingssystemen en leeftijdscontroletechnologieën invoeren die alleen voor de allergrootste websites haalbaar zijn, óf hun domeinen blokkeren voor het Britse publiek (wederom op eigen kosten).

† Simpelweg uitgedrukt in de 'denk aan de kinderen'-meme, die de toe-eigening van andermans morele handelingsbekwaamheid voor ogenschijnlijk altruïstische doeleinden op de hak neemt.

 

Eerste publicatie vrijdag 25 juli 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd van onderzoeksinhoud bij Metaphysic.ai.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai