Andersons vinkel

Risiciene ved 'Vibe'-baseret billedannotation

Udgivet Juli 25, 2025

Martin Anderson

En mæcen på museet for forbudte artefakter. SDXL; Flux; Flux.1 Kontekst; Ildflue.

Selvom de kun får et par dollars (eller slet ingenting), kan de ukendte personer, der vurderer billeder for 'sårende' indhold, ændre dit liv med de valg, de træffer. Nu synes en stor ny artikel fra Google at antyde, at disse annotatorer laver deres egne regler for, hvad der er eller ikke er 'sårende' eller stødende – uanset hvor bizarre eller personlige deres reaktioner på et enkelt billede måtte være. Hvad kunne gå galt?

Udtalelse I denne uge samlede et nyt samarbejde mellem Google Research og Google Mind ikke mindre end 13 bidragydere til et nyt papir der undersøger, om billedannotatorers 'instinktive følelser' bør tages i betragtning, når folk vurderer billeder til algoritmer, selvom deres reaktioner ikke stemmer overens med etablerede vurderingsstandarder.

Dette er vigtigt for dig, fordi det, som bedømmere og kommentatorer finder stødende ifølge konsensusreglerne, ofte vil blive indskrevet i automatiske censur- og modereringssystemer og i kriterierne for 'obskønt' eller 'uacceptabelt' materiale i lovgivning som f.eks. ny NSFW-firewall* af Storbritannien (en version af hvilken er kommer til Australien snart), og i indholdsvurderingssystemer på sociale medieplatforme, blandt andre miljøer.

Så jo bredere kriterierne for krænkelse er, desto bredere er det potentielle niveau af censur.

Vibe-censur

Det er ikke det eneste synspunkt, den nye avis har at tilbyde; den finder også, at folk, der vurderer billeder, ofte er mere censurerende over, hvad de mener vil støde. Andet andre end dem selv; og at billeder af lav kvalitet ofte giver anledning til sikkerhedsproblemer, selvom billedkvaliteten intet har at gøre med billedindholdet.

I sin afslutning fremhæver artiklen disse to fund, som om artiklens centrale position havde fejlet, men forskerne var forpligtet til at publicere alligevel.

Selvom det ikke er et ualmindeligt scenarie, fremhæver artiklen ved omhyggelig læsning en mere uhyggelig undertone: at annotationspraksis kunne overveje at anvende det, jeg kun kan beskrive som vibe-annotering:

"Vores resultater tyder på, at eksisterende rammer skal tage højde for subjektive og kontekstuelle dimensioner, såsom følelsesmæssige reaktioner, implicitte vurderinger og kulturelle fortolkninger af skade. Annotatorers hyppige brug af følelsesmæssigt sprog og deres afvigelse fra foruddefinerede skadesmærkninger fremhæver huller i nuværende evalueringspraksis."

"En udvidelse af annotationsretningslinjerne til at inkludere illustrative eksempler på forskellige kulturelle og følelsesmæssige fortolkninger kan bidrage til at afhjælpe disse mangler."

Den sparsomt illustrerede nye artikel indleder med eksempler, der er utvetydige og sympatiske for den gennemsnitlige læser, selvom selve kernematerialet indbyder til mange flere spørgsmål. Her ser vi under hvert billede annotatorernes følelsesmæssige reaktioner angivet for deres respektive billeder. Kilde: https://arxiv.org/pdf/2507.16033

Ved første øjekast lyder dette som et forslag om at udvide og bedre kvantificere, hvad der udgør 'skade' i et billede – en prisværdig stræben; men artiklen gentager flere gange, at dette hverken er ønskeligt eller (nødvendigvis) muligt:

"Udvidelse af annotationsretningslinjerne til at omfatte illustrative eksempler på forskellige kulturelle og følelsesmæssige fortolkninger kan bidrage til at afhjælpe disse huller [...]"

'[…] Den proces, hvormed annotatorer ræsonnerer om tvetydige billeder, afspejler ofte deres personlige, kulturelle og følelsesmæssige perspektiver, som er vanskelige at basere eller standardisere.'

Det er svært at se hvordan 'Udvidelse af annotationsretningslinjer til at omfatte illustrative eksempler på forskellige kulturelle og følelsesmæssige fortolkninger' kan passe ind i et rationelt vurderingssystem; forfatterne kæmper med at afklare dette punkt eller at formulere en distinkt teori, idet de angriber materialet mange gange, men aldrig får overtaget. I denne henseende virker deres centrale tema i sig selv 'stemnings'-genereret, selvom det omhandler uhåndgribelige psykologier.

Kort sagt forekommer det mig, at en udvidelse af annotationspipelinen til at omfatte denne art potentielt muliggør 'annullering' eller tilsløring af ethvert materiale (eller emneklasse), som en annotator måtte reagere stærkt på.

Binær dom

Det er faktisk vanskeligt at kvantificere, i hvilket omfang billeder og tekst kan forårsage skade, ikke mindst fordi højkultur ofte krydser hinanden med 'lavkultur' (for eksempel med kunst og romaner), der førte til de tidligste 'vibe'-baserede censurkriterier: at selvom obskønt materiale undslipper den nøjagtige definition, vil du kender det, når du ser det.

Under den nye artikels omfattende og udforskende diskussion af empati og kvalitative nuancer synes arbejdet stille og roligt at angribe autoriteten af de centraliserede, standardiserede taksonomier ('vold', 'nøgenhed', 'had' osv.), der lader platforme implementere og skalere moderering med acceptable fejlmarginer (sædvanligvis).

Argumentet, der fremkommer, er, at kun decentraliseret, subjektiv og kontekstbevidst menneskelig feedback korrekt kan bedømme GenAI-output.

Dette er dog tydeligvis ikke skalerbart, da man ikke kan køre en filterpipeline på billioner af billeder baseret på 'vibes' og levede erfaringer. Man er nødt til at kvantificere skaden i forskellige egenskaber; sætte en grænse for omfanget af det resulterende filtreringssystem; og vente på nye direktiver i 'edge'-sager (ligesom de berørte parter nogle gange må vente på vedtagelsen af nye love, der tager højde for deres egne særlige omstændigheder).

I stedet præsenterer den nye artikel et stiltiende mandat til en automatiseret modereringspipeline, der udvider dens anvendelsesområde. automatisk, og tager så stor en fejl på den forsigtige side, at selv den mest specifikke og ikke-replikerbare reaktion fra en annotator kan straffe et billede, der ikke har fornærmet nogen andre.

Moralsk ekspansion

Selvom artiklen hælder mod udforskning snarere end at indtage en fast holdning, inkorporerer den elementer af den videnskabelige metode: forfatterne udviklede en ramme til at identificere (dog ikke strengt måle) et bredere spektrum af annotatorers reaktioner på billeder og til at undersøge, hvordan disse reaktioner varierer på tværs af køn og andre demografiske faktorer.

Udover testenes analyse af fokus på skade^†, analyserede processen 'moralsk ræsonnement' i testdeltagernes supplerende kommentarer, som blev bedt om at annotere et modificeret testdatasæt indeholdende billeder og prompts/tilknyttede tekster.

Denne 'moralske følelsesautomatisering' blev designet til at indfange de moralske værdier Omsorg, lighed, proportionalitet, loyalitet, autoritetog Renhed, som defineret i Moral Foundations Theory – en psykologisk teori, der på grund af sin flydende og udviklende natur er i modstrid med skabelsen af de konkrete definitioner, der kræves til store menneskelige vurderingssystemer.

Med udgangspunkt i denne teori blev yderligere sikkerhedsdimensioner kategoriseret af forfatterne, herunder frygt, vrede, sorg, afsky, forvirringog uhyggelighed.

Forfatterne uddyber den første af disse, frygt:

Mange annotatorer brugte udtryk som "skræmmende" (f.eks. om forvrængede ansigter eller billeder, der antyder vold, som en pistol rettet mod et barn), "foruroligende" (f.eks. "Helt ulækkert at se nogen blive kørt over, meget foruroligende og ubehageligt" eller "Foruroligende og ligner blod" om rød maling) eller "foruroligende" (f.eks. "Billedet af drengen har mange forvrængninger ... Jeg finder det smagløst, fordi det ser ud til, at drengen leger på den forkerte side af sideskørterne").

'[Grafen nedenfor] kvantificerer "frygt" som den hyppigst nævnte følelse (233 omtaler, mens næsten halvdelen af disse omtaler er forbundet med voldeligt indhold, og indholdet, der blev anset for ikke at være skadeligt, fremkaldte også den næststørste omtale af frygt).'

Fordeling af følelsesrelaterede termer på tværs af skadekategorier, hvor søjlehøjder angiver andelen af kommentarer, antal vist inden for søjler og det samlede antal kommentarer vist over hver kategori.

Vedrørende inkluderingen af disse nye dimensioner af sikkerhed, anfører forfatterne:

"Disse nye temaer fremhæver et kritisk behov for at berige rammer for billedvurdering af kunstig intelligens ved at integrere subjektive, følelsesmæssige og perceptuelle elementer."

Dette kan være en farlig vej at gå, da det tilsyneladende tillader annotationsprocesser vilkårligt at tilføje regler baseret på reaktioner, som materiale kan fremkalde hos en enkelt annotator, i stedet for at kræve alle annotatorer til at overholde etablerede standarder og benchmarks.

Hvis man kunne tilskrive denne idé et økonomisk imperativ, er det, at denne tilgang tillader hyperskala menneskelig annotation, hvor processen er friktionsfri, deltagerne er selvregulerende, og hvor de selv bestemmer, hvad reglerne og grænserne er.

Under standardannotering udarbejdes regler ved menneskelig konsensus og overholdes af menneskelige annotatorer; i det scenarie, der er beskrevet i artiklen, fjernes eller nedgraderes dette første lag af tilsyn: effektivt vil ethvert billede, der kan forårsage nogen fornærmelse, blive markeret (måske ikke mindst fordi konsensus er både dyrt og tidskrævende).

Rorschach-dommene

Formålet med annotering er at nå frem til en præcis beskrivelse eller definition enten gennem eksperttilsyn, fælles konsensus blandt flere annotatorer eller (ideelt set) begge dele. I stedet svarer det til at annotere en Rorschach-test at udvide et begrænset, men veldefineret hierarki af skader til en 'intuitiv' og meget personlig fortolkningsmæssig holdning.

For eksempel fortolkede nogle annotatorer, papirnoterne, dårlig billedkvalitet (f.eks. JPEG-artefakter, såvel som meningsløse tekniske fejl i et billede) som 'foruroligende' or 'indikativ for skade':

Dette skete på trods af at opgaven udelod instruktioner om billedkvalitet. Desuden fortolkede annotatorerne disse kvalitetsartefakter som semantisk meningsfulde.

En kommentator kommenterede: "Billedet er slet ikke skadeligt; han har bare et lidt forvrænget ansigt." På samme måde fortolkede nogle kommentatorer billedkvalitetsartefakter som forsætlig skade og tillagde følelsesmæssig betydning til fejl. For eksempel fortolkede en anden kommentator et forvrænget ansigt i et andet billede som "indikativt for smerte"

Ved at hæve subjektive, følelsesmæssige eller kontekstspecifikke reaktioner over foruddefinerede sikkerhedskategorier åbner de her præsenterede idéer døren til et regime, hvor noget kan vilkårligt markeres som skadelig, og hvor en 'afskrækkende effekt' af ad hoc fjernelse eller negativ omkategorisering af materiale (dvs. materiale, der kan 'støde' en særlig interessegruppe) bliver en reel mulighed.

Papiret "Bare et mærkeligt billede": Evaluering af 'sikkerhed' i GenAI Billedsikkerhedsannotationsopgaver fra forskellige annotatorers perspektiver is tilgængelig hos Arxiv.

* En genvej, da det ikke er det centrale emne her; i henhold til den nye lovgivning forventes det, at stødende websteder enten overvåger sig selv; indfører komplekse og dyre gennemgangssystemer og alderskontrolteknologier, der er utilgængelige for alle undtagen de største websteder; eller blokerer deres domæner fra britiske seere (igen, på egen regning).

† Simpelthen udtrykt i 'tænk på børnene'-memen, der satiriserer tilegnelsen af en andens moralske handlekraft til tilsyneladende altruistiske midler.

Først udgivet fredag den 25. juli 2025

Relaterede emner:anmærkning censur dataarnnotering datamærkning billedkommentar

Næste

Slående guld med AI

Gå ikke glip af

Fra sølv til guld: Hvordan DeepMinds kunstige intelligens vandt matematik-OL

Martin Anderson

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai

Unite.AI

Risiciene ved 'Vibe'-baseret billedannotation

Vibe-censur

Binær dom

Moralsk ekspansion

Rorschach-dommene

Du kan godt lide