Kontakt med oss

Andersons vinkel

Risikoene ved «Vibe»-basert bildeannotering

mm
En låner i museet for forbudte gjenstander. SDXL; Flux; Flux.1 Kontekst; Ildflue.

Selv om de bare får betalt noen få dollar (eller ingenting), kan de ukjente menneskene som vurderer bilder for «sårende» innhold forandre livet ditt med valgene de tar. Nå ser det ut til at en stor ny artikkel fra Google antyder at disse kommentatorene lager sine egne regler for hva som er eller ikke er «sårende» eller støtende – uansett hvor bisarre eller personlige reaksjonene deres på et enkelt bilde måtte være. Hva kan gå galt?

 

Mening Denne uken samlet et nytt samarbeid mellom Google Research og Google Mind ikke mindre enn 13 bidragsytere til en ny papir som utforsker om de «instinktive følelsene» til bildeannotatorer bør tas i betraktning når folk vurderer bilder for algoritmer, selv om reaksjonene deres ikke samsvarer med etablerte vurderingsstandarder.

Dette er viktig for deg, fordi det som vurderere og kommentatorer finner støtende i henhold til konsensusregelen, vil ha en tendens til å bli nedfelt i automatiske sensur- og modereringssystemer, og i kriteriene for «obskønt» eller «uakseptabelt» materiale, i lovgivning som ny NSFW-brannmur* av Storbritannia (en versjon av denne er kommer til Australia snart), og i innholdsvurderingssystemer på sosiale medieplattformer, blant andre miljøer.

Så jo bredere kriteriene for krenkelse er, desto bredere er det potensielle nivået av sensur.

Vibe-sensur

Det er ikke det eneste synspunktet den nye avisen har å tilby; den finner også at folk som vurderer bilder ofte er mer sensurfulle når det gjelder hva de tror vil støte. Annet andre enn seg selv; og at bilder av lav kvalitet ofte gir opphav til sikkerhetsbekymringer, selv om bildekvalitet ikke har noe med bildeinnhold å gjøre.

Avslutningsvis legger artikkelen vekt på disse to funnene, som om artikkelens sentrale posisjon hadde sviktet, men forskerne var forpliktet til å publisere likevel.

Selv om det ikke er et uvanlig scenario, avgir artikkelen, ved nøye lesning, en mer uhyggelig undertone: at annoteringspraksiser kan vurdere å ta i bruk det jeg bare kan beskrive som vibe-annotering:

«Våre funn tyder på at eksisterende rammeverk må ta hensyn til subjektive og kontekstuelle dimensjoner, som emosjonelle reaksjoner, implisitte vurderinger og kulturelle tolkninger av skade. Annotatorers hyppige bruk av emosjonelt språk og deres avvik fra forhåndsdefinerte skadeetiketter fremhever hull i dagens evalueringspraksis.»

«Å utvide retningslinjene for annotering til å inkludere illustrerende eksempler på ulike kulturelle og emosjonelle tolkninger kan bidra til å tette disse hullene.»

Den sparsomt illustrerte nye artikkelen innleder med eksempler som er entydige og sympatiske for den gjennomsnittlige leser, selv om selve kjernematerialet er langt mer tvetydig og inviterer til mange flere spørsmål. Her, under hvert bilde, ser vi kommentatorenes emosjonelle responser angitt for deres respektive bilder. Kilde: https://arxiv.org/pdf/2507.16033

Den sparsomt illustrerte nye artikkelen innleder med eksempler som er entydige og sympatiske for den gjennomsnittlige leser, selv om selve kjernematerialet inviterer til mange flere spørsmål. Her, under hvert bilde, ser vi kommentatorenes emosjonelle responser angitt for deres respektive bilder. Kilde: https://arxiv.org/pdf/2507.16033

Ved første øyekast høres dette ut som et forslag om å utvide og bedre kvantifisere hva som utgjør «skade» i et bilde – en prisverdig bestrebelse; men artikkelen gjentar flere ganger at dette verken er ønskelig eller (nødvendigvis) gjennomførbart:

«Våre funn tyder på at eksisterende rammeverk må ta hensyn til subjektive og kontekstuelle dimensjoner, som emosjonelle reaksjoner, implisitte vurderinger og kulturelle tolkninger av skade. Annotatorers hyppige bruk av emosjonelt språk og deres avvik fra forhåndsdefinerte skadeetiketter fremhever hull i dagens evalueringspraksis.»

«Å utvide retningslinjene for annotering til å inkludere illustrerende eksempler på ulike kulturelle og emosjonelle tolkninger kan bidra til å tette disse hullene […]»

«[…] Prosessen som kommentatorer bruker for å resonnere om tvetydige bilder gjenspeiler ofte deres personlige, kulturelle og emosjonelle perspektiver, som er vanskelige å basere eller standardisere.»

Det er vanskelig å se hvordan «Utvidelse av annoteringsretningslinjene til å inkludere illustrerende eksempler på ulike kulturelle og emosjonelle tolkninger» kan passe inn i et rasjonelt vurderingssystem; forfatterne sliter med å avklare dette poenget, eller å formulere en distinkt teori, og angriper materialet mange ganger, men får aldri overtaket. I denne forbindelse virker selve deres sentrale tema «stemnings»-generert, selv om det omhandler immaterielle psykologier.

Enkelt sagt virker det for meg som om det å utvide annoteringsprosessen til å inkludere denne typen kriterier potensielt tillater «kansellering» eller tilsløring av ethvert materiale (eller emneklasse) som en annotator kan reagere sterkt på.

Binær dom

I hvilken grad bilder og tekst kan forårsake skade er faktisk vanskelig å tallfeste, ikke minst fordi høykultur ofte møter «lavkultur» (for eksempel med kunst og romaner), som førte til de tidligste «vibe»-baserte sensurkriteriene: at selv om obskønt materiale unnslipper eksakt definisjon, vil du vet det når du ser det.

Bak den nye artikkelens omfattende og utforskende diskusjon om empati og kvalitative nyanser, ser arbeidet ut til å stille angripe autoriteten til de sentraliserte, standardiserte taksonomiene («vold», «nakenhet», «hat» osv.) som lar plattformer implementere og skalere moderering med tålelige feilmarginer (vanligvis).

Argumentet som dukker opp er at bare desentralisert, subjektiv og kontekstbevisst menneskelig tilbakemelding kan bedømme GenAI-output på riktig måte.

Dette er imidlertid åpenbart uskalerbart, siden man ikke kan kjøre en filterpipeline på billioner av bilder basert på «vibber» og levd erfaring. Man må kvantifisere skaden i ulike egenskaper, sette en grense for omfanget av det resulterende filtreringssystemet og vente på nye direktiver i «edge»-saker (på samme måte som de berørte partene noen ganger må vente på at det vedtas nye lover som tar for seg deres egne spesielle omstendigheter).

I stedet presenterer den nye artikkelen et stilltiende mandat for en automatisert modereringsprosess som utvider omfanget. automatisk, og tar såpass mye av det forsiktige at selv den mest spesifikke og ikke-reproduserbare reaksjonen fra en kommentator kan straffe et bilde som ikke har fornærmet noen andre.

Moralsk ekspansjon

Selv om artikkelen heller mot utforskning snarere enn å ta et fast standpunkt, innlemmer den elementer av vitenskapelig metode: forfatterne utviklet et rammeverk for å identifisere (men ikke strengt tatt måle) et bredere spekter av annotatorreaksjoner på bilder, og for å undersøke hvordan disse reaksjonene varierer på tvers av kjønn og andre demografiske faktorer.

I tillegg til testenes analyse av skadefokus, analyserte prosessen «moralsk resonnement» i tilleggskommentarene til testdeltakerne, som ble bedt om å kommentere et modifisert testdatasett som inneholdt bilder og spørsmål/tilknyttede tekster.

Denne «moralske følelsesautomatiseringen» ble utformet for å fange opp de moralske verdiene Omsorg, likestilling, proporsjonalitet, lojalitet, autoritetog Purity, som definert i Moralisk grunnleggende teori – en psykologisk teori som, på grunn av sin flytende og utviklende natur, er i strid med etableringen av de konkrete definisjonene som kreves for storskala menneskelige vurderingssystemer.

Informert av denne teorien ble ytterligere dimensjoner av sikkerhet kategorisert av forfatterne, inkludert frykt, sinne, tristhet, avsky, forvirringog uhyggelighet.

Forfatterne utdyper den første av disse, frykt:

Mange kommentatorer brukte begreper som «skummel» (f.eks. for forvrengte ansikter eller bilder som antydet vold, som en pistol rettet mot et barn), «foruroligende» (f.eks. «Helt avskyelig å se noen bli påkjørt, veldig plagsomt og forstyrrende», eller «Foruroligende og ser ut som blod» for rød maling), eller «opprørende» (f.eks. «Bildet av gutten har mange forvrengninger ... Jeg synes det er usmakelig fordi det ser ut til at gutten leker på feil side av sideskinnene»).

«[Grafen nedenfor] kvantifiserer «frykt» som den mest omtalte følelsen (233 omtaler, mens nesten halvparten av disse omtalene er assosiert med voldelig innhold, innholdet som ble ansett som ikke skadelig fremkaller også den nest høyeste omtalen av frykt).»

Fordeling av emosjonsrelaterte termer på tvers av skadekategorier, med søylehøyder som indikerer andelen kommentarer, antall vist i søylene og totalt antall kommentarer vist over hver kategori.

Fordeling av emosjonsrelaterte termer på tvers av skadekategorier, med søylehøyder som indikerer andelen kommentarer, antall vist i søylene og totalt antall kommentarer vist over hver kategori.

Når det gjelder inkluderingen av disse nye dimensjonene av sikkerhet, sier forfatterne:

«Disse nye temaene fremhever et kritisk behov for å berike rammeverk for evaluering av AI-bilder ved å integrere subjektive, emosjonelle og perseptuelle elementer.»

Dette kan være en farlig vei å gå, siden det ser ut til å tillate annoteringsprosesser å vilkårlig legge til regler basert på reaksjoner som materiale kan fremkalle hos en enkelt annotator, i stedet for å kreve alle annotatorer til å overholde etablerte standarder og referansepunkter.

Hvis man kan tilskrive denne ideen et økonomisk imperativ, er det at denne tilnærmingen tillater hyperskala menneskelig annotering, der prosessen er friksjonsfri, deltakerne er selvregulerende, og der de selv bestemmer hva reglene og grensene er.

Under standard annotering blir regler utarbeidet gjennom menneskelig konsensus og overholdt av menneskelige annotatorer. Under scenariet som er forestilt i artikkelen, blir det første laget med tilsyn enten fjernet eller nedgradert: effektivt sett vil ethvert bilde som kan forårsake noen fornærmelse bli flagget (ikke minst, kanskje, fordi konsensus er kostbart så vel som tidkrevende).

Rorschach-dommene

Hensikten med annotering er å komme frem til en nøyaktig beskrivelse eller definisjon enten gjennom eksperttilsyn, felles konsensus blant flere annotatorer, eller (ideelt sett) begge deler. I stedet tilsvarer det å utvide et begrenset, men veldefinert hierarki av skader til en «intuitiv» og svært personlig fortolkningsposisjon å annotere en Rorschach-test.

For eksempel tolket noen kommentatorer, papirnotatene, dårlig bildekvalitet (som JPEG-gjenstander, så vel som meningsløse tekniske feil i et bilde) som «foruroligende» or «indikativ for skade»:

«Dette skjedde til tross for at oppgaven utelot instruksjoner om bildekvalitet. Dessuten tolket annotatorene disse kvalitetsartefaktene som semantisk meningsfulle.»

«Én kommentator kommenterte: «Bildet er ikke skadelig i det hele tatt; han har bare et litt forvrengt ansikt.» På samme måte tolket noen kommentatorer artefakter i bildekvaliteten som forsettlig skade, og tilskrev emosjonell betydning til feil. For eksempel tolket en annen kommentator et forvrengt ansikt i et annet bilde som «indikativt for smerte».»

Ved å opphøye subjektive, emosjonelle eller kontekstspesifikke reaksjoner over forhåndsdefinerte sikkerhetskategorier, åpner ideene som presenteres her døren for et regime der hva som helst kan vilkårlig flagges som skadelig, og hvor en «avkjølende effekt» av ad hoc fjerning eller negativ omkategorisering av materiale (dvs. materiale som kan «støte» en spesialinteressegruppe) blir en reell mulighet.

 

 

Avisen «Bare et merkelig bilde»: Evaluering av «sikkerhet» i GenAI. Sikkerhetsannoteringsoppgaver for bilder fra ulike annotatorers perspektiver. is tilgjengelig på Arxiv.

* En snarvei, siden det ikke er det sentrale temaet her; under den nye lovgivningen forventes det at støtende nettsteder enten overvåker seg selv; innfører komplekse og dyre vurderingssystemer og alderskontrollteknologier som er utenfor rekkevidde for alle unntatt de største nettstedene; eller blokkerer domenene sine fra britiske seere (igjen, på egen bekostning).

Enkelt uttrykt i «tenk på barna»-memen, som satiriserer tilegnelsen av en annens moralske handlefrihet for tilsynelatende altruistiske midler.

 

Først publisert fredag 25. juli 2025

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai