Andersons vinkel
Den ‘Last Ned Flere Etiketter!’ Illusjonen i AI-forskning

En vanlig oppfatning i nåværende maskinlæringsforskning er at maskinlæring selv kan brukes til å forbedre kvaliteten på AI-datasettannoteringer – spesielt bildeunderskrifter som er ment for bruk i visuell-språkmodeller (VLMer). Denne tankemåten drives av den høye kostnaden av menneskelig annotering, og den ekstra byrden av tilsyn over annotatorkvalitet.
Argumenterbart er dette AI-ekvivalenten av tidlige 2000-talls ‘last ned mer RAM’ meme, som latterliggjorde forestillingen om at en maskinvarebegrensning kunne løses med en programvarebasert løsning.
Det er også et underansett problem; mens nye AI-modeller tiltrekker seg stor oppmerksomhet i både offentlige og kommersielle sfærer, synes annotering ofte å være en trivial detalj i maskinlæringspipeliner, overskygget av spenningen rundt bredere rammeverk.
I virkeligheten er evnen til maskinlæringsystemer til å gjenkjenne og reproducere mønster (den sentrale bruksområdet for nesten alle AI-systemer) er avhengig av kvaliteten og konsistensen av virkelige annoteringer – etiketter og fraser som er skapt eller avgjort av virkelige mennesker, ofte ved å ta subjektive avgjørelser om enkeltdata punkter i ikke-ideelle omstendigheter.
Uunngåelig, systemer som søker å observere og reproducere mønster i annotatøratferd (og dermed erstatte menneskelige annotatorer og muliggjøre nøyaktig etikettering i stor skala) kan ikke håpe å fungere godt på data ikke inneholdt i eksemplene tatt fra menneskelige observatører. Ingen ‘lignende’ er helt det samme, og tverrdomæne-ekvivalens forblir et problematisk forsøk i datavisjon.
Den ‘oppstrøms data-buck’ må stoppe et sted, og i dette tilfelle, er det akkurat der den stopper – med et menneskelig cerebellum som tar en eller annen subjektiv avgjørelse for å kodifisere data for et kunstig system.
Den RAG-bransjen
Inntil nylig, var uakkuratheitene som oppstod fra under-kurerte datasett-annoteringer, kanskje, sett på som akseptable skade i sammenheng med de ikke-perfekte, men likevel markedsgyldige resultater som ble oppnådd fra generative AI-systemer.
I virkeligheten, kun i år, konkluderte en studie fra Singapore at hallusinasjoner – dvs. tilfellene hvor AI-systemer oppfinner ting som undergraver våre intensjoner – er uunngåelige, og bundet inn i den konseptuelle arkitekturen til slike systemer.
For å motvirke dette, RAG-baserte agenter – som kan ‘verifisere’ fakta gjennom internett-søk – blir populære i forskning og anvendte kommersielle løsninger. Likevel, de legger til ressurskostnaden og til latensen i spørringene; i tillegg, ny informasjon som brukes på en trent modell, kan ikke konkurrere med de mer intrikate og dypere sammenkoblede forbindelsene som kjennetegner de native lagene i en trent modell.
Det ville derfor være bedre hvis annoteringsdataene som informerer disse modellene var betydelig mindre feilfulle fra første sted, selv om de ikke kan være perfekte (ikke minst fordi denne aktiviteten inntrer i området for menneskelig subjektivitet).
RePOPE
En ny artikkel fra Tyskland fremhever problemene som oppstår fra å stole på eldre, bredt brukte datasett, med fokus på nøyaktigheten og påliteligheten av deres bilde-underskrifter. Forskerne sine funn tyder på at etikettfeil i benchmark kan maskere eller misrepresentere hallusinasjon i visuell-språk-modeller.

Fra den nye artikkelen, noen eksempler hvor de originale underskriftene ikke klarte å korrekt identifisere objekter i MSCOCO-datasettet av bilder. Forskerne sine manuelle revisjoner av POPE-benchmark-datasettet adresserer disse manglene, og demonstrerer kostnadene ved å spare penger på annoteringskurering. Kilde: https://arxiv.org/pdf/2504.15707
Tenk deg en modell som vises et bilde av en gate-scene og spør om det er en sykkel i den. Modellen svarer ja. Hvis benchmark-datasettet sier at det ikke er en sykkel, blir modellen markert feil. Men hvis en sykkel klart synlig er i bildet, og ble bare oversett under annotering, så var modellens svar korrekt, og benchmark-datasettet har feilet. Slike feil kan akkumuleres over et datasett, og gi en forvrengt bilde av hvilke modeller som er nøyaktige og hvilke som er utsatt for hallusinasjon.
Derfor, når feil eller tvetydige annoteringer behandles som grunntruth, kan modeller synes å hallusinere når de er korrekte, eller synes å være nøyaktige når de ikke er, og forvrengte både målingen av hallusinasjon og rangeringen av modell-ytelse, og gjøre det vanskeligere å diagnostisere eller løse problemet med sikkerhet.
Den nye artikkelen gjennomgår en bredt brukt benchmark kalt Polling-based Object Probing Evaluation (POPE), som tester om visuell-språk-modeller kan korrekt si hva som er eller ikke er i et bilde.
POPE er basert på etiketter fra den innflytelsesrike Microsoft COCO: Common Objects in Context (MSCOCO)-datasettet, en samling av annoterte bilder som lenge har blitt behandlet som å tilby en god nivå av annoteringsnøyaktighet.
POPE evaluerer objekt-hallusinasjon i store visuell-språk-modeller ved å omformulere problemet som en binær klassifiseringsoppgave. I stedet for å parse genererte underskrifter, stiller systemet enkle ja/nei-spørsmål til modellen om hvorvidt bestemte objekter er til stede i et bilde, ved hjelp av maler som ‘Er det en <objekt> i bildet?’.

Eksempler på objekt-hallusinasjon i visuell-språk-modeller. Fet skrift indikerer objekter merket som til stede i de originale annoteringene, mens røde etiketter viser objekter hallusinert av modellene. Eksemplet til venstre reflekterer en tradisjonell instruksjonsbasert evaluering, mens de tre eksemplene til høyre er hentet fra forskjellige POPE-benchmark-varianter. Kilde: https://aclanthology.org/2023.emnlp-main.20.pdf
Grunntruth-objekter (svar: Ja) er parret med samplet ikke-eksisterende objekter (svar: Nei), valgt gjennom tilfeldig, hyppig (populær), eller sam-forekomst-basert (adversarial) strategier. Denne oppsettet tillater mer stabile, prompt-uavhengige evaluering av hallusinasjon uten å være avhengig av komplekse regel-basert underskriftsanalyse.
Forfatterne av den nye artikkelen – tittel RePOPE: Impact of Annotation Errors on the POPE Benchmark – utfordrer den antatte nøyaktigheten av POPE ved å gjennomgå etikettene på benchmarkets bilder (dvs. MSCOCO) – og finner at et overraskende antall er feil eller uklare.

Eksempler fra 2014 MSCOCO-datasettet. Kilde: https://arxiv.org/pdf/1405.0312
Disse feilene endrer måten modellene rangeres, med noen som opprinnelig fungerte godt, falt bakover når de ble bedømt mot korrigerte etiketter.
I tester, evaluerte forfatterne en rekke åpne vekt- visuell-språk-modeller på både den originale POPE-benchmark og deres om-merket RePOPE-versjon.
Ifølge artikkelen, ledet de korrigerte annoteringene til merkede endringer i modell-rangering, spesielt i F1-poeng, med flere høytfungende modeller under POPE som falt i posisjon under RePOPE.
Forfatterne hevder at denne skiftet illustrerer omfanget av hvilken grad annoteringsfeil kan skjule den faktiske hallusinasjons-atferden til modellene, og de presenterer RePOPE som et mer pålitelig verktøy for å vurdere hallusinasjons-sårbarhet.

I et annet eksempel fra den nye artikkelen, ser vi hvordan de originale POPE-underskriftene ikke klarte å skjelne subtile objekter, som en person som sitter ved siden av hytten på en trikk i det høyre bildet, eller stolen som er skjult av tennis-spilleren i det andre bildet fra venstre.
Metode og tester
Forskerne om-merket alle annoteringene i det originale MSCOCO-datasettet, med to menneskelige annotatorer tildeelt til hver data-eksemplar. Der hvor tvil om kvaliteten på de originale etikettene oppstod (som i eksemplene nedenfor), ble disse resultater satt til side fra test-runden.

Tvetydige tilfeller, hvor annoteringsinkonsistenser i POPE reflekterer uklare kategori-grenser. For eksempel, en teddybjørn merket som en bjørn, en motorsykkel som en sykkel, eller flyplass-kjøretøy som biler. Disse tilfellene ble ekskludert fra RePOPE på grunn av den subjektive naturen til slike klassifiseringer, samt inkonsistensene i MSCOCO sine originale etiketter.
Artikkelen sier:
‘De originale annotatorene glemte personer i bakgrunnen eller bak glass, tennis-spilleren skjuler ‘stolene’ i bakgrunnen og coleslawen inneholder bare en liten synlig stripe av en gulrot.
‘For noen objekter er COCO-annoteringene høyt inkonsistente, sannsynligvis på grunn av ulike definisjoner av disse objektene brukt av de originale annotatorene. Klassifiseringen av en ‘teddybjørn’ som en ‘bjørn’, en motorsykkel som en motorisert ‘sykkel’, eller et flyplass-kjøretøy som en ‘bil’ avhenger av spesifikke definisjoner, og leder til inkonsistenser i POPE-grunntruth-annoteringer. Derfor annoterer vi de tilsvarende bilde-spørsmål-par som ‘tvetydige’.’

Resultater fra om-annoteringen: de positive spørsmålene er felles for alle tre POPE-varianter. Blant de som ble merket ‘Ja’ i POPE, ble 9,3 prosent funnet å være feil og 13,8 prosent ble klassifisert som tvetydige. For ‘Nei’-spørsmålene, ble 1,7 prosent feilmerket og 4,3 prosent ble tvetydige.
Forfatterne evaluerte en rekke åpne vekt-modeller på POPE og på RePOPE, over diverse arkitekturer og modell-størrelser. Modellene som ble valgt, inkluderte noen av de ledende arkitektene på OpenVLM-lederen: InternVL2.5 (8B/26B/38B/78B og 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; og PaliGemma2 (3B/10B).

Initial resultater: den høye feilraten i de originale positive etikettene leder til en skarp nedgang i sanntro positive over alle modeller. Falske positive varierer over subset, nærmest dobbelt på det tilfeldige subset, men forblir stort sett uendret på det populære subset, og viser en liten nedgang på det adversarial subset. Om-annoteringen har en stor effekt på F1-basert rangering. Modeller som Ovis2-4B og Ovis2-8B, som fungerte godt på det populære og adversarial subset i POPE, stiger også til toppen på det tilfeldige subset under RePOPE.. Vennligst se kilde-PDF for bedre oppløsning.
Resultat-grafene ovenfor illustrerer hvordan antallet sanntro positive og falske positive endrer seg etter korreksjon av etikettene i benchmark.
Sanntro positive falt over alle modeller, og viste at de ofte ble kreditert for korrekte svar når disse svarene bare var korrekte under feil etiketter, mens falske positive fulgte en mer variert mønster.
På ’tilfeldig’ versjon av POPE, nærmest dobbelt antall falske positive for mange modeller, og indikerte at et betydelig antall objekter som ble merket som hallusinasjoner, faktisk var til stede i bildene, men ble oversett under den originale annoteringen. I dette tilfellet, var mange påståtte modell-feil faktisk datasett-annoteringsfeil.
For ‘adversarial’ versjon av POPE, hvor spørsmålene var basert på objekter som ofte sam-existerer, ble falske positive mindre. Dette skyldes sannsynligvis en høyere sjanse for at det påståtte fraværende objektet faktisk var i bildet, men ble Ikke annotert.
Selv om disse skiftene påvirkte presisjon og gjentakelse, forble modell-rangeringen relativt stabil for begge mål.
F1-poeng – POPE sin hoved-evaluering-mål – var langt mer følsom for etikett-korreksjonene. På det tilfeldige subset, modeller som rangerte nær toppen under de originale etikettene, som InternVL2.5-8B og -26B, falt til bunnen når de ble scoret med RePOPE. Andre, som Ovis2-4B og -8B, steg til toppen.
En lignende mønster oppstod i nøyaktighets-poeng, selv om forfatterne merker at disse nå kan være forvrengt, ettersom den korrigerte datasett inneholder et ujevn antall positive og negative eksempler.
Forfatterne argumenterer for at den sterke innvirkningen av annoteringsfeil på benchmark-resultater understreker behovet for høykvalitetsdata. For å støtte en mer pålitelig evaluering av objekt-hallusinasjon, har de gjort korrigerte etiketter tilgjengelige på GitHub.
Likevel, merker de at denne om-annoteringen ikke fullstendig løser benchmarkets metning, ettersom mange modeller fortsatt oppnår sanntro positive og sanntro negative rater over 90%. De foreslår at ytterligere benchmarks, som DASH-B, som bruker en mer utfordrende sett av negative eksempler, bør brukes sammen med RePOPE.
Konklusjon
Dette spesifikke eksperimentet var mulig på grunn av den svært lille skalaen av datasettet involvert. Å bevise den samme hypotesen på hyperskale-datasett ville innebære å arbeide på svært begrensede fragmenter av data; i høyt diverse store datasett, kan det vise seg å være nesten umulig å isolere statistisk representative og semantisk kohærente grupper – potensielt forvrengende resultater.
Selv om det var mulig, hva ville være løsningen under den nåværende tilstanden av kunnskap? Argumentet går tilbake uunngåelig mot behovet for bedre og mer omfattende menneskelig annotering.
I denne sammenhengen, eksisterer ‘bedre’ og ‘mer omfattende’ som separate problemer i seg selv, ettersom en kan oppnå en større mengde annoteringer gjennom lav-kostnads-økonomier som Amazon Mechanical Turk (AMT). Åpenbart, denne potensielt utnyttende sub-økonomi ofte fører til dårlige resultater.
Alternativt, kunne en utkontraktere annoteringsoppgaver til økonomiske regioner hvor den samme utgiften ville gi en større mengde annoteringer. Likevel, jo lengre annotatoren er fra den planlagte bruken av modellen deres etiketter vil danne, desto mindre sannsynlig er det at den resulterende modellen vil være i samsvar med behovene eller forventningene til mål-domenet.
Dette forblir ett av de mest varige og uløste utfordringene i økonomien av maskinlæringsutvikling.
Først publisert onsdag, 23. april 2025












