Andersons vinkel
Den ‘Download Mere Mærkater!’ Illusion i AI-Forskning

En almindelig opfattelse i nuværende maskinlæringsforskning er, at maskinlæring selv kan bruges til at forbedre kvaliteten af AI-datasæt-mærkninger – særligt billedbeskrivelser, der er beregnet til brug i vision-sprog-modeller (VLM’er). Denne tankegang er drevet af den høje omkostning af menneskelig mærkning og den ekstra byrde af overvågning af mærkerpræstation.
Argumenterbart er dette AI-ækvivalent til den tidlige 2000’ers ‘download mere RAM’ meme, som satiriserede forestillingen om, at en hardwarebegrænsning kunne løses med en software-baseret løsning.
Det er også et underbetonet problem; mens nye AI-modeller tiltrækker bred opmærksomhed i både offentlige og kommercielle sfærer, synes mærkning ofte at være en trivial detalje i maskinlæringspipeliner, overskygget af begejstringen omkring bredere rammer.
I virkeligheden er maskinlæringsystemers evne til at genkende og reproducere mønstre (det centrale brugsområde for næsten alle AI-systemer) afhængig af kvaliteten og konsistensen af virkelige mærkninger – mærkater og fraser, der er skabt eller fastsat af rigtige mennesker, ofte med subjektive domme om enkeltdata i ikke-ideelle omstændigheder.
Uundgåeligt kan systemer, der søger at observere og reproducere mønstre i mærkeradfærd (og dermed erstatte menneskelige mærkere og facilitere præcis mærkning i stor skala) ikke håbe at fungere godt på data ikke indeholdt i eksemplerne taget fra menneskelige observatører. Ingen ‘lignende’ er helt det samme, og cross-domain-ækvivalens forbliver et problematiske forfølgning i computer vision.
Den ‘opstrøms data-buck’ må stoppe et sted, og i dette tilfælde er det præcis, hvor den stopper – med et menneskeligt cerebellum, der laver en slags subjektiv distinktion for at kodificere data til et kunstigt system.
Den RAG-Handel
Indtil for nylig blev fejl, der opstod fra under-kuraterede datasæt-mærkninger, måske set som acceptabelt bifald i sammenhængen med de ufuldkomne, men stadig markedsgyldige resultater, der blev opnået fra generative AI-systemer.
Sandt enough, kun i år konkluderede en studie fra Singapore konkluderede, at hallucinationer – dvs. tilfældene, hvor AI-systemer opfinder ting, der undergraver vores intentioner – er uundgåelige og forbundet med den konceptuelle arkitektur af sådanne systemer.
For at imødegå dette bliver RAG-baserede agenter – som kan ‘verificere’ fakta gennem internetsøgninger – populære i forskning og anvendte kommercielle løsninger. Men de tilføjer til ressourceomkostningerne og til latensen i forespørgsler; desuden kan ny information, der anvendes på en trænet model, ikke konkurrere med de mere intrikate og dybt forbundne forbindelser, der kendetegner de native lag i en trænet model.
Det ville derfor være bedre, hvis mærkningsdata, der underretter disse modeller, var væsentligt mindre fejlbehæftet fra starten, selv om det ikke kan være perfekt (ikke mindst fordi denne aktivitet trænger ind i området for menneskelig subjektivitet).
RePOPE
En ny artikel fra Tyskland fremhæver de problemer, der opstår ved at afhænge af ældre, bredt anvendte datasæt, med fokus på nøjagtigheden og pålideligheden af deres billedbeskrivelser. Forskerne konkluderer, at mærkefejl i benchmarks kan skjule eller misrepræsentere hallucination i vision-sprog-modeller.

Fra den nye artikel, nogle eksempler, hvor de originale beskrivelser ikke korrekt identificerede objekter i MSCOCO-datasættet af billeder. Forskerne manuelle revision af POPE-benchmark-datasættet adresserer disse mangler, og demonstrerer omkostningerne ved at spare penge på mærkning kuratering. Source: https://arxiv.org/pdf/2504.15707
Forestil dig, at en model vises et billede af en gade scene og bedt om, hvorvidt der er en cykel i den. Modellen svarer ja. Hvis benchmark-datasættet siger, at der ikke er en cykel, markeres modellen som forkert. Men hvis en cykel er tydeligt synlig på billedet og blev blot overset under mærkning, så var modellens svar korrekt, og benchmarket har fejlet. Fejl som disse kan akkumuleres på tværs af et datasæt, og give en forvrænget billed af, hvilke modeller er nøjagtige og hvilke er tilbøjelige til hallucination.
Derfor, når forkerte eller tvetydige mærkninger behandles som grundsandhed, kan modellerne synes at hallucinere, når de er korrekte, eller også synes nøjagtige, når de ikke er, og forvrænge både målingen af hallucination og rangeringen af modelpræstation, og gøre det sværere at diagnosticere eller adressere problemet med sikkerhed.
Den nye artikel genbesøger en bredt anvendt benchmark kaldet Polling-baseret Object Probing Evaluation (POPE), som tester, om vision-sprog-modeller kan korrekt sige, hvad der er eller ikke er i et billede.
POPE er baseret på mærkninger fra den indflydelsesrige Microsoft COCO: Common Objects in Context (MSCOCO)-datasæt, en samling af mærkede billeder, der længe har været behandlet som tilbydende en god niveau af mærkningsnøjagtighed.
POPE evaluerer objekt-hallucination i store vision-sprog-modeller ved at omformulere problemet som en binær klassifikationsopgave. I stedet for at parse genererede beskrivelser stiller systemet simple ja/nei-spørgsmål til modellen om, hvorvidt bestemte objekter er til stede i et billede, ved hjælp af skabeloner som ‘Er der en <objekt> i billedet?’.

Eksempler på objekt-hallucination i vision-sprog-modeller. Fedtede mærkninger indikerer objekter, der er markeret som til stede i de originale mærkninger, mens røde mærkninger viser objekter, der er hallucineret af modellerne. Det venstre eksempel reflekterer en traditionel instruktionsbaseret evaluering, mens de tre eksempler til højre er trukket fra forskellige POPE-benchmark-variationer. Source: https://aclanthology.org/2023.emnlp-main.20.pdf
Grundsandhedsobjekter (svar: Ja) er parret med samplet ikke-eksisterende objekter (svar: Nej), valgt gennem tilfældig, hyppig (populær) eller co-occurrence-baseret (adversarial) strategier. Denne opsætning tillader en mere stabil, prompt-insensitiv evaluering af hallucination uden at afhænge af komplekse regelbaserede beskrivelsesanalyser.
Forfatterne til den nye artikel – titlen RePOPE: Impact of Annotation Errors on the POPE Benchmark – udfordrer den formodede nøjagtighed af POPE ved at genkontrollere mærkningerne på benchmarkets billeder (dvs. MSCOCO) – og finder, at et overraskende antal er forkerte eller uklare.

Eksempler fra 2014 MSCOCO-datasættet. Source: https://arxiv.org/pdf/1405.0312
Disse fejl ændrer måden, modeller er rangeret, med nogle, der oprindeligt havde en god præstation, faldt bagud, når de blev vurderet mod korrekte mærkninger.
I tests vurderede forfatterne en række åbne-vægt vision-sprog-modeller på både den originale POPE-benchmark og deres genmærkede RePOPE-version.
Ifølge artiklen førte de korrekte mærkninger til bemærkelsesværdige ændringer i modelrangeringer, især i F1-scoringer, med flere højtpræsterende modeller under POPE, der faldt i position under RePOPE.
Forfatterne hævder, at denne ændring illustrerer, i hvilken udstrækning mærkefejl kan skjule den virkelige hallucinationsadfærd hos modellerne, og de præsenterer RePOPE som et mere pålideligt værktøj til vurdering af hallucinationsvulnerabilitet.

I et andet eksempel fra den nye artikel ser vi, hvordan de originale POPE-beskrivelser ikke kan skelne mellem subtile objekter, såsom en person, der sidder ved siden af tramkabinen i det højre billede, eller stolen, der er skjult af tennis-spilleren i det andet billede fra venstre.
Metode og Tests
Forskerne genmærkede alle mærkninger i det originale MSCOCO-datasæt, med to menneskelige mærkere tildelt til hver data-eksempel. Hvor tvivl om kvaliteten af de originale mærkninger opstod (som i eksemplerne nedenfor), blev disse resultater sat til side fra testrunden.

Tvetydige tilfælde, hvor mærkningsinkonsistenser i POPE reflekterer uklare kategori-grænser. For eksempel en teddybjørn mærket som en bjørn, en motorcykel som en cykel eller lufthavnens køretøjer som biler. Disse tilfælde var ekskluderet fra RePOPE på grund af den subjektive natur af sådanne klassificeringer samt inkonsistenser i MSCOCO’s originale mærkninger.
Artiklen nævner:
‘De originale mærkere missede personer i baggrunden eller bag glas, tennis-spilleren skjuler ‘stolene’ i baggrunden og coleslawen indeholder kun en lille synlig stribe af en gulerod.
‘For nogle objekter er COCO-mærkningerne højst inkonsistente, sandsynligvis på grund af forskellige definitioner af disse objekter, der blev brugt af de originale mærkere. Klassificeringen af en ‘teddybjørn’ som en ‘bjørn’, en motorcykel som en motoriseret ‘cykel’ eller et lufthavnskøretøj som en ‘bil’ afhænger af specifikke definitioner, hvilket fører til inkonsistenser i POPE-grundsandheds-mærkninger. Derfor mærker vi de tilsvarende billed-spørgsmål-par som ‘tvetydige’.’

Resultater af genmærkning: de positive spørgsmål deles på tværs af alle tre POPE-variationer. Blandt dem, der var mærket ‘Ja’ i POPE, blev 9,3 procent fundet at være forkerte og 13,8 procent blev klassificeret som tvetydige. For ‘Nej’-spørgsmålene blev 1,7 procent forkert mærket og 4,3 procent var tvetydige.
Forfatterne vurderede en række åbne-vægt-modeller på POPE og på RePOPE, på tværs af diverse arkitekturer og modelstørrelser. Modellerne valgt omfattede nogle af de førende arkitekturer på OpenVLM-leaderboarden: InternVL2.5 (8B/26B/38B/78B og 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; og PaliGemma2 (3B/10B).

Initial resultater: den høje fejlrate i de originale positive mærkninger fører til et skarpt fald i sande positive på tværs af alle modeller. Falske positive varierer på tværs af undermængder, næsten fordoblet på den tilfældige undermængde, men forblev stort set uændret på den populære undermængde og viste en let nedgang på den adversarial undermængde. Genmærkningen havde en stor effekt på F1-baserede rangeringer. Modeller som Ovis2-4B og Ovis2-8B, der havde en god præstation på den populære og adversarial dele i POPE, steg også til tops på den tilfældige undermængde under RePOPE. Vær venlig at se kilde-PDF’en for bedre opløsning.
Resultatgraferne ovenfor illustrerer, hvordan antallet af sande positive og falske positive ændrer sig efter korrektion af mærkninger i benchmarket.
Sande positive faldt på tværs af alle modeller, hvilket viser, at de ofte blev krediteret for korrekte svar, når disse svar kun var korrekte under fejlbehæftede mærkninger, mens falske positive fulgte en mere varieret mønster.
På ‘random’-versionen af POPE næsten fordoblede falske positive for mange modeller, hvilket indikerer, at et betydeligt antal objekter, der blev flaget som hallucinationer, faktisk var til stede i billederne, men var blevet overset i de originale mærkninger. I dette tilfælde var mange formodede model-fejl i virkeligheden datasæt-mærkningsfejl.
For ‘adversarial’-versionen af POPE, hvor spørgsmål var baseret på objekter, der ofte co-occur, faldt falske positive. Dette skyldes sandsynligvis en højere chance for, at det påståede fraværende objekt rent faktisk var i billedet, men blev ulabelled.
Selv om disse ændringer påvirkede præcision og recall, forblev modelrangeringer relativt stabile for begge mål.
F1-scoren – POPE’s primære evaluering – var langt mere følsom over for mærkningskorrektionerne. På den tilfældige undermængde faldt modeller, der var nær toppen under de originale mærkninger, såsom InternVL2.5-8B og -26B, til bunden, når de blev vurderet med RePOPE. Andre, såsom Ovis2-4B og -8B, steg til tops.
En lignende mønster opstod i nøjagtighedsscorerne, selv om forfatterne bemærker, at disse nu kan være forvrængede, da den korrekte datasæt indeholder et ujævnt antal positive og negative eksempler.
Forfatterne argumenterer for, at den stærke indvirkning af mærkefejl på benchmark-resultater understreger behovet for højkvalitetsdata. For at støtte en mere pålidelig vurdering af objekt-hallucination har de frigivet de korrekte mærkninger på GitHub.
Men de bemærker, at denne genmærkning ikke fuldt ud adresserer benchmarkets mætning, da mange modeller stadig opnår sande positive og sande negative rater over 90%. De foreslår, at yderligere benchmarks, såsom DASH-B, som bruger en mere udfordrende samling af negative eksempler, bør bruges sammen med RePOPE.
Konklusion
Denne specifikke eksperiment var mulig på grund af den meget små skala af datasættet involveret. At bevise den samme hypotese på hyperskala-datasæt ville indebære at arbejde på meget begrænsede fragmenter af data; i højst varierede store datasæt kunne det vise sig at være nær umuligt at isolere statistisk repræsentative og semantisk kohærente grupper – potentielt forvrængende resultaterne.
Selv hvis det var muligt, hvilken løsning ville der så være under den nuværende stand-of-the-art? Argumentet bevæger sig tilbage uundgåeligt mod behovet for bedre og mere copious menneskelig mærkning.
I denne henseende findes ‘bedre’ og ‘mere copious’ som separate problemer i deres egen ret, da man kan opnå en større mængde mærkninger gennem race-to-the-bottom-økonomier såsom Amazon Mechanical Turk (AMT). Åbenbart fører denne potentielt udnyttende sub-økonomi ofte til dårlige resultater.
Alternativt kunne man uddelegere mærkningsopgaver til økonomiske regioner, hvor den samme udgift ville give en større mængde mærkninger. Men jo fjernere mærkeren er fra det ønskede brug tilfælde for modellen, som mærkningerne vil forme, desto mindre sandsynligt er det, at den resulterende model vil være i overensstemmelse med behov eller forventninger i mål-domænet.
Dette forbliver således en af de mest vedvarende og uløste udfordringer i økonomien for maskinlæringsudvikling.
Først publiceret onsdag, 23. april 2025












