Andersons vinkel

Den ‘Ladda ner fler etiketter!’-illusionen i AI-forskning

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

En vanlig uppfattning inom nuvarande maskinlärningsforskning är att maskinlärning i sig kan användas för att förbättra kvaliteten på AI-datasetts annoteringar – särskilt bildtexter som är avsedda för användning i vision-språkmodeller (VLM). Denna tankegång drivs av den höga kostnaden för mänsklig annotering, och den tillkommande bördan av att övervaka prestationen hos annotatorer.

Detta är i och för sig den AI-ekvivalenten av den tidiga 2000-talets ‘ladda ner mer RAM’-meme, som satiriserade föreställningen att en hårdvarubegränsning kunde lösas med en programbaserad lösning.

Det är också ett underbedömt problem; medan nya AI-modeller får stor uppmärksamhet i både offentliga och kommersiella sfärer, verkar annotering ofta vara en trivial detalj i maskinlärningspipelinen, överskuggad av spänningen kring bredare ramverk.

I själva verket är maskinlärningssystemens förmåga att känna igen och reproducera mönster (det centrala användningsfallet för nästan alla AI-system) beroende av kvaliteten och konsekvensen hos verkliga annoteringar – etiketter och fraser som skapas eller avgörs av verkliga människor, ofta med subjektiva bedömningar om enskilda datapunkter i icke-ideala omständigheter.

Oundvikligen kan system som syftar till att observera och reproducera mönster i annotatorbeteende (och därmed ersätta mänskliga annotatorer och underlätta exakt märkning i stor skala) inte hoppas på att fungera bra på data som inte ingår i exemplen från mänskliga observatörer. Ingenting ‘liknande’ är riktigt detsamma, och tvärdomän-ekvivalens förblir ett problematiskt företag inom datorseende.

Den ‘upstream data-buck’ måste sluta någonstans, och i det här fallet är det exakt där den slutar – med en mänsklig hjärna som gör någon form av subjektiv distinktion för att kodifiera data för ett konstgjort system.

Den raghandel

Tills nyligen sågs de fel som uppstod från underkuraterade datasett-annoteringar kanske som acceptabelt kollateralskada i sammanhanget med de ofullständiga men fortfarande marknadsbara resultaten från generativa AI-system.

Verkligen, bara i år drog en studie från Singapore slutsatsen att hallucinationer – d.v.s. tillfällena när AI-system uppfinner saker som undergräver våra avsikter – är oundvikliga och bundna med det konceptuella arkitekturen i sådana system.

För att motverka detta blir RAG-baserade agenter – som kan ‘verifiera’ fakta genom internet-sökningar – allt mer populära i forskning och tillämpade kommersiella lösningar. Men de lägger till resurskostnaden och fördröjningen i frågor; dessutom kan ny information som appliceras på en tränad modell inte konkurrera med de mer invecklade och djupt sammanflätade anslutningarna som kännetecknar de naturliga lagren i en tränad modell.

Det skulle därför vara bättre om annoteringsdata som informerar dessa modeller var betydligt mindre felaktig från början, även om den inte kan vara perfekt (inte minst för att denna aktivitet tränger in i området för mänsklig subjektivitet).

RePOPE

En ny artikel från Tyskland belyser de problem som uppstår från att förlita sig på äldre, allmänt använda dataset, med fokus på noggrannheten och tillförlitligheten hos deras bildtexter. Forskarnas resultat tyder på att etikettfel i benchmark kan dölja eller missrepresentera hallucination i vision-språkmodeller.

Från den nya artikeln, några exempel där de ursprungliga texterna inte lyckades korrekt identifiera objekt i MSCOCO-datasetet av bilder. Forskarnas manuella revision av POPE-benchmark-datasetet åtgärdar dessa brister, och visar kostnaden för att spara pengar på annoteringskurering. Källa: https://arxiv.org/pdf/2504.15707

Tänk er att en modell visas en bild av en gatuscen och tillfrågas om det finns en cykel i den. Modellen svarar ja. Om benchmark-datasetet säger att det inte finns någon cykel, markeras modellen som fel. Men om en cykel tydligt syns i bilden, och bara missades under annotering, då var modellens svar korrekt, och benchmarken har misslyckats. Fel som dessa kan ackumuleras över ett dataset, och ge en förvriden bild av vilka modeller som är precisa och vilka som är benägna till hallucination.

Således, när felaktiga eller tvetydiga annoteringar behandlas som grundfakta, kan modeller verka hallucinera när de är korrekta, eller också verka precisa när de inte är det, och förvränga både mätningen av hallucination och rankningen av modellprestanda, och göra det svårare att diagnostisera eller åtgärda problemet med säkerhet.

Den nya artikeln återbesöker en allmänt använd benchmark som kallas Polling-baserad Objekt Probing Evaluation (POPE), som testar om vision-språkmodeller kan korrekt säga vad som är eller inte är i en bild.

POPE baseras på etiketter från den inflytelserika Microsoft COCO: Common Objects in Context (MSCOCO)-datasetet, en samling annoterade bilder som länge har behandlats som om den erbjuder en god nivå av annoteringsnoggrannhet.

POPE utvärderar objekthallucination i stora vision-språkmodeller genom att omformulera problemet som en binär klassificeringsuppgift. Istället för att tolka genererade texter, ställer systemet enkla ja/nej-frågor till modellen om specifika objekt finns i en bild, med mallar som ‘Finns det en <objekt> i bilden?’.

Exempel på objekthallucination i vision-språkmodeller. Fetstilta etiketter indikerar objekt som markerats som närvarande i de ursprungliga annoteringarna, medan röda etiketter visar objekt som hallucineras av modellerna. Det vänstra exemplet reflekterar en traditionell instruktionsbaserad utvärdering, medan de tre exemplen på högersidan är hämtade från olika POPE-benchmark-varianter. Källa: https://aclanthology.org/2023.emnlp-main.20.pdf

Grundfakta-objekt (svar: Ja) är parade med sampade icke-existerande objekt (svar: Nej), valda genom slumpmässiga, frekventa (populära) eller samexisteringsbaserade (adversariala) strategier. Denna uppsättning tillåter en mer stabil, prompt-insensitiv utvärdering av hallucination utan att förlita sig på komplexa regelbaserade textanalys.

Författarna till den nya artikeln – med titeln RePOPE: Inverkan av annoteringsfel på POPE-benchmarken – utmanar den antagna noggrannheten hos POPE genom att kontrollera etiketterna på benchmarkens bilder (d.v.s. MSCOCO) – och finner att ett förvånansvärt stort antal är felaktiga eller oklara.

Exempel från 2014 års MSCOCO-dataset. Källa: https://arxiv.org/pdf/1405.0312

Dessa fel förändrar sättet modeller rankas, med vissa som initialt presterade bra faller bakom när de bedöms mot korrekturlagda etiketter.

I tester utvärderade författarna en rad öppenviktiga vision-språkmodeller på både den ursprungliga POPE-benchmarken och deras ometiketterade RePOPE-version.

Enligt artikeln ledde de korrekturlagda etiketterna till betydande förändringar i modellrankningar, särskilt i F1-poäng, med flera högpresterande modeller som föll i position under RePOPE.

Författarna hävdar att denna förändring illustrerar omfattningen av hur annoteringsfel kan dölja den faktiska hallucinationsbeteendet hos modeller, och de presenterar RePOPE som ett mer tillförlitligt verktyg för att bedöma hallucinationskänslighet.

I ett annat exempel från den nya artikeln ser vi hur de ursprungliga POPE-texterna inte lyckas urskilja subtila objekt, såsom en person som sitter bredvid hytten på en spårvagn i den högersta bilden, eller stolen som skymmas av tennis-spelaren i den andra bilden från vänster.

Metod och tester

Forskarna ometiketterade alla annoteringar i det ursprungliga MSCOCO-datasetet, med två mänskliga etiketterare tilldelade varje datainstans. Där oklarhet rådde om kvaliteten på de ursprungliga etiketterna (såsom i exemplen nedan), sattes dessa resultat åt sidan från testomgången.

Oklara fall, där etikett-konsistens i POPE reflekterar oklara kategorigränser. Till exempel en teddybjörn etiketterad som en björn, en motorcykel som en cykel, eller flygplatsfordon som bilar. Dessa fall utesluts från RePOPE på grund av den subjektiva naturen hos sådana klassificeringar, samt inkonsekvenserna i MSCOCO:s ursprungliga etiketter.

Artikeln förklarar:

‘De ursprungliga annotatorerna missade personer i bakgrunden eller bakom glas, tennis-spelaren skymmer ‘stolarna’ i bakgrunden och coleslaw innehåller bara en liten synlig rand av en morot.

‘För vissa objekt är COCO-annoteringarna mycket inkonsekventa, troligen på grund av skilda definitioner av dessa objekt som användes av de ursprungliga annotatorerna. Klassificeringen av en ‘teddybjörn’ som en ‘björn’, en motorcykel som en motoriserad ‘cykel’, eller ett flygplatsfordon som en ‘bil’ beror på specifika definitioner, vilket leder till inkonsekvenser i POPE-grundfakta-annoteringar. Därför annoterar vi de motsvarande bild-fråge-paren som ‘oklara’.’

Resultat av om-annoteringen: de positiva frågorna delas över alla tre POPE-varianter. Bland de som etiketterades ‘Ja’ i POPE, var 9,3 procent felaktiga och 13,8 procent klassificerades som oklara. För ‘Nej’-frågorna var 1,7 procent felaktigt etiketterade och 4,3 procent var oklara.

Författarna utvärderade en rad öppenviktiga modeller på POPE och på RePOPE, över olika arkitekturer och modellstorlekar. De modeller som valdes inkluderade några av de ledande arkitekturerna på OpenVLM-leaderboarden: InternVL2.5 (8B/26B/38B/78B och 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; och PaliGemma2 (3B/10B).

Initiala resultat: den höga feletiketten i de ursprungliga positiva etiketterna leder till en skarp minskning av sanna positiva över alla modeller. Falska positiva varierar över delmängder, nästan fördubblas på den slumpmässiga delmängden, men förblir i stort sett oförändrade på den populära delmängden, och visar en lätt minskning på den adversariala delmängden. Om-annoteringen har en stor effekt på F1-baserade rankningar. Modeller som Ovis2-4B och Ovis2-8B, som presterade bra på den populära och adversariala delmängden i POPE, stiger också till toppen på den slumpmässiga delmängden under RePOPE. Vänligen se käll-PDF för bättre upplösning.

Resultatgraferna ovan illustrerar hur antalet sanna positiva och falska positiva förändras efter korrigering av etiketterna i benchmarken.

Sanna positiva minskade över alla modeller, vilket visar att de ofta krediterades för korrekta svar när dessa svar bara var korrekta under felaktiga etiketter, medan falska positiva följde en mer varierad mönster.

På ‘random’-versionen av POPE nästan fördubblades falska positiva för många modeller, vilket indikerar att ett betydande antal objekt som flaggats som hallucinationer faktiskt fanns i bilderna men hade missats under annotering. I detta fall var många påstådda modellfel i själva verket dataset-annoteringsmisstag.

För ‘adversarial’-versionen av POPE, där frågorna baserades på objekt som ofta samexisterar, minskade falska positiva. Detta beror troligen på en högre chans att det påstått frånvarande objektet verkligen fanns i bilden men lämnades oetiketterat.

Även om dessa förändringar påverkade precision och återkallande, förblev modellrankningar relativt stabila för båda måtten.

F1-poängen – POPE:s huvudsakliga utvärderingsmått – var betydligt känsligare för etikett-korrigeringarna. På den slumpmässiga delmängden föll modeller som rankades nära toppen under de ursprungliga etiketterna, såsom InternVL2.5-8B och -26B, till botten när de bedömdes med RePOPE. Andra, som Ovis2-4B och -8B, steg till toppen.

Ett liknande mönster uppstod i noggrannhetspoängen, även om författarna noterar att dessa nu kan vara förvrängda, eftersom den korrekturlagda dataseten innehåller ett ojämnt antal positiva och negativa exempel.

Författarna hävdar att den starka inverkan av annoteringsfel på benchmark-resultat understryker behovet av högkvalitativa data. För att stödja en mer tillförlitlig utvärdering av objekthallucination har de släppt de korrekturlagda etiketterna på GitHub.

Men de noterar att denna om-annotering inte fullständigt åtgärdar benchmarkens mättnad, eftersom många modeller fortfarande uppnår sanna positiva och sanna negativa frekvenser över 90%. De föreslår att ytterligare benchmark, såsom DASH-B, som använder en mer utmanande uppsättning negativa exempel, bör användas tillsammans med RePOPE.

Slutsats

Denna specifika experiment var möjlig på grund av den mycket små skalan på datasetet som var inblandat. Att bevisa samma hypotes på hyperskale-dataset skulle innebära att arbeta med mycket begränsade fragment av datat; i högt varierande stora dataset kan det visa sig nästan omöjligt att isolera statistiskt representativa och semantiskt sammanhängande grupperingar – potentiellt förvridande resultaten.

Även om det vore möjligt, vad skulle då vara åtgärden under den nuvarande state-of-the-art? Argumentet flyttar tillbaka oundvikligen mot behovet av bättre och mer omfattande mänsklig annotering.

I detta avseende existerar ‘bättre’ och ‘mer omfattande’ som separata problem i sig, eftersom man kan erhålla en större mängd annoteringar genom race-to-the-bottom-ekonomier som Amazon Mechanical Turk (AMT). Tydligtvis leder denna potentiellt exploaterande sub-ekonomi ofta till undermåliga resultat.

Alternativt kunde man utkontraktera annoteringsuppgifter till ekonomiska regioner där samma utgift skulle ge en större mängd annoteringar. Men ju längre bort annotatören är från den avsedda användningen av modellen som deras etiketter kommer att forma, desto mindre sannolikt är det att den resulterande modellen kommer att motsvara behoven eller förväntningarna på målområdet.

Detta förblir därför en av de mest bestående och olösta utmaningarna i ekonomisk utveckling av maskinlärning.

Publicerad första gången onsdag, 23 april 2025