Andersons vinkel

De ‘Rogue’ Data som Förorenar Generativ AI-prestanda

Publicerad 26 augusti 2025

Uppdaterad 18 maj 2026

Martin Anderson

En ny studie visar att många populära bildsamlingar som används för att träna AI-modeller är förorenade med testbilder eller nästan-duplikater, vilket tillåter modellerna att fusk genom att memorera svar istället för att lära sig. Läckaget är utbrett men vanligtvis oupptäckt, och tyst inflatar poängen och ger orättvisa fördelar till modeller som tränats på web-skala data.

När du tar en körkortstest, är du vanligtvis inte informerad i förväg om exakt vilka vägar som kommer att användas för testet. Om du visste (och du saknade integritet), kunde du “optimera” för testet genom att öva upprepade gånger på den vägen, istället för att utveckla bredare körkunskaper som kan hantera alla vägar på ett rimligt sätt.

I maskinlärningens utbildning är detta en rimlig analogi för en testdelning – en uppdelning av utbildningsdata mellan (vanligtvis) en 70% del för data som kommer att användas för att träna modellen, och de återstående 30% som används som “i fält” data.

Eftersom “i fält”-data aldrig har setts av modellen, kan det antas att modellen är effektiv och presterar bra om den fungerar bra på den data; om inte, kan modellen ha överanpassats på en välbalanserad uppsättning – eller så behöver data extra kurering och definition.

Antingen sätt, inte utvärderar modeller på deras utbildningsdata är hörnstenen i nuvarande metod i AI-forskning och utveckling.

Samma igen, tack

Enligt en ny forskningsartikel från Japan, har datorseende- och generativ AI-forskning inte på långt när matchat insatserna från LLM-forskare för att säkerställa att testdata inte förorenar utbildningsdata; i tester fann forskarna att varje hyperskala-vision-samling de studerade, inklusive de som driver några av de största nuvarande generativa AI-systemen, har till viss del tillåtit sin testdata att korsa över till sin utbildningsdata – vilket innebär att benchmark- och prestandarapporter för modeller som tränats på dessa delningar inte kommer att vara mer exakta än ett provresultat från någon som smugit in en crib i provsalen, och kommer inte att återspegla verklig prestanda på äkta ny data.

Exempel på dataförorening som forskarna fann, där dubblett- eller nästan-dubblett datapunkter finns i både utbildnings- och testdata. Source: https://arxiv.org/pdf/2508.17416

I bilden ovan, från den nya artikeln, ser vi exempel på antingen dubblett- eller nästan-dubblett datapunkter som finns i både kärnutbildningsdata och testdata för en mängd modeller – tillräckligt för att ogiltigförklara modellens prestanda på den data, och lätt inflatora dess allmänna poäng över hela linjen, vilket underlättar uppkomsten av en nivå av generalisering som modellen kanske inte faktiskt har uppnått.

För att göra saken mer komplicerad, verkar föroreningen uppstå över en mångfald av möjliga scenarier, inklusive ‘förträning‘, där vikterna från äldre modeller används för att “starta” en ny modell. Om den uppströms, äldre modellen har några av samma data som den nyare dataset som förtränas, kan korskontamination uppstå även om 70/30- eller 80/20-delningen är ren.

Kumulativ Effekt

Detta är nästan säkert att inträffa även i de senaste dataset: omfattningen av vision/språkdataset har vuxit enormt under de senaste fem åren, och tagit in inte bara den senaste bilddata på webben, utan också återinsamlat mycket av den data som fyllde de äldre, historiska dataseten.

Dessutom är automatiserade rutiner som är utformade för att söka och filtrera miljarder av bilder för dubbletter och nästan-dubbletter nu inför en sådan betungande uppgift att kureringen i sig – dess kostnad i termer av tid och pengar – måste nu beaktas inom ramen för budgetbegränsningar

Under tiden är bild duplicering en oundviklig följd av den typen av ad hoc web-sökning som ligger bakom massiva samlingar som Common Crawl, på grund av den vanliga praxisen att återpublicera och omkoda bilder, och applicera redigeringar som beskärningar, och till och med vändning (för att undvika upptäckt, när bilden kan ha använts utan tillstånd, till exempel).

Författarna observerar*:

‘Dataförorening är ett utbrett problem, som förekommer i de flesta visuella dataset. Förorening kan dölja modellens generaliseringsförmåga, vilket är särskilt problematiskt när man jämför modeller som tränats på olika dataset, vilket leder till orättvisa jämförelser.

‘Vi uppmanar dataset-designers att noggrant överväga implikationerna av dessa utvärderingar. För en rättvisare modellutvärdering, rekommenderar vi användning av dubblettdetektorer som tar hänsyn till både hård och mjuk förorening.

‘Idealt sett bör läckta bilder tas bort från utbildningsuppsättningen, och om det inte är möjligt, bör de åtminstone tas bort från testuppsättningen.’

Artikeln förklarar en mängd tester som forskarna genomförde på stora och populära dataset – var och en av dem visade en viss nivå av förorening.

Den nya artikeln heter Dataförorening i visuella dataset, och kommer från tre forskare vid Osaka universitet.

Metod

Artikelns författare definierar förorening i termer av tre dimensioner: modalitet, omfattning, och grad.

Modalitet skiljer på om endast bilder är förorenade eller om både bilder och etiketter är exponerade; omfattning identifierar om överlappningen sker inom samma dataset eller över olika dataset; och grad definierar om den dubblettade innehållet är exakt detsamma eller bara nästan-detsamma.

Med avseende på förorening, övervägdes två scenarier i arbetet: intra-dataset-förorening (där utvärderingsbilder återuppträder i utbildningsspliten av samma dataset), och inter-dataset-förorening (där utvärderingsbilder från ett dataset är närvarande i ett annat dataset som används för utbildning).

Med avseende på grad, definierades två nivåer: mjuk förorening (där bilder inte är identiska men visar mindre variationer), och hård förorening (där bilder är exakt desamma över utbildning och utvärdering).

Forskarna behandlade upptäckten av förorening i termer av bildåtervinning, med hjälp av bildkodare för att representera varje bild som en funktionell vektor. Frågesättet var utvärderingsdata, medan samlingen var utbildningsuppsättningen.

För mindre dataset, jämfördes varje frågevektor direkt med alla utbildningsvektorer med hjälp av kosinlikhet. För större dataset, byggdes ett Faiss-index för att möjliggöra snabbare, K-Nearest Neighbors (KNN) sökning.

Eftersom kodaren behöver fånga tillräckligt med visuell information för att upptäcka subtila likheter, men fortfarande vara effektiv i ansiktet av mycket stora datamängder, förlitade sig författarna på förberäknade CLIP-funktioner som gjorts tillgängliga av dataset-skapare, i fallet med LAION-samlingen som ligger till grund för Stable Diffusion, och senare projekt.

Författarna noterar att att tillåta CLIP att använda sin destillerade förståelse för dataset (istället för att fråga de faktiska filerna i skala) påskyndade processen avsevärt, och erbjöd förbättrad konsekvens över jämförelser.

Data och tester

CLIP-bildkodaren som användes i testerna för det nya arbetet var standard-CLIP ViT-B/32 ursprungligen använd för att sålla LAION. För att fastställa om olika bilder var relaterade till varandra, användes KNN under AutoFaiss.

Dataseten grupperades i tre typer: förträning-dataset – stora, web-skrapade samlingar som används för att träna generalistmodeller; utbildning-dataset – mindre, ofta annoterade samlingar, avsedda för direkt modellanpassning; och benchmark-dataset – manuellt annoterade, och använda uteslutande för utvärdering.

Analysen omfattade tjugo delningar över sju dataset: Microsoft COCO användes som både utbildnings- och utvärderingssätt, och inkorporerade träning, validering, test och oetiketterade delningar; Flickr30k tjänade uteslutande som benchmark; och Google Conceptual Captions (GCC) samlingen behandlades som en förträningssource, med dess valideringsdel också använd för utvärdering.

Dessutom användes ImageNet för både utbildning och benchmarking, medan LAION-400M-dataseten användes uteslutande för förträning.

OpenImages v4 bidrog med utbildnings- och benchmarkdata, och TextCaps tillhandahöll både utbildnings- och testdelar för utvärdering.

Exempel på bildannoteringar från Googles Open Images-dataset, som undersöktes i det nya arbetet. Source: https://arxiv.org/pdf/1811.00982

För att bedöma hur väl metoden kan upptäcka förorening när bilder har förändrats subtilt genom omstorlekning, beskärning eller liknande icke-semantiska transformationer, testades Flickr30k, där 5 000 bilder slumpmässigt valdes som frågor, och hela datasetet användes som referenssamlingen.

Varje frågebild förändrades före kodning (d.v.s. utsattes för en icke-semantisk modifiering som omstorlekning eller beskärning), och sedan matchades till den mest liknande artikeln i samlingen med hjälp av kosinlikhet; en match räknades endast om den ursprungliga bilden återfanns som det översta resultatet.

De tre kodarna som jämfördes var ResNet-152; DINOv2 ViT-B/14; och CLIP ViT-B/32.

Fyra typer av icke-semantiska bildtransformationer användes: geometrisk (vändningar och rotationer); beskärning (borttagning av 20, 50 eller 100 pixlar från varje kant); pixelisering (Gaussisk oskärpa, tillagd brus eller nedsamplning till 128 eller 256 pixlar); och färg (gråskala, inversion eller röd, grön eller blå överlagringar).

Från det tillhörande materialet, exempel på transformationer som applicerades på data – vanliga rutiner också i dataförberedelse.

Forskarna testade sedan för förorening i bildåtervinning:

Föroreningsupptäcktsnoggrannhet på 5 000 Flickr30k-frågebilder som utsattes för olika icke-semantiska transformationer.

Alla tre kodarna uppnådde perfekt prestanda på oförändrade bilder, och CLIP förblev tillförlitlig över beskärning, horisontella vändningar, brus och omstorlekning, och överträffade ResNet på pixelnivå och färgförändringar.

DINOv2 visade stark motståndskraft mot färgtransformationer (troligen på grund av sin självständiga design, menar författarna), men var märkbart svagare på geometriska redigeringar och beskärning – båda vanliga i dubblett-dataset.

Eftersom LAION redan innehåller CLIP-inbäddningar, och med tanke på dess konsekventa robusthet och hastighet, valdes CLIP som standardkodare för huvudanalysen.

Hård och Mjuk Förorening

Prestanda utvärderades över olika kosinlikhetströsklar för att skilja på exakta och nästan-dubblett-bilder (hård och mjuk förorening).

En tröskel på 0,98 valdes för att definiera hård förorening, vilket resulterade i inga falska positiva och perfekt upptäckt av identiska bilder.

För mjuk förorening valdes en tröskel på 0,95, vilket tillät fler nästan-dubbletter att återföras medan en nästan-noll falsk positiv frekvens upprätthölls; prioritet gavs till precision över återkallande, och resultaten var därför konservativt uppskattade:

Mottagar-operatör-karaktäristik-kurvor användes för att vägleda urvalet av hård och mjuk trösklar för föroreningsupptäckt. Hög AUC-poäng under både transformerade och oförändrade förhållanden visar att nästan-dubbletter kan pålitligt särskiljas från orelaterade bilder, även när minimala förändringar är närvarande.

Intra-Dataset Förorening

Intra-dataset-förorening beräknades genom att identifiera bildöverlappning mellan utbildnings- och utvärderingssplit inom samma dataset. Endast dataset med både benchmark- och utbildnings- eller förträningssplit var berättigade, vilket begränsade analysen till COCO, GCC, ImageNet, OpenImages och TextCaps.

För COCO jämfördes testuppsättningen med utbildningssättet, utvärderingssättet och oetiketterade underuppsättningar, och valideringssättet med utbildningssättet och oetiketterade underuppsättningar.

De högsta frekvenserna av intra-dataset-förorening observerades i ImageNet-test- och valideringssplit, med hård förorening som nådde upp till 1,58% och mjuk förorening strax under 2%. GCC och COCO följde, med COCO val2017 som visade en mjuk förorening på 3% och dess testdelar som sträckte sig mellan 1,35% och 1,38%. OpenImages visade låg hård förorening på 0,05%, men mjuk förorening översteg 1,3% i både test- och valideringssätt. TextCaps visade den lägsta totala föroreningen, på 0,69%, med ingen hård förorening upptäckt:

Intra-dataset-föroreningsfrekvenser, som visar den proportion av varje utvärderingssplit som överlappar med dess associerade utbildningsdata.

Med avseende på dessa resultat, förklarar författarna^†:

‘Dessa resultat visar att intra-dataset-förorening förekommer i alla de analyserade dataseten, antingen i sin hård eller mjuk grad.

‘Eftersom dataförorening kan kompromettera modellutvärdering och att dataset är specifikt utformade för detta ändamål, är intra-dataset-förorening en risk som av design inte bör existera.

‘Ändå har vi identifierat flera instanser i alla dataset.’

Inter-Dataset Förorening

För att mäta inter-dataset-förorening (där en modell tränas på ett dataset och utvärderas på ett annat), användes fyra dataset som källor för utbildningsdata: GCC-träning, ImageNet-träning, OpenImages-träning, och LAION.

De här matchades mot utvärderingsdata från COCO 2014-test- och valideringssplit, Flickr30K, TextCaps-test, OpenImages-test- och valideringssplit, och ImageNet-test- och valideringssplit.

CLIP ViT-B/32-inbäddningar extraherades för alla dataset utom LAION, som tillhandahåller sina förberäknade inbäddningar. Men eftersom dessa inbäddningar skiljer sig något från de som genereras med den officiella CLIP-implementeringen, skalades frågebilderna om enligt metoden som används i clip-retrieval-repositoriet för att säkerställa kompatibilitet.

Återvinning utfördes med hjälp av KNN-sökning, men LAIONs omfattning krävde partitionering i block om en miljon bilder, med varje block indexeras separat:

Inter-dataset-förorening mellan benchmark-dataset (kolumner) och förträning-dataset (rader). På vänster sida ser vi ‘hård’ förorening (identiska bilder), och på höger sida ‘mjuk’ förorening (nästan-dubbletter).

Korsdataset-förorening observerades över alla benchmark-dataset, med varierande grad av allvar. LAION visade de högsta frekvenserna av hård förorening (identiska bilder), särskilt för OpenImages och TextCaps-testdata, som båda översteg 3%. OpenImages bidrog också med en mindre mängd hård förorening till COCO.

Även om det var mindre allvarligt, innehöll ImageNet fortfarande hårda dubbletter från varje benchmark som undersöktes; och GCC visade den lägsta totala hård föroreningen, under 1%.

Mjuk förorening (nästan-dubbletter) var mer utbredd: LAION producerade de högsta frekvenserna, med upp till 7,9% överlapp för vissa benchmark-dataset; OpenImages och TextCaps var de mest påverkade benchmark-dataseten totalt; och Flickr30k visade den minsta föroreningen.

Även om sådana överlappningar kan utgöra endast en liten del av utvärderingssätt, noterar författarna att deras närvaro kan tillåta memorisering och kompromettera testvaliditet:

Exempel på läckta bilder. På vänster sida ser vi fall av ‘hård’ förorening, där bilder är identiska inom ett dataset (överst) eller mellan dataset (nederst); på höger sida, fall av ‘mjuk’ förorening, där bilder är visuellt nästan-identiska.

Effekt på Nedströmsutvärdering

Artikeln undersöker sedan hur dataförorening påverkar nedströmsutvärdering (d.v.s. prestanda på standarduppgifter när förtränade modeller testas på benchmark-dataset som innehåller dubblett-utbildningsdata).

Tre uppgifter undersöktes: zero-shot-klassificering; övervakad klassificering; och text-bild-återvinning.

För varje uppgift utvärderades modellprestanda på ett benchmark-dataset för vilket läckta prover redan hade identifierats inom förträningsdata. Resultat jämfördes över fyra underuppsättningar: den fullständiga benchmarken; en underuppsättning av läckta prover; en underuppsättning av icke-läckta prover; och en slumpmässigt vald underuppsättning av samma storlek som den läckta gruppen (använd som kontroll).

Effekten av dataförorening på tre nedströmsuppgifter mättes med hjälp av benchmark-underuppsättningar som var kända för att innehålla läckta bilder. I zero-shot-klassificering uppnådde en modell som förtränats på LAION avsevärt högre noggrannhet på läckta bilder från ImageNet-utvärderingssättet, vilket bekräftar att exponering för även nästan-dubbletter under utbildning ger en mätbar fördel:

Zero-shot-klassificeringsnoggrannhet på ImageNet-valideringssättet över underuppsättningar med och utan förorening. Den sista kolumnen rapporterar noggrannhetsvinster i förhållande till den fullständiga uppsättningen, och markerade rader motsvarar läckta underuppsättningar.

För övervakad klassificering orsakade förorening i ImageNet en dramatisk prestandaförsämring – om inte det läckta provet hade samma etikett i båda split, i vilket fall modellen uppnådde nästan perfekt noggrannhet, vilket avslöjar en stark memorerings-effekt:

Övervakad klassificeringsnoggrannhet på ImageNet-valideringssättet för underuppsättningar, med och utan förorening. Vinstkolumner visar förändringen i förhållande till den fullständiga uppsättningen. Läckta underuppsättningar är markerade.

I text-bild-återvinning förbättrades prestanda återigen för läckta prover, med både hård och mjuk förorening som ledde till högre återkallande, och med läckta underuppsättningar som också gav mer konsekventa resultat över körningar:

Text-bild-återvinningsprestanda på Flickr30k över underuppsättningar med och utan förorening, med läckta underuppsättningar markerade.

Författarna drar följande slutsats:

‘Sammanfattningsvis visar vi konsekvent bevis för att förorening utgör ett allvarligt hot mot rättvis modellutvärdering i visuella dataset, och komprometterar en av de mest grundläggande maskinlärningsprinciperna: att inte utvärdera modeller på deras utbildningsdata.’

Slutsats

En chockerande aspekt av artikeln, även om det inte är någon nyhet, är redogörelsen för att använda CLIP för att erhålla inbäddningar för den enorma mängden bilddata i LAION, vilket representerar en skala som inte längre kan hanteras på något annat sätt än genom att hantera tokeniserad metadata istället för de mer detaljerade egenskaperna som kan undersökas när ett dataset är mer hanterbart.

Det är en skarp illustration av den utsträckning till vilken utbildningen av vision-språk-modeller har definitivt överskridit gränserna och förmågan till mänsklig övervakning, eller någon form av manuell kurering utöver representativa underprover.

* Kanske något förvirrande, definieras problemet med dubblett som ‘förorening’ i artikeln.

† Författarnas betoning.

Publicerad första gången tisdag, 26 augusti 2025