Connect with us

Andersons hoek

De ‘Download More Labels!’-Illusie in AI-Onderzoek

mm
ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Een veel voorkomende opvatting in het huidige machine learning-onderzoek is dat machine learning zelf kan worden gebruikt om de kwaliteit van AI-datasetannotaties te verbeteren – met name beeldbijschriften die zijn bedoeld voor gebruik in vision-language-modellen (VLM’s). Deze manier van denken wordt gedreven door de hoge kosten van menselijke annotatie en de extra last van toezicht op de prestaties van annotators.

Betwistbaar is dit het AI-equivalent van de vroege 2000’s ‘download meer RAM’-meme, die de notie satireerde dat een hardwarebeperking kon worden opgelost met een software-gebaseerde fix.

Het is ook een ondergewaardeerd probleem; terwijl nieuwe AI-modellen breed aandacht trekken in zowel het publieke als het commerciële domein, lijkt annotatie vaak een triviaal detail in machine learning-pijplijnen, overschaduwd door de opwinding rondom bredere kaders.

In werkelijkheid is de capaciteit van machine learning-systemen om patronen te herkennen en te reproduceren (de centrale use case van bijna alle AI-systemen) afhankelijk van de kwaliteit en consistentie van echte wereldannotaties – labels en frases die zijn gemaakt of beoordeeld door echte mensen, vaak subjectieve oordelen vellend over individuele datapunten in niet-ideale omstandigheden.

Onvermijdelijk kunnen systemen die proberen om patronen in annotatorgedrag te observeren en te reproduceren (en zo menselijke annotators te vervangen en nauwkeurige labeling op grote schaal te faciliteren) niet hopen om goed te presteren op data niet vervat in de voorbeelden genomen van menselijke observatoren. Niets ‘soortgelijks’ is helemaal hetzelfde, en cross-domein-equivalentie blijft een probleematische onderneming in computerzicht.

De ‘upstream data-buck’ moet ergens stoppen, en in dit geval is dat precies waar het stopt – met een menselijke kleine hersenen die een soort subjectief onderscheid maken om data te codificeren voor een kunstmatig systeem.

De RAG-Handel

Tot voor kort werden de onnauwkeurigheden die voortkwamen uit onder-gecurateerde datasetannotaties, misschien, gezien als aanvaardbare collaterale schade in de context van de onvolmaakte maar nog steeds marktbaar resultaten die werden behaald met generatieve AI-systemen.

In werkelijkheid concludeerde een studie uit Singapore dit jaar dat hallucinaties – d.w.z. de gelegenheden waarop AI-systemen dingen verzinnen die onze bedoelingen ondermijnen – onvermijdelijk zijn en inherent zijn aan de conceptuele architectuur van dergelijke systemen.

Om dit te counteren, worden RAG-gebaseerde agenten – die feiten kunnen ‘verifiëren’ via internetzoekopdrachten – populair in onderzoek en toegepaste commerciële oplossingen. Echter, ze verhogen de resourcekosten en de latentie in queries; bovendien kan nieuwe informatie die wordt toegepast op een getraind model niet concurreren met de meer ingewikkelde en diep verweven connecties die de native lagen in een getraind model kenmerken.

Het zou daarom beter zijn als de annotatiegegevens die deze modellen informeren aanzienlijk minder gebrekkig waren in de eerste plaats, zelfs als ze niet perfect kunnen zijn (niet in de laatste plaats omdat deze activiteit de grenzen van menselijke subjectiviteit overschrijdt).

RePOPE

Een nieuw artikel uit Duitsland benadrukt de problemen die ontstaan door te vertrouwen op oudere, breed gebruikte datasets, met name de nauwkeurigheid en betrouwbaarheid van hun beeldbijschriften. De bevindingen van de onderzoekers suggereren dat labelfouten in benchmarks hallucinaties in vision-language-modellen kunnen maskeren of verkeerd voorstellen.

Uit het nieuwe artikel, enkele voorbeelden waarin de oorspronkelijke bijschriften niet in staat waren om objecten correct te identificeren in de MSCOCO-dataset van beelden. De handmatige revisie van de POPE-benchmarkdataset door de onderzoekers adresseert deze tekortkomingen, en demonstreert de kosten van het besparen van geld op annotatiecuratie. Bron: https://arxiv.org/pdf/2504.15707

Uit het nieuwe artikel, enkele voorbeelden waarin de oorspronkelijke bijschriften niet in staat waren om objecten correct te identificeren in de MSCOCO-dataset van beelden. De handmatige revisie van de POPE-benchmarkdataset door de onderzoekers adresseert deze tekortkomingen, en demonstreert de kosten van het besparen van geld op annotatiecuratie. Bron: https://arxiv.org/pdf/2504.15707

Stel je voor dat een model een beeld van een straatbeeld wordt getoond en wordt gevraagd of er een fiets in zit. Het model antwoordt ja. Als de benchmarkdataset zegt dat er geen fiets is, wordt het model als fout gemarkeerd. Maar als een fiets duidelijk zichtbaar is in het beeld en eenvoudigweg werd gemist tijdens annotatie, dan was het antwoord van het model correct, en heeft de benchmark gefaald. Fouten zoals deze kunnen zich ophopen over een dataset, waardoor een vertekend beeld ontstaat van welke modellen nauwkeurig zijn en welke hallucinaties vertonen.

Dus, wanneer onjuiste of dubbelzinnige annotaties als grondwaarheid worden behandeld, kunnen modellen hallucinaties lijken te vertonen wanneer ze correct zijn, of andersom, waardoor zowel de meting van hallucinaties als de rangschikking van modelprestaties wordt vertekend, en het moeilijker wordt om het probleem met zekerheid te diagnosticeren of aan te pakken.

Het nieuwe artikel herziet een breed gebruikte benchmark genaamd Polling-based Object Probing Evaluation (POPE), die test of vision-language-modellen correct kunnen zeggen wat er wel of niet in een beeld zit.

POPE is gebaseerd op labels uit de invloedrijke Microsoft COCO: Common Objects in Context (MSCOCO)-dataset, een collectie van geannoteerde beelden die lange tijd als een goed niveau van annotatie-accuraatheid werd behandeld.

POPE evalueert objecthallucinaties in grote vision-language-modellen door het probleem te herformuleren als een binaire classificatietaken. In plaats van gegenereerde bijschriften te parseren, stelt het systeem eenvoudige ja/nee-vragen aan het model over de aanwezigheid van specifieke objecten in een beeld, met behulp van sjablonen zoals ‘Is er een <object> in het beeld?’.

Voorbeelden van objecthallucinaties in vision-language-modellen. Vetgedrukte labels geven objecten aan die als aanwezig zijn gemarkeerd in de oorspronkelijke annotaties, terwijl rode labels objecten aangeven die door de modellen zijn gehallucineerd. Het linkervoorbeeld weerspiegelt een traditionele instructie-gebaseerde evaluatie, terwijl de drie voorbeelden rechts zijn afgeleid van verschillende POPE-benchmarkvarianten.. Bron: https://aclanthology.org/2023.emnlp-main.20.pdf

Voorbeelden van objecthallucinaties in vision-language-modellen. Vetgedrukte labels geven objecten aan die als aanwezig zijn gemarkeerd in de oorspronkelijke annotaties, terwijl rode labels objecten aangeven die door de modellen zijn gehallucineerd. Het linkervoorbeeld weerspiegelt een traditionele instructie-gebaseerde evaluatie, terwijl de drie voorbeelden rechts zijn afgeleid van verschillende POPE-benchmarkvarianten. Bron: https://aclanthology.org/2023.emnlp-main.20.pdf

Grondwaarheidsobjecten (antwoord: Ja) worden gepaard met bemonsterde niet-bestaande objecten (antwoord: Nee), gekozen via willekeurige, frequente (populaire), of co-occurrerende (adversarische) strategieën. Deze setup stelt een meer stabiele, prompt-insensitive evaluatie van hallucinaties mogelijk zonder te vertrouwen op complexe regel-gebaseerde bijschriftanalyse.

De auteurs van de nieuwe studie – getiteld RePOPE: Impact van annotatiefouten op de POPE-benchmark – betwisten de veronderstelde nauwkeurigheid van POPE door de labels op de beelden van de benchmark (d.w.z. MSCOCO) opnieuw te controleren – en ontdekken dat een verbazingwekkend aantal fout of onduidelijk zijn.

Voorbeelden uit de 2014 MSCOCO-dataset. Bron: https://arxiv.org/pdf/1405.0312

Voorbeelden uit de 2014 MSCOCO-dataset. Bron: https://arxiv.org/pdf/1405.0312

Deze fouten veranderen de manier waarop modellen worden gerangschikt, waarbij sommige die aanvankelijk goed presteerden, achterblijven wanneer ze worden beoordeeld tegenover gecorrigeerde labels.

In tests, hebben de auteurs een reeks open-weight vision-language-modellen geëvalueerd op zowel de oorspronkelijke POPE-benchmark als hun opnieuw gelabelde RePOPE-versie.

Volgens het artikel leidden de gecorrigeerde annotaties tot opmerkelijke veranderingen in modelrangschikkingen, met name in F1-scores, waarbij verschillende hoog presterende modellen onder POPE achterbleven onder RePOPE.

De auteurs beweren dat deze verschuiving de mate illustreert waarin annotatiefouten de werkelijke hallucinatiegedrag van modellen kunnen verhullen, en presenteren RePOPE als een betrouwbaarder instrument voor het evalueren van hallucinatiekwetsbaarheid.

In een ander voorbeeld uit het nieuwe artikel, zien we hoe de oorspronkelijke POPE-bijschriften niet in staat zijn om subtiele objecten te onderscheiden, zoals een persoon die naast de cabine van een tram zit in de rechtse foto, of de stoel die wordt afgedekt door de tennisspeler in de tweede foto van links.

In een ander voorbeeld uit het nieuwe artikel, zien we hoe de oorspronkelijke POPE-bijschriften niet in staat zijn om subtiele objecten te onderscheiden, zoals een persoon die naast de cabine van een tram zit in de rechtse foto, of de stoel die wordt afgedekt door de tennisspeler in de tweede foto van links.

Methode en Tests

De onderzoekers hebben alle annotaties in de oorspronkelijke MSCOCO-dataset opnieuw gelabeld, met twee menselijke labelers toegewezen aan elke gegevensinstantie. Waar twijfel bestond over de kwaliteit van de oorspronkelijke labels (zoals in de onderstaande voorbeelden), werden deze resultaten buiten de testronde gehouden.

Ambigue gevallen, waarbij inconsistenties in POPE-labels onduidelijke categoriegrenzen weerspiegelen. Bijvoorbeeld, een teddybeer gelabeld als een beer, een motorfiets als een fiets, of vliegtuigvoertuigen als auto's. Deze gevallen worden uit RePOPE gesloten vanwege de subjectieve aard van dergelijke classificaties, evenals de inconsistenties in de oorspronkelijke labels van MSCOCO.

Ambigue gevallen, waarbij inconsistenties in POPE-labels onduidelijke categoriegrenzen weerspiegelen. Bijvoorbeeld, een teddybeer gelabeld als een beer, een motorfiets als een fiets, of vliegtuigvoertuigen als auto’s. Deze gevallen werden uit RePOPE gesloten vanwege de subjectieve aard van dergelijke classificaties, evenals de inconsistenties in de oorspronkelijke labels van MSCOCO.

Het artikel vermeldt:

‘De oorspronkelijke annotators misten personen op de achtergrond of achter glas, de tennisspeler verhult de ‘stoelen’ op de achtergrond en de coleslaw bevat alleen een kleine zichtbare streep van een wortel.

‘Voor sommige objecten zijn de COCO-annotaties hoogst inconsistent, waarschijnlijk vanwege de verschillende definities van die objecten die door de oorspronkelijke annotators werden gebruikt. De classificatie van een ‘teddybeer’ als een ‘beer’, een motorfiets als een gemotoriseerde ‘fiets’, of een vliegtuigvoertuig als een ‘auto’ hangt af van specifieke definities, wat leidt tot inconsistenties in POPE-grondwaarheidsannotaties. Daarom annoteren we de overeenkomstige beeld-vraagparen als ‘ambigu’. ‘

Resultaten van de herannotatie: de positieve vragen zijn gedeeld over alle drie POPE-varianten. Onder degenen die als 'Ja' zijn gelabeld in POPE, werden 9,3 procent onjuist bevonden en 13,8 procent werden geclassificeerd als ambigu. Voor de 'Nee'-vragen werden 1,7 procent onjuist gelabeld en 4,3 procent werden ambigu.

Resultaten van de herannotatie: de positieve vragen zijn gedeeld over alle drie POPE-varianten. Onder degenen die als ‘Ja’ zijn gelabeld in POPE, werden 9,3 procent onjuist bevonden en 13,8 procent werden geclassificeerd als ambigu. Voor de ‘Nee’-vragen werden 1,7 procent onjuist gelabeld en 4,3 procent werden ambigu.

De auteurs hebben een reeks open-weight-modellen geëvalueerd op POPE en op RePOPE, over diverse architectuur en modelgroottes. De geselecteerde modellen omvatten enkele van de leidende architectuur op de OpenVLM-leaderboard: InternVL2.5 (8B/26B/38B/78B en 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; en PaliGemma2 (3B/10B).

Initiële resultaten: de hoge foutenratio in de oorspronkelijke positieve labels leidt tot een scherpe daling in ware positieven over alle modellen. Valse positieven variëren over subsets, bijna verdubbeld op de willekeurige subset, maar blijven grotendeels ongewijzigd op de populaire subset, en laten een lichte daling zien op de adversarische subset. De herannotatie heeft een groot effect op F1-gebaseerde rangschikkingen. Modellen zoals Ovis2-4B en Ovis2-8B, die goed presteerden op de populaire en adversarische splits in POPE, stijgen ook naar de top op de willekeurige subset onder RePOPE.. Ga naar de bron-PDF voor een betere resolutie.

Initiële resultaten: de hoge foutenratio in de oorspronkelijke positieve labels leidt tot een scherpe daling in ware positieven over alle modellen. Valse positieven variëren over subsets, bijna verdubbeld op de willekeurige subset, maar blijven grotendeels ongewijzigd op de populaire subset, en laten een lichte daling zien op de adversarische subset. De herannotatie heeft een groot effect op F1-gebaseerde rangschikkingen. Modellen zoals Ovis2-4B en Ovis2-8B, die goed presteerden op de populaire en adversarische splits in POPE, stijgen ook naar de top op de willekeurige subset onder RePOPE.. Ga naar de bron-PDF voor een betere resolutie.

De resultaten grafieken hierboven laten zien hoe het aantal ware positieven en valse positieven verandert na het corrigeren van de labels in de benchmark.

Ware positieven daalden over alle modellen, wat aangaf dat ze vaak credit kregen voor correcte antwoorden wanneer die antwoorden alleen correct waren onder gebrekkige labels, terwijl valse positieven een meer gevarieerd patroon volgden.

Op de ‘willekeurige’ versie van POPE, verdubbelde het aantal valse positieven voor veel modellen, wat aangaf dat een aanzienlijk aantal objecten die als hallucinaties werden gemarkeerd, eigenlijk aanwezig waren in de beelden maar werden gemist in de oorspronkelijke annotaties. In dit geval waren veel vermeende modelfouten in feite dataset-labelfouten.

Voor de ‘adversarische’ versie van POPE, waar vragen waren gebaseerd op objecten die frequent co-occurreren, daalde het aantal valse positieven. Dit weerspiegelt waarschijnlijk een hogere kans dat het vermeend afwezige object daadwerkelijk in het beeld was maar niet was gelabeld.

Hoewel deze verschuivingen de precisie en recall beïnvloedden, bleven de modelrangschikkingen relatief stabiel voor beide metrieken.

De F1-score – POPE’s hoofdevaluatiemaatstaf – was veel gevoeliger voor de labelcorrecties. Op de willekeurige subset, modellen die dicht bij de top stonden onder de oorspronkelijke labels, zoals InternVL2.5-8B en -26B, daalden naar de bodem wanneer ze werden gescoord met RePOPE. Andere, zoals Ovis2-4B en -8B, stegen naar de top.

Een soortgelijk patroon ontstond in de nauwkeurigheidsscores, hoewel de auteurs opmerken dat deze nu mogelijk vertekend zijn, omdat de gecorrigeerde dataset een oneven aantal positieve en negatieve voorbeelden bevat.

De auteurs betogen dat de sterke invloed van annotatiefouten op benchmarkresultaten de noodzaak van hoogwaardige gegevens onderstreept. Om een meer betrouwbaar evaluatie van objecthallucinaties te ondersteunen, hebben ze de gecorrigeerde labels op GitHub vrijgegeven.

Echter, ze merken op dat deze herannotatie de verzadiging van de benchmark niet volledig aanpakt, aangezien veel modellen nog steeds ware positieve en ware negatieve tarieven boven 90% behalen. Ze suggereren dat aanvullende benchmarks, zoals DASH-B, die een meer uitdagende set van negatieve voorbeelden gebruiken, naast RePOPE moeten worden gebruikt.

Conclusie

Dit specifieke experiment was mogelijk vanwege de zeer kleine schaal van de dataset die betrokken was. Het bewijzen van dezelfde hypothese op hyperschaal-datasets zou het werken met zeer beperkte fragmenten van de gegevens betekenen; in zeer diverse grote datasets zou het mogelijk onmogelijk zijn om statistisch representatieve en semantisch coherente groeperingen te isoleren – mogelijk het resultaat vertekend.

Zelfs als het mogelijk was, wat zou het remedie zijn onder de huidige stand van de techniek? Het argument keert terug onvermijdelijk naar de noodzaak van betere en meer overvloedige menselijke annotatie.

In dit opzicht bestaan ‘beter’ en ‘meer overvloedig’ als separate problemen in hun eigen recht, aangezien men een grotere hoeveelheid annotaties kan verkrijgen via race-to-the-bottom-economieën zoals Amazon Mechanical Turk (AMT). Het is duidelijk dat deze potentieel exploiterende sub-economie vaak leidt tot inferieure resultaten.

Alternatief kan men annotatietaken uitbesteden aan economische regio’s waar dezelfde uitgave een grotere hoeveelheid annotaties zou opleveren. Echter, hoe verder de annotator verwijderd is van het beoogde gebruik van het model waarvan de labels zullen worden gevormd, hoe minder waarschijnlijk het is dat het resulterende model zal overeenkomen met de behoeften of verwachtingen van het doelgebied.

Dit blijft daarom een van de meest persistente en onopgeloste uitdagingen in de economie van machine learning-ontwikkeling.

 

Publicatie voor het eerst op woensdag, 23 april 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.