Andersonův úhel

Iluze „Stáhněte si více štítků!“ ve výzkumu AI

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Společný názor ve současné výzkumu strojového učení je, že samotné strojové učení lze použít ke zlepšení kvality anotací dat AI – zejména popisků obrázků určených pro použití ve vision-language modelech (VLMs). Tento směr myšlení je poháněn vysokými náklady na anotaci lidskou silou a další zátěží dohledu nad výkonem anotátorů.

Argumentovatelně se jedná o ekvivalent AI rané 2000s ‘stáhněte si více RAM’ meme, který parodoval názor, že hardwarová omezení lze řešit softwarovým řešením.

Je to také podceňovaný problém; zatímco nové modely AI přitahují širokou pozornost ve veřejném a komerčním sektoru, anotace často vypadají jako triviální detail ve strojových učeních, zastíněn vzrušením kolem širších rámců.

Ve skutečnosti je kapacita systémů strojového učení rozpoznávat a reprodukovat vzory (střední případ téměř všech systémů AI) závislá na kvalitě a konzistenci reálných anotací – štítků a frází, které jsou vytvořeny nebo rozhodnuty skutečnými lidmi, často činícími subjektivní úsudky o jednotlivých datech v neideálních podmínkách.

Nepochybně, systémy, které se snaží pozorovat a reprodukovat vzory v chování anotátorů (a tím nahradit lidské anotátory a umožnit přesné označení ve velkém měřítku) nemohou doufat, že budou fungovat dobře na datech neobsažených v příkladech pocházejících z lidských pozorovatelů. Nic „podobného“ není úplně stejné, a ekvivalence mezi doménami zůstává problémovým úsilím v počítačovém vidění.

„Horní datový dolar“ musí někde skončit, a v tomto případě je to přesně tam, kde skončí – s lidským mozkem, který činí some subjektivní rozlišení, aby zakódoval data pro umělý systém.

Obchod s hadry

Až donedávna, nesprávnosti vyplývající z nedostatečně kurátorovaných anotací datasetů byly, možná, považovány za přijatelné vedlejší škody v kontextu nedokonalých, ale stále tržních výsledků získaných z generativních systémů AI.

Skutečně, teprve letos studie ze Singapuru dospěla k závěru, že halucinace – tj. příležitosti, kdy systémy AI vynalezly věci, které podkopávají naše záměry – jsou nevyhnutelné a spojené s konceptuální architekturou takových systémů.

Proti tomu, RAG-založené agenty – které mohou „ověřit“ fakta prostřednictvím internetových vyhledávání – se stávají populárními ve výzkumu a komerčních řešení. Nicméně, přidávají k nákladům na zdroje a k prodlevám v dotazech; navíc, nové informace aplikované na trénovaný model nemohou konkurovat více propleteným a hluboce propojeným spojením, které charakterizuje rodící se vrstvy v trénovaném modelu.

Bylo by proto lepší, kdyby anotační data, která informují tyto modely, byla významně méně vadná již na začátku, i když nemůže být dokonalá (nejen proto, že tato aktivita zasahuje do oblasti lidské subjektivity).

RePOPE

Nová studie z Německa zdůrazňuje problémy, které vznikají z důvěry v starší, široce používané datasety, se zaměřením na konkrétní přesnost a spolehlivost jejich popisků obrázků. Závěry výzkumníků naznačují, že chyby štítků v benchmarkách mohou maskovat nebo špatně představovat halucinaci ve vision-language modelech.

Z nové studie, některé příklady, kde původní popisky selhaly při správném identifikování objektů v datasetu MSCOCO obrázků. Ruční revize výzkumníků benchmark datasetu POPE řeší tyto nedostatky, demonstruje náklady na šetření při kurátorování anotací. Source: https://arxiv.org/pdf/2504.15707

Představte si model, který je ukázán obrázek uliční scény a požádán, zda je v něm kolo. Model odpoví ano. Pokud dataset říká, že tam kolo není, model je označen špatně. Ale pokud je kolo zřetelně viditelné v obrázku a bylo prostě přehlédnuto během anotace, pak odpověď modelu byla správná, a benchmark selhal. Chyby jako tyto mohou se hromadit napříč datasetem, poskytují zkreslený obraz toho, které modely jsou přesné a které jsou náchylné k halucinaci.

Takže, když nesprávné nebo nejednoznačné anotace jsou považovány za pravdu, modely mohou vypadat, že halucinují, když jsou správné, nebo naopak vypadat přesné, když nejsou, zkreslují obě měření halucinace a hodnocení modelu, a činí obtížnější diagnostikovat nebo řešit problém s jistotou.

Nová studie reviduje široce používaný benchmark nazvaný Polling-based Object Probing Evaluation (POPE), který testuje, zda vision-language modely mohou správně říci, co je nebo není v obrázku.

POPE je založen na štítcích z vlivného Microsoft COCO: Common Objects in Context (MSCOCO) datasetu, kolekce anotovaných obrázků, které byly dlouho považovány za nabízející dobrou úroveň anotační přesnosti.

POPE hodnotí halucinaci objektů ve velkých vision-language modelech reformulací problému jako binární klasifikační úloha. Místo analýzy generovaných popisků systém klade modelu jednoduché ano/ne otázky o tom, zda konkrétní objekty jsou přítomny v obrázku, pomocí šablon, jako je ‘Je v obrázku <objekt>?’.

Příklady halucinace objektů ve vision-language modelech. Tučné štítky označují objekty označené jako přítomné v původních anotacích, zatímco červené štítky ukazují objekty halucinované modely. Levý příklad odráží tradiční instrukční hodnocení, zatímco tři příklady na pravé straně jsou vytaženy z různých variant benchmarku POPE. Source: https://aclanthology.org/2023.emnlp-main.20.pdf

Pravdivé objekty (odpověď: ano) jsou spárovány se vzorkovanými neexistujícími objekty (odpověď: ne), vybranými prostřednictvím náhodných, častých (populárních) nebo strategií založených na koexistenci (adversativních). Tento setup umožňuje stabilnější, prompt-insenzitivní hodnocení halucinace bez závislosti na komplexní pravidlové analýze popisků.

Autoři nové studie – nazvané RePOPE: Dopad chyb anotací na benchmark POPE – zpochybňují předpokládanou přesnost POPE revidováním štítků na obrázcích benchmarku (tj. MSCOCO) – a nalezením překvapivého počtu chybných nebo nejednoznačných.

Příklady z datasetu MSCOCO z roku 2014. Source: https://arxiv.org/pdf/1405.0312

Tyto chyby mění způsob, jakým jsou modely hodnoceny, přičemž některé modely, které původně fungovaly dobře, klesají, když jsou hodnoceny proti opraveným štítkům.

Ve testech autoři hodnotili řadu otevřených modelů na původním benchmarku POPE a na jejich přeoznačeném RePOPE verzi.

Podle studie vedly opravené anotace k pozoruhodným změnám v hodnocení modelů, zejména ve F1 skóre, přičemž několik high-performing modelů pod POPE kleslo v pozici pod RePOPE.

Autoři tvrdí, že tato změna ilustruje rozsah, v jakém chyby anotací mohou zakrýt skutečné halucinační chování modelů, a prezentují RePOPE jako spolehlivější nástroj pro hodnocení zranitelnosti halucinace.

V dalším příkladu z nové studie vidíme, jak původní popisky POPE selhaly při rozlišení jemných objektů, jako je osoba sedící vedle kabiny tramvaje na pravém obrázku, nebo židle zakrytá tenisovým hráčem na druhém obrázku zleva.

Metoda a testy

Výzkumníci přeoznačili všechny anotace v původním datasetu MSCOCO, přičemž dva lidské anotátory byli přiřazeni ke každé datové instanci. Kde vznikla nejednoznačnost ohledně kvality původních štítků (jako v příkladech níže), tyto výsledky byly vyřazeny z testovacího kola.

Nejednoznačné případy, kde konzistence štítků v POPE odráží nejednoznačné hranice kategorií. Například, medvídek označený jako medvěd, motocykl jako kolo nebo letištní vozidla jako auta. Tyto případy jsou vyloučeny z RePOPE kvůli subjektivní povaze takových klasifikací, stejně jako kvůli nekonzistencím v původních štítcích MSCOCO.

Studie uvádí:

‘Původní anotátory přehlédli osoby na pozadí nebo za sklem, tenisový hráč zakrývá „židle“ na pozadí a salát obsahuje pouze malou viditelnou část mrkve.

‘Pro některé objekty jsou anotace COCO vysoce nekonzistentní, pravděpodobně kvůli odlišným definicím těchto objektů použitým původními anotátory. Klasifikace „medvídka“ jako „medvěda“, motocyklu jako motorizovaného „kola“ nebo letištního vozidla jako „auta“ závisí na konkrétních definicích, což vede k nekonzistencím v anotacích POPE. Proto jsme označili odpovídající image-otázku jako „nejednoznačnou“.’

Výsledky re-annotace: pozitivní otázky jsou sdíleny napříč všemi třemi variantami POPE. Mezi těmi, které byly označeny jako „ano“ v POPE, 9,3 procenta byly shledány jako nesprávné a 13,8 procenta bylo klasifikováno jako nejednoznačné. Pro „ne“ otázky 1,7 procenta bylo chybně označeno a 4,3 procenta bylo nejednoznačné.

Autoři hodnotili řadu otevřených modelů na POPE a na RePOPE, napříč různými architekturami a velikostmi modelů. Mezi hodnocené modely patřily některé z vedoucích architektur na OpenVLM leaderboard: InternVL2.5 (8B/26B/38B/78B a 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; a PaliGemma2 (3B/10B).

Počáteční výsledky: vysoká chybovost v původních pozitivních štítcích vede k prudkému poklesu skutečných pozitivů napříč všemi modely. Falešné pozitivy se liší napříč podmnožinami, téměř zdvojnásobují se na náhodné podmnožině, ale zůstávají téměř nezměněné na populární podmnožině a ukazují mírný pokles na adversativní podmnožině. Přeožnačení má významný vliv na hodnocení založená na F1. Modely jako Ovis2-4B a Ovis2-8B, které fungovaly dobře na populárních a adversativních rozdělech v POPE, také stoupají na vrchol na náhodné podmnožině pod RePOPE.. Prosím, odkážete se na zdroj PDF pro lepší rozlišení.

Grafy výsledků výše ilustrují, jak se mění počet skutečných pozitivů a falešných pozitivů po opravě štítků v benchmarku.

Skutečné pozitivy poklesly napříč všemi modely, ukazujíce, že byly často kredity za správné odpovědi, když ty odpovědi byly správné pouze pod vadnými štítky, zatímco falešné pozitivy následovaly více variabilní vzorec.

Na „náhodné“ verzi POPE falešné pozitivy téměř dvojnásobily pro mnoho modelů, ukazujíce, že významný počet objektů označených jako halucinace byl ve skutečnosti přítomen v obrazech, ale byl přehlédnut v původních anotacích. V tomto případě mnoho údajných chyb modelu byly ve skutečnosti chyby anotace datasetu.

Pro „adversativní“ verzi POPE, kde otázky byly založeny na objektech, které se často vyskytují společně, falešné pozitivy poklesly. To pravděpodobně odráží vyšší šanci, že údajně chybějící objekt skutečně byl v obraze, ale byl neoznačen.

Ačkoli tyto posuny ovlivnily přesnost a recall, hodnocení modelů zůstalo relativně stabilní pro obě metriky.

Skóre F1 – hlavní měřítko hodnocení POPE – bylo mnohem citlivější na opravy štítků. Na náhodné podmnožině modely, které se umístily gần vrcholu pod původními štítky, jako InternVL2.5-8B a -26B, klesly na dno, když byly hodnoceny s RePOPE. Jiné, jako Ovis2-4B a -8B, stoupily na vrchol.

Podobný vzorec se objevil ve skórech přesnosti, ačkoli autoři poznamenávají, že tyto mohou být nyní zkreslené, protože opravený dataset obsahuje nerovnoměrný počet pozitivních a negativních příkladů.

Autoři argumentují, že silný dopad chyb anotací na výsledky benchmarku zdůrazňuje potřebu kvalitních dat. Pro podporu spolehlivějšího hodnocení halucinace objektů zpřístupnili opravené štítky na GitHub.

Nicméně, poznamenávají, že toto přeoznačení neřeší plně nasycení benchmarku, protože mnoho modelů stále dosahuje skutečných pozitivních a negativních sazeb nad 90 %. Navrhují, že další benchmarky, jako DASH-B, které používají více náročnou sadu negativních příkladů, by měly být použity společně s RePOPE.

Závěr

Tento konkrétní experiment byl možný díky velmi malé velikosti datasetu zapojeného. Prokázání stejné hypotézy na hyperscale datasetech by vyžadovalo práci na velmi omezených fragmentech dat; v vysoce rozmanitých velkých datasetech by mohlo být téměř nemožné izolovat statisticky reprezentativní a sémanticky koherentní skupiny – potenciálně zkreslující výsledky.

I kdyby to bylo možné, jaký by byl lék v současném stavu umění? Argument se vrací nevyhnutelně k potřebě lepší a hojnější lidské anotace.

V tomto ohledu „lepší“ a „hojnější“ existují jako samostatné problémy ve svém vlastním právu, protože lze získat větší objem anotací prostřednictvím ekonomiky „závodů k dnu“, jako je Amazon Mechanical Turk (AMT). Zjevně, tato potenciálně exploitační sub-ekonomika často vede k horším výsledkům.

Alternativně, lze vyčlenit úkoly anotace do ekonomických regionů, kde by stejný výdaj vedl k většímu množství anotací. Nicméně, čím dále je anotátor od zamýšleného použití modelu, jehož štítky budou tvarovat, tím méně je pravděpodobné, že výsledný model bude odpovídat potřebám nebo očekáváním cílové domény.

Toto proto zůstává jednou z nejtrvalejších a nevyřešených výzev v ekonomice vývoje strojového učení.

Poprvé publikováno ve středu, 23. dubna 2025

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Iluze „Stáhněte si více štítků!“ ve výzkumu AI

Obchod s hadry

RePOPE

Metoda a testy

Závěr

You may like