Spojte se s námi

Andersonův úhel

'Stáhnout další štítky!' Iluze ve výzkumu AI

mm
ChatGPT-4o: 'Stěna, na které jsou připínáčky na palce přilepeny stovky fotografií. Každá fotografie zobrazuje jiný druh objektu, jako je ovoce nebo zvířata nebo mosty nebo budovy nebo lidé atd. Ke každé fotografii jsou připojeny 2-3 žluté samolepicí poznámky. Jsme příliš daleko na to, abychom si přečetli cokoli napsaného na samolepicích lístcích, ale vidíme, že na zdi jsou desítky a desítky fotografií a na každé je několik přilepených lístečků.“

Běžný názor v současném výzkumu strojového učení je, že samotné strojové učení může být slouží ke zlepšení kvalita anotací datové sady AI – zejména popisky obrázků určené pro použití v modelech vizuálního jazyka (VLM). Tento směr myšlení je řízen vysoká cena lidské anotace a další zátěž dohlíží anotátorský výkon.

Pravděpodobně jde o ekvivalent umělé inteligence z počátku roku 2000 meme „stáhnout více RAM“, který satirizoval názor, že hardwarové omezení lze vyřešit softwarovou opravou.

Je to také podceňovaná otázka; zatímco nové modely umělé inteligence přitahují širokou pozornost ve veřejné i komerční sféře, anotace se v procesech strojového učení často jeví jako triviální detail, zastíněný nadšením kolem širších rámců.

Ve skutečnosti je schopnost systémů strojového učení rozpoznávat a reprodukovat vzorce (ústřední případ použití téměř všech systémů AI) závislý na kvalitě a konzistenci anotací v reálném světě – štítků a frází, které jsou vytvořeny nebo posuzovány skutečnými lidmi, kteří často dělají subjektivní soudy o jednotlivých datových bodech v neideální okolnosti.

Systémy, které se snaží pozorovat a reprodukovat vzorce v chování anotátorů (a tím nahrazují lidské anotátory a usnadňují přesné označování v měřítku), nevyhnutelně nemohou doufat, že budou s daty fungovat dobře. ne obsažených v příkladech převzatých od lidských pozorovatelů. Nic „podobného“ není úplně stejné a ekvivalence mezi doménami zůstává problematické pronásledování v počítačovém vidění.

„Protiproudový datový tok“ musí někde skončit a v tomto případě přesně tam končí – lidský mozeček provádí jakési subjektivní rozlišování, aby kodifikoval data pro umělý systém.

Obchod RAG

Až donedávna byly nepřesnosti vyplývající z nedostatečně upravených anotací datových souborů možná považovány za přijatelné vedlejší škody v kontextu nedokonalých, ale stále prodejných výsledků získaných z generativních systémů umělé inteligence.

Ostatně až letos studie ze Singapuru dospěla k závěru, že halucinace – tj. příležitosti, kdy systémy umělé inteligence vymýšlejí věci, které podkopávají naše záměry – jsou nevyhnutelné a jsou svázány s konceptuální architekturou takových systémů.

Abychom tomu čelili, Činidla na bázi RAG – které dokáží „ověřovat“ fakta prostřednictvím internetového vyhledávání – se stávají populárními ve výzkumu a aplikovaných komerčních řešeních. Zvyšují však náklady na zdroje a latenci v dotazech; nové informace aplikované na trénovaný model navíc nemohou konkurovat složitějším a hlouběji propojeným vazbám, které charakterizují nativní vrstvy v trénovaném modelu.

Bylo by tedy lepší, kdyby anotační data, která tyto modely informují, byla v první řadě výrazně méně chybná, i když nemohou být dokonalá (v neposlední řadě proto, že tato činnost zasahuje do sféry lidské subjektivity).

RePOPE

Nový článek z Německa upozorňuje na problémy, které vznikají při spoléhání se na starší, široce používané soubory dat, se zaměřením zejména na přesnost a spolehlivost jejich popisků obrázků. Zjištění výzkumníků naznačují, že chyby štítků v benchmarcích mohou maskovat nebo zkreslovat halucinace v modelech zrakového jazyka.

Některé příklady z nového článku, kdy původní popisky nedokázaly správně identifikovat objekty v datové sadě obrázků MSCOCO. Manuální revize referenčního datového souboru POPE, kterou provedli výzkumníci, řeší tyto nedostatky a prokazuje náklady na úsporu peněz na zpracování anotací. Zdroj: https://arxiv.org/pdf/2504.15707

Z nové práce vyplývá několik příkladů, kdy původní popisky správně neidentifikovaly objekty v datové sadě obrázků MSCOCO. Ruční revize datové sady POPE provedená výzkumníky tyto nedostatky řeší a demonstruje náklady na úsporu peněz za kuraci anotací. Zdroj: https://arxiv.org/pdf/2504.15707

Představte si, že se modelce ukáže obrázek pouliční scény a zeptá se, zda je v ní kolo. Modelka odpovídá ano. Pokud referenční datová sada říká, že neexistuje žádné kolo, model je označen špatně. Ale pokud je to kolo Jasně viditelný v obrázku a při anotaci prostě chyběl, pak byla odpověď modelu správná a srovnávací test selhal. Chyby, jako je tato, se mohou hromadit v souboru dat, což poskytuje zkreslený obraz o tom, které modely jsou přesné a které jsou náchylné k halucinacím.

Když jsou tedy nesprávné nebo nejednoznačné anotace považovány za základní pravdu, modely se mohou zdát jako halucinace, když jsou správné, nebo se mohou zdát přesné, když nejsou, což zkresluje jak měření halucinací, tak hodnocení výkonu modelu a ztěžuje diagnostiku nebo řešení problému s jistotou.

Nový dokument reviduje široce používaný benchmark nazvaný Vyhodnocení sondování objektů založené na dotazování (POPE), která testuje, zda modely vizí dokážou správně říci, co na obrázku je nebo není.

POPE je založen na nálepkách od vlivných Microsoft COCO: Běžné objekty v kontextu (MSCOCO) dataset, sbírka anotovaných obrázků, o kterých se dlouho zacházelo, že nabízejí dobrou úroveň přesnosti anotací.

POPE hodnotí objektové halucinace ve velkých modelech vizuálního jazyka tím, že problém přerámuje jako a binární klasifikační úloha. Spíše než analýzu generovaných titulků systém vypadá jednoduše Ano ne otázky modelu o tom, zda jsou na obrázku přítomny konkrétní objekty, pomocí šablon, jako je např 'Existuje nějaký na obrázku?.

Příklady objektových halucinací v modelech zrakového jazyka. Tučné štítky označují objekty označené jako přítomné v původních anotacích, zatímco červené štítky zobrazují objekty halucinované modely. Levý příklad odráží tradiční hodnocení založené na instrukcích, zatímco tři příklady napravo jsou čerpány z různých variant benchmarků POPE. Zdroj: https://aclanthology.org/2023.emnlp-main.20.pdf

Příklady objektových halucinací v modelech zrakového jazyka. Tučné štítky označují objekty označené jako přítomné v původních anotacích, zatímco červené štítky zobrazují objekty halucinované modely. Levý příklad odráží tradiční hodnocení založené na pokynech, zatímco tři příklady napravo jsou čerpány z různých variant benchmarků POPE. Zdroj: https://aclanthology.org/2023.emnlp-main.20.pdf

Objekty základní pravdy (odpověď: Ano) jsou spárovány s navzorkovanými neexistujícími objekty (odpověď: Ne), vybrané prostřednictvím náhodného, ​​častého (populární), nebo na základě společného výskytu (kontroverzní) strategie. Toto nastavení umožňuje stabilnější a necitlivé vyhodnocování halucinací bez spoléhání se na komplexní analýzu titulků na základě pravidel.

Autoři nový papír – s názvem RePOPE: Dopad anotačních chyb na benchmark POPE – zpochybnit předpokládanou přesnost POPE opětovnou kontrolou štítků na obrázcích benchmarku (tj. MSCOCO) – a zjištěním, že překvapivá čísla jsou nesprávná nebo nejasná.

Příklady z datové sady MSCOCO z roku 2014. Zdroj: https://arxiv.org/pdf/1405.0312

Příklady z datové sady MSCOCO z roku 2014. Zdroj: https://arxiv.org/pdf/1405.0312

Tyto chyby mění způsob hodnocení modelů, přičemž některé, které zpočátku fungovaly dobře, zaostávají, když jsou posuzovány podle opravených štítků.

V testech autoři hodnotili řadu modelů v jazyce vidění s otevřenou váhou jak na původním benchmarku POPE, tak na jejich přeznačených RePOPE verze.

Podle článku vedly opravené anotace k výrazným změnám v hodnocení modelů, zejména v F1 skóre, přičemž několik vysoce výkonných modelů v rámci POPE kleslo na pozici v rámci RePOPE.

Autoři tvrdí, že tento posun ilustruje, do jaké míry mohou anotační chyby zakrýt skutečné halucinační chování modelů, a představují RePOPE jako spolehlivější nástroj pro hodnocení zranitelnosti halucinací.

V dalším příkladu z nového listu vidíme, jak původní popisky POPE nedokážou rozeznat jemné předměty, jako je osoba sedící vedle kabiny tramvaje na fotografii úplně vpravo nebo židle zakrytá tenistou na druhé fotografii zleva.

V dalším příkladu z nového listu vidíme, jak původní popisky POPE nedokážou rozeznat jemné předměty, jako je osoba sedící vedle kabiny tramvaje na fotografii úplně vpravo nebo židle zakrytá tenistou na druhé fotografii zleva.

Metoda a testy

Výzkumníci znovu označili všechny anotace v původním datovém souboru MSCOCO se dvěma lidskými štítky přiřazenými ke každé datové instanci. Tam, kde vznikla nejednoznačnost ohledně kvality původních etiket (jako v příkladech níže), byly tyto výsledky z testovacího kola vyřazeny.

Nejednoznačné případy, kdy nesrovnalosti v označení v POPE odrážejí nejasné hranice kategorií. Například medvídek označený jako medvěd, motocykl jako jízdní kolo nebo letištní vozidla jako auta. Tyto případy jsou z RePOPE vyloučeny kvůli subjektivní povaze takových klasifikací a také kvůli nesrovnalostem v původních štítcích MSCOCO.

Nejasné případy, kdy nekonzistence v označování v POPE odrážejí nejasné hranice kategorií. Například plyšový medvídek označený jako medvěd, motocykl jako jízdní kolo nebo letištní vozidla jako auta. Tyto případy byly z RePOPE vyloučeny kvůli subjektivní povaze těchto klasifikací a také kvůli nekonzistencím v původních označeních MSCOCO.

Článek uvádí:

Původní anotátoři přehlédli osoby v pozadí nebo za sklem, tenista zakrýval „židle“ v pozadí a zelný salát obsahoval pouze malý viditelný proužek mrkve.

„U některých objektů jsou anotace COCO velmi nekonzistentní, pravděpodobně kvůli rozdílným definicím těchto objektů používaným původními anotátory. Klasifikace „plyšového medvídka“ jako „medvěda“, motocyklu jako motorizovaného „kola“ nebo letištního vozidla jako „auta“ závisí na konkrétních definicích, což vede k nekonzistencím v anotacích POPE. Proto odpovídající páry obrázek-otázka označujeme jako „nejednoznačné“.“

Výsledky re-anotace: pozitivní otázky jsou sdíleny ve všech třech variantách POPE. Mezi těmi, které byly v POPE označeny jako „Ano“, bylo 9.3 procenta shledáno nesprávnými a 13.8 procenta bylo klasifikováno jako nejednoznačné. U otázek „Ne“ bylo 1.7 procenta špatně označeno a 4.3 procenta bylo nejednoznačných.

Výsledky opětovné anotace: kladné otázky jsou společné pro všechny tři varianty POPE. Z otázek označených „Ano“ v POPE bylo 9.3 procenta shledáno nesprávnými a 13.8 procenta bylo klasifikováno jako nejednoznačné. U otázek „Ne“ bylo 1.7 procenta chybně označeno a 4.3 procenta bylo nejednoznačných.

Autoři hodnotili řadu modelů s otevřenou váhou na POPE a na RePOPE, napříč různými architekturami a velikostmi modelů. Vybrané modely zahrnovaly některé z předních architektur na OpenVLM žebříček: InternVL2.5 (8B/26B/38B/78B and 8B-MPO/26B-MPO);  LLaVA-NeXT; Vicuna; Mistral 7b; Lama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3BA PaliGemma2 (3B/10B).

Počáteční výsledky: vysoká chybovost v původních pozitivních označeních vede k prudkému poklesu skutečných pozitiv napříč všemi modely. Falešně pozitivní výsledky se v různých podskupinách liší, u náhodné podskupiny se téměř zdvojnásobují, u oblíbené podskupiny však zůstávají do značné míry nezměněny a vykazují mírný pokles u nepřátelské podskupiny. Přeznačení má zásadní vliv na hodnocení F1. Modely jako Ovis2-4B a Ovis2-8B, které si vedly dobře na populárních a nepřátelských splitech v POPE, se také dostaly na vrchol náhodné podmnožiny pod RePOPE. Pro lepší rozlišení se prosím podívejte na zdrojové PDF.

Počáteční výsledky: vysoká chybovost v původních pozitivních označeních vede k prudkému poklesu skutečných pozitiv napříč všemi modely. Falešně pozitivní výsledky se v různých podskupinách liší, u náhodné podskupiny se téměř zdvojnásobují, u oblíbené podskupiny však zůstávají do značné míry nezměněny a vykazují mírný pokles u nepřátelské podskupiny. Přeznačení má zásadní vliv na hodnocení F1. Modely jako Ovis2-4B a Ovis2-8B, které si vedly dobře na populárních a nepřátelských splitech v POPE, se také dostaly na vrchol náhodné podmnožiny pod RePOPE. Pro lepší rozlišení se prosím podívejte na zdrojové PDF.

Výše uvedené grafy výsledků ilustrují, jak se mění počet skutečně pozitivních a falešně pozitivních výsledků po opravě štítků v benchmarku.

Skutečná pozitiva se objevila u všech modelů, což ukazuje, že jim byly často připisovány správné odpovědi, když tyto odpovědi byly správné pouze pod chybnými štítky, zatímco falešně pozitivní měly rozmanitější vzorec.

U „náhodné“ verze POPE jsou falešně pozitivní výsledky téměř... zdvojnásobil u mnoha modelů, což naznačuje, že značný počet objektů označených jako halucinace byl skutečně přítomen na snímcích, ale v původních anotacích chyběl. V tomto případě bylo mnoho předpokládaných chyb modelu ve skutečnosti chybami v označování datové sady.

U „adversární“ verze POPE, kde se otázky zakládaly na objektech, které se často vyskytují společně, se snížil počet falešně pozitivních výsledků. To pravděpodobně odráží vyšší pravděpodobnost, že údajně nepřítomný objekt byl... vlastně na obrázku ale odešel neoznačené.

Ačkoli tyto posuny ovlivnily přesnost a zapamatovatelnost, hodnocení modelů zůstalo pro obě metriky relativně stabilní.

Skóre F1 – hlavní hodnotící měřítko POPE – bylo mnohem citlivější na opravy štítků. V náhodné podmnožině modely, které se pod původními štítky umístily blízko vrcholu, jako například InternVL2.5-8B a -26B, klesly na konec, když byly hodnoceny pomocí RePOPE. Jiní, jako Ovis2-4B a -8B, vystoupali na vrchol.

Podobný vzorec se objevil ve skóre přesnosti, ačkoli autoři poznamenávají, že mohou být nyní zkreslená, protože opravený soubor dat obsahuje lichý počet pozitivních a negativních příkladů.

Autoři tvrdí, že silný dopad anotačních chyb na výsledky benchmarků podtrhuje potřebu vysoce kvalitních dat. Aby podpořili spolehlivější vyhodnocení objektové halucinace, mají vydala opravené štítky na GitHubu.

Poznamenávají však, že toto přeznačení plně neřeší saturaci benchmarku, protože mnoho modelů stále dosahuje skutečně pozitivních a skutečně negativních hodnot nad 90 %. Navrhují, aby další benchmarky, jako např DASH-B, který používá náročnější sadu negativních příkladů, by měl být používán spolu s RePOPE.

Proč investovat do čističky vzduchu?

Tento konkrétní experiment byl možný díky velmi malému rozsahu použitého souboru dat. Prokázání stejné hypotézy na hyperškálových souborech dat by vyžadovalo práci na velmi omezených fragmentech dat; ve velmi různorodých velkých souborech dat se může ukázat jako téměř nemožné izolovat statisticky reprezentativní a sémanticky koherentní seskupení – potenciálně zkreslení výsledků.

I kdyby to bylo možné, jaká náprava by existovala za současného stavu techniky? Argument se nevyhnutelně posouvá zpět k potřebě lepší a vydatnější lidské anotace.

V tomto ohledu existují pojmy „lepší“ a „rozsáhlejší“ jako samostatné problémy, jelikož větší objem anotací lze získat prostřednictvím ekonomik typu „race-to-the-bottom“, jako je Amazon Mechanical Turk (AMT). Je zřejmé, že toto potenciálně vykořisťovatelský sub-ekonomika často vede k horším výsledkům.

Alternativně by bylo možné přesunout anotační úkoly do ekonomických regionů, kde by stejné výdaje přinesly větší množství anotací. Čím dále je však anotátor vzdálen od zamýšleného případu použití modelu, jeho popisky se budou tvarovat, tím méně je pravděpodobné, že výsledný model bude odpovídat potřebám nebo očekáváním cílové domény.

To proto zůstává jednou z nejtrvalejších a nevyřešených výzev v ekonomice vývoje strojového učení.

 

Poprvé zveřejněno ve středu 23. dubna 2025