Umělá inteligence

Kartel vlivných dat dominuje výzkumům strojového učení, naznačuje nová studie

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

Nová studie z University of California a Google Research zjistila, že malé množství “referenčních” dat strojového učení, převážně z vlivných západních institucí a často z vládních organizací, stále více dominuje sektoru výzkumu umělé inteligence.

Výzkumníci docházejí k závěru, že tato tendence “výchozího” nastavení na velmi populární otevřené datové sady, jako je ImageNet, vyvolává řadu praktických, etických a dokonce i politických důvodů pro obavy.

Mezi jejich závěry – založené na základních datech z projektu Papers With Code (PWC) vedeného Facebookem – autoři tvrdí, že ‘široce používané datové sady jsou zaváděny pouze několika elitními institucemi’, a že tato “konsolidace” se v posledních letech zvýšila na 80%.

‘Zjistili jsme, že existuje rostoucí nerovnost ve využívání dat po celém světě a že více než 50% všech využití dat v naší vzorku 43 140 odpovídalo datovým sadám zavedeným dvanácti elitními, převážně západními institucemi.’

Mapa nespecifických úkolů pro datové sady za posledních deset let. Kritériem pro zařazení je, zda instituce nebo společnost zastupuje více než 50% známých využití. Vpravo je ukazatel Gini pro koncentraci datových sad v čase pro instituce i datové sady. Zdroj: https://arxiv.org/pdf/2112.01716.pdf

Dominantními institucemi jsou Stanford University, Microsoft, Princeton, Facebook, Google, Max Planck Institute a AT&T. Čtyři z deseti nejlepších zdrojů datových sad jsou korporátní instituce.

Studie také charakterizuje rostoucí využívání těchto elitních datových sad jako ‘prostředek pro nerovnost ve vědě’. To je způsobeno tím, že výzkumné týmy, které hledají komunitní uznání, jsou více motivovány k dosažení špičkových výsledků (SOTA) proti konzistentní datové sadě než k vytváření původních datových sad, které nemají takový status a které by vyžadovaly, aby se jejich kolegové přizpůsobili novým metrikám místo standardních indexů.

V každém případě, jak studie uznává, vytváření vlastních datových sad je pro méně zajištěné instituce a týmy prohibitivně nákladné.

‘prima facie vědecká platnost udělená SOTA benchmarkingem je obecně spojena se sociální kredibilitou, kterou výzkumníci získávají tím, že ukazují, že mohou soutěžit na široce uznávané datové sadě, i když by více kontextově specifická měřítka mohla být technicky vhodnější.

‘Domníváme se, že tyto dynamiky vytvářejí “Matthewův efekt” (tj. “bohatí se stávají bohatšími a chudí chudšími”), kde úspěšné benchmarky a elitní instituce, které je zavádějí, získávají nesmírnou autoritu v oboru.

Studie paper se jmenuje Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research a pochází od Bernarda Kocha a Jacoba G. Fostera z UCLA a Emily Denton a Alexe Hannu z Google Research.

Práce vyvolává řadu problémů se rostoucí tendencí ke konsolidaci, kterou dokumentuje, a setkala se s obecným uznáním na Open Review. Jeden recenzent z NeurIPS 2021 komentoval, že práce je ‘extrémně relevantní pro každého, kdo je zapojen do výzkumu strojového učení.’ a předpovídal její zařazení jako povinné čtení na univerzitních kurzech.

Od nutnosti ke korupci

Autoři studie uvádějí, že současná kultura “porazit benchmark” vznikla jako řešení nedostatku objektivních nástrojů pro hodnocení, které způsobily pokles zájmu a investic do umělé inteligence před více než třiceti lety, po poklesu podnikatelského zájmu o nové výzkumy v “Expert Systems”:

‘Benchmarky obvykle formalizují konkrétní úkol prostřednictvím datové sady a přidružené kvantitativní metriky hodnocení. Tato praxe byla původně zavedena do výzkumu strojového učení po “AI Winter” v 80. letech vládními poskytovateli finančních prostředků, kteří se snažili přesněji zhodnotit hodnotu, kterou získali z grantů.’

Studie argumentuje, že počáteční výhody této neformální kultury standardizace (snížení bariér pro účast, konzistentní metriky a více agilní vývojové příležitosti) jsou začínají být převažovány nevýhodami, které přirozeně vznikají, když se tělo dat stává dostatečně silným, aby mohlo efektivně definovat své “podmínky použití” a rozsah vlivu.

Autoři navrhují, v souladu s mnoha nedávnými průmyslovými a akademickými názory na tuto otázku, že výzkumná komunita již nepředkládá nové problémy, pokud je nelze řešit pomocí stávajících benchmarkových datových sad.

Dále poznamenávají, že slepé dodržování této malé skupiny “zlatých” datových sad podporuje výzkumníky, aby dosáhli výsledků, které jsou přefitované (tj. které jsou specifické pro datové sadě a nejsou pravděpodobně fungovat téměř tak dobře v reálných datech, na nových akademických nebo původních datech, nebo dokonce nutně na různých datech v “zlatém standardu”).

‘Vzhledem k pozorované vysoké koncentraci výzkumu na malé množství benchmarkových datových sad, jsme přesvědčeni, že je zvláště důležité diverzifikovat formy hodnocení, aby se zabránilo přefitování stávajícím datovým sadám a nesprávnému vykreslení pokroku v oboru.’

Vliv vlády ve výzkumu počítačového vidění

Podle studie je výzkum počítačového vidění zřetelněji ovlivněn tímto syndromem než jiné sektory, přičemž autoři uvádějí, že výzkum zpracování přirozeného jazyka (NLP) je méně postižen. Autoři se domnívají, že to může být způsobeno tím, že NLP komunity jsou ‘více koherentní’ a větší, a že NLP datové sady jsou přístupnější a snazší na kuraci, a také menší a méně náročné na sběr dat.

Ve výzkumu počítačového vidění, a zejména ve výzkumu rozpoznávání obličeje (FR), autoři tvrdí, že se často střetávají zájmy korporací, států a soukromých subjektů:

‘Korporátní a vládní instituce mají cíle, které mohou být v rozporu se soukromím (například dohled), a jejich vážení těchto priorit je pravděpodobně odlišné od těch, které mají akademici nebo širší zájmové skupiny umělé inteligence.’

Pro úkoly rozpoznávání obličeje výzkumníci zjistili, že incidence čistě akademických datových sad dramaticky klesá proti průměru:

‘[Čtyři] z osmi datových sad (33,69% celkového využití) byly výhradně financovány korporacemi, americkou armádou nebo čínskou vládou (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M byla nakonec stažena kvůli kontroverzi kolem hodnoty soukromí pro různé subjekty.’

Top datové sady používané ve výzkumných komunitách generování obrazu a rozpoznávání obličeje.

Na výše uvedeném grafu, jak autoři uvádějí, vidíme, že relativně nedávné pole generování obrazu (nebo syntézy obrazu) je silně závislé na stávajících, mnohem starších datech, které nebyly určeny pro tento účel.

Ve skutečnosti studie poznamenává rostoucí trend “migrace” datových sad od jejich původního účelu, což vyvolává otázky o jejich vhodnosti pro potřeby nových nebo okrajových výzkumných oblastí, a o tom, do jaké míry mohou být omezení rozpočtu “generovat” rozsah výzkumných ambicí do užšího rámce poskytnutého jak dostupnými materiály, tak kulturou tak posedlou ročním benchmarkovým hodnocením, že nové datové sady mají potíže s získáním trakce.

‘Naše zjištění také ukazují, že datové sady se pravidelně přenášejí mezi různými komunitami úkolů. Na nejextrémnějším konci většina benchmarkových datových sad v oběhu pro některé komunity úkolů byla vytvořena pro jiné úkoly.’

Pokud jde o prominentní osobnosti strojového učení (včetně Andrew Nga), kteří se stále více vyslovují pro větší rozmanitost a kuraci datových sad v posledních letech, autoři podporují tento postoj, ale věří, že tento druh úsilí, i když úspěšné, by mohl být potenciálně podkopán současnou kulturou závislou na SOTA-výsledcích a zavedených datech:

‘Naše výzkum naznačuje, že jednoduše volat po výzkumnících strojového učení, aby vyvinuli více datových sad, a posunout struktury incentiv, aby se vyvíjelo vytváření datových sad a bylo oceňováno a odměňováno, nemusí být dostatečné k diverzifikaci využití datových sad a perspektiv, které nakonec formují a stanovují agendy výzkumu strojového učení.

‘Kromě incentivizace vývoje datových sad jsme pro equity-orientované zásahy do politiky, které priorizují významné financování lidí v méně zajištěných institucích, aby vytvořili vysoce kvalitní datové sady. To by diverzifikovalo – z sociálního a kulturního hlediska – referenční datové sady používané k hodnocení moderních metod strojového učení.’

6. prosince 2021, 16:49 GMT+2 – Opraveno přivlastňovací tvar v názvu. – MA

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Kartel vlivných dat dominuje výzkumům strojového učení, naznačuje nová studie

Od nutnosti ke korupci

Vliv vlády ve výzkumu počítačového vidění

You may like