Connect with us

Umělá inteligence

Proč je historický jazyk výzvou pro umělou inteligenci

mm

Jednou z centrálních výzev systémů zpracování přirozeného jazyka (NLP) je získat základní poznatky z široké škály psaných materiálů. Příspěvující zdroje pro trénovací dataset pro nový NLP algoritmus by mohly být tak lingvisticky rozmanité jako Twitter, broadsheet noviny a vědecké časopisy, se všemi apelativními excentricitami jedinečnými pro každý z těchto tří zdrojů.

V meisten případech je to jen pro angličtinu; a to je jen pro aktuální nebo nedávné textové zdroje. Když NLP algoritmus musí zohlednit materiál, který pochází z více epoch, obvykle se mu nedaří smířit velmi rozdílné způsoby, kterými lidé mluví nebo píší napříč národními a sub-národními komunitami, a zejména napříč různými obdobími v historii.

Přesto je použití textových dat (jako historických pojednání a uznávaných vědeckých prací), která překračují epochy, potenciálně užitečnou metodou pro generování historického přehledu tématu a pro formulaci statistických rekonstrukcí časové osy, které předcházejí přijetí a údržbu metrik pro doménu.

Například povětrnostní informace, které přispívají k předpovědním modelům změny klimatu, nebyly dostatečně zaznamenány po celém světě do roku 1880, zatímco dolování klasických textů nabízí starší záznamy o významných meteorologických událostech, které mohou být užitečné pro poskytování před-viktoriánských povětrnostních dat.

Časová nesoulad

Nová práce z Univerzity of Washington a Allen Institute for AI zjistila, že i tak krátké časové období, jako je pět let, může způsobit časovou nesoulad, který může znemožnit užitečnost předem trénovaného NLP modelu.

Ve všech případech jsou lepší vyšší skóre. Zde vidíme heatmap degradace v čase napříč čtyřmi korpusy textových materiálů pokrývající pětileté období. Takové nesoulady mezi trénovacími a evaluačními daty, podle autorů nové práce, mohou způsobit 'masivní pokles výkonu'.

Ve všech případech jsou lepší vyšší skóre. Zde vidíme heatmap degradace v čase napříč čtyřmi korpusy textových materiálů pokrývající pětileté období. Takové nesoulady mezi trénovacími a evaluačními daty, podle autorů nové práce, mohou způsobit ‘masivní pokles výkonu’. Source: https://arxiv.org/pdf/2111.07408.pdf

Práce uvádí:

‘Zjistili jsme, že časová nesoulad ovlivňuje obecnost jazykového modelu a výkon úkolu. Zjistili jsme značné rozdíly v degradaci napříč textovými doménami a úkoly. Za pět let se F1 skóre klasifikátorů může zhoršit až o 40 bodů (politická příslušnost na Twitteru) nebo až o 1 bod (hodnocení recenzí Yelp). Dva různé úkoly definované ve stejné doméně mohou ukázat různé úrovně degradace v čase.’

Nesouměrné rozdělení

Základní problém spočívá v tom, že trénovací datasety jsou obecně rozděleny do dvou skupin, někdy v poměrně nesouměrném poměru 80/20, kvůli omezené dostupnosti dat. Větší skupina dat je trénována na neuronové síti, zatímco zbývající data jsou použita jako kontrolní skupina pro testování přesnosti výsledného algoritmu.

V smíšených datasetech, které obsahují materiál z různých období, nesouměrné rozdělení dat z různých období může znamenat, že evaluační data jsou neúměrně složena z materiálu z jednoho konkrétního období.

To způsobí, že bude špatným testovacím místem pro model trénovaný na více rozmanitém mixu epoch (tj. na více celkovém dostupném datu). V podstatě, v závislosti na tom, zda menšinová evaluační data reprezentují novější nebo starší materiál, je to jako zeptat se vašeho dědečka, aby ohodnotil nejnovější K-Pop idoly.

Dlouhé obejití by bylo trénovat více modelů na mnohem časově omezenějších datasetech a pokusit se zkombinovat kompatibilní funkce z výsledků každého modelu. Nicméně, náhodná inicializace modelu sama o sobě znamená, že tento přístup čelí svým vlastním problémům při dosahování parity a rovnosti mezi modely – dokonce i před zvažováním, zda byly více přispívající datasety dostatečně podobné sobě navzájem, aby činily experiment smysluplným.

Data a trénování

Pro vyhodnocení časové nesouladu autoři trénovali čtyři textové korpusy napříč čtyřmi doménami:

Twitter
…kde shromáždili nelabelovaná data extrahováním náhodného výběru 12 milionů tweetů rovnoměrně rozložených mezi lety 2015-2020, kde autoři studovali pojmenované entity (tj. lidi a organizace) a politické příslušnosti.

Vědecké články
…kde autoři získali nelabelovaná data z Semantic Scholar korpusu, tvořícího 650 000 dokumentů pokrývajících 30leté období, a na kterém studovali klasifikaci typu zmínky (SciERC) a klasifikaci AI místa konání (AIC, který rozlišuje, zda byla práce publikována v AAAI nebo ICML).

Novinové články
…kde autoři použili devět milionů článků z Newsroom Datasetu pokrývajícího období 2009-2016, na kterém provedli tři úkoly: shrnutí novin, klasifikaci vydavatele a klasifikaci médií (MFC), která zkoumá vnímanou prioritu různých témat napříč novinovým výstupem.

Recenze jídla
…kde výzkumníci použili Yelp Open Dataset na jeden úkol: klasifikaci hodnocení recenzí (YELPCLS), tradiční výzvu sentimentální analýzy typické pro mnoho NLP výzkumů v tomto sektoru.

Výsledky

Modely byly vyhodnoceny na GPT-2, s rozsahem výsledných F1 skóre. Autoři zjistili, že ztráta výkonu z časové nesouladu je oboustranná, což znamená, že modely trénované na nedávných datech mohou být negativně ovlivněny vlivem starších dat, a naopak (viz obrázek na začátku článku pro grafy). Autoři poznamenávají, že to má zvláštní důsledky pro aplikace sociálních věd.

Obecně, výsledky ukazují, že časová nesoulad podstatně snižuje ztrátu výkonu, a má široký účinek na většinu úkolů. Datasety, které pokrývají velmi dlouhá období, jako jsou desetiletí, přirozeně zhoršují problém.

Autoři dále pozorují, že časová nesoulad také ovlivňuje označená i nelabelovaná předtrénovací data. Kromě toho, jejich pokusy o zmírnění účinků prostřednictvím doménové adaptace (viz níže) nezlepšily situaci podstatně, ačkoli tvrdí, že jemné doladění datových informací v datasetu může pomoci do určité míry.

Závěr

Výzkumníci potvrzují předchozí zjištění, že dříve navrhovaná řešení zahrnující doménovou adaptaci (DAPT, kde je vytvořena možnost pro disparitu dat) a časovou adaptaci (kde je data vybrána podle časového období) nemají žádný podstatný účinek na zmírnění problému.

Práce uzavírá*:

‘Naše experimenty odhalily značné rozdíly v časové degradaci napříč úkoly, více než bylo zjištěno v předchozích studiích. Tyto nálezy motivují pokračující studium časové nesouladu napříč aplikacemi NLP, jeho zvažování v benchmarkových hodnoceních a bdělost na straně praktiků, kteří mohou monitorovat živý systémový výkon v čase.

‘Zejména jsme pozorovali, že pokračující trénování LM na časově sladěných datech nemá žádný podstatný účinek, motivující další výzkum k nalezení účinných metod časové adaptace, které jsou méně nákladné než pokračující sběr označených/labelovaných datasetů v čase.’

Autoři navrhují, že další výzkum do kontinuálního učení, kde jsou data neustále aktualizována, může být v tomto ohledu užitečný, a že koncept driftu a dalších metod detekce posunů v úkolech by mohl být užitečným pomocníkem pro aktualizaci datasetů.

 

* Moje konverze inline citací na hypertextové odkazy.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai