peň Prečo je historický jazyk výzvou pre umelú inteligenciu - Unite.AI
Spojte sa s nami

Umelá inteligencia

Prečo je historický jazyk výzvou pre umelú inteligenciu

mm
Aktualizované on

Jednou z hlavných výziev systémov spracovania prirodzeného jazyka (NLP) je odvodiť základné poznatky zo širokej škály písomných materiálov. Prispievajúce zdroje pre tréningový súbor údajov pre nový algoritmus NLP by mohli byť jazykovo rôznorodé ako Twitter, veľké noviny a vedecké časopisy, so všetkými odvolateľskými výstrednosťami jedinečnými pre každý z týchto troch zdrojov.

In vo väčšine prípadov, to je len pre angličtinu; a to len pre aktuálne alebo nedávne textové zdroje. Keď algoritmus NLP musí brať do úvahy materiál, ktorý pochádza z viacerých období, zvyčajne má problémy zosúladiť veľmi odlišnými spôsobmi že ľudia hovoria alebo píšu naprieč národnými a subnárodnými komunitami a najmä v rôznych obdobiach histórie.

Používanie textových údajov (ako sú historické pojednania a úctyhodné vedecké práce), ktoré presahujú epochy, je však potenciálne užitočnou metódou generovania historického prehľadu o téme a formulovania štatistických rekonštrukcií časovej osi, ktoré predchádzali prijatiu a udržiavaniu metrík pre doménu.

Napríklad informácie o počasí, ktoré prispievajú k modelom umelej inteligencie na predpovedanie zmeny klímy, neboli na celom svete primerane zaznamenané až 1880, zatiaľ čo data-mining klasických textov ponúka staršie záznamy veľkých meteorologických udalostí, ktoré môžu byť užitočné pri poskytovaní predviktoriánskych údajov o počasí.

Časová nevyrovnanosť

A nového papiera z University of Washington a Allen Institute for AI zistili, že aj taký krátky interval, ako je päť rokov, môže spôsobiť časové nesúlady čo môže vykoľajiť užitočnosť vopred trénovaného modelu NLP.

Vo všetkých prípadoch platí, že vyššie skóre je lepšie. Tu vidíme teplotnú mapu časovej degradácie naprieč štyrmi korpusmi textového materiálu za päťročné obdobie. Takýto nesúlad medzi tréningovými a hodnotiacimi údajmi môže podľa autorov nového článku spôsobiť „masívny pokles výkonu“. Zdroj: https://arxiv.org/pdf/2111.07408.pdf

Vo všetkých prípadoch platí, že vyššie skóre je lepšie. Tu vidíme teplotnú mapu časovej degradácie naprieč štyrmi korpusmi textového materiálu za obdobie piatich rokov. Takýto nesúlad medzi tréningovými a hodnotiacimi údajmi môže podľa autorov nového článku spôsobiť „masívny pokles výkonu“. Zdroj: https://arxiv.org/pdf/2111.07408.pdf

Príspevok uvádza:

„Zistili sme, že časové nesúlady ovplyvňujú zovšeobecnenie jazykového modelu aj výkon úlohy. Zistili sme značné rozdiely v degradácii medzi textovými doménami a úlohami. Za 5 rokov sa skóre klasifikátorov v F1 môže zhoršiť až o 40 bodov (politická príslušnosť na Twitteri) alebo až o 1 bod (hodnotenia recenzií Yelpu). Dve odlišné úlohy definované v tej istej doméne môžu v priebehu času vykazovať rôzne úrovne degradácie.“

Nerovnomerné rozdelenia

Hlavným problémom je, že trénovacie dátové súbory sú vo všeobecnosti rozdelené do dvoch skupín, niekedy v dosť nevyváženom pomere 80/20, kvôli obmedzenej dostupnosti dát. Väčšia skupina údajov sa trénuje na neurónovej sieti, zatiaľ čo zvyšné údaje sa používajú ako kontrolná skupina na testovanie presnosti výsledného algoritmu.

V zmiešaných súboroch údajov obsahujúcich materiál, ktorý zahŕňa niekoľko rokov, by nerovnomerné rozloženie údajov z rôznych období mohlo znamenať, že hodnotiace údaje sú neprimerane zložené z materiálu z jedného konkrétneho obdobia.

To spôsobí, že bude zlým testovacím priestorom pre model trénovaný na rôznorodejšej zmesi období (tj na viacerých dostupných údajoch). V skutočnosti, v závislosti od toho, či menšinové hodnotiace údaje nadmerne reprezentujú novší alebo starší materiál, je to ako požiadať svojho starého otca, aby ohodnotil najnovšie K-Pop idoly.

Dlhým riešením by bolo trénovať viacero modelov na oveľa časovo obmedzenejších súboroch údajov a pokúsiť sa porovnať kompatibilné funkcie z výsledkov každého modelu. však náhodná inicializácia modelu Samotná prax znamená, že tento prístup čelí vlastným problémom pri dosahovaní parity a rovnosti medzi modelmi – ešte predtým, než sa zváži, či viaceré prispievajúce súbory údajov boli navzájom primerane podobné, aby bol experiment zmysluplný.

Údaje a školenia

Na vyhodnotenie časového nesúladu autori trénovali štyri textové korpusy v štyroch doménach:

Twitter
…kde zbierali neoznačené údaje extrahovaním náhodného výberu 12 miliónov tweetov rovnomerne rozložených medzi rokmi 2015-2020, kde autori študovali pomenované entity (tj ľudí a organizácie) a politické príslušnosti.

Vedecké články
…kde autori získali neoznačené údaje z Sémantický korpus Scholar, ktoré tvoria 650,000 30 dokumentov za XNUMX-ročné obdobie, na ktorých študovali, uvádzajú klasifikáciu typov (SciERC) a klasifikácia miesta AI (AIC, ktorá rozlišuje, či bol článok publikovaný v AAAI or ICML).

Novinové články
…kde autori použili deväť miliónov článkov z Dataset redakcie za obdobie rokov 2009 – 2016, počas ktorých plnili tri úlohy: sumarizáciu redakcie, klasifikáciu vydavateľov a klasifikáciu mediálnych rámcov (MFC), pričom posledná z nich skúma vnímané uprednostňovanie rôznych tém v rámci spravodajských výstupov.

Recenzie potravín
...kde výskumníci použili Yelp Open Dataset na jedinú úlohu: klasifikáciu hodnotenia hodnotenia (YELPCLS), tradičnú výzvu analýzy sentimentu typickú pre mnohé výskumy NLP v tomto sektore.

výsledky

Modely boli hodnotené na GPT-2, s radom výsledných F1 boduje. Autori zistili, že strata výkonu z časového nesúladu je obojsmerná, čo znamená, že modely trénované na najnovších údajoch môžu byť nepriaznivo ovplyvnené vplyvom starších údajov a naopak (grafy nájdete na obrázku na začiatku článku). Autori poznamenávajú, že to má konkrétne dôsledky pre aplikácie spoločenských vied.

Vo všeobecnosti výsledky ukazujú, že časová nevyrovnanosť znižuje stratu výkonu „podstatne“ a má široký vplyv na väčšinu úloh. Súbory údajov, ktoré pokrývajú veľmi dlhé obdobia, napríklad desaťročia, tento problém prirodzene zhoršujú.

Autori ďalej poznamenávajú, že časové nesúlady ovplyvňujú aj označené, ako aj neoznačené údaje z predtréningu. Okrem toho ich pokusy o zmiernenie účinkov prostredníctvom prispôsobenia domény (pozri nižšie) situáciu podstatne nezlepšili, hoci tvrdia, že doladenie informácií o údajoch v súbore údajov môže do určitej miery pomôcť.

záver

Výskumníci potvrdzujú predchádzajúce zistenia, ktoré zahŕňali skôr navrhované nápravné opatrenia prispôsobenie domény (DAPT, kde sa vytvára tolerancia pre rozdiely v údajoch) a časové prispôsobenie (kde sa údaje vyberajú podľa časového obdobia) robia málo na zmiernenie problému.

Záver článku*:

"Naše experimenty odhalili značné rozdiely v časovej degradácii naprieč úlohami, viac, ako sa zistilo v predchádzajúce štúdie. Tieto zistenia motivujú k pokračujúcemu štúdiu časového nesúladu medzi aplikáciami NLP, jeho zohľadňovaniu v benchmarkových hodnoteniach a ostražitosti zo strany odborníkov schopných monitorovať výkon systému v reálnom čase.

"Pozorne sme si všimli, že pokračujúce školenie LM na časovo zoradených údajoch nemá veľký účinok, čo motivuje ďalší výskum na nájdenie efektívnych metód časovej adaptácie, ktoré sú menej nákladné ako prebiehajúce zhromažďovanie anotovaných/označených súborov údajov v priebehu času."

Autori naznačujú, že v tomto ohľade môže byť užitočné ďalšie skúmanie kontinuálneho učenia, kde sa údaje neustále aktualizujú, a že koncepčný posun a iné metódy zisťovania posunov v úlohách by mohli byť užitočnou pomôckou pri aktualizácii súborov údajov.

 

* Moja konverzia vložených citácií na hypertextové odkazy.