кочан Защо историческият език е предизвикателство за изкуствения интелект - Unite.AI
Свържете се с нас

Изкуствен интелект

Защо историческият език е предизвикателство за изкуствения интелект

mm
Обновено on

Едно от основните предизвикателства на системите за обработка на естествен език (NLP) е да се извлекат съществени прозрения от голямо разнообразие от писмени материали. Допринасящите източници за обучителен набор от данни за нов NLP алгоритъм могат да бъдат толкова лингвистично разнообразни, колкото Twitter, широкоформатни вестници и научни списания, с всички апелативни ексцентричности, уникални за всеки от тези три източника.

In повечето случаи, това е само за английски; и това е само за текущи или скорошни текстови източници. Когато алгоритъмът на НЛП трябва да вземе предвид материал, който идва от множество епохи, той обикновено се бори да съгласува много различни начини че хората говорят или пишат в национални и поднационални общности и особено в различни периоди от историята.

И все пак, използването на текстови данни (като исторически трактати и уважавани научни трудове), които обхващат епохи, е потенциално полезен метод за генериране на исторически преглед на дадена тема и за формулиране на статистически реконструкции на времевата линия, които предхождат приемането и поддържането на показатели за домейн.

Например метеорологичната информация, която допринася за моделите на ИИ за прогнозиране на изменението на климата, не е била записана адекватно по целия свят до 1880, докато извличане на данни от класически текстове предлага по-стари записи на големи метеорологични събития, които могат да бъдат полезни при предоставянето на данни за времето преди викторианската епоха.

Временно несъответствие

A нова хартия от Университета във Вашингтон и Института Алън за ИИ установи, че дори толкова кратък интервал от пет години може да причини времево несъответствие което може да дерайлира полезността на предварително обучен НЛП модел.

Във всички случаи по-високите резултати са по-добри. Тук виждаме топлинна карта на времева деградация в четири корпуса текстови материали, обхващащи период от пет години. Такива несъответствия между данните за обучение и оценка, според авторите на новия документ, могат да причинят „масов спад на представянето“. Източник: https://arxiv.org/pdf/2111.07408.pdf

Във всички случаи по-високите резултати са по-добри. Тук виждаме топлинна карта на времева деградация в четири корпуса текстови материали, обхващащи период от пет години. Такива несъответствия между данните за обучение и оценка, според авторите на новия документ, могат да причинят „масов спад на представянето“. Източник: https://arxiv.org/pdf/2111.07408.pdf

В статията се посочва:

„Откриваме, че временното несъответствие засяга както обобщението на езиковия модел, така и изпълнението на задачите. Откриваме значителни вариации в деградацията в текстови домейни и задачи. В продължение на 5 години резултатът от F1 на класификаторите може да се влоши с до 40 точки (политическа принадлежност в Twitter) или само с 1 точка (рейтинги за преглед на Yelp). Две отделни задачи, дефинирани в един и същ домейн, могат да покажат различни нива на влошаване с течение на времето.'

Неравномерно разделяне

Основният проблем е, че наборите от данни за обучение обикновено се разделят на две групи, понякога в доста небалансирано съотношение 80/20, поради ограничената наличност на данни. По-голямата група от данни се обучава на невронна мрежа, докато останалите данни се използват като контролна група за тестване на точността на получения алгоритъм.

В смесени набори от данни, съдържащи материал, който обхваща няколко години, неравномерното разпределение на данни от различни периоди може да означава, че данните за оценка са прекомерно съставени от материал от една конкретна епоха.

Това ще го накара да бъде лоша тестова площадка за модел, обучен върху по-разнообразна комбинация от епохи (т.е. върху повече от всички налични данни). На практика, в зависимост от това дали данните за оценка на малцинствата представят твърде много по-нов или по-стар материал, е все едно да помолите дядо си да оцени най-новите K-Pop идоли.

Дългото заобиколно решение би било да се обучат множество модели на много по-ограничени във времето набори от данни и да се опита да съпостави съвместими характеристики от резултатите от всеки модел. Въпреки това, произволна инициализация на модела практиките сами по себе си означават, че този подход се сблъсква със собствен набор от проблеми при постигането на междумоделен паритет и равнопоставеност – дори преди да се обмисли дали множеството допринасящи набори от данни са адекватно сходни един с друг, за да направят експеримента смислен.

Данни и обучение

За да оценят временното несъответствие, авторите са обучили четири текстови корпуса в четири домейна:

Twitter
…където са събрали немаркирани данни чрез извличане на случаен избор от 12 милиона туита, равномерно разпределени между 2015-2020 г., където авторите са изследвали посочени лица (т.е. хора и организации) и политически връзки.

Научни статии
...където авторите са получили немаркирани данни от Корпус на Semantic Scholar, съставляващи 650,000 30 документа, обхващащи период от XNUMX години, и върху които са проучени класификацията на споменатия тип (SciERC) и класификация на мястото на провеждане на AI (AIC, която разграничава дали даден документ е публикуван в AAAI or ICML).

Новини Статии
...където авторите са използвали девет милиона статии от Набор от данни в нюзрума обхващащ период 2009-2016 г., в който те изпълниха три задачи: обобщаване на нюзрума, класификация на издателите и класификация на медийните рамки (MFC), като последната задача изследва възприеманото приоритизиране на различни теми в новинарската продукция.

Отзиви за храна
...където изследователите са използвали Yelp Open Dataset върху една единствена задача: класификация за преглед на рейтинг (YELPCLS), традиционно предизвикателство за анализ на настроенията, типично за много изследвания на НЛП в този сектор.

Резултати

Моделите бяха оценени на GPT-2, с диапазон от произтичащи F1 резултати. Авторите откриха, че загубата на производителност от временно несъответствие е двупосочна, което означава, че моделите, обучени на скорошни данни, могат да бъдат неблагоприятно повлияни от влиянието на по-стари данни и обратно (вижте изображението в началото на статията за графики). Авторите отбелязват, че това има специфични последици за приложенията на социалните науки.

Като цяло, резултатите показват, че временното несъответствие влошава „съществено“ загубата на производителност и има широк ефект върху повечето задачи. Набори от данни, които обхващат много дълги периоди, като десетилетия, естествено изострят проблема.

Освен това авторите отбелязват, че временното несъответствие също засяга етикетираните, както и немаркираните данни преди обучението. Освен това опитите им да смекчат ефектите чрез адаптиране на домейна (вижте по-долу) не подобриха съществено ситуацията, въпреки че те твърдят, че фината настройка на информацията за данните в набора от данни може да помогне до известна степен.

Заключение

Изследователите потвърждават предишни констатации, че по-рано предложените лекарства включват адаптация на домейна (DAPT, където е направена компенсация за несъответствието в данните) и времева адаптация (където данните са избрани по период от време) правят малко за облекчаване на проблема.

Документът завършва*:

„Нашите експерименти разкриха значителни вариации във временното влошаване между задачите, повече от установените в предишни изследвания. Тези констатации мотивират продължително проучване на времевото несъответствие в приложенията на НЛП, неговото разглеждане при сравнителни оценки и бдителност от страна на практикуващите, способни да наблюдават производителността на системата на живо във времето.

„По-специално, ние забелязахме, че продължаващото обучение на LM върху временно подравнени данни няма голям ефект, мотивирайки по-нататъшни изследвания за намиране на ефективни методи за времева адаптация, които са по-евтини от текущото събиране на анотирани/маркирани набори от данни с течение на времето.“

Авторите предполагат, че по-нататъшното изследване на непрекъснатото обучение, при което данните се актуализират постоянно, може да бъде полезно в това отношение и че отклонението на концепцията и други методи за откриване на промени в задачите могат да бъдат полезна помощ за актуализиране на набори от данни.

 

* Моето преобразуване на вградени цитати в хипервръзки.