Искусственный интеллект

Почему исторический язык является проблемой для искусственного интеллекта

Published November 16, 2021

Updated April 5, 2026

Martin Anderson

Одна из центральных проблем систем обработки естественного языка (NLP) заключается в получении важных выводов из широкого разнообразия письменных материалов. Источники, вносящие вклад в обучающий набор данных для нового алгоритма NLP, могут быть так же лингвистически разнообразны, как Twitter, широкие газеты и научные журналы, со всеми апелляционными эксцентричностями, уникальными для каждого из этих трех источников.

В большинстве случаев это касается только английского языка; и это касается только текущих или недавних источников текста. Когда алгоритм NLP должен учитывать материал, который исходит из нескольких эпох, он обычно испытывает трудности в примирении очень разных способов, которыми люди говорят или пишут в национальных и субнациональных сообществах, и особенно в разных периодах истории.

Однако использование текстовых данных (таких как исторические трактаты и почтенные научные работы), которые охватывают эпохи, является потенциально полезным методом получения исторического обзора темы и формирования статистических временных реконструкций, предшествующих принятию и поддержанию метрик для области.

Например, информация о погоде, вносящая вклад в модели искусственного интеллекта для прогнозирования изменения климата, не была адекватно записана во всем мире до 1880 года, в то время как добыча классических текстов предлагает более старые записи крупных метеорологических событий, которые могут быть полезны для предоставления погодных данных до викторианской эпохи.

Временное несоответствие

Новая статья статья из Университета Вашингтона и Института искусственного интеллекта Аллена показала, что даже такой короткий интервал, как пять лет, может вызвать временное несоответствие, которое может сорвать полезность предварительно обученной модели NLP.

В всех случаях более высокие баллы лучше. Здесь мы видим тепловую карту временного ухудшения по четырем корпусам текстовых материалов, охватывающим пять лет. Такие несоответствия между обучающими и оценочными данными, согласно авторам новой статьи, могут вызвать ‘массовое падение производительности’. Источник: https://arxiv.org/pdf/2111.07408.pdf

Статья гласит:

‘Мы обнаружили, что временное несоответствие влияет как на обобщение языковой модели, так и на производительность задачи. Мы обнаружили значительные различия в ухудшении по текстовым доменам и задачам. За 5 лет балл F1 классификатора может ухудшиться до 40 баллов (принадлежность к политической партии в Twitter) или до 1 балла (рейтинги обзоров Yelp). Две различные задачи, определенные на одном и том же домене, могут показать разные уровни ухудшения во времени.’

Неравномерные разделы

Основная проблема заключается в том, что обучающие наборы данных обычно делятся на две группы, иногда в довольно неравномерном соотношении 80/20, из-за ограниченной доступности данных. Более крупная группа данных обучается на нейронной сети, а оставшиеся данные используются в качестве контрольной группы для проверки точности полученного алгоритма.

В смешанных наборах данных, содержащих материал, охватывающий несколько лет, неравномерное распределение данных из различных периодов может означать, что оценочные данные чрезмерно состоят из материала из одной конкретной эпохи.

Это приведет к тому, что это будет плохой полигон для модели, обученной на более разнообразной смеси эпох (т.е. на более всего доступных данных). По сути, в зависимости от того, представляет ли меньшинство оценочных данных более новый или старый материал, это похоже на то, чтобы попросить вашего дедушку оценить последних K-Pop-идолов.

Долгий обходной путь будет заключаться в обучении нескольких моделей на гораздо более ограниченных по времени наборах данных и попытке собрать совместимые функции из результатов каждой модели. Однако случайная инициализация модели сама по себе означает, что этот подход сталкивается со своими собственными проблемами в достижении паритета и равенства между моделями – даже прежде, чем учитывать, были ли несколько вносящих вклад наборов данных достаточно похожи друг на друга, чтобы сделать эксперимент осмысленным.

Данные и обучение

Для оценки временного несоответствия авторы обучили четыре текстовых корпуса по четырем доменам:

Twitter
…где они собрали неаннотированные данные, извлекая случайную выборку из 12 миллионов твитов, равномерно распределенных между 2015-2020 годами, где авторы изучали именованные сущности (т.е. людей и организаций) и политические принадлежности.

Научные статьи
…где авторы получили неаннотированные данные из корпуса Semantic Scholar, состоящего из 650 000 документов, охватывающих 30-летний период, и на которых они изучали классификацию типа упоминания (SciERC) и классификацию места проведения конференции по ИИ (AIC, которая различает, была ли статья опубликована в AAAI или ICML).

Статьи новостей
…где авторы использовали девять миллионов статей из набора данных Newsroom за период 2009-2016 годов, на которых они выполнили три задачи: суммаризацию новостей, классификацию издателя и классификацию медиа-рамок (MFC), которая исследует воспринимаемую приоритетность различных тем в новостном контенте.

Отзывы о еде
…где исследователи использовали открытый набор данных Yelp на одной задаче: классификация рейтинга обзора (YELPCLS), традиционную задачу анализа настроений, типичную для многих исследований NLP в этом секторе.

Результаты

Модели были оценены на GPT-2, с диапазоном полученных баллов F1. Авторы обнаружили, что потеря производительности из-за временного несоответствия является двунаправленной, то есть модели, обученные на недавних данных, могут быть негативно затронуты влиянием старых данных, и наоборот (см. изображение в начале статьи для графиков). Авторы отмечают, что это имеет особые последствия для социальных научных приложений.

В целом результаты показывают, что временное несоответствие ухудшает потерю производительности ‘значительно’, и имеет широкое воздействие на большинство задач. Наборы данных, охватывающие очень длинные периоды, такие как десятилетия, естественно усугубляют проблему.

Авторы进一步 отмечают, что временное несоответствие также влияет на помеченные, а также на неаннотированные предварительные данные. Кроме того, их попытки смягчить последствия посредством адаптации домена (см. ниже) не существенно улучшили ситуацию, хотя они утверждают, что тонкая настройка информации в наборе данных может помочь до определенной степени.

Вывод

Исследователи подтверждают предыдущие выводы, что ранее предложенные средства, включающие адаптацию домена (DAPT, где создается возможность для несоответствия данных) и временную адаптацию (где данные выбираются по времени), мало что делают для смягчения проблемы.

Статья заключает*:

‘Наши эксперименты показали значительные различия во временном ухудшении по задачам, больше, чем было найдено в предыдущих исследованиях. Эти результаты мотивируют продолжение изучения временного несоответствия по приложениям NLP, его рассмотрение в оценках эталонных тестов и бдительность со стороны практиков, способных контролировать производительность системы в реальном времени.’

‘В частности, мы обнаружили, что продолжение обучения моделей языка на временно согласованных данных не имеет большого эффекта, что мотивирует дальнейшие исследования для нахождения эффективных методов временной адаптации, которые были бы менее дорогими, чем постоянное сбор аннотированных/помеченных наборов данных во времени.’

Авторы предлагают, что дальнейшее исследование непрерывного обучения, когда данные постоянно обновляются, может быть полезным в этом отношении, и что дрейф концепции и другие методы обнаружения сдвигов в задачах могут быть полезным средством для обновления наборов данных.

* Мое преобразование внутренних цитат в гиперссылки.

Related Topics:natural language processing nlp research