Искусственный интеллект

Модели NLP испытывают трудности с пониманием рекурсивных именных групп

Published December 16, 2021

Updated April 5, 2026

Martin Anderson

Исследователи из США и Китая обнаружили, что ни одна из ведущих моделей обработки естественного языка (NLP) не способна по умолчанию распутать английские предложения, в которых есть рекурсивные именные группы (NP), и «борются» с определением центральной смысла в тесно связанных примерах, таких как Мой любимый новый фильм и Мой любимый фильм (каждый из которых имеет разный смысл).

В примере из статьи есть небольшая загадка, которую дети часто не могут решить: второй мяч зеленый, но пятый мяч – это ‘второй зеленый мяч’. Источник: https://arxiv.org/pdf/2112.08326.pdf

Исследователи поставили задачу Recursive Noun Phrase Challenge (RNPC) нескольким локально установленным открытым языковым моделям: OpenAI’s GPT-3*, Google’s BERT, и Facebook’s RoBERTa и BART, обнаружив, что эти модели государственного уровня достигли только «случайного» результата. Они заключили^†:

‘Результаты показывают, что модели государственного уровня (SOTA) с тонкой настройкой на стандартных бенчмарках того же формата испытывают трудности с нашей базой данных, что говорит о том, что целевое знание не легко доступно.’

Минимальные парные примеры в задаче RNPC, где модели SOTA допустили ошибки.

В приведенных выше примерах модели, например, не смогли различить семантическое различие между мертвым опасным животным (т.е. хищником, который не представляет угрозы, поскольку он мертв) и опасным мертвым животным (например, мертвой белкой, которая может содержать вредоносный вирус и представляет собой текущую угрозу).

(Кроме того, хотя статья не затрагивает эту тему, ‘мертвый’ часто используется как наречие, которое не относится ни к одному из случаев))

Однако исследователи также обнаружили, что дополнительная или вспомогательная тренировка, включающая материал RNPC, может решить эту проблему:

‘Предварительно обученные языковые модели с результатами SOTA на бенчмарках NLU имеют плохое владение этим знанием, но все же могут его выучить, когда им представлены небольшие объемы данных из RNPC.’

Исследователи утверждают, что способность языковой модели ориентироваться в рекурсивных структурах этого типа имеет решающее значение для задач нижнего уровня, таких как анализ языка, перевод, и делают особый случай для его важности в процедурах обнаружения вреда:

‘[Мы] рассматриваем сценарий, в котором пользователь взаимодействует с ориентированным на задачу агентом, таким как Siri или Alexa, и агент должен определить, является ли участвующая в запросе пользователя деятельность потенциально вредной [т.е. для несовершеннолетних]. Мы выбираем эту задачу, потому что многие ложные положительные результаты исходят от рекурсивных NP.

‘Например, как сделать домашнюю бомбу очевидно вредно, тогда как как сделать домашнюю бомбу для ванной безвредно.’

Статья названа Является ли «мой любимый новый фильм» моим любимым фильмом? Исследование понимания рекурсивных именных групп, и исходит от пяти исследователей Университета Пенсильвании и одного из Пекинского университета.

Данные и метод

Хотя предыдущие исследования изучали синтаксическую структуру рекурсивных NP и семантическую категоризацию модификаторов, ни один из этих подходов не достаточен, по мнению исследователей, для решения этой проблемы.

Следовательно, на основе использования рекурсивных именных групп с двумя модификаторами исследователи попытались установить, существует ли предварительное знание в системах NLP (оно не существует); может ли оно быть преподано им (может); что могут языковые модели научиться из рекурсивных NP; и каким образом такое знание может принести пользу задачам нижнего уровня.

База данных, которую использовали исследователи, была создана в четыре этапа. Сначала был построен лексикон модификаторов, содержащий 689 примеров, взятых из предыдущей литературы и новой работы.

Далее исследователи собрали рекурсивные NP из литературы, существующих корпусов и собственных изобретений. Текстовые ресурсы включали Penn Treebank и Annotated Gigaword корпус.

Затем команда наняла предварительно отобранных студентов колледжа для создания примеров для трех задач, которые будут решать языковые модели, проверив их позже и подтвердив 8 260 действительных экземпляров.

Наконец, другие предварительно отобранные студенты колледжа были наняты, на этот раз через Amazon Mechanical Turk, для аннотации каждого экземпляра как задачи человеческого интеллекта (HIT), решая споры на основе большинства. Это сократило экземпляры до 4 567 примеров, которые были дополнительно отфильтрованы до 3 790 более сбалансированных экземпляров.

Исследователи адаптировали различные существующие базы данных для формулирования трех разделов своих гипотез, включая MNLI, SNLI, MPE и ADEPT, обучив все модели SOTA самостоятельно, за исключением модели HuggingFace, где использовалась контрольная точка.

Результаты

Исследователи обнаружили, что все модели «борются» с задачами RNPC, в отличие от надежной точности 90%+ у людей, при этом модели SOTA показали результат на уровне «случайности» (т.е. без каких-либо доказательств врожденной способности по сравнению со случайной вероятностью в ответе).

Результаты тестов исследователей. Здесь языковые модели тестируются на их точность на существующем бенчмарке, с центральной линией, представляющей эквивалентную производительность человека в задачах.

Вторичные направления исследования показывают, что эти дефициты можно компенсировать на этапе обучения или тонкой настройки модели NLP, включая в нее знание рекурсивных именных групп. Как только эта дополнительная тренировка была проведена, модели достигли ‘сильной нулевой производительности на внешней задаче обнаружения вреда’.

Исследователи обещают выпустить код для этой работы на https://github.com/veronica320/Recursive-NPs.

Оригинально опубликовано 16 декабря 2021 года – 17 декабря 2021 года, 6:55 утра GMT+2: Исправлена неработающая ссылка.

* GPT-3 Ada, который является самым быстрым, но не лучшим в серии. Однако более крупная «демонстрационная» модель Davinci не доступна для тонкой настройки, которая составляет последнюю фазу экспериментов исследователей.

^† Мое преобразование внутренних цитат в гиперссылки.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Модели NLP испытывают трудности с пониманием рекурсивных именных групп

Данные и метод

Результаты

You may like