Искусственный интеллект
Почему большие языковые модели забывают о середине: раскрытие скрытой слепой зоны ИИ

Поскольку большие языковые модели (LLM) широко используются для таких задач, как резюмирование документов, юридический анализ и оценка истории болезни, крайне важно осознавать ограничения этих моделей. В то время как общие проблемы, такие как галлюцинаций и смещение хорошо известны, исследователи недавно выявили еще один существенный недостаток: при обработке длинных текстов магистры права склонны сохранять информацию в начале и конце, но часто пренебрегают серединой.
Эта проблема, именуемая «затерянный в середине” явление, может серьезно повлиять на производительность этих моделей в реальных приложениях. Например, если ИИ поручено резюмировать длинный юридический документ, пропуск критических деталей в середине может привести к вводящим в заблуждение или неполным резюме. В медицинских учреждениях пропуск информации из середины истории болезни пациента может привести к неточным рекомендациям. Понимание того, почему это происходит, остается сложной задачей для исследователей, пытающихся создать более безопасный и надежный ИИ. Однако недавно проведенное исследование дает одни из самых четких ответов на сегодняшний день, показывая, что эта проблема глубоко укоренена в архитектуре этих моделей.
Проблема «потерянных посередине»
Феномен «потерянного в середине» относится к тенденции LLM уделять меньше внимания информации в середине длинных последовательностей ввода. Это похоже на то, как люди часто запоминают первый и последний элементы в списке лучше, чем те, что в середине. Это когнитивное искажение у людей часто называют Эффект первичности и новизны. Для LLM это означает, что они лучше справляются, когда ключевая информация находится в начале или конце текста, но испытывают трудности, когда она зарыта в середине. Это приводит к «U-образной» кривой производительности, где точность высока в начале, значительно падает в середине, а затем снова растет в конце.
Это явление не просто теоретический вопрос. Оно наблюдалось в широком диапазоне задачи, от вопросов-ответов до резюмирования документа. Например, если вы зададите вопрос LLM, ответ на который находится в первых нескольких абзацах длинной статьи, он, скорее всего, ответит правильно. То же самое верно, если ответ находится в последних нескольких абзацах. Но если критическая информация спрятана где-то в середине, точность модели резко падает. Это серьезное ограничение, поскольку это означает, что мы не можем полностью доверять этим моделям в задачах, требующих понимания длинного и сложного контекста. Это также делает их уязвимыми для манипуляций. Кто-то может намеренно поместить вводящую в заблуждение информацию в начале или конце документа, чтобы повлиять на вывод ИИ.
Понимание архитектуры LLM
Чтобы понять, почему LLM забывают середину, нам нужно посмотреть, как они построены. Современные LLM основаны на архитектуре, называемой ТрансформаторТрансформер стал прорывом в области искусственного интеллекта, поскольку он представил механизм, называемый самостоятельно внимание. Внутреннее внимание позволяет модели взвешивать важность различных слов во входном тексте при обработке любого данного слова. Например, при обработке предложения «Кот сидел на коврике» механизм внутреннего внимания может узнать, что «кот» и «сел» тесно связаны. Это позволяет модели построить гораздо более глубокое понимание взаимосвязей между словами, чем могли предыдущие архитектуры.
Еще одним ключевым компонентом является позиционное кодирование. Поскольку сам механизм внутреннего внимания не имеет внутреннего чувства порядка слов, позиционные кодировки добавляются к входным данным, чтобы предоставить модели информацию о положении каждого слова в последовательности. Без этого модель будет видеть входной текст просто как «мешок слов” без структуры. Эти два компонента, самовнимание и позиционное кодирование, работают вместе, чтобы сделать LLM более эффективными. Однако новое исследование показывает, что способ их взаимодействия также является источником этого скрытого слепого пятна.
Как возникает позиционная предвзятость
В недавнем проведенное исследование использует умный подход для объяснения этого явления. Он моделирует поток информации внутри Трансформера как граф, где каждое слово является узлом, а связи внимания — ребрами. Это позволяет исследователям математически отслеживать, как информация из разных позиций обрабатывается через множество слоев модели.
Они обнаружили два основных открытия. Во-первых, использование причинная маскировка во многих LLM изначально создается смещение в сторону начала последовательности. Причинная маскировка — это метод, который гарантирует, что когда модель генерирует слово, она может обращать внимание только на слова, которые были до него, а не после. Это имеет решающее значение для таких задач, как генерация текста. Однако на многих уровнях это создает эффект усложнения. Первые несколько слов в тексте обрабатываются снова и снова, и их представления становятся все более и более влиятельными. Напротив, слова в середине всегда оглядываются на этот уже устоявшийся контекст, и их собственный уникальный вклад может быть заглушен.
Во-вторых, исследователи рассмотрели, как позиционные кодировки взаимодействуют с этим эффектом причинной маскировки. Современные LLM часто используют относительные позиционные кодировки, которые фокусируются на расстоянии между словами, а не на их абсолютном положении. Это помогает модели обобщаться на тексты разной длины. Хотя это кажется хорошей идеей, это создает конкурирующее давление. Причинная маска сдвигает фокус модели к началу, в то время как относительное позиционное кодирование побуждает ее фокусироваться на близлежащих словах. Результатом этого перетягивания каната является то, что модель уделяет наибольшее внимание самому началу текста и непосредственному локальному контексту любого данного слова. Информация, которая находится далеко и не в начале, другими словами, в середине, получает наименьшее внимание.
Более широкие последствия
Феномен «потерянных в середине» имеет существенные последствия для приложений, которые полагаются на обработку длинных текстов. Исследование показывает, что проблема не просто случайный эффект, а фундаментальное следствие того, как мы разработали эти модели. Это означает, что простое обучение их на большем количестве данных вряд ли решит проблему. Вместо этого нам, возможно, придется переосмыслить некоторые из основных архитектурных принципов Transformers.
Для пользователей и разработчиков ИИ это критическое предупреждение. Мы должны знать об этом ограничении при проектировании приложений, которые полагаются на LLM. Для задач, которые включают длинные документы, нам может потребоваться разработать стратегии для смягчения этого смещения. Это может включать разбиение документа на более мелкие части или создание моделей, которые специально направляют внимание модели на разные части текста. Это также подчеркивает важность строгого тестирования. Мы не можем предполагать, что LLM, который хорошо работает с короткими текстами, будет надежным при столкновении с более длинными, более сложными входными данными.
Выводы
Разработка ИИ всегда была сосредоточена на выявлении ограничений и поиске способов их преодоления. Проблема «потерянных в середине» является существенным недостатком в больших языковых моделях, где они имеют тенденцию упускать информацию в середине длинных текстовых последовательностей. Эта проблема возникает из-за предубеждений в архитектуре Transformer, в частности, взаимодействия между причинной маскировкой и относительным позиционным кодированием. Хотя LLM хорошо справляются с информацией в начале и конце текста, они испытывают трудности, когда важные детали размещаются в середине. Это ограничение может снизить точность LLM в таких задачах, как реферирование документов и ответы на вопросы, что может иметь серьезные последствия в таких областях, как юриспруденция и медицина. Разработчики и исследователи должны решить эту проблему, чтобы повысить надежность LLM в практических приложениях.