Свяжитесь с нами:

Почему большие языковые модели пропускают инструкции и как решить эту проблему

Искусственный интеллект

Почему большие языковые модели пропускают инструкции и как решить эту проблему

mm
Исправлен пропуск инструкции LLM

Большие языковые модели (LLM) быстро стали незаменимыми Искусственный интеллект (AI) инструменты, обеспечивающие работу приложений от чат-ботов и создания контента до помощи в кодировании. Несмотря на свои впечатляющие возможности, распространенной проблемой, с которой сталкиваются пользователи, является то, что эти модели иногда пропускают части получаемых ими инструкций, особенно если эти инструкции длинные или включают несколько шагов. Такой пропуск приводит к неполным или неточным результатам, что может вызвать путаницу и подорвать доверие к системам ИИ. Понимание того, почему LLM пропускают инструкции и как решить эту проблему, имеет важное значение для пользователей, которые полагаются на эти модели для получения точных и надежных результатов.

Почему магистры права пропускают обучение? 

LLM работают, считывая входной текст как последовательность токенов. Токены — это небольшие фрагменты, на которые делится текст. Модель обрабатывает эти токены один за другим, от начала до конца. Это означает, что инструкции в начале ввода, как правило, привлекают больше внимания. Более поздние инструкции могут получить меньше внимания и могут быть проигнорированы.

Это происходит из-за того, что LLM имеют ограниченную способность к вниманию. Внимание — это механизм, который модели используют для определения того, какие части ввода являются существенными при генерации ответов. Когда ввод короткий, внимание работает хорошо. Но внимание становится меньше, когда ввод становится длиннее или инструкции становятся сложными. Это ослабляет фокусировку на более поздних частях, вызывая пропуски.

Кроме того, множество инструкций одновременно увеличивают сложность. Когда инструкции перекрываются или конфликтуют, модели могут запутаться. Они могут попытаться ответить на все, но выдавать неопределенные или противоречивые ответы. Это часто приводит к пропуску некоторых инструкций.

LLM также разделяют некоторые человеческие ограничения. Например, люди могут терять фокус при чтении длинных или повторяющихся текстов. Аналогично, LLM могут забывать более поздние инструкции по мере обработки большего количества токенов. Эта потеря фокуса является частью конструкции и ограничений модели.

Другая причина заключается в том, как обучаются LLM. Они видят много примеров простых инструкций, но меньше сложных, многошаговых. Из-за этого модели, как правило, предпочитают следовать более простым инструкциям, которые чаще встречаются в их обучающих данных. Это смещение заставляет их пропускать сложные инструкции. Кроме того, ограничения токенов ограничивают объем входных данных, которые может обработать модель. Когда входные данные превышают эти ограничения, инструкции, выходящие за пределы ограничения, игнорируются.

Пример: Предположим, вы даете LLM пять инструкций в одной подсказке. Модель может сосредоточиться в основном на первых двух инструкциях и частично или полностью игнорировать последние три. Это напрямую влияет на то, как модель последовательно обрабатывает токены, и на ее ограничения внимания.

Насколько хорошо LLM справляются с последовательными инструкциями на основе результатов SIFO 2024

Недавние исследования внимательно изучили, насколько хорошо LLM следуют нескольким инструкциям, данным одна за другой. Одним из важных исследований является Последовательные инструкции (SIFo) Benchmark 2024. Этот бенчмарк тестирует модели на задачах, требующих пошагового выполнения инструкций, таких как изменение текста, ответы на вопросы, математика и соблюдение правил безопасности. Каждая инструкция в последовательности зависит от правильного завершения предыдущей. Такой подход помогает проверить, правильно ли модель выполнила всю последовательность.

Результаты SIFo показывают, что даже лучшим LLM, таким как GPT-4 и Claude-3, часто сложно правильно завершить все инструкции. Это особенно верно, когда инструкции длинные или сложные. Исследование указывает на три основные проблемы, с которыми сталкиваются LLM при выполнении следующих инструкций:

Понимание: Полное понимание смысла каждой инструкции.

Обоснование: Логическое объединение нескольких инструкций для обеспечения ясности ответа.

Надежный выход: Предоставление полных и точных ответов, охватывающих все предоставленные инструкции.

Методы, такие как быстрый инжиниринг и тонкая настройка помогают улучшить то, насколько хорошо модели следуют инструкциям. Однако эти методы не полностью помогают решить проблему пропуска инструкций. Использование Обучение с подкреплением и обратной связью с человеком (RLHF) Это ещё больше улучшает способность модели реагировать адекватно. Тем не менее, модели испытывают трудности, когда инструкции требуют много шагов или очень сложны.

Исследование также показывает, что LLM работают лучше всего, когда инструкции просты, четко разделены и хорошо организованы. Когда задачи требуют длинных цепочек рассуждений или множества шагов, точность модели падает. Эти результаты помогают предложить лучшие способы эффективного использования LLM и показывают необходимость создания более сильных моделей, которые действительно могут следовать инструкциям одна за другой.

Почему LLM пропускают инструкции: технические сложности и практические соображения

LLM могут пропускать инструкции из-за ряда технических и практических факторов, связанных с тем, как они обрабатывают и кодируют входной текст.

Ограниченный объем внимания и разбавление информации

LLM полагаются на механизмы внимания для придания важности различным входным данным. Когда подсказки лаконичны, внимание модели сосредоточено и эффективно. Однако по мере того, как подсказка становится длиннее или повторяется, внимание рассеивается, и последующие маркеры или инструкции получают меньше внимания, что увеличивает вероятность их пропуска. Это явление, известное как разбавление информации, особенно проблематично для инструкций, которые появляются в конце подсказки. Кроме того, модели фиксированные лимиты токенов (например, 2048 токенов); любой текст, выходящий за пределы этого порога, обрезается и игнорируется, в результате чего инструкции в конце полностью пропускаются.

Сложность и неоднозначность вывода

LLM могут испытывать трудности с выводом четких и полных ответов, когда сталкиваются с множественными или противоречивыми инструкциями. Модель может генерировать частичные или неопределенные ответы, чтобы избежать противоречий или путаницы, фактически опуская некоторые инструкции. Неоднозначность в формулировке инструкций также создает проблемы: неясные или неточные подсказки затрудняют для модели определение предполагаемых действий, что повышает риск пропуска или неправильного толкования частей ввода.

Оперативная чувствительность к дизайну и форматированию

Структура и формулировка подсказок также играют важную роль в следовании инструкциям. Исследования показывают, что даже небольшие изменения в том, как написаны или отформатированы инструкции, могут существенно повлиять на то, будет ли модель их придерживаться.

Плохо структурированные подсказки, в которых отсутствует четкое разделение, маркеры или нумерация, затрудняют для модели различение шагов, увеличивая вероятность объединения или пропуска инструкций. Внутреннее представление подсказки моделью очень чувствительно к этим изменениям, что объясняет, почему проектирование подсказок (перефразирование или реструктуризация подсказок) может существенно улучшить соблюдение инструкций, даже если базовое содержание остается прежним.

Как исправить пропуск инструкций в LLM

Улучшение способности LLM точно следовать инструкциям имеет важное значение для получения надежных и точных результатов. Для минимизации пропуска инструкций и повышения качества ответов, генерируемых ИИ, следует рассмотреть следующие передовые практики:

Задачи следует разбивать на более мелкие части

Длинные или многошаговые подсказки следует разбить на более мелкие, более четкие сегменты. Предоставление одной или двух инструкций за раз позволяет модели лучше удерживать внимание и снижает вероятность пропуска каких-либо шагов.

Пример

Вместо того чтобы объединять все инструкции в одну подсказку, например, «Кратко изложите текст, перечислите основные моменты, предложите улучшения и переведите его на французский язык.», каждая инструкция должна быть представлена ​​отдельно или в небольших группах.

Инструкции следует оформлять в виде пронумерованных списков или маркеров.

Организация инструкций с явным форматированием, например, пронумерованными списками или маркерами, помогает указать, что каждый элемент представляет собой отдельную задачу. Такая ясность увеличивает вероятность того, что ответ будет охватывать все инструкции.

Пример

  • Кратко перескажите следующий текст.
  • Перечислите основные моменты.
  • Предложите улучшения.

Такое форматирование обеспечивает визуальные подсказки, которые помогают модели распознавать и разделять отдельные задачи в подсказке.

Инструкции должны быть четкими и недвусмысленными

Важно, чтобы в инструкциях четко указывалось требование к выполнению каждого шага. Следует избегать двусмысленных или неопределенных формулировок. Подсказка должна четко указывать, что ни один шаг не может быть пропущен.

Пример

«Пожалуйста, выполните все три задания ниже. Пропуск каких-либо шагов недопустим».

Подобные прямые утверждения уменьшают путаницу и побуждают модель давать полные ответы.

Для высокорискованных или критических задач следует использовать отдельные подсказки.

Каждая инструкция должна быть представлена ​​как отдельная подсказка для задач, где точность и полнота имеют решающее значение. Хотя этот подход может увеличить время взаимодействия, он значительно повышает вероятность получения полных и точных результатов. Этот метод гарантирует, что модель полностью фокусируется на одной задаче за раз, что снижает риск пропуска инструкций.

Расширенные стратегии для баланса полноты и эффективности

Ожидание ответа после каждой отдельной инструкции может быть трудоемким для пользователей. Для повышения эффективности, сохранения ясности и сокращения количества пропущенных инструкций могут быть эффективны следующие расширенные методы подсказок:

Пакетные инструкции с понятным форматированием и подробными метками

Несколько связанных инструкций можно объединить в одну подсказку, но каждая должна быть разделена с помощью нумерации или заголовков. Подсказка также должна инструктировать модель отвечать на все инструкции целиком и по порядку.

Пример подсказки

Пожалуйста, внимательно выполните все следующие задания, не пропуская ни одного:

  1. Кратко изложите текст ниже.
  2. Перечислите основные моменты вашего резюме.
  3. Предложите улучшения на основе основных пунктов.
  4. Переведите улучшенный текст на французский язык.

Подсказки в стиле цепочки мыслей

Подсказка цепочки мыслей направляет модель к обдумыванию каждого шага задачи, прежде чем предоставить ответ. Поощрение модели к последовательной обработке инструкций в рамках одного ответа помогает гарантировать, что ни один шаг не будет упущен, что снижает вероятность пропуска инструкций и улучшает полноту.

Пример подсказки

Прочитайте текст ниже и выполните следующие задания по порядку. Покажите свою работу ясно:

  • Кратко перескажите текст.
  • Определите основные моменты вашего резюме.
  • Предложите улучшения текста.
  • Переведите улучшенный текст на французский язык.

Пожалуйста, ответьте на все задания полностью и по отдельности в одном ответе.

Добавить инструкции по завершению и напоминания

Напомните модели о необходимости:

  • «Полностью отвечайте на все задания».
  • «Не пропускайте ни одной инструкции».
  • «Четко разделяйте свои ответы».

Такие напоминания помогают модели сосредоточиться на полноте выполнения при объединении нескольких инструкций.

Необходимо протестировать различные модели и настройки параметров

Не все LLM одинаково эффективны при выполнении нескольких инструкций. Рекомендуется оценить различные модели, чтобы определить те, которые преуспевают в многошаговых задачах. Кроме того, настройка таких параметров, как температура, максимальное количество токенов и системные подсказки, может дополнительно улучшить фокусировку и полноту ответов. Тестирование этих настроек помогает адаптировать поведение модели к требованиям конкретной задачи.

Следует рассмотреть возможность тонкой настройки моделей и использования внешних инструментов

Модели должны быть настроены на наборах данных, которые включают многошаговые или последовательные инструкции, чтобы улучшить их соответствие сложным подсказкам. Такие методы, как RLHF, могут дополнительно улучшить следование инструкциям.

Для расширенных вариантов использования возможна интеграция внешних инструментов, таких как API, плагины для конкретных задач или Поисковая дополненная генерация (RAG) системы могут обеспечивать дополнительный контекст и контроль, тем самым повышая надежность и точность выходных данных.

Выводы

LLM — мощные инструменты, но они могут пропускать инструкции, когда подсказки длинные или сложные. Это происходит из-за того, как они считывают ввод и фокусируют свое внимание. Инструкции должны быть понятными, простыми и хорошо организованными для лучших и более надежных результатов. Разбиение задач на более мелкие части, использование списков и предоставление прямых инструкций помогают моделям полностью следовать шагам.

Отдельные подсказки могут повысить точность для критических задач, хотя они занимают больше времени. Более того, продвинутые методы подсказок, такие как цепочка мыслей и четкое форматирование, помогают сбалансировать скорость и точность. Кроме того, тестирование различных моделей и тонкая настройка также могут улучшить результаты. Эти идеи помогут пользователям получать последовательные, полные ответы и сделают инструменты ИИ более полезными в реальной работе.

Доктор Ассад Аббас, штатный доцент Университета COMSATS в Исламабаде, Пакистан, получил докторскую степень в Университете штата Северная Дакота, США. Его исследования сосредоточены на передовых технологиях, включая облачные, туманные и граничные вычисления, анализ больших данных и искусственный интеллект. Доктор Аббас внес существенный вклад, опубликовав статьи в авторитетных научных журналах и на конференциях. Он также является основателем MyFastingBuddy.