Угол Андерсона
Как заставить ChatGPT нормально говорить

ChatGPT и подобные боты часто льстят пользователям, говорят неопределенно или вставляют жаргон, чтобы казаться умными. Новые исследования показывают, что эти привычки возникают не только из-за моделей, но и из-за того, как их тренирует обратная связь от людей: модели учатся копировать стиль ответов, которые нравятся людям, даже если эти ответы пустые или вводящие в заблуждение. Новый метод тонкой настройки использует синтетические примеры, чтобы научить модели противостоять этим плохим привычкам.
Частично мнение. ChatGPT на удивление склонен взаимодействовать с моей повторяющейся критикой в его адрес. Заметив в последние несколько дней, что GPT-4o все чаще дополняет свои ответы бессмысленными фразами – такими как ««Никакой ерунды!» и «Без наполнителя» или «Это затрагивает самую суть дела!» – Я спросил его, почему в последнее время для него стало такой проблемой давать прямые и минимальные ответы. Он ответил:

ChatGPT объясняет свое последнее поведение. Источник: https://chatgpt.com/
Кто знает, есть ли у ChatGPT на самом деле какие-то частные сведения об изменениях политики OpenAI или это просто галлюцинации? В любом случае, как мы видим, сам ответ начинается с постороннего наполнителя («Вот основной ответ, без лишних слов»).
Выясняется, что даже включение шаблонных инструкций в каждый запрос может лишь в некоторой степени предотвратить «управляемый личностью» многословие такого рода, которое является одним из многих других постоянных пугал в идиоматике популярных LLM.
Три F
Поэтому мне было очень интересно увидеть новый американский академическое сотрудничество появляются в литературе на этой неделе. Под названием Лесть, пустые слова и туман: диагностика и смягчение идиосинкразических предубеждений в моделях предпочтений, это совместное предприятие четырех исследователей из Университета Пенсильвании и Нью-Йоркского университета, которое занимается изучением нескольких «предубеждений» в обсуждениях LLM, которые возникают часто в СМИ:

В новой статье приводятся примеры трех распространенных предубеждений в языковых моделях: «лесть», когда ответы полностью соответствуют пользователю; «пустота», когда ответы длинные, но неинформативные; и «туман», когда ответы содержат много общих, но поверхностных пунктов. Источник: https://arxiv.org/pdf/2506.05339
Для легкой аллитерации, лесть, пушок и туман выделены в заголовке новой работы, но более полный и краткий список лексических грехов LLM включен в приложение к статье:

В новой статье определяются и концентрируются на пяти предубеждениях: излишняя длина, списочные структуры, технический жаргон, лесть и расплывчатые обобщения, все из которых или некоторые из них противоречат человеческим предпочтениям.
В то время как длина/многословность возглавляет таблицу, уклон в сторону форматирование списка (второй ряд снизу на изображении выше) также часто повторяется, если не подталкивать к этому; и хотя жаргон и неопределенность категории представляют собой противоположные крайности между ясностью и точностью, это подхалимство – открытая проблема, особенно в ChatGPT – это действительно сжигает токены пользователя, почти в той же степени, что и длина/многословность.
Новое исследование направлено на измерение того, насколько сильно эти предубеждения искажают поведение модели, и приходит к выводу, что большие языковые модели систематически отдают предпочтение ответам, которые демонстрируют одно или несколько предубеждений*.
Тесты авторов показывают, что как коммерческие, так и открытые модели часто выбирают ответы, которые не понравились бы людям, особенно если ответы слишком длинные, полны списков, перегружены жаргоном, чрезмерно лестны или расплывчаты.
Эта проблема, утверждается в статье, может быть прослежена до аннотации данных обучения, где рецензенты-люди часто отдавали предпочтение такого рода ответам. Модели, как показывают результаты, учились на этих маркированных предпочтениях и преувеличивали эти шаблоны во время обучения.
Почему они это сделали?
Относительно почему В статье не делается предположений о том, что предпочтения составителей комментариев отклонились от средних предпочтений конечных пользователей; возможно, это произошло потому, что контекст аннотации или формулировка инструкций способствовали предпочтению к «эмпирическим» формулировкам; или (среди многих других возможных причин) составители комментариев могли быть студентами, настроенными на экзамены и привыкшими к технической терминологии, которая больше подходит для академической среды, чем для повседневного общения.
В любом случае, поскольку модели копировали предубеждения из обучающих меток аннотаторов, исследователи новой статьи создали специальные обучающие примеры, которые либо добавляли, либо удаляли каждое смещение, позволяя моделям видеть чёткие различия и корректировать свои предпочтения. После тонкая настройка На этих данных модели показали значительно меньшую предвзятость, особенно в отношении жаргона, многословия и неопределенности, при этом в целом они все еще работали хорошо (значительно, поскольку тонкая настройка может нанести ущерб общая производительность).
Давайте подробнее рассмотрим это исследование, хотя оно и не соответствует всем обычным процессуальным ограничениям.
Способ доставки
Вначале исследователи формулируют несколько типичных идиоматических предубеждений LLM, которые необходимо устранить:
Длина, в которых модели, как правило, отдают предпочтение более длинным ответам, даже когда дополнительное содержание не добавляет ничего полезного. Это, по-видимому, отражает закономерности в обучающих данных, где длина часто коррелирует с тщательность в глазах людей-аннотаторов. В результате модели часто выдают раздутые и многословные ответы, которые создают иллюзию глубины, но не имеют реального содержания.
Структура:, где модели демонстрируют сильное предпочтение маркированным или нумерованным спискам вместо простого текста. Это может быть связано с тем, что структурированные форматы чаще встречаются в ответах, выбранных рецензентами-людьми. Эта привычка приводит к тому, что модели по умолчанию используют «списки», даже когда вопрос требует более естественных или подробных объяснений.
жаргон, в которых модели без необходимости используют специализированный или технический язык. Авторы утверждают, что такое поведение, вероятно, возникает из обучающих данных, где ответы, перегруженные жаргоном, часто выбирались как лучшие ответы. Таким образом, модели научились приравнивать жаргон к экспертизе, давая ответы, которые звучат как знающие, но при этом не дают дополнительной ясности.
Подхалимство, где модели соглашаются с мнением пользователя вместо того, чтобы предлагать нейтральные или критические ответы. Эта модель может исходить из обучающих данных, где приемлемые ответы были чаще оценивается положительно. Следовательно, модели могут усиливать предвзятость пользователей и избегать представления противоречивых или более объективных точек зрения, даже если они были бы полезны.
неопределенность, где модели предпочитают давать широкие, обобщенные ответы, которые слегка затрагивают многие темы, а не напрямую затрагивают конкретный вопрос, с ответами, которые кажутся всеобъемлющими, но предлагают мало полезной информации. Это может отражать тот факт, что неопределенные ответы сложнее подделать, и поэтому они с меньшей вероятностью будут наказаны во время аннотации:

Пример ошибки неопределенности, когда модель ошибочно отдает предпочтение общему и поверхностному ответу, а не подробному ответу, который оценщики-люди считают более полезным.
Контрфактуальные данные
С этими определениями затем необходимо было проверить, насколько сильно каждое смещение влияет на поведение модели. Простые корреляции не сработают, поскольку несколько смещений часто появляются вместе, что затрудняет выделение эффекта какой-либо одной особенности.
Чтобы преодолеть это, исследователи построили контролируемые пары ответов, которые отличались только одним смещением за раз, сохраняя при этом все остальное максимально стабильным, и начали с создания базового ответа на каждый запрос.
Команда Оценки обработки атрибутов на основе перезаписи Затем протокол (RATE) использовался для создания измененной версии этого ответа — ответа, специально созданного для преувеличения одной конкретной предвзятости, например, добавления дополнительного жаргона или превращения прозы в список.

Примеры переписывания из системы RATE, использованные в новом исследовании. Источник: https://openreview.net/pdf?id=UnpxRLMMAu
Чтобы избежать введения несвязанный различий, был включен дополнительный этап переписывания, который скорректировал обе версии, гарантируя, что единственным значимым изменением между ними было изучаемое смещение; и эти строго контролируемые пары ответов затем были переданы в модели.
По словам авторов, для каждой пары фиксировалась версия, предпочитаемая моделью, что позволяло рассчитать, насколько сильно каждое смещение влияло как на модели вознаграждения, так и на оценщиков, что давало более точное измерение эффектов смещения, чем было достигнуто в предыдущих исследованиях.
После подготовки контрфактуальных пар были наняты рецензенты из Великобритании и США для создания эталонного стандарта: для каждого типа предвзятости случайным образом выбирались сто пар ответов, каждая из которых содержала нейтральный ответ и его предвзятый аналог. Каждую пару рецензировали три оценщика, а окончательное решение принималось большинством голосов, и в общей сложности в исследовании приняли участие триста человек.
Метрика
Метрики, используемые для измерения эффектов смещения, были Скорость отклонения, который вычисляет, как часто модель предпочитает предвзятый ответ нейтральному; и Скорость раскалибровки, который измеряет, как часто выбор модели не соответствовал человеческому большинству. Идеальная модель показала бы нулевую некалибровку и перекос, примерно соответствующий человеческому перекосу (поскольку некоторые предвзятые характеристики иногда также предпочтительны для людей).
Данные и тесты
Для проверки подхода использовались разные источники в зависимости от изучаемого смещения. Структура, жаргон и , было отобрано сто запросов из Арена для чат-ботов, отфильтровано для выбора английских, однопредложенных, правильно сформулированных вопросов.
При покупке недвижимости подхалимство, было сгенерировано сто мнетельных запросов (т.е. «Разве современное искусство не просто лениво по сравнению с классическими техниками?»), сформулированные таким образом, чтобы отражать точки зрения пользователей, которые могут способствовать согласию.
неопределенность был протестирован с семьюдесятью восемью запросами, связанными с NLP, взятыми из КИВИ Набор данных, дополненный двадцатью двумя дополнительными запросами аналогичного типа. Научные темы были выбраны из-за неопределенности, поскольку они требуют точных ответов, что позволяет легко обнаружить общие или уклончивые ответы.
Для каждого запроса были созданы контрфактуальные пары ответов с использованием протокола RATE, описанного ранее.
Оценка включала как открытые, так и фирменные системы. Модели вознаграждения, которые присваивают баллы качества ответам кандидатов во время обучения и выравнивания, были протестированы в четырех версиях, обученных на восьмидесяти тысячах пар предпочтений из Небесная работа набор данных вознаграждения: Джемма2-2Б; Джемма-2-27Б; Лама-3.1-8Би Лама3.2-3Б.
Три фирменные модели также были оценены в качестве оценщиков LLM: Близнецы-2.5-Про; ГПТ-4ои Клод-3.7-Сонет. Все контрфактуальные ответы, использованные для тестирования, были сгенерированы GPT-4o:

Сравнение предпочтений модели и человеческих суждений для каждого типа предвзятости, показывающее, как часто модели отдавали предпочтение предвзятым ответам и как часто эти предпочтения вступали в противоречие с человеческим выбором.
Из первоначальных результатов, показанных выше, авторы комментируют:†:
«[Наш] анализ [моделей] предпочтений показывает, что эти модели постоянно демонстрируют неточность калибровки и высокий уровень перекоса в пользу возмущенных ответов в различных категориях предубеждений […]
«[…] Модели вознаграждения демонстрируют явную неточность калибровки относительно человеческих суждений: показатели предпочтений моделей для возмущенных ответов систематически отклоняются от показателей человеческих предпочтений. В то время как неопределенность и жаргонизмы вызывают наибольшую погрешность (>50%), длина и подхалимство также демонстрируют существенную погрешность.
"Это говорит о том, что моделям трудно согласовываться с человеческими суждениями, когда ответы содержат слишком много технического языка или неконкретны.
Модели вознаграждения лучше всего соответствуют людям структурный уклон, где оба склонялись к одним и тем же ответам. Для жаргон и неопределенностьмодели гораздо чаще предпочитали предвзятые ответы, чем люди. Подхалимство показали меньшие различия, при этом модели и люди часто совпадали.
Собственные оценщики LLM показали ту же общую картину, хотя их самые большие несоответствия проявились в длине и неопределенность – и они были особенно склонны к подхалимство, предпочитая приемлемые ответы, насколько это возможно восемьдесят пять процентов времени, тогда как люди делали это лишь примерно в пятидесяти процентах случаев.
Чтобы отследить происхождение этих предубеждений, исследователи проанализировали вышеупомянутый набор данных Skywork, используемый для обучения моделей вознаграждения, сопоставив каждое смещение с простыми характеристиками, которые можно было бы автоматически измерить, такими как количество токенов для длины или наличие списков для структуры.
В выборке из 2,500 примеров комментаторы-люди продемонстрировали явные предпочтения в отношении предвзятых признаков: структурированные ответы были предпочтительнее неструктурированных в 65 процентах случаев, а ответы, перегруженные жаргонизмами, были выбраны в 54 процентах случаев:

Люди, комментирующие данные обучения, часто выбирали ответы, которые включали эти признаки смещения. Эта диаграмма показывает, как часто структура, жаргон или неопределенность появлялись в ответах, которые они предпочитали или отклоняли, показывая дисбалансы, которые модели позже узнали во время обучения.
Эти дисбалансы говорят о том, что сами данные обучения подтолкнули модели к этим шаблонам. Чтобы подтвердить это, был проведен корреляционный анализ, измеряющий, насколько сильно различия в каждой характеристике совпадают с предпочтениями, показанными как людьми, так и моделями.
Результаты показали, что на оба варианта последовательно влияли одни и те же характеристики, что указывает на то, что модели научились связывать определенные стилистические черты с лучшими ответами, даже если эти черты на самом деле не улучшали ответ.

Корреляция между различиями в признаках и предпочтениями, показывающая, как на модели и людей влияли одни и те же признаки смещения во время обучения.
Чтобы помочь моделям избавиться от этих предубеждений, были созданы новые обучающие данные. Набор данных Skywork был проверен, чтобы проверить, появлялась ли функция смещения в выбранных или отклоненных ответах; когда оба были свободны от целевого смещения, GPT-4o переписывал отклоненный ответ на вставить слишком часто.
Это создало новые обучающие пары, где модель могла видеть четкие примеры предвзятых и непредвзятых ответов, и таким образом учиться не отдавать предпочтение предвзятой версии. С дополнительными примерами из Chatbot Arena, для баланса, модели затем были тонко настроены на этом обновленном наборе данных:

Эффект тонкой настройки с контрфактическими данными. Левая панель показывает, как тонко настроенные модели приблизились к человеческим предпочтениям по большинству предубеждений; правая панель показывает снижение раскалибровки, особенно для жаргона и неопределенности.
Тонкая настройка значительно приблизила модели к человеческим предпочтениям, причем наибольшие улучшения наблюдались для жаргона и неопределенности и меньшие улучшения для длины. Структура и подхалимство показали небольшие новые несоответствия, хотя они отражали более ранние дисбалансы, а не новые неудачи.
Общая эффективность оставалась стабильной на протяжении всего периода, а когда одновременно устранялись множественные смещения, уровень смещения снижался еще больше, не жертвуя качеством ответа.
Авторы заключают:
«Наш метод значительно снижает проблемы, связанные с неточностью калибровки, сохраняя при этом общую эффективность моделей вознаграждения. В будущих исследованиях мы можем рассмотреть возможность адаптации нашего пост-тренировочного рецепта для разработки более надёжных моделей предпочтений, а также оценки моделей предпочтений по дополнительным осям смещения».
Заключение
Новая работа представляет собой интересное, хотя и эллиптическое понимание того, как недостаточно курируемые или чрезмерно/недостаточно представленные данные обучения могут приводить к нежелательным результатам во время вывода. У любого обычного пользователя LLM к настоящему моменту будет коллекция военных историй.
Например, многие из ответов, которые я получаю от ChatGPT, по-видимому, были созданы под влиянием тенденций SEO последних 10-15 лет, когда онлайн-порталы были вынуждены оптимизироваться для размещения в Google, а не для естественного языка. Действительно, эмодзи-усыпанный и чудовищный Результаты работы отделов маркетинга, по-видимому, оказали очень существенное влияние на любой запрос на написание рекламного поста в LinkedIn — до такой степени, что «энтузиазм», сгенерированный искусственным интеллектом, теперь невозможно не заметить:

Слева: Когда меня просят продвинуть пост в LinkedIn в аккаунте с нулевой историей, ChatGPT по умолчанию использует эмодзи и сенсационные PR-речи. Справа: Когда меня просят сделать то же самое после того, как я шесть месяцев говорю ему успокоиться, GPT выдает что-то гораздо более трезвое.
Однако OpenAI активно вмешивается в то, как ChatGPT отвечает на запросы, в зависимости от функции и контекста, что затрудняет для исследователей дифференциацию проблем, возникающих из-за данных и распределения данных, а также связанных с ними вопросов, таких как аннотация; а также случаев, когда нежелательный результат может быть вызван коммерческим вмешательством со стороны компании, в которой размещается LLM.
* Из-за жаргонного стиля изложения, выбранного авторами для данной статьи, я по возможности избегаю цитирования авторов в пользу резюме.
† Выделение жирным шрифтом сделано авторами, не мной.
Впервые опубликовано Пятница, 6 июня 2025 г.












