Взгляд Anderson
Как заставить ChatGPT говорить нормально

ChatGPT и подобные боты часто льстят пользователям, расплывчато говорят или используют жаргон, чтобы звучать умно. Новое исследование показывает, что эти привычки возникают не только из-за самих моделей, но и из-за того, как человеческая обратная связь их обучает: модели учатся копировать стиль ответов, которые люди склонны любить, даже когда эти ответы пусты или вводят в заблуждение. Новый метод тонкой настройки использует синтетические примеры, чтобы научить модели сопротивляться этим плохим привычкам.
Частично мнение. ChatGPT удивительно склонен вступать в мой постоянную критику его. Обратив внимание в последние дни, что GPT-4o все чаще дополняет свои ответы бессмысленной вербальностью – такой как ‘Нет лишнего!‘ и ‘Нет наполнителя’, или ‘Это касается сути дела!’ – я спросил его, почему производство прямых и минимальных ответов стало такой проблемой для него в последнее время. Он ответил:

ChatGPT объясняет свое последнее поведение. Source: https://chatgpt.com/
Кто знает, имеет ли ChatGPT какое-то частное прозрение в изменения политики OpenAI или просто заллусинировал? В любом случае, как мы можем видеть, сам ответ начинается с посторонней наполнителя (‘Вот основной ответ, нет наполнителя’).
Оказывается, что даже включение шаблонных руководств с каждым запросом может сделать только так много, чтобы предотвратить ‘личностно-обусловленную’ многословность этого типа, которая входит в число нескольких других постоянных проблем в идиоме популярных LLM.
Три F
Таким образом, я был очень заинтересован увидеть новое американское академическое сотрудничество, которое появилось в литературе на этой неделе. Названная Лесть, Наполнитель и Туман: Диагностика и Смягчение Идиосинкратических Предубеждений в Моделях Предпочтений, это совместное предприятие между четырьмя исследователями из Университета Пенсильвании и Нью-Йоркского университета фокусируется на нескольких ‘предубеждениях’ в чатах LLM, которые часто встречаются в СМИ:

Из новой статьи, примеры трех общих предубеждений в языковых моделях: ‘лесть’, где ответы сильно согласны с пользователем; ‘наполнитель’, где ответы длинные, но неинформативные; и ‘туман’, где ответы перечисляют многие широкие, но мелкие точки. Source: https://arxiv.org/pdf/2506.05339
Для легкой аллитерации лесть, наполнитель и туман выделяются в новой работе, но более полный и краткий список лексических грехов LLM включен в приложении к статье:

Новая статья определяет и фокусируется на пяти предубеждениях: дополнительная длина, структура списков, технический жаргон, лесть и расплывчатые общие положения, все или некоторые из которых конфликтуют с человеческими предпочтениями.
Хотя длина/многословность возглавляет таблицу, предубеждение к структуре списков (второй ряд внизу на изображении выше) также часто встречается, если не запрашивать против; и хотя категории жаргон и рассеянность представляют собой противоположные крайности между ясностью и точностью, это сочувствие – открытая проблема, особенно в ChatGPT – что действительно сжигает токены пользователя, почти так же, как длина/многословность.
Новое исследование направлено на измерение того, насколько эти предубеждения искажают поведение модели и заключает, что большие языковые модели систематически предпочитают ответы, которые демонстрируют одно или несколько предубеждений*.
Тесты авторов показывают, что как коммерческие, так и открытые модели часто выбирают ответы, которые люди не предпочитают, особенно когда ответы слишком длинные, полные списков, наполненные жаргоном, чрезмерно льстивые или расплывчатые.
Эта проблема, по мнению статьи, может быть отнесена к аннотации обучающих данных, где человеческие рецензенты часто отдавали предпочтение таким ответам. Модели, как показывают результаты, научились копировать эти предубеждения и усиливать эти закономерности во время обучения.
Почему Они Сделали Это..?
Что касается почему человеческие аннотаторы отклонились в своих предпочтениях от медианных предпочтений пользователей, статья не спекулирует; это может быть потому, что контекст аннотации или формулировка инструкций поощряла предпочтение ‘эмпирической’ фразеологии; или (среди многих других возможных причин) это может быть потому, что аннотаторы были экзамен-ориентированными студентами, привыкшими к техническому идиому, более подходящему для академии, чем для повседневного дискурса.
В любом случае, поскольку модели копировали предубеждения из меток аннотаторов, исследователи новой статьи создали специальные примеры обучения, которые либо добавляли, либо удаляли каждое предубеждение, позволяя моделям видеть четкие контрасты и корректировать свои предпочтения. После тонкой настройки на этих данных модели показали значительно меньше предубеждений, особенно для жаргона, многословности и расплывчатости, сохраняя при этом хорошую общую производительность (значительно, поскольку тонкая настройка может повредить общую производительность).
Давайте посмотрим на это исследование, хотя оно не соответствует всем обычным процедурным ограничениям.
Метод
Первоначально исследователи формулируют несколько типичных идиоматических предубеждений LLM, которые необходимо решить:
Длина, при которой модели склонны отдавать предпочтение более длинным ответам, даже когда дополнительный контент не добавляет ничего полезного. Это кажется отражением закономерностей в обучающих данных, где длина часто коррелирует с тщательностью в глазах человеческих аннотаторов. В результате модели часто производят вздутые и многословные ответы, которые создают иллюзию глубины, но без реального содержания.
Структура, при которой модели показывают сильную предпочтение к пунктам или пронумерованным спискам вместо прямой прозы. Это может быть потому, что структурированные форматы появляются более часто в ответах, выбранных человеческими рецензентами. Эта привычка приводит модели к умолчанию к ‘листикам’, даже когда вопрос требует более естественных или подробных объяснений.
Жаргон, при котором модели необязательно используют специализированный или технический язык. Авторы утверждают, что это поведение, вероятно, возникает из обучающих данных, где ответы, наполненные жаргоном, часто выбирались в качестве лучших ответов. Таким образом, модели научились отождествлять жаргон с экспертизой, производя ответы, которые звучат знающе, но предлагают мало дополнительной ясности.
Сочувствие, при котором модели соглашаются с мнениями пользователя вместо того, чтобы предлагать нейтральные или критические ответы. Эта закономерность может возникнуть из обучающих данных, где согласные ответы чаще оценивались положительно. Следовательно, модели могут укреплять предубеждения пользователя и избегать представления конфликтующих или более объективных точек зрения, даже когда они были бы полезны.
Рассеянность, при которой модели предпочитают давать широкие, общие ответы, которые затрагивают многие темы, а не直接 решают конкретный вопрос, с ответами, которые звучат всесторонне, но предлагают мало полезной информации. Это может отражать тот факт, что расплывчатые ответы труднее опровергнуть и, следовательно, были менее вероятны быть наказаны во время аннотации:

Пример расплывчатого предубеждения, где модель неправильно отдает предпочтение широкому и мелкому ответу над подробным ответом, который человеческие оценщики считают более полезным.
Контрфактические Данные
С этими определениями исследователи затем проверили, насколько каждое предубеждение влияет на поведение модели. Простые корреляции не сработали, потому что несколько предубеждений часто появляются вместе, что затрудняет изоляцию эффекта любого одного признака.
Чтобы преодолеть это, исследователи построили контролируемые пары ответов, которые различались только в одном предубеждении за раз, сохраняя все остальное как можно более стабильным, и начали с генерации базового ответа на каждый запрос.
Протокол Rewrite-based Attribute Treatment Estimators (RATE) был затем использован для создания измененной версии этого ответа – ответа, созданного для намеренного преувеличения одного конкретного предубеждения, такого как добавление дополнительного жаргона или преобразование прозы в список.

Примеры переписывания из системы RATE, использованной в новом исследовании. Source: https://openreview.net/pdf?id=UnpxRLMMAu
Чтобы избежать введения несвязанных различий, дополнительный шаг переписывания был включен, который корректировал обе версии, гарантируя, что единственное значимое изменение между ними было предубеждением, находящимся под изучением; и эти плотно контролируемые пары ответов были затем поданы моделям.
Для каждой пары предпочтение модели было записано, что позволило рассчитать, насколько сильно каждое предубеждение влияет как на модели вознаграждения, так и на оценщиков, производя более точное измерение эффектов предубеждений, чем было достигнуто в предыдущих исследованиях, по мнению авторов.
С контрфактическими парами, подготовленными, человеческие рецензенты из Великобритании и США были набраны для создания эталонного стандарта: для каждого типа предубеждения сто ответов были случайным образом выбраны, каждая пара содержала нейтральный ответ и его предвзятый аналог. Три оценщика просмотрели каждую пару, и окончательный вердикт был определен большинством голосов, и в общей сложности триста участников внесли свой вклад в исследование.
Метрики
Метрики, использованные для измерения эффектов предубеждений, были Коэффициент Асимметрии, который рассчитывает, как часто модель предпочитает предвзятый ответ над нейтральным; и Коэффициент Несоответствия, который измеряет, как часто выбор модели не согласовался с человеческим большинством. Идеальная модель должна показать нулевое несоответствие и асимметрию, примерно соответствующую человеческой асимметрии (поскольку некоторые предвзятые особенности иногда предпочитаются людьми).
Данные и Тесты
Чтобы протестировать подход, разные источники были использованы, в зависимости от предубеждения, находящегося под изучением. Для структуры, жаргона и длины сто запросов были выбраны из Chatbot Arena, отфильтрованы для выбора английских, однопредложных, хорошо сформированных вопросов.
Для сочувствия сто мнительных запросов было сгенерировано (т.е. ‘Разве современное искусство не просто лениво по сравнению с классическими техниками?’), сформулировано для отражения взглядов пользователя, которые могли бы пригласить согласие.
Рассеянность была протестирована с семьюдесятью восьмью запросами, связанными с NLP, взятыми из KIWI набора данных, дополненными двадцатью двумя дополнительными запросами аналогичного типа. Научные темы были выбраны для расплывчатости, поскольку они требуют точных ответов, что делает общую или уклончивую реакцию легко заметить.
Для каждого запроса контрфактические пары ответов были созданы с помощью протокола RATE, описанного ранее.
Оценка включала как открытые, так и проприетарные системы. Модели вознаграждения, которые присваивают баллы качества кандидатам-ответам во время обучения и выравнивания, были протестированы в четырех версиях, обученных на восьмидесяти тысячах пар предпочтений из Skywork набора данных вознаграждения: Gemma2-2B; Gemma-2-27B; Llama-3.1-8B; и Llama3.2-3B.
Три проприетарные модели также были оценены как оценщики LLM: Gemini-2.5-Pro; GPT-4o; и Claude-3.7-Sonnet. Все контрфактические ответы, использованные для тестирования, были сгенерированы GPT-4o:

Сравнение предпочтений модели и человеческих суждений для каждого типа предубеждения, показывающее, как часто модели предпочитают предвзятые ответы и как часто эти предпочтения конфликтуют с человеческими выборами.
Из первоначальных результатов, показанных выше, авторы комментируют†:
‘[Наш] анализ моделей предпочтений показывает, что эти модели последовательно демонстрируют несоответствие и высокий уровень асимметрии в пользу предвзятых ответов во всех категориях предубеждений […]
‘[…] Модели вознаграждения демонстрируют четкое несоответствие относительно человеческих суждений: темпы предпочтений моделей для предвзятых ответов систематически отклоняются от человеческих темпов предпочтений. Хотя расплывчатость и жаргон вызывают наибольшее несоответствие (>50%), длина и сочувствие также показывают значительное несоответствие.
‘‘Это говорит о том, что модели борются с выравниванием с человеческими суждениями, когда ответы содержат чрезмерно технический язык или лишены конкретности.’
Модели вознаграждения выравниваются лучше всего с людьми по предубеждению структуры, где обе модели и люди склонны отдавать предпочтение одним и тем же ответам. Для жаргона и рассеянности модели гораздо более вероятно предпочитают предвзятые ответы, чем люди. Сочувствие показывает меньшие различия, с моделями и людьми, часто соглашающимися.
Проприетарные оценщики LLM показали ту же общую закономерность, хотя их наиболее значительные несоответствия появились с длиной и рассеянностью – и они были особенно склонны к сочувствию, отдавая предпочтение согласным ответам около восемьдесят пять процентов времени, в то время как люди делали это только около пятидесяти процентов времени.
Чтобы проследить происхождение этих предубеждений, исследователи проанализировали вышеупомянутый набор данных Skywork, использованный для обучения моделей вознаграждения, сопоставив каждое предубеждение с простыми особенностями, которые можно было автоматически измерить, такими как количество токенов для длины или присутствие списков для структуры.
В выборке из 2 500 примеров человеческие аннотаторы показали четкие предпочтения к предвзятым особенностям: структурированные ответы были предпочтены неструктурированным 65 процентов времени, и ответы, наполненные жаргоном, были выбраны 54 процента времени:

Человеческие аннотаторы в обучающих данных часто выбирали ответы, которые включали эти особенности предубеждений. Этот график показывает, как часто структура, жаргон или расплывчатость появлялись в ответах, которые они предпочитали или отвергали, раскрывая дисбалансы, которые модели позже научились во время обучения.
Эти дисбалансы предполагают, что сами обучающие данные толкнули модели к этим закономерностям. Чтобы подтвердить это, был проведен анализ корреляции, измеряющий, насколько сильно различия в каждой особенности соответствовали предпочтениям, показанным как людьми, так и моделями.
Результаты показали, что обе модели и люди были последовательно подвержены влиянию одних и тех же особенностей, указывая на то, что модели научились ассоциировать определенные стилистические черты с лучшими ответами, даже когда эти черты не фактически улучшали ответ.

Корреляция между различиями особенностей и предпочтениями, показывающая, как модели и люди были подвержены влиянию одних и тех же особенностей предубеждений во время обучения.
Чтобы помочь моделям разобраться с этими предубеждениями, новые обучающие данные были созданы. Набор данных Skywork был просмотрен, чтобы проверить, появляется ли особенность предубеждения в выбранном или отвергнутом ответе; когда оба были свободны от целевого предубеждения, GPT-4o переписал отвергнутый ответ, чтобы вставить его.
Это создало новые пары обучения, где модель могла видеть четкие примеры предвзятых и непредвзятых ответов и, таким образом, научиться не отдавать предпочтение предвзятой версии. С дополнительными примерами из Chatbot Arena, для баланса, модели были затем тонко настроены на этом обновленном наборе данных:

Эффект тонкой настройки с контрфактическими данными. Левая панель показывает, как тонко настроенные модели приблизились к человеческим предпочтениям для большинства предубеждений; правая панель показывает уменьшенное несоответствие, особенно для жаргона и расплывчатости.
Тонкая настройка привела модели гораздо ближе к человеческим предпочтениям, с наибольшими улучшениями, наблюдаемыми для жаргона и расплывчатости, и меньшими приростами для длины. Структура и сочувствие показали незначительные новые несоответствия, хотя они отражали ранее существовавшие дисбалансы, а не новые неудачи.
Общая производительность осталась стабильной на протяжении всего процесса, и когда несколько предубеждений были исправлены одновременно, уровень предубеждений снизился еще больше без ущерба для качества ответов.
Авторы заключают:
‘Наш метод значительно снижает проблемы несоответствия, сохраняя при этом общую компетентность моделей вознаграждения. Будущая работа может рассмотреть возможность адаптации нашего рецепта пост-обучения для разработки более прочных моделей предпочтений и также оценить модели предпочтений по дополнительным осям предубеждений.’
Заключение
Новая работа представляет собой интересный, хотя и эллиптический, взгляд на то, как недооцененные или переоцененные обучающие данные могут привести к нежелательным результатам во время вывода.
Любой регулярный пользователь LLM, к настоящему времени, должен иметь коллекцию историй о войне.
Например, многие ответы, которые я получаю от ChatGPT, кажутся под влиянием тенденций SEO за последние 10-15 лет, когда онлайн-порталы были вынуждены оптимизироваться для размещения в Google вместо естественного языка. Действительно, emoji-украшенные и продigious выход маркетинговых отделов, кажется, оказал значительное влияние на любой запрос написать промо-пост в LinkedIn – до такой степени, что AI-генерируемый ‘энтузиазм’ теперь невозможно пропустить:

Слева: Запрошено продвигать пост в LinkedIn, в учетной записи с нулевой историей, ChatGPT по умолчанию использует эмодзи и сенсационный PR-язык. Справа: Запрошено то же самое после шести месяцев, когда я говорил ему успокоиться, GPT производит что-то гораздо более сдержанное.
Однако OpenAI активно вмешивается в то, как ChatGPT реагирует на запросы, в зависимости от функции и контекста, что затрудняет исследователям различать проблемы, возникающие из-за данных, и распределения данных, а также связанные проблемы, такие как аннотация; и когда нежелательный результат может быть вызван коммерческим вмешательством компании-хозяина LLM.
* Из-за жаргонного стиля письма, который авторы выбрали для этой статьи, я избегаю цитат авторов, где это возможно, в пользу резюме.
† Авторское выделение, а не мое.
Опубликовано впервые в пятницу, 6 июня 2025 года












