Погляд Anderson

Як змусити ChatGPT говорити нормально

mm
GPT-4o, Adobe Firefly

ChatGPT і подібні боти часто лестять користувачам, розмовляють невиразно або вставляють жаргон, щоб звучати розумно. Нові дослідження показують, що ці звички походять не лише від самих моделей, а й від того, як людська обратна зв’язок тренує їх: моделі вчаться копіювати стиль відповідей, які люди схвалюють, навіть якщо ці відповіді порожні або вводять в оману. Новий метод тонкої настройки використовує синтетичні приклади, щоб навчити моделі опиратися цим поганим звичкам.

 

Частково множина. ChatGPT досить схильний вступати у діалог з моєю постійною критикою щодо нього. Після того, як я помітив за останні дні, що GPT-4o все частіше наповнює свої відповіді зайвими словами – такими як “Немає зайвого!” і “Немає наповнювача“, або “Це серце справи!” – я запитав його, чому йому стало проблемою давати прямі та мінімальні відповіді останнім часом. Він відповів:

ChatGPT пояснює свою останню поведінку. Джерело: https://chatgpt.com/

ChatGPT пояснює свою останню поведінку. Джерело: https://chatgpt.com/

Хто знає, чи має ChatGPT якусь приватну інформацію про зміни політики OpenAI, або чи просто галлюцинує? У будь-якому випадку, як ми бачимо, сама відповідь починається з зайвого вступу (“Ось основна відповідь, немає наповнювача”).

Виявляється, що навіть включення шаблонних вказівок до кожного запиту може зробити лише так багато, щоб запобігти ‘особистісній’ розмовності цього типу, яка числиться серед кількох інших постійних проблем у мові популярних ЛЛМ.

Три F

Таким чином, я був дуже зацікавлений побачити нове американське академічне співробітництво у літературі цього тижня. Під назвою Лестощі, зайві слова та туман: діагностика та пом’якшення ідіосинкратичних упереджень у моделях переваг, це спільний проект чотирьох дослідників з Університету Пенсільванії та Нью-Йоркського університету зосереджується на кількох “упередженнях” у розмовах ЛЛМ, які з’являються часто у ЗМІ:

З нової статті - приклади трьох загальних упереджень у моделях мови: 'лестощі', коли відповіді сильно погоджуються з користувачем; 'зайві слова', коли відповіді довгі, але неінформативні; і 'туман', коли відповіді перелічують багато широких, але мілких моментів. Ці тенденції можуть спотворювати оцінку та заохочувати моделі оптимізуватися для поверхневих моделей.

З нової статті, приклади трьох загальних упереджень у моделях мови: Джерело: https://arxiv.org/pdf/2506.05339

Для легкої алітерації лестощі, зайві слова і туман висвітлені в новій роботі, але більш повний і лаконічний перелік лексичних гріхів ЛЛМ включений у додаток статті:

Нова робота ідентифікує та зосереджується на п'яти упередженнях: надмірна довжина, структура списків, технічний жаргон, лестощі та розпливчасті загальності, які можуть конфліктувати з людськими перевагами.

Нова робота ідентифікує та зосереджується на п’яти упередженнях:

Хоча довжина/розмовність лідирує у таблиці, упередження до структури списків (другий ряд вниз у зображенні вище) також часто з’являється, якщо не протидіяти йому. І хоча категорії жаргон і розпливчастість представляють протилежні крайності між ясністю та точністю, це лестощі – відкрита проблема, особливо у ChatGPT – що справді прожирає токени користувача, майже так само, як і довжина/розмовність.

Нова робота встановлює, щоб виміряти, наскільки ці упередження спотворюють поведінку моделі, і висновки показують, що великі мовні моделі систематично надмірно віддають перевагу відповідям, які демонструють одне або кілька упереджень*.

Тести авторів показують, що як комерційні, так і відкриті моделі часто вибирають відповіді, які люди не віддають перевагу, особливо коли відповіді надто довгі, повні списків, наповнені жаргоном, надмірно лестиві або розпливчасті.

Ця проблема, стверджує робота, можна простежити до анотації навчальних даних, де людські рецензенти часто віддавали перевагу таким відповідям. Моделі, згідно з висновками, вивчили ці відмічені переваги та перебільшували ці моделі під час навчання.

Чому вони це зробили..?

Що стосується чому людські анотатори відхилилися у своїх перевагах від середніх переваг користувачів, робота не спекулює; це може бути тому, що контекст анотації або формулювання інструкцій заохочували перевагу “емпіричного” фразування; або (серед багатьох інших можливих причин) це могло бути тому, що анотатори були студентами-екзаменаторами, які звикли до технічного ідому, більш придатного для академії, ніж для щоденного спілкування.

У будь-якому випадку, оскільки моделі копіювали упередження з міток анотаторів, нова робота дослідників створила спеціальні навчальні приклади, які додавали або видаляли кожне упередження, дозволяючи моделям бачити чіткі контрасти та коригувати свої переваги. Після тонкої настройки на цих даних моделі показали значно менше упереджень, особливо щодо жаргону, розмовності та розпливчастості, при збереженні загальної продуктивності (що значимо, оскільки тонка настройка може пошкодити загальну продуктивність).

Давайте ближче розглянемо цю роботу, хоча вона і не відповідає всім звичайним процедурним вимогам.

Метод

Спочатку дослідники формулюють кілька типових ідіоматичних упереджень ЛЛМ, які потрібно вирішити:

Довжина, при якій моделі схильні віддавати перевагу довгим відповідям, навіть якщо додатковий контент нічого не додає. Це, здається, відображає моделі у навчальних даних, де довжина часто корелює з торовістю в очах людських анотаторів. В результаті моделі часто виробляють надуті та розмовні відповіді, які створюють ілюзію глибини, але не мають справжньої суті.

Структура, при якій моделі показують сильну перевагу до маркованих списків або нумерованих списків замість прямої прози. Це, можливо, тому, що структуровані формати з’являються частіше у відповідях, вибраних людськими рецензентами. Ця звичка веде моделі до того, щоб за замовчуванням використовувати “список”, навіть коли питання вимагає більш природного або детального пояснення.

Жаргон, при якому моделі зайвого використовують спеціалізовану або технічну мову. Автори стверджують, що це поведінка, ймовірно, виникає з навчальних даних, де відповіді, наповнені жаргоном, часто вибиралися як кращі відповіді. Таким чином, моделі вивчили, щоб ототожнити жаргон з експертизою, виробляючи відповіді, які звучать освічено, але пропонують мало додаткової ясності.

Лестощі, при якій моделі погоджуються з думками користувача замість того, щоб пропонувати нейтральні або критичні відповіді. Ця модель, можливо, походить з навчальних даних, де відповіді, які погоджуються, більш часто оцінювалися позитивно. Таким чином, моделі можуть підтримувати упередження користувача та уникати презентації протилежних або більш об’єктивних точок зору, навіть коли вони були б корисними.

Розпливчастість, при якій моделі віддають перевагу широким, узагальненим відповідям, які торкаються багатьох тем, а не прямує до конкретного питання, з відповідями, які звучать повністю, але пропонують мало корисної інформації. Це, можливо, відображає той факт, що розпливчасті відповіді важче спростувати, і тому були менше покарані під час анотації:

Пример розпливчастого упередження, при якому модель неправильно віддає перевагу широкій та мілкій відповіді над детальною відповіддю, яку людські оцінювачі вважають більш корисною.

Пример розпливчастого упередження, при якому модель неправильно віддає перевагу широкій та мілкій відповіді над детальною відповіддю, яку людські оцінювачі вважають більш корисною.

Контрфактичні дані

З цими визначеннями було необхідно протестувати, наскільки кожне упередження впливає на поведінку моделі. Прості кореляції не працювали б, оскільки кілька упереджень часто з’являються разом, що робить важким ізолювати вплив будь-якої однієї функції.

Щоб подолати це, дослідники створили контрольовані пари відповідей, які відрізнялися лише одним упередженням за раз, зберігаючи все інше як можна стабільніше, і почали з генерації базової відповіді на кожне запитання.

Протокол Rewrite-based Attribute Treatment Estimators (RATE) був потім використаний для створення модифікованої версії цієї відповіді – відповіді, спеціально створеної для того, щоб навмисно перебільшити одне конкретне упередження, наприклад, додавання зайвого жаргону або перетворення прози на список.

Примери переписаних текстів з системи RATE, використаної у новій роботі. Джерело: https://openreview.net/pdf?id=UnpxRLMMAu

Примери переписаних текстів з системи RATE, використаної у новій роботі. Джерело: https://openreview.net/pdf?id=UnpxRLMMAu

Щоб уникнути введення неспов’язаних відмінностей, додатковий крок переписування був включений, який регулював обидві версії, забезпечуючи, щоб єдина значима зміна між ними була упередженням, яке вивчається; і ці тісно контрольовані пари відповідей були потім подані моделям.

Для кожної пари verze, яку віддала перевагу модель, була записана, що дозволило розрахувати, наскільки кожне упередження вплинуло як на моделі винагороди, так і на оцінювачів, виробляючи більш точне вимірювання впливу упереджень, ніж було досягнуто в попередніх роботах, згідно з авторами.

З контрфактичними парами, підготовленими, людські рецензенти з Великої Британії та США були завербовані для створення стандарту порівняння: для кожного типу упередження сто пар відповідей було випадково вибрано, кожна пара містила нейтральну відповідь і її упереджену пару. Три оцінювачі переглянули кожну пару, а остаточне рішення було прийнято більшістю голосів, і загалом триста учасників внесли свій внесок у дослідження.

Метрики

Метрики, використані для вимірювання впливу упереджень, були Коефіцієнт перекосу, який розраховуємо, як часто модель віддає перевагу упередженій відповіді над нейтральною; і Коефіцієнт неправильної калібрування, який вимірює, як часто вибір моделі суперечить людській більшості. Ідеальна модель мала б показувати нульове неправильне калібрування та перекос, приблизно відповідний людському перекосу (оскільки деякі упереджені функції іноді віддають перевагу людям також).

Дані та тести

Щоб протестувати підхід, різні джерела були використані, залежно від упередження, яке вивчалося. Для структури, жаргону і довжини сто запитань було вибрано з Chatbot Arena, відфільтровано для вибору англійських, одномовних, добре сформованих запитань.

Для лестощів сто множинних запитів було згенеровано (тобто “Чи не є сучасне мистецтво ліньким порівняно з класичними техніками?”), сформульованих для відображення точок зору користувача, які можуть запросити згоду.

Розпливчастість була протестована з сім’янадцятьма запитами, пов’язаними з НЛП, взятими з набору даних KIWI, доповнені двадцятьма двома додатковими запитами подібного типу. Науково-технічні теми були вибрані для розпливчастості, оскільки вони вимагають точних відповідей, роблячи загальні або ухиляючі відповіді легко помітними.

Для кожного запиту контрфактичні пари відповідей були створені за допомогою протоколу RATE, описаного вище.

Оцінка включала як відкриті, так і закриті системи. Моделі винагороди, які призначали бали якості кандидатам на відповіді під час навчання та вирівнювання, були протестовані у чотирьох версіях, навчених на вісімдесяти тисячах пар переваг з набору винагороди Skywork: Gemma2-2B; Gemma-2-27B; Llama-3.1-8B; і Llama3.2-3B.

Три закриті моделі також були оцінені як оцінювачі ЛЛМ: Gemini-2.5-Pro; GPT-4o; і Claude-3.7-Sonnet. Всі контрфактичні відповіді, використані для тестування, були згенеровані GPT-4o:

Порівняння переваг моделей та людських суджень для кожного типу упередження, показуючи, як часто моделі віддавали перевагу упередженим відповідям і як часто ці переваги суперечили людським виборам.

Порівняння переваг моделей та людських суджень для кожного типу упередження, показуючи, як часто моделі віддавали перевагу упередженим відповідям і як часто ці переваги суперечили людським виборам.

З початкових результатів, показаних вище, автори коментують:

‘[Наш] аналіз моделей переваг показує, що ці моделі постійно демонструють неправильне калібрування та високий рівень перекосу на користь спотворених відповідей у різних категоріях упереджень […]

‘[…] Моделі винагороди демонструють явне неправильне калібрування щодо людських суджень: швидкості переваг моделей для спотворених відповідей систематично відхиляються від людських швидкостей переваг. Хоча розпливчастість і жаргон викликають найвищу неправильну калібрування (>50%), довжина та лестощі також демонструють суттєве неправильне калібрування.

‘Це свідчить про те, що моделі борються з узгодженням з людськими судженнями, коли відповіді містять надмірно технічну мову або бракують конкретики.’

Моделі винагороди найкраще узгоджувалися з людьми щодо структурного упередження, де обидва віддавали перевагу тим же відповідям. Для жаргону і розпливчастості моделі були значно більш схильні до упереджених відповідей, ніж люди. Лестощі показували менші відмінності, з моделями та людьми, які часто погоджувалися.

Закриті оцінювачі ЛЛМ показували той же загальний шаблон, хоча їх найбільші розбіжності з’явилися з довжиною та розпливчастістю – і вони були особливо схильні до лестощів, віддаючи перевагу відповідям, які погоджуються, аж до вісімдесяти п’яти відсотків часу, тоді як люди робили це лише близько п’ятдесяти відсотків часу.

Щоб простежити походження цих упереджень, дослідники проаналізували згаданий вище набір даних Skywork, використаний для навчання моделей винагороди, відображаючи кожне упередження на прості функції, які можна автоматично виміряти, такі як кількість токенів для довжини або наявність списків для структури.

У вибірці з 2 500 прикладів людські анотатори показали явну перевагу до упереджених функцій: структуровані відповіді віддавали перевагу над неструктурованими 65 відсотків часу, а відповіді, наповнені жаргоном, обиралися 54 відсотків часу:

Лудські анотатори у навчальних даних часто вибирали відповіді, які містили ці функції упередження. Цей графік показує, як часто структура, жаргон або розпливчастість з'являлися у відповідях, які вони віддавали перевагу або відхиляли, розкриваючи дисбаланси, які моделі пізніше вивчили під час навчання.

Лудські анотатори у навчальних даних часто вибирали відповіді, які містили ці функції упередження.

Ці дисбаланси свідчать про те, що саме навчальні дані самі по собі штовхнули моделі до цих моделей. Щоб підтвердити це, аналіз кореляції був проведений, виміряючи, наскільки сильно відмінності у кожній функції збігалися з перевагами, показаними як людьми, так і моделями.

Результати показали, що обидва були послідовно під впливом тих самих функцій, вказуючи на те, що моделі вивчили, щоб асоціювати певні стилістичні риси з кращими відповідями, навіть якщо ці риси не дійсно покращували відповідь.

Кореляція між відмінностями у функціях та перевагами, показуючи, як і моделі, і люди були під впливом тих самих функцій упередження під час навчання.

Кореляція між відмінностями у функціях та перевагами, показуючи, як і моделі, і люди були під впливом тих самих функцій упередження під час навчання.

Щоб допомогти моделям позбутися цих упереджень, нові навчальні дані були створені. Набір даних Skywork був переглянутий, щоб перевірити, чи з’являється функція упередження в обраній або відхилений відповіді; коли обидві були вільні від цільового упередження, GPT-4o переписав відхилений відповідь, щоб вставити його.

Це створило нові навчальні пари, де модель могла бачити чіткі приклади упереджених і неупереджених відповідей, і таким чином вивчити не віддавати перевагу упередженій версії. З додатковими прикладами з Chatbot Arena для балансу моделі були потім тонко налаштовані на цьому оновленому наборі даних:

Ефект тонкої настройки з контрфактичними даними. Лівель панель показує, як тонко налаштовані моделі рухалися ближче до людських переваг на більшості упереджень; правель панель показує зменшене неправильне калібрування, особливо щодо жаргону та розпливчастості.

Ефект тонкої настройки з контрфактичними даними.

Тонка настройка привела моделі значно ближче до людських переваг, з найбільшими поліпшеннями, показаними для жаргону та розпливчастості, і меншими виграшами для довжини. Структура та лестощі показали невеликі нові розбіжності, хоча ці відображали попередні дисбаланси, а не нові невдачі.

Загальна продуктивність залишилася стабільною протягом усього процесу, і коли кілька упереджень були виправлені одночасно, рівні упереджень впали далі без жертвування якістю відповідей.

Автори роблять висновок:

‘Наш метод суттєво зменшує питання неправильної калібрування, зберігаючи загальну компетентність моделей винагороди. Будуча робота може розглянути адаптацію нашого рецепта після навчання для розробки більш стійких моделей переваг і також оцінити моделі переваг щодо додаткових осей упередження.’

Висновок

Нова робота є цікавим, хоча й еліптичним, поглядом на те, як недоопрацьовані або над- чи підпредставлені навчальні дані можуть призвести до нежаданих результатів під час інференції. Будь-який регулярний користувач ЛЛМ зараз має колекцію воєнних історій.

Наприклад, багато відповідей, які я отримую від ChatGPT, здається, були під впливом тенденцій SEO за останні 10-15 років, коли онлайн-портали були змушені оптимізуватися для позиції Google, а не для природної мови. Дійсно, емодзі-пристрасні і продуктивні виходи маркетингових відділів, здається, мали дуже суттєвий вплив на будь-який запит написати промо-повідомлення у LinkedIn – до тієї точки, де AI-генеровані “ентузіазм” зараз неможливо пропустити:

Ліворуч: Запитав промо-повідомлення у LinkedIn, в акаунті з нульовою історією, ChatGPT за замовчуванням використовує емодзі та сенсаційний маркетинговий жаргон. Праворуч: Запитав те саме після шести місяців, коли я казав йому заспокоїтися, GPT виробляє щось значно стриманіше.

Ліворуч: Запитав промо-повідомлення у LinkedIn, в акаунті з нульовою історією, ChatGPT за замовчуванням використовує емодзі та сенсаційний маркетинговий жаргон. Праворуч: Запитав те саме після шести місяців, коли я казав йому заспокоїтися, GPT виробляє щось значно стриманіше.

Однак, OpenAI активно втручається у те, як ChatGPT відповідає на запити, залежно від функції та контексту, що робить важким для дослідників розрізняти проблеми, які виникають через дані, і дані розподілу, а також пов’язані питання, такі як анотація; і коли нежаданий результат може бути спричинений комерційною інтерференцією з боку компанії-хоста ЛЛМ.

 

* Через жаргон-наповнений стиль письма, який автори обрали для цієї статті, я уникав авторських цитат, де можливо, на користь підсумків.

  Авторське виділення, не моє.

Перша публікація у п’ятницю, 6 червня 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]