Штучний інтелект
Коли бенчмарки штучних інтелектів вчать моделі брехати

Заломлювання штучного інтелекту — коли система видає відповіді, які звучать правильно, але насправді є неправильними — залишається однією з найскладніших проблем у сфері штучного інтелекту. Навіть найпередовіші моделі сучасності, такі як DeepSeek-V3, Llama та останні версії OpenAI, все ще видають неточну інформацію з високим рівнем впевненості. У сферах, таких як охорона здоров’я чи право, такі помилки можуть привести до серйозних наслідків.
Традиційно заломлювання вважалося побічним ефектом того, як тренуються великі мовні моделі: вони вчаться передбачати наступне найбільш імовірне слово без перевірки того, чи інформація є правдивою. Але нові дослідження свідчать про те, що проблема може не зупинятися на тренуванні. Бенчмарки, які використовуються для тестування та порівняння продуктивності штучного інтелекту, можуть насправді підтримувати оманливу поведінку, винагороджуючи відповіді, які звучать переконливо, а не ті, які є правильними.
Ця зміна перспективи переформулює проблему. Якщо моделі тренуються, щоб задовольнити тест, а не говорити правду, то заломлювання не є випадковими дефектами, а навченими стратегіями. Щоб побачити, чому це відбувається, нам потрібно розглянути, чому моделі штучного інтелекту обирають здогадуватися, а не визнавати свою невідання?
Чому моделі штучного інтелекту здогадуються
Щоб побачити, чому моделі штучного інтелекту часто здогадуються, а не визнають свою невідання, розгляньте студента, який стикається з складним екзаменаційним питанням. У студента є два варіанти: залишити відповідь порожньою та отримати нуль очок або зробити обґрунтовану здогадку, яка може принести деякі бали. Раціонально здогадка здається кращим вибором, оскільки є хоча б шанс бути правим.
Моделі штучного інтелекту стикаються з аналогічною ситуацією під час оцінювання. Більшість бенчмарків використовують двійкову систему оцінювання: правильні відповіді отримують бали, а неправильні або невизначені відповіді не отримують нічого. Якщо модель запитана: “Який день народження дослідника?” і вона справді не знає, відповідь “Я не знаю” вважається невдачею. Вигадування дати, однак, несе певний шанс бути правильним — і навіть якщо це неправильно, система не покарує впевнену здогадку більше, ніж мовчання.
Ця динаміка пояснює, чому заломлювання тривають, незважаючи на обширні дослідження з їх ліквідації. Моделі не поводяться неправильно; вони слідують стимулам, закладеним у оцінювання. Вони вчаться, що звучати впевнено — це найкращий спосіб максимізувати свій бал, навіть якщо відповідь є хибною. В результаті моделі штовхνονται до надання авторитетних заяв — правильних чи неправильних.
Математична основа нечесності штучного інтелекту
Дослідження показує, що заломлювання походять від математичної основи того, як мовні моделі вчаться. Навіть якщо модель була тренована лише на абсолютно точній інформації, її статистичні цілі все одно призводили б до помилок. Це пояснюється тим, що генерація правильної відповіді є фундаментально складнішою, ніж визнання того, чи є відповідь дійсною.
Це пояснює, чому моделі часто не витримують фактів, які не мають чітких закономірностей, таких як дні народження чи інші унікальні деталі. Математичний аналіз свідчить про те, що рівень заломлювання в цих випадках буде не нижче частки фактів, які з’являються лише один раз у тренувальних даних. Інакше кажучи, чим рідше інформація в даних, тим більше модель буде боротися з нею.
Проблема не обмежується рідкими фактами. Структурні обмеження, такі як обмежена ємність моделі або архітектурний дизайн, також призводять до систематичних помилок. Наприклад, ранні моделі з дуже короткими вікнами контексту постійно не витримували завдань, які вимагали довгострокового мислення. Ці помилки не були випадковими глюками, а передбачуваними результатами математичної основи моделі.
Чому пост-тренування не розв’язує проблему
Як тільки модель штучного інтелекту тренується на величезних текстових даних, вона зазвичай проходить тонке налаштування, щоб зробити її вихід більш корисним і менш шкідливим. Але цей процес стикається з тією ж основною проблемою, яка викликає заломлювання: тим, як ми оцінюємо моделі.
Найпоширеніші методи тонкого налаштування, такі як з підкріпленням навчання від людської обратної зв’язності, все ще залежать від бенчмарків, які використовують двійкову оцінювання. Ці бенчмарки винагороджують моделі за впевнені відповіді, не надаючи жодних балів, коли модель визнає свою невідання. Таким чином, система, яка завжди відповідає з впевненістю, навіть якщо це неправильно, може перевершити ту, яка чесно виражає невідання.
Дослідники називають це проблемою покарання невизначеності. Навіть просунуті техніки виявлення або зменшення заломлювання борються, коли основні бенчмарки продовжують віддавати перевагу надмірній впевненості. Інакше кажучи, незалежно від того, наскільки складними є виправлення, поки оцінювальні системи винагороджують впевнені здогадки, моделі будуть налаштовані на неправильні, але впевнені відповіді, а не на чесні визнання сумнівів.
Ілюзія прогресу
Таблиці лідерів, широко поширені в спільноті штучного інтелекту, посилюють цю проблему. Бенчмарки, такі як MMLU, GPQA та SWE-bench, домінують у дослідницьких роботах та оголошеннях про продукти. Компанії підкреслюють свої результати, щоб продемонструвати швидкий прогрес. Однак, як зазначається у звіті, ці самі бенчмарки заохочують заломлювання.
Модель, яка чесно говорить “Я не знаю”, може бути безпечнішою в реальних умовах, але займе нижчу позицію у таблиці лідерів. Натомість модель, яка вигадує переконливі, але хибні відповіді, буде набирати більше балів. Коли прийняття, фінансування та престиж залежать від рейтингів таблиць лідерів, напрямок прогресу стає викривленим. Публіка бачить розповідь про постійний прогрес, але під поверхнею моделі тренуються, щоб обманювати.
Чому чесна невизначеність важлива у штучному інтелекті
Заломлювання не є лише дослідницьким викликом; вони мають реальні наслідки. У сфері охорони здоров’я модель, яка вигадує взаємодію ліків, може ввести в оману лікарів. У освіті модель, яка вигадує історичні факти, може дезінформувати студентів. У журналістиці чат-бот, який генерує хибні, але переконливі цитати, може поширити дезінформацію. Ці ризики вже видимі. Stanford AI Index 2025 повідомляє, що бенчмарки, призначені для вимірювання заломлювання, “боролися за отримання підтримки”, навіть якщо прийняття штучного інтелекту прискорюється. Тим часом бенчмарки, які домінують у таблицях лідерів і винагороджують впевнені, але ненадійні відповіді, продовжують задавати напрямок прогресу.
Ці висновки підкреслюють як виклик, так і можливість. Розглянувши математичні корені заломлювання, дослідники визначили чіткі напрямки для створення більш надійних систем штучного інтелекту. Ключем є припинення лікування невизначеності як дефекту та визнання її важливою можливістю, яка повинна бути виміряна та винагороджена.
Ця зміна перспективи має наслідки, що виходять за межі зменшення заломлювання. Системи штучного інтелекту, які можуть точно оцінити та висловити свої власні обмеження знань, будуть більш придатними для високоризикових застосунків, де надмірна впевненість несе серйозні ризики. Медична діагностика, правовий аналіз та наукове дослідження 모두 вимагають здатності розрізняти впевнене знання та обґрунтовану спекуляцію.
Переоценка оцінювання для чесного штучного інтелекту
Ці висновки підкреслюють, що створення більш довірчих систем штучного інтелекту вимагає переоцінки того, як ми вимірюємо можливості штучного інтелекту. Замість того, щоб покладатися на просте оцінювання “правильно-неправильно”, оцінювальні рамках повинні винагороджувати моделі за вираження невизначеності відповідним чином. Це означає надання чітких вказівок щодо порогів впевненості та відповідних схем оцінювання у інструкціях до бенчмарків.
Одним із перспективних підходів є створення явних цілей впевненості, які вказують, коли моделі повинні відповідати, а коли вони повинні утримуватися. Наприклад, інструкції можуть зазначати, що відповіді повинні надаватися лише тоді, коли впевненість перевищує певний поріг, з відповідним регулюванням оцінювання. У цьому сетапі невизначеність не є слабкістю, а цінною частиною відповідальної поведінки.
Ключем є зробити вимоги до впевненості прозорими, а не явними. Поточні бенчмарки створюють приховані штрафи за невизначеність, яких моделі вчаться уникати. Явні цілі впевненості дозволять моделям оптимізуватися для фактично бажаної поведінки: точних відповідей, коли впевнено, і чесних визнань невідання, коли знання відсутнє.
Основний висновок
Заломлювання штучного інтелекту не є випадковими дефектами — вони підтримуються самими бенчмарками, які використовуються для вимірювання прогресу. Винагороджуючи впевнені здогадки над чесною невизначеністю, поточні оцінювальні системи штовхують моделі до обману, а не до надійності. Якщо ми хочемо штучного інтелекту, якому можна довіряти у високоризикових сферах, таких як охорона здоров’я, право та наука, нам потрібно переоцінити, як ми тестуємо та винагороджуємо їх. Прогрес повинен вимірюватися не лише точністю, а й здатністю визнавати та визнавати, чого модель не знає.












