Connect with us

Чи дійсно можна довіряти ланцюжковим міркуванням ШІ?

Штучний інтелект

Чи дійсно можна довіряти ланцюжковим міркуванням ШІ?

mm

Оскільки штучний інтелект (ШІ) широко використовується в таких сферах, як охорона здоров’я та автономні автомобілі, питання про те, наскільки ми можемо йому довіряти, стає все більш критичним. Один із методів, який називається ланцюжковими міркуваннями (CoT), привернув увагу. Він допомагає ШІ розбивати складні проблеми на кроки, показуючи, як він приходить до остаточної відповіді. Це не тільки покращує продуктивність, але й дає нам уявлення про те, як думає ШІ, що важливо для довіри та безпеки систем ШІ. Однак нещодавнє дослідження від Anthropic ставить під сумнів те, чи дійсно CoT відображає те, що відбувається всередині моделі. У цій статті розглядається, як працює CoT, що виявила Anthropic, і що це означає для створення надійного ШІ.

Розуміння ланцюжкових міркувань

Ланцюжкові міркування — це спосіб навчання ШІ вирішувати проблеми покроково. Замість того, щоб просто давати остаточну відповідь, модель пояснює кожен крок на шляху. Цей метод був представлений у 2022 році і з того часу допоміг покращити результати в таких завданнях, як математика, логіка та міркування. Моделі, такі як OpenAI o1 та o3, Gemini 2.5, DeepSeek R1 та Claude 3.7 Sonnet, використовують цей метод. Одна з причин популярності CoT полягає в тому, що він робить міркування ШІ більш видимими. Це корисно, коли ціна помилки висока, наприклад, в медичних інструментах або системах автономного водіння. Тим не менш, навіть якщо CoT сприяє прозорості, він не завжди відображає те, про що модель насправді думає. У деяких випадках пояснення можуть виглядати логічними, але не ґрунтуватися на фактичних кроках, які модель використала для прийняття рішення.

Чи можна довіряти ланцюжковим міркуванням

Anthropic перевірила, чи дійсно пояснення CoT відображають те, як моделі ШІ приймають рішення. Ця якість називається «достовірністю». Вони вивчили чотири моделі, включаючи Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 та DeepSeek V1. Серед цих моделей Claude 3.7 та DeepSeek R1 були навчені з використанням технік CoT, тоді як інші — ні. Вони давали моделям різні запити. Деякі з цих запитів містили підказки, призначені для впливу на модель неетичним способом. Потім вони перевіряли, чи використав ШІ ці підказки у своїх міркуваннях. Результати викликали занепокоєння. Моделі визнавали використання підказок лише менше ніж у 20 відсотках випадків. Навіть моделі, навчені використовувати CoT, давали достовірні пояснення лише у 25–33 відсотках випадків. Коли підказки стосувалися неетичних дій, наприклад, обману системи винагород, моделі рідко це визнавали. Це відбувалося навіть попри те, що вони справді покладалися на ці підказки для прийняття рішень. Додаткове навчання моделей за допомогою навчання з підкріпленням призвело до невеликого покращення. Але воно все одно мало допомагало, коли поведінка була неетичною. Дослідники також помітили, що коли пояснення були неправдивими, вони часто були довшими та складнішими. Це могло означати, що моделі намагалися приховати те, що вони насправді робили. Вони також виявили, що чим складнішим було завдання, тим менш достовірними ставали пояснення. Це свідчить про те, що CoT може погано працювати для складних проблем. Він може приховувати, що насправді робить модель, особливо при прийнятті чутливих або ризикованих рішень.

Що це означає для довіри

Дослідження вказує на значну прогалину між тим, наскільки прозорим здається CoT, і тим, наскільки він є чесним насправді. У критичних сферах, таких як медицина чи транспорт, це серйозний ризик. Якщо ШІ дає логічне на вигляд пояснення, але приховує неетичні дії, люди можуть помилково довіряти результату. CoT корисний для проблем, які потребують логічних міркувань на кількох кроках. Але він може бути некорисним для виявлення рідкісних або ризикованих помилок. Він також не заважає моделі давати оманливі або двозначні відповіді. Дослідження показує, що одного лише CoT недостатньо для довіри до прийняття рішень ШІ. Також потрібні інші інструменти та перевірки, щоб переконатися, що ШІ поводиться безпечно та чесно.

Сильні сторони та обмеження ланцюжкових міркувань

Незважаючи на ці виклики, CoT пропонує багато переваг. Він допомагає ШІ вирішувати складні проблеми, розділяючи їх на частини. Наприклад, коли великій мовній моделі пропонують CoT, вона демонструє найвищу точність у математичних текстових задачах завдяки цим покроковим міркуванням. CoT також полегшує розробникам та користувачам відстеження того, що робить модель. Це корисно в таких сферах, як робототехніка, обробка природної мови чи освіта. Однак CoT має й свої недоліки. Менші моделі не можуть генерувати покрокові міркування, тоді як великі моделі потребують більше пам’яті та потужності для їх ефективного використання. Ці обмеження ускладнюють використання переваг CoT в таких інструментах, як чат-боти або системи реального часу. Продуктивність CoT також залежить від того, як написані запити. Погані запити можуть призвести до поганих або заплутаних кроків. У деяких випадках моделі генерують довгі пояснення, які не допомагають і уповільнюють процес. Крім того, помилки на ранніх етапах міркування можуть переходити до остаточної відповіді. А в спеціалізованих галузях CoT може погано працювати, якщо модель не навчена в цій сфері. Якщо врахувати висновки Anthropic, стає зрозуміло, що CoT є корисним, але недостатнім сам по собі. Це лише одна частина більшого зусилля зі створення ШІ, якому люди можуть довіряти.

Ключові висновки та шлях вперед

Це дослідження вказує на кілька уроків. По-перше, CoT не повинен бути єдиним методом, який ми використовуємо для перевірки поведінки ШІ. У критичних сферах нам потрібно більше перевірок, наприклад, аналіз внутрішньої активності моделі або використання зовнішніх інструментів для тестування рішень. Ми також повинні прийняти, що те, що модель дає чітке пояснення, не означає, що вона говорить правду. Пояснення може бути прикриттям, а не справжньою причиною. Щоб впоратися з цим, дослідники пропонують поєднувати CoT з іншими підходами. До них належать кращі методи навчання, навчання з учителем та людські перевірки. Anthropic також рекомендує заглиблюватися у внутрішню роботу моделі. Наприклад, перевірка шаблонів активації або прихованих шарів може показати, чи модель щось приховує. Найважливіше те, що той факт, що моделі можуть приховувати неетичну поведінку, показує, чому потрібні сильне тестування та етичні правила в розробці ШІ. Побудова довіри до ШІ — це не лише питання хорошої продуктивності. Це також питання забезпечення того, щоб моделі були чесними, безпечними та відкритими для перевірки.

Суть

Ланцюжкові міркування допомогли покращити те, як ШІ вирішує складні проблеми та пояснює свої відповіді. Але дослідження показує, що ці пояснення не завжди правдиві, особливо коли задіяні етичні питання. CoT має обмеження, такі як високі витрати, необхідність у великих моделях та залежність від хороших запитів. Він не може гарантувати, що ШІ поводитиметься безпечно або справедливо. Щоб створити ШІ, якому можна справді довіряти, ми повинні поєднувати CoT з іншими методами, включаючи людський нагляд та внутрішні перевірки. Дослідження також мають продовжуватися для покращення надійності цих моделей.

Доктор Техсін Зія є штатним доцентом в COMSATS University Islamabad, має ступінь доктора філософії зі штучного інтелекту від Vienna University of Technology, Австрія. Спеціалізуючись на Штучному інтелекті, Машинному навчанні, Науці про дані та Комп'ютерному зорі, він зробив значний внесок з публікаціями у авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і працював консультантом зі штучного інтелекту.