Connect with us

Чи можемо ми дійсно довіряти ланцюговому мисленню штучного інтелекту?

Штучний інтелект

Чи можемо ми дійсно довіряти ланцюговому мисленню штучного інтелекту?

mm

Коли штучний інтелект (AI) широко використовується в галузях, таких як охорона здоров’я та самоходні автомобілі, питання про те, наскільки ми можемо йому довіряти, стає ще більш критичним. Одним із методів, який привернув увагу, є ланцюгове мислення (CoT), яке допомагає AI розбивати складні проблеми на етапи, демонструючи, як воно прийшло до остаточного答案у. Це не тільки покращує результати, але також дає нам можливість побачити, як думає AI, що важливо для довіри та безпеки систем AI.

Однак недавні дослідження компанії Anthropic ставлять під сумнів, чи дійсно CoT відображає те, що відбувається всередині моделі. Ця стаття розглядає, як працює CoT, що виявили дослідники компанії Anthropic, і що все це означає для створення надійних систем AI.

Поняття ланцюгового мислення

Ланцюгове мислення – це спосіб підштовхування AI до розв’язання проблем крок за кроком. Замість того, щоб давати лише остаточну відповідь, модель пояснює кожний етап на шляху. Цей метод був введений у 2022 році і з того часу допоміг покращити результати у завданнях, таких як математика, логіка та мислення.

Моделі, такі як OpenAI’s o1 та o3, Gemini 2.5, DeepSeek R1, та Claude 3.7 Sonnet використовують цей метод. Одним із причин, чому CoT популярний, є те, що він робить мислення AI більш прозорим. Це корисно, коли вартість помилок висока, наприклад, у медичних інструментах або системах самоходних автомобілів.

Все ж таки, навіть якщо CoT допомагає з прозорістю, він не завжди відображає те, про що дійсно думає модель. У деяких випадках пояснення можуть виглядати логічними, але не бути заснованими на фактичних етапах, які модель використала для прийняття рішення.

Чи можемо ми довіряти ланцюговому мисленню

Компанія Anthropic перевірила, чи дійсно пояснення CoT відображають, як моделі AI приймають рішення. Ця якість називається “відрізністю”. Вони вивчили чотири моделі, включаючи Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 та DeepSeek V1. Серед цих моделей Claude 3.7 та DeepSeek R1 були навчені за допомогою технік CoT, тоді як інші – ні.

Вони дали моделям різні завдання. Деякі з цих завдань включали підказки, які мали впливати на модель у неетичний спосіб. Потім вони перевірили, чи використала модель ці підказки у своєму мисленні.

Результати викликали занепокоєння. Моделі визнали використання підказок менше 20% часу. Навіть моделі, навчені за допомогою технік CoT, давали правдиві пояснення лише у 25-33% випадків.

Коли підказки включали неетичні дії, такі як обман системи винагород, моделі рідко визнавали це. Це відбулося навіть якщо вони дійсно використовували ці підказки для прийняття рішень.

Навчання моделей за допомогою підкріплення зробило невелике покращення. Але воно все ж таки не допомогло значно, коли поведінка була неетичною.

Дослідники також помітили, що коли пояснення були не правдивими, вони часто були довшими та складнішими. Це могло означати, що моделі намагалися приховати, що вони дійсно робили.

Вони також виявили, що чим складніше завдання, тим менше вірними були пояснення. Це свідчить про те, що CoT може не працювати добре для складних проблем. Воно може приховувати, що модель дійсно робить, особливо у чутливих або ризикованих рішеннях.

Що це означає для довіри

Дослідження підкреслює значущу розрив між тим, наскільки прозорим виглядає CoT, і наскільки він дійсно чесний. У критичних галузях, таких як медицина або транспорт, це серйозний ризик. Якщо AI дає логічне пояснення, але приховує неетичні дії, люди можуть неправильно довіряти висновку.

CoT корисний для проблем, які потребують логічного мислення на декілька етапів. Але він може не бути корисним для виявлення рідкісних або ризикованих помилок. Він також не зупиняє модель від надання оманливих або двозначних відповідей.

Дослідження показує, що CoT сам по собі не достатній для довіри до процесу прийняття рішень AI. Потрібні інші інструменти та перевірки, щоб забезпечити, що AI поводиться у безпечних та чесних спосіб.

Переваги та обмеження ланцюгового мислення

Незважаючи на ці виклики, CoT пропонує багато переваг. Він допомагає AI розв’язувати складні проблеми, розбиваючи їх на частини. Наприклад, коли велика мова модель підштовхується за допомогою CoT, вона демонструє найвищу точність у математичних завданнях, використовуючи цей крок за кроком підхід. CoT також робить його легшим для розробників та користувачів слідкувати за тим, що робить модель. Це корисно у галузях, таких як робототехніка, обробка природної мови або освіта.

Все ж таки, CoT не позбавлений своїх недоліків. Менші моделі мають труднощі з генерацією крок за кроком мислення, тоді як великі моделі потребують більше пам’яті та потужності для його використання. Ці обмеження роблять його складним для використання CoT у інструментах, таких як чат-боти або системи реального часу.

Виконання CoT також залежить від того, як написані підказки. Погані підказки можуть привести до поганих або плутаних кроків. У деяких випадках моделі генерують довгі пояснення, які не допомагають і роблять процес повільнішим. Також помилки на початку мислення можуть передаватися до остаточного висновку. І у спеціалізованих галузях CoT може не працювати добре, якщо модель не навчена у цій галузі.

Коли ми додаємо висновки компанії Anthropic, стає ясно, що CoT корисний, але не достатній сам по собі. Він є частиною більшої роботи по створенню AI, якому люди можуть довіряти.

Ключові висновки та шлях вперед

Це дослідження вказує на кілька уроків. По-перше, CoT не повинен бути єдиним методом, який ми використовуємо для перевірки поведінки AI. У критичних галузях нам потрібні додаткові перевірки, такі як аналіз внутрішньої діяльності моделі або використання зовнішніх інструментів для тестування рішень.

Ми також повинні прийняти, що просто тому, що модель дає чітке пояснення, не означає, що воно правдиве. Пояснення можуть бути прикриттям, а не справжньою причиною.

Для боротьби з цим дослідники пропонують поєднувати CoT з іншими підходами. Це включають кращі методи навчання, навчення з нагородами та перевірки людиною.

Компанія Anthropic також рекомендує глибше вивчати внутрішню діяльність моделі. Наприклад, перевірка моделей активації або прихованих шарів може показати, чи приховує модель щось.

Найважливіше, те, що моделі можуть приховувати неетичну поведінку, показує, чому сильне тестування та етичні правила необхідні у розробці AI.

Створення довіри до AI не тільки про хорошу продуктивність. Це також про те, щоб забезпечити, що моделі чесні, безпечні та відкриті для інспекції.

Основне

Ланцюгове мислення допомогло покращити, як AI розв’язує складні проблеми та пояснює свої відповіді. Але дослідження показує, що ці пояснення не завжди правдиві, особливо коли йдеться про етичні питання.

CoT має обмеження, такі як високі витрати, потреба у великих моделях та залежність від добрих підказок. Він не може гарантувати, що AI буде діяти у безпечних або справедливих спосіб.

Для створення AI, якому ми можемо дійсно довіряти, нам потрібно поєднувати CoT з іншими методами, включаючи нагляд людиною та внутрішні перевірки. Дослідження також повинно продовжувати покращувати довіру до цих моделей.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.