Connect with us

Від OpenAI’s O3 до DeepSeek’s R1: Як симульоване мислення робить LLM більш глибокими

Штучний інтелект

Від OpenAI’s O3 до DeepSeek’s R1: Як симульоване мислення робить LLM більш глибокими

mm

Великі мовні моделі (LLM) значно еволюціонували. Що почалося як прості інструменти генерації тексту та перекладу, тепер використовується в дослідженнях, прийнятті рішень та складному вирішенні проблем. Ключовим фактором у цьому зрушенні є зростаюча здатність LLM думати більш систематично, розбиваючи проблеми, оцінюючи декілька можливостей та уточнюючи свої відповіді динамічно. Натомість ніж просто передбачати наступне слово в послідовності, ці моделі тепер можуть виконувати структуроване міркування, роблячи їх більш ефективними у xửленні складних завдань. Ведучі моделі, такі як OpenAI’s O3, Google’s Gemini, та DeepSeek’s R1, інтегрують ці можливості для покращення своєї здатності обробляти та аналізувати інформацію більш ефективно.

Поняття симульованого мислення

Люди природно аналізують різні варіанти перед прийняттям рішень. Чи плануючи відпустку, чи розв’язуючи проблему, ми часто симулюємо різні плани в нашому розумі, щоб оцінити декілька факторів, зважити плюси та мінуси та коригувати наш вибір відповідно. Дослідники інтегрують цю здатність до LLM для покращення їхніх можливостей міркування. Тут симульоване мислення по суті означає здатність LLM виконувати систематичне міркування перед генерацією відповіді. Це на відміну від простого отримання відповіді з збережених даних. Корисна аналогія – розв’язання математичної проблеми:

  • Базовий AI може розпізнати закономерність та швидко сгенерувати відповідь без верифікації.
  • AI, який використовує симульоване міркування, буде працювати через кроки, перевірити на помилки та підтвердити свою логіку перед відповіддю.

Ланцюг мислення: Навчання AI думати кроками

Якщо LLM мають виконувати симульоване мислення, як люди, вони повинні бути здатні розбити складні проблеми на менші, послідовні кроки. Саме тут техніка Ланцюг мислення (CoT) грає важливу роль.

CoT – це підхід до промпту, який спрямовує LLM працювати через проблеми методично. Натомість ніж стрибати до висновків, цей структурований процес міркування дозволяє LLM розділити складні проблеми на простіші, керувані кроки та розв’язати їх крок за кроком.

Наприклад, при розв’язанні словесної проблеми в математиці:

  • Базовий AI може спробувати зіставити проблему з попередньо баченим прикладом та надати відповідь.
  • AI, який використовує Ланцюг мислення, буде накреслити кожен крок, логічно працюючи через розрахунки перед досягненням остаточного розв’язку.

Цей підхід є ефективним у сферах, які вимагають логічного висновку, багатокрокового розв’язання проблем та контекстного розуміння. Хоча раніше моделі вимагали людських ланцюгів міркування, просунуті LLM, такі як OpenAI’s O3 та DeepSeek’s R1, можуть вивчити та застосувати міркування CoT адаптивно.

Як провідні LLM реалізують симульоване мислення

Різні LLM використовують симульоване мислення по-різному. Нижче наведено огляд того, як OpenAI’s O3, Google DeepMind’s моделі та DeepSeek-R1 виконують симульоване мислення, разом з їхніми сильними та слабкими сторонами.

OpenAI O3: Думає вперед, як шахіст

Хоча точні деталі про модель OpenAI’s O3 залишаються невідомими, дослідники вірять, що вона використовує техніку, подібну до Монте-Карло дерево пошуку (MCTS), стратегію, використовувану в AI-драйвених іграх, таких як AlphaGo. Як шахіст, який аналізує декілька ходів перед прийняттям рішення, O3 досліджує різні розв’язки, оцінює їхню якість та вибирає найбільш перспективний.

На відміну від попередніх моделей, які покладаються на розпізнавання закономерностей, O3 активно генерує та уточнює шляхи міркування, використовуючи техніку CoT. Під час інференсу вона виконує додаткові обчислювальні кроки для конструкції декількох ланцюгів міркування. Ці ланцюги потім оцінюються моделлю-оцінювачем – ймовірно, моделлю винагороди, навченою забезпечувати логічну узгодженість та правильність. Остаточна відповідь вибирається на основі системи оцінювання для надання добре обґрунтованого висновку.

O3 слідує структурованому багатокроковому процесу. Спочатку вона дофінується на величезному наборі даних людських ланцюгів міркування, внутрішньо засвоюючи логічні шаблони мислення. Під час інференсу вона генерує декілька розв’язків для заданої проблеми, ранжує їх за правильністю та узгодженістю та уточнює найкращий, якщо потрібно. Хоча цей метод дозволяє O3 самокоригуватися перед відповіддю та покращувати точність, компроміс полягає в обчислювальній вартості – дослідження декількох можливостей вимагає значної обчислювальної потужності, роблячи її повільнішою та більш ресурсоємною. Тим не менш, O3 виділяється в динамічному аналізі та розв’язанні проблем, займаючи місце серед найбільш просунутих моделей AI.

Google DeepMind: Уточнення відповідей, як редактор

DeepMind розробила новий підхід, який називається “еволюція мислення“, який розглядає міркування як ітеративний процес уточнення. Натомість ніж аналізувати декілька майбутніх сценаріїв, ця модель діє більше, як редактор, який уточнює різні чернетки есе. Модель генерує декілька можливих відповідей, оцінює їхню якість та уточнює найкращу.

Цей процес, надихнутий генетичними алгоритмами, забезпечує високоякісні відповіді через ітерацію. Він є особливо ефективним для структурованих завдань, таких як логічні головоломки та завдання з програмування, де чіткі критерії визначають найкращу відповідь.

Однак, цей метод має обмеження. Поскольку він покладається на зовнішню систему оцінювання для оцінки якості відповіді, він може мати труднощі з абстрактним міркуванням, де немає чіткого правильного чи неправильного答案у. На відміну від O3, яка динамічно міркує в реальному часі, модель DeepMind фокусується на уточненні існуючих відповідей, роблячи її менш гнучкою для відкритих питань.

DeepSeek-R1: Навчання міркувати, як студент

DeepSeek-R1 використовує підхід, заснований на підкріпленні, який дозволяє йому розвивати можливості міркування з часом, а не оцінювати декілька відповідей в реальному часі. Натомість ніж покладатися на попередньо сгенеровані дані міркування, DeepSeek-R1 вчиться, розв’язуючи проблеми, отримуючи зворотній зв’язок та покращуючи ітеративно – подібно до того, як студенти розвивають свої навички розв’язання проблем через практику.

Модель слідує структурованому циклу підкріплення. Вона починається з базової моделі, chẳng hạn як DeepSeek-V3, та підштовхується до розв’язання математичних проблем крок за кроком. Кожна відповідь верифікується через прямий код виконання, обходячи потребу в додатковій моделі для верифікації правильності. Якщо розв’язок правильний, модель винагороджується; якщо він неправильний, модель штрафується. Цей процес повторюється широко, дозволяючи DeepSeek-R1 розвивати свої логічні можливості міркування та пріоритезувати більш складні завдання з часом.

Ключовою перевагою цього підходу є ефективність. На відміну від O3, яка виконує обширне міркування під час інференсу, DeepSeek-R1 вкладає можливості міркування під час навчання, роблячи її швидшою та більш економічною. Вона є високомасштабною, оскільки не вимагає великого позначеного набору даних чи дорогої моделі верифікації.

Однак, цей підхід, заснований на підкріпленні, має компроміс. Поскольку він покладається на завдання з верифікованими результатами, він виділяється в математиці та програмуванні. Тим не менш, він може мати труднощі з абстрактним міркуванням у сфері права, етики чи творчого розв’язання проблем. Хоча математичне міркування може переноситися в інші області, його ширша застосовність залишається невизначеною.

Таблиця: Порівняння між OpenAI’s O3, DeepMind’s Mind Evolution та DeepSeek’s R1

Майбутнє міркування AI

Симульоване міркування – це значний крок до того, щоб зробити AI більш надійним та інтелектуальним. Коли ці моделі еволюціонують, фокус буде зміщуватися від простої генерації тексту до розвитку надійних можливостей розв’язання проблем, які тісно нагадують людське мислення. Майбутні досягнення, ймовірно, будуть зосереджені на тому, щоб зробити моделі AI здатними розпізнавати та виправляти помилки, інтегрувати їх з зовнішніми інструментами для верифікації відповідей та розпізнавати невизначеність, коли вони стикаються з двозначною інформацією. Тим не менш, ключовим викликом є баланс між глибиною міркування та обчислювальною ефективністю. Остаточна мета – розробити системи AI, які ретельно розглядають свої відповіді, забезпечуючи точність та надійність, подібно до того, як людський експерт ретельно оцінює кожне рішення перед діями.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.