Connect with us

Ілюзія обчислювального мислення штучного інтелекту: дослідження Apple та дебати щодо мислительних можливостей штучного інтелекту

Штучний інтелект

Ілюзія обчислювального мислення штучного інтелекту: дослідження Apple та дебати щодо мислительних можливостей штучного інтелекту

mm
The Illusion of AI Reasoning: Apple’s Study and the Debate Over AI’s Thinking Abilities

Штучний інтелект (AI) тепер є частиною повсякденного життя. Він живить голосові помічники, керує чат-ботами та допомагає приймати критичні рішення в галузях, таких як охорона здоров’я, банківська справа та бізнес. Розширені системи, такі як OpenAI’s GPT-4 та Google’s Gemini, часто вважаються здатними надавати розумні, подібні до людських відповіді. Багато людей вважають, що ці моделі можуть мислити та розуміти як люди.

Однак, дослідження Apple 2025 року викликає сумніви щодо цієї віри. Їхнє дослідження ставить під сумнів, чи ці Больші Моделі Розуміння (LRM) дійсно здатні мислити. Дослідження висновує, що ці штучні інтелекти можуть не використовувати справжнє мислення, а натомість покладатися на узгодження закономірностей. Моделі ідентифікують та повторюють закономірності з їхніх навчальних даних, а не створюють нову логіку чи розуміння.

Apple протестував кілька провідних моделей штучного інтелекту за допомогою класичних логічних головоломок. Результати були несподіваними. На простих завданнях стандартні моделі іноді виконувалися краще, ніж більш просунуті моделі розуміння. На помірно складних головоломках LRM показали деякі переваги. Але коли головоломки стали ще більш складними, обидва типи моделей зазнали поразки. Навіть коли їм давали правильне крок за кроком рішення, моделі не могли слідувати йому надійно.

Висновки Apple ініціювали дебати в спільноті штучного інтелекту. Деякі експерти погоджуються з Apple, кажучи, що ці моделі дають тільки ілюзію мислення. Інші стверджують, що тести можуть не повністю відображати можливості штучного інтелекту та що потрібні більш ефективні методи. Ключове питання тепер полягає в тому: Чи може штучний інтелект дійсно мислити, або це просто просунуте узгодження закономірностей?

Це питання важливо для всіх. З ростом популярності штучного інтелекту важливо зрозуміти, що ці системи можуть і чого не можуть робити.

Що таке Больші Моделі Розуміння (LRM)?

LRM – це системи штучного інтелекту, призначені для вирішення проблем шляхом показу мислення крок за кроком. На відміну від стандартних мовних моделей, які генерують відповіді на основі передбачення наступного слова, LRM мають на меті надавати логічні пояснення. Це робить їх корисними для завдань, які потребують кількох кроків мислення та абстрактного мислення.

LRM тренуються на великих наборах даних, які включають книги, статті, веб-сайти та інші тексти. Це тренування дозволяє моделям зрозуміти закономірності мови та логічні структури, які зазвичай зустрічаються в людському мисленні. Показуючи, як вони приходять до своїх висновків, LRM мають на меті надавати більш ясні та надійні результати.

Ці моделі перспективні, оскільки вони можуть виконувати складні завдання в різних галузях. Метою є поліпшення прозорості у прийнятті рішень, особливо в критичних галузях, які залежать від точних та логічних висновків.

Однак, є занепокоєння щодо того, чи дійсно LRM мислять. Деякі вважають, що замість мислення в людському стилі вони можуть використовувати узгодження закономірностей. Це викликає питання щодо справжніх обмежень систем штучного інтелекту та чи вони тільки імітують мислення.

Дослідження Apple: Тестування штучного інтелекту та ілюзія мислення

Щоб відповісти на питання, чи LRM мислять чи просто просунуті узгоджувачі закономірностей, команда дослідників Apple розробила серію експериментів за допомогою класичних логічних головоломок. Це включало в себе вежу Ханой, перехід річки та головоломку з блоками, які давно використовуються для тестування людського логічного мислення. Команда вибрала ці головоломки, оскільки їхню складність можна було регулювати. Це дозволило їм оцінити як стандартні мовні моделі, так і LRM під різними рівнями складності.

Підхід Apple до тестування мислення штучного інтелекту відрізнявся від традиційних бенчмарків, які часто фокусуються на математичних або кодових завданнях. Ці тести можуть бути під впливом даних, на яких моделі були треновані. Натомість команда Apple використала головоломки, які дозволяли їм контролювати складність, зберігаючи при цьому послідовні логічні структури. Це дозволило їм спостерігати не тільки кінцеві відповіді, а й кроки мислення, які приймали моделі.

Дослідження показало три різні рівні виконання:

Прості завдання

На простих завданнях стандартні мовні моделі іноді виконувалися краще, ніж більш просунуті моделі розуміння. Ці завдання були достатньо простими, щоб простіші моделі могли генерувати правильні відповіді більш ефективно.

Помірно складні завдання

Когда складність головоломок збільшувалася, LRM, які були розроблені для надання структурованого мислення з крок за кроком поясненнями, показали деякі переваги. Ці моделі могли слідувати процесу мислення та надавати більш точні рішення, ніж стандартні моделі.

Дуже складні завдання

Когда головоломки стали ще більш складними, обидва типи моделей зазнали поразки. Навіть коли моделям давали достатньо обчислювальних ресурсів, вони не могли вирішити завдання. Їхня точність впала до нуля, вказуючи на те, що вони не могли справитися з рівнем складності, необхідним для цих завдань.

Узгодження закономірностей чи справжнє мислення?

При подальшому аналізі дослідники виявили ще більше проблем з мисленням моделей. Відповіді, надані моделями, сильно залежали від того, як були представлені завдання. Незначні зміни, такі як зміна чисел або назв змінних, могли привести до зовсім різних відповідей. Ця несумісність вказує на те, що моделі покладаються на вивчені закономірності з їхніх навчальних даних, а не застосовують логічне мислення.

Дослідження показало, що навіть коли явні алгоритми або крок за кроком інструкції були надані, моделі часто не могли використовувати їх правильно, коли складність головоломок збільшувалася. Їхні сліди мислення показали, що моделі не послідовно слідували правилам або логіці. Натомість їхні рішення змінювалися на основі поверхневих змін у вводі, а не фактичної структури завдання.

Команда Apple висновила, що те, що здавалося мисленням, часто було просто просунутим узгодженням закономірностей. Хоча ці моделі можуть імітувати мислення, визнавши знайомі закономірності, вони не дійсно розуміють завдання чи застосовують логіку в людському стилі.

Триває дебати: Чи може штучний інтелект дійсно мислити чи тільки імітувати мислення?

Дослідження Apple викликало дебати в спільноті штучного інтелекту щодо того, чи LRM можуть дійсно мислити. Багато експертів тепер підтримують висновки Apple, стверджуючи, що ці моделі створюють ілюзію мислення. Вони вважають, що коли моделі стикаються з складними або новими завданнями, обидва типи моделей – стандартні мовні моделі та LRM – мають труднощі, навіть коли їм дають правильні інструкції або алгоритми. Це вказує на те, що мислення часто є просто здатністю визнавати та повторювати закономірності з навчальних даних, а не справжнім розумінням.

З іншого боку, компанії, такі як OpenAI, та деякі дослідники вважають, що їхні моделі можуть мислити. Вони вказують на високі результати на стандартизованих тестах, таких як LSAT, та складних математичних екзаменах. Наприклад, OpenAI’s GPT-4 набрав 88-й процентиль серед тестируваних LSAT. Деякі інтерпретують цю сильну продуктивність як доказ здатності мислити. Прихильники цього погляду стверджують, що такі результати показують, що моделі штучного інтелекту можуть мислити,至少 в певних ситуаціях.

Однак, дослідження Apple викликає сумніви щодо цього погляду. Дослідники стверджують, що високі результати на стандартизованих тестах не обов’язково вказують на точне розуміння чи мислення. Поточні бенчмарки можуть не повністю відображати здатність мислити та можуть бути під впливом даних, на яких моделі були треновані. У багатьох випадках моделі можуть просто повторювати закономірності з їхніх навчальних даних, а не дійсно мислити над новими завданнями.

Ця дебати має практичні наслідки. Якщо моделі штучного інтелекту не дійсно мислять, вони можуть не бути надійними для завдань, які вимагають логічного прийняття рішень. Це особливо важливо в галузях, таких як охорона здоров’я, фінанси та право, де помилки можуть мати серйозні наслідки. Наприклад, якщо модель штучного інтелекту не може застосовувати логіку до нових або складних медичних випадків, помилки більш ймовірні. Аналогічно, системи штучного інтелекту в фінансах, які не мають здатності мислити, можуть приймати погані інвестиційні рішення або неправильно оцінювати ризики.

Висновки Apple також застерігають, що хоча моделі штучного інтелекту корисні для завдань, таких як генерація контенту та аналіз даних, їх слід використовувати з обережністю в галузях, які вимагають глибокого розуміння чи критичного мислення. Деякі експерти вважають відсутність справжнього мислення значною обмеженням, тоді як інші вважають, що узгодження закономірностей samo по собі може бути корисним для багатьох практичних застосувань.

Що далі для мислення штучного інтелекту?

Майбутнє мислення штучного інтелекту ще невизначене. Деякі дослідники вважають, що з більшою кількістю тренувань, кращими даними та покращеними архітектурами моделей штучний інтелект буде продовжувати розвивати справжню здатність мислити. Інші є більш скептичними та вважають, що поточні моделі штучного інтелекту можуть завжди бути обмежені узгодженням закономірностей, ніколи не займаючись мисленням в людському стилі.

Дослідники зараз розробляють нові методи оцінки для оцінки здатності моделей штучного інтелекту справлятися з завданнями, з якими вони ніколи не стикалися раніше. Ці тести мають на меті оцінити, чи може штучний інтелект критично мислити та пояснювати своє мислення у спосіб, який має сенс для людей. Якщо успішні, ці тести можуть надати більш точне розуміння того, наскільки добре штучний інтелект може мислити, та допомогти дослідникам розробити кращі моделі.

Є також зростаючий інтерес до розробки гібридних моделей, які поєднують сильні сторони узгодження закономірностей та мислення. Ці моделі будуть використовувати нейронні мережі для узгодження закономірностей та символьні системи мислення для більш складних завдань. Apple та NVIDIA, як повідомляється, досліджують ці гібридні підходи, які можуть привести до систем штучного інтелекту, здатних до справжнього мислення.

Висновок

Дослідження Apple 2025 року піднімає важливі питання щодо справжньої природи здатності мислити штучного інтелекту. Хоча моделі штучного інтелекту, такі як LRM, показують великі перспективи в різних галузях, дослідження застерігає, що вони можуть не володіти справжнім розумінням чи мисленням в людському стилі. Натомість вони покладаються на узгодження закономірностей, що обмежує їхню ефективність у завданнях, які вимагають більш складних когнітивних процесів.

Штучний інтелект продовжує формувати майбутнє, роблячи важливим визнати як його сильні сторони, так і обмеження. Покращуючи методи тестування та керуючи нашими очікуваннями, ми можемо використовувати штучний інтелект відповідально. Це забезпечить, що він доповнює людське прийняття рішень, а не замінює його.

Доктор Ассад Аббас, доцент COMSATS University Islamabad, Пакистан, отримав ступінь доктора філософії в Північному державному університеті Дакоти, США. Його дослідження зосереджені на передових технологіях, включаючи хмарні, туманні та краєві обчислення, великі дані та аналіз штучного інтелекту. Доктор Аббас зробив суттєві внески з публікаціями в авторитетних наукових журналах та конференціях. Він також є засновником MyFastingBuddy.