Штучний інтелект
Як LLM змушують нас переозначити інтелект

Є стара приказка: Якщо це виглядає як качка, плаває як качка і квакає як качка, то це, ймовірно, качка. Цей простий спосіб мислення, часто пов’язаний з індіанським поетом Джеймсом Віткомбом Райлі, формував наше сприйняття штучного інтелекту протягом десятиліть. Ідея про те, що поведінка достатня для визначення інтелекту, надихнула Алана Тюрінга на його знаменитий “Імітаційний тест”, тепер називається Тест Тюрінга.
Тюрінг запропонував, що якщо людина не може відрізнити, чи спілкується вона з машиною чи з іншою людиною, то машину можна назвати інтелектуальною. І тест на качку, і тест Тюрінга припускають, що те, що має значення, – це не те, що знаходиться всередині системи, а як вона поводиться. Десятиліттями цей тест спрямовував розвиток штучного інтелекту. Але з появою великих мовних моделей (LLM) ситуація змінилася. Ці системи можуть писати плавний текст, вести розмови та виконувати завдання способами, які здаються надзвичайно людськими. Питання вже не в тому, чи можуть машини імітувати людську розмову, а в тому, чи ця імітція є справжнім інтелектом. Якщо система може писати як ми, розуміти як ми та навіть створювати як ми, чи слід називати її інтелектуальною? Чи поведінка сама по собі вже не достатня для вимірювання інтелекту?
Еволюція машинного інтелекту
Великі мовні моделі змінили наше сприйняття штучного інтелекту. Ці системи, раніше обмежені генерацією базових текстових відповідей, тепер можуть розв’язувати логічні проблеми, писати комп’ютерний код, створювати історії та навіть допомагати з творчими завданнями, такими як написання сценаріїв. Одним із ключових етапів цього прогресу є їхня здатність розв’язувати складні проблеми шляхом пошукового мислення, методу, відомого як ланцюг думок. Розбиваючи проблему на менші частини, LLM може розв’язувати складні математичні проблеми або логічні головоломки способом, який нагадує людське розв’язування проблем. Ця здатність дозволила їм досягти або навіть перевершити людську продуктивність на складних бенчмарках, таких як MATH або GSM8K. Сьогодні LLM також мають мультимодальні можливості. Вони можуть працювати з зображеннями, інтерпретувати медичні знімки, пояснювати візуальні головоломки та описувати складні діаграми. З цими досягненнями питання вже не в тому, чи можуть LLM імітувати людську поведінку, а в тому, чи ця поведінка відображає справжнє розуміння.
Сліди людського мислення
Цей успіх LLM переозначає наше розуміння інтелекту. Фокус зміщується від співвідношення поведінки штучного інтелекту з людською, як це передбачав тест Тюрінга, до дослідження того, наскільки близькі LLM до людського мислення у обробці інформації (тобто справжнього людського мислення). Наприклад, в недавньому дослідженні дослідники порівняли внутрішню роботу моделей штучного інтелекту з активністю людського мозку. Дослідження показало, що LLM з понад 70 мільярдами параметрів не тільки досягли людської точності, але й організували інформацію всередині себе способами, які збігалися з людськими мозковими паттернами.
Коли люди та моделі штучного інтелекту працювали над завданнями розпізнавання закономірностей, сканиування мозку показали подібні патерни активності у людей та відповідні обчислювальні патерни в моделях штучного інтелекту. Моделі кластеризували абстрактні концепції у своїх внутрішніх шарах способами, які безпосередньо збігалися з людською мозковою активністю. Це свідчить про те, що успішне мислення може потребувати подібних організаційних структур, як у біологічних, так і в штучних системах.
Однак дослідники підкреслюють обмеження цієї роботи. Дослідження включало порівняно невелику кількість людських учасників, а люди та машини підходили до завдань по-різному. Люди працювали з візуальними закономерностями, тоді як моделі штучного інтелекту обробляли текстові описи. Кореляція між людською та машинною обробкою є цікавою, але вона не доводить, що машини розуміють концепції так само, як люди.
Є також очевидні відмінності у продуктивності. Хоча найкращі моделі штучного інтелекту наблизилися до людської точності на простих завданнях, вони показали більш драматичні спади продуктивності на складних завданнях порівняно з людськими учасниками. Це свідчить про те, що попри подібності в організації, можуть бути фундаментальні відмінності в тому, як люди та машини обробляють складні абстрактні концепції.
Скептичний погляд
Незважаючи на ці вражаючі результати, сильний аргумент свідчить про те, що LLM – це не більше ніж дуже кваліфікований імітатор. Ця точка зору походить від філософа Джона Сірла та його експерименту “містить про кімнату”, який ілюструє, чому поведінка може не дорівнювати розумінню.
У цьому експерименті Сірл просить нас уявити людину, замкнену в кімнаті, яка говорить тільки англійською. Людина отримує китайські символи та використовує англійську книгу правил, щоб маніпулювати цими символами та створювати відповіді. З зовні кімнати її відповіді виглядають точно так само, як у рідного китайського мовця. Однак Сірл стверджує, що людина нічого не розуміє про китайську мову. Він просто слідує правилам без справжнього розуміння.
Критики застосовують ту ж логіку до LLM. Вони стверджують, що ці системи – це “стохастичні папуги”, які генерують відповіді на основі статистичних закономірностей у своїх навчальних даних, а не справжнього розуміння. Термін “стохастичний” відноситься до їхнього ймовірнісного характеру, тоді як “папуга” підкреслює їхню імітативну поведінку без справжнього розуміння.
Деякі технічні обмеження LLM також підтверджують цей аргумент. LLM часто генерують “галюцинації” – відповіді, які виглядають правдоподібними, але повністю неправильні, вводять в оману та безглузді. Це відбувається тому, що вони вибирають статистично правдоподібні слова, а не консультуються з внутрішньою базою знань чи розуміють істину та хибність. Ці моделі також відтворюють людські помилки та упередження. Вони плутаються під впливом неважливої інформації, яку люди легко проігнорують. Вони демонструють расові та гендерні стереотипи, оскільки вони навчені на даних, що містять ці упередження. Іншим обмеженням є “позиційний бIAS”, коли моделі надмірно акцентують увагу на інформації в початку чи кінці довгих документів, ігноруючи середній вміст. Це “загублене в середині” явище свідчить про те, що ці системи обробляють інформацію зовсім по-іншому, ніж люди, які можуть підтримувати увагу протягом всього документа.
Ці обмеження підкреслюють центральну проблему: хоча LLM успішно розпізнають та відтворюють мовні закономірності, це не означає, що вони真正но розуміють значення чи реальний контекст. Вони добре справляються з синтаксисом, але залишаються обмеженими, коли справа доходить до семантики.
Що вважається інтелектом?
Дебати в кінцевому підсумку зводяться до того, як ми визначаємо інтелект. Якщо інтелект – це здатність генерувати сполучену мову, розв’язувати проблеми та адаптуватися до нових ситуацій, то LLM вже відповідають цьому стандарту. Однак, якщо інтелект вимагає самосвідомості, справжнього розуміння чи суб’єктивного досвіду, ці системи все ще не дотягують.
Складність полягає в тому, що у нас немає чіткого чи об’єктивного способу вимірювати якості, такі як розуміння чи свідомість. І в людей, і в машин ми робимо висновки про них на основі поведінки. Тест на качку та тест Тюрінга колись надавали елегантні відповіді, але у віці LLM вони можуть вже не бути достатніми. Їхні можливості змушують нас переглянути, що真正но вважається інтелектом, і чи наші традиційні визначення зберігають темп з технологічною реальністю.
Основний висновок
Великі мовні моделі кидають виклик нашому сприйняттю штучного інтелекту. Вони можуть імітувати розуміння, генерувати ідеї та виконувати завдання, які раніше вважалися винятково людськими. Однак їм бракує усвідомлення та ґрунтування, які формують справжнє людське мислення. Їхнє зростання змушує нас запитувати не тільки, чи машини діють інтелектуально, але й що真正но означає інтелект.












