Штучний інтелект

Повернення логіки: Як нейро-символічна штучна інтелектність обмежує галюцинації великих мовних моделей

mm

Багато років ми спостерігали, як великі мовні моделі (LLM) захоплюють нашу уяву. ChatGPT пише електронні листи, Gemini надає відповіді, а Llama забезпечує широкий спектр застосунків. Але за їхніми вражаючими можливостями лежить незручна реальність: ці моделі постійно генерують хибну інформацію з абсолютною впевненістю. Юрист подав позов з повністю вигаданими юридичними посиланнями. Професора було помилково звинувачено у недостойній поведінці. Медичні системи роблять рекомендації на підставі вигаданих доказів. Ми називаємо ці помилки галюцинаціями, але вони вказують на щось глибше. Вони розкривають основну слабкість систем, які покладаються лише на статистичне узгодження закономірностей замість логічного мислення.

Галюцинації великих мовних моделей: Коренева причина та рішення

Проблема галюцинацій походила від того, як мовні моделі насправді працюють. Вони передбачають наступне слово на підставі статистичних закономірностей, вивчених під час навчання, причому кожне передбачення впливає на наступне. Це створює ланцюг, у якому ранні помилки множаться. Модель не має внутрішнього механізму для перевірки, чи її заяви є фактичними чи відповідають логічним правилам. Вона просто вибирає найбільш імовірне наступне слово, що часто призводить до відповідей, які звучать переконливо, але є повністю хибними. Це не помилка, яку можна легко виправити; вона випливає з архітектури моделі.

Промисловість намагалася вирішити проблему різними рішеннями. Ми отримуємо зовнішні документи, щоб надати моделям більше контексту. Ми дофінуємо моделі на кращих даних. Ми додаємо засоби безпеки через ретельне підказування. Але жоден з цих підходів не вирішує кореневу проблему. Вони є надбудовами, побудованими над архітектурою, яка, за своєю суттю, генерує текст на підставі ймовірностей, а не розуміння істини. Коли ми рухаємось до критичних застосунків у медицині, праві та фінансах, де помилки мають реальні наслідки, нам потрібно визнати незручну реальність, що ми не можемо досягти необхідної надійності, якщо покладатимемось виключно на нейронні мережі для розуміння фактів. До 2025 року багато дослідників та компаній визнали цю реальність і змістили свій фокус на фундаментально нові підходи замість незначних удосконалень існуючих моделей.

Розуміння нейро-символічної штучної інтелектності

Нейро-символічна штучна інтелектність поєднує дві давні традиції в штучній інтелектності, які раніше здавались фундаментально протилежними. Нейронні мережі потужні у вивченні з даних, розпізнаванні закономірностей та генерації природної мови. Символічні системи, з іншого боку, сильні в застосуванні явних правил, виконання логічного мислення та забезпечення узгодженості. Десятиліттями ці два підходи конкурували за домінування. Сьогодні існує зростаюче розуміння, що майбутнє лежить у поєднанні їхніх сильних сторін. У 2025 році ця конвергенція прискорюється швидко, підштовхувана нагальними практичними потребами та все більш досконалими техніками.

Нейро-символічна штучна інтелектність працює, надаючи системам штучної інтелектності явний збір правил. Замість того, щоб покладатися лише на нейронні мережі для розуміння відносин типу “Якщо йде дощ, речі зовні стають мокрими”, система вчиться цьому як формальному правилу. Система розуміє, що логічні принципи застосовуються: якщо А дорівнює Б, а Б дорівнює В, то А повинно дорівнювати В. Ці правила походять з двох джерел. Люди вводять їх напряму, кодуючи знання про галузі, такі як медицина чи право. Система також витягує правила автоматично з її навчальних даних через процес, званий витягуванням знань. Коли нейронний компонент і символічний компонент працюють разом, відбувається щось потужне. Нейронна мережа забезпечує гнучкість, розпізнавання закономірностей та природну мовну здатність. Символічний шар забезпечує впевненість, підзвітність та гарантію правильності.

Розгляньте, як це працює на практиці. Медична система, яка використовує чисті нейронні мережі, може порекомендувати лікування пацієнту. Нейро-символічна версія додала б другий шар. Символічний мислитель перевірить, чи рекомендація порушує будь-які відомі медичні правила або суперечить інформації про конкретного пацієнта. Якщо нейронний компонент пропонує щось, що символічний шар знаходить неправильним, система або відхиляє це, або попереджає людину. Користувач тепер має не тільки відповідь, а й пояснення. Він може побачити логічний ланцюг, який привів до висновку. Цього роду прозорість більше не є необов’язковою. З ростом регулювання штучної інтелектності, пояснюваність стає юридичною та етичною вимогою. Європейський Союз вже штрафує компанії за розгортання систем штучної інтелектності, які не можуть пояснити свої рішення. Цей тиск буде тільки зростати з часом.

Технічні виклики та нейро-символічна ренесанс

Однак значні технічні виклики все ще обмежують розвиток та широке впровадження нейро-символічної штучної інтелектності. Нейронні мережі працюють ефективно на спеціалізованому обладнанні, such як GPU, обробляючи тисячі обчислень паралельно. Символічні системи віддають перевагу традиційним ЦП та послідовним операціям. Отримання цих двох архітектур для гладкої комунікації без введення значних затримок або витрат є складним завданням. Іншим перешкодою є створення логічних баз знань, на яких залежать символічні системи. Будівництво та підтримка їх є часо- та ресурсоємними, навіть для вузьких, галузевих застосунків. Кодування всіх необхідних правил вимагає ретельного проектування та експертного вводу. Масштабування цих систем до рівня великих, загальних мовних моделей є ще більш складним. Тим не менше, стимули для подолання цих бар’єрів є сильними. Коли зростає попит на системи штучної інтелектності, які є надійними, пояснюваними та довіреними, вирішення цих інтеграційних проблем стало головним пріоритетом для дослідників та компаній.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.