Машинне навчання, підмножина штучного інтелекту, складається з трьох компонентів: алгоритмів, навчальних даних та отриманої моделі. Алгоритм, по суті, набір процедур, вчиться розпізнавати закономірності з великої кількості прикладів (навчальних даних). Результатом цього навчання є модель машинного навчання. Наприклад, алгоритм, навчений на зображеннях собак, призводить до моделі, здатної розпізнавати собак на зображеннях.
Чорна скринька в машинному навчанні
У машинному навчанні будь-який з трьох компонентів – алгоритм, навчальні дані або модель – може бути чорною скринькою. Хоча алгоритми часто публічно відомі, розробники можуть вирішити зберегти модель або навчальні дані в секреті для захисту інтелектуальної власності. Ця неясність робить складним зрозуміти процес прийняття рішень штучного інтелекту.
Чорні скриньки штучного інтелекту – це системи, внутрішня робота яких залишається неясною або невидимою для користувачів. Користувачі можуть вводити дані та отримувати вивід, але логіка або код, який генерує вивід, залишається прихованим. Це характерна особливість багатьох систем штучного інтелекту, включаючи просунуті генеративні моделі, такі як ChatGPT та DALL-E 3.
Моделі LLM, такі як GPT-4, представляють значний виклик: їх внутрішня робота в основному неясна, роблячи їх “чорними скриньками”. Ця неясність не лише технічна головоломка; вона викликає реальні питання безпеки та етики. Наприклад, якщо ми не можемо зрозуміти, як ці системи приймають рішення, можемо ми довіряти їм у критичних сферах, таких як медичні діагнози чи фінансові оцінки?
Дослідження технік LIME та SHAP
Інтерпретація в машинному навчанні (ML) та глибокому навчанні (DL) допомагає нам бачити у неясній внутрішній роботі цих просунутих моделей. Локальна інтерпретаційна модель-агностична пояснення (LIME) та SHapley Аддитивні пояснення (SHAP) – це дві такі основні техніки інтерпретації.
Інтерпретація
LIME, наприклад, розбиває складність, створюючи простіші, локальні заміни моделей, які наближаються до поведінки оригінальної моделі біля певного входу. Роблячи це, LIME допомагає зрозуміти, як окремі функції впливають на передбачення складних моделей, фактично надаючи “локальне” пояснення того, чому модель прийняла певне рішення. Це особливо корисно для некVAL користувачів, оскільки воно перекладає складний процес прийняття рішень моделей на більш зрозумілі терміни.
Модель-агностична інтерпретація машинного навчання (LIME) Джерело
SHAP, з іншого боку, бере натхнення з теорії ігор, зокрема концепції Шеплі-значень. Він призначає “важливість” значення кожній функції, вказуючи, наскільки кожна функція внесла свій внесок у різницю між фактичним передбаченням та базовим передбаченням (середнім передбаченням по всіх входах). Сила SHAP полягає в його послідовності та здатності надавати глобальну перспективу – вона не лише пояснює окремі передбачення, але також надає уявлення про модель у цілому. Це особливо цінно в моделях глибокого навчання, де міжз’єднані шари та численні параметри часто роблять процес передбачення схожим на подорож крізь лабіринт. SHAP демістифікує це, кількісно оцінюючи внесок кожної функції, надаючи яснішу карту шляхів прийняття рішень моделі.
Обидві LIME та SHAP виникли як важливі інструменти у сфері штучного інтелекту та машинного навчання, звертаючись до критичної потреби у прозорості та довірі. Коли ми продовжимо інтегрувати штучний інтелект у різні сфери, можливість інтерпретувати та розуміти ці моделі стає не лише технічною необхідністю, але й фундаментальною вимогою для етичного та відповідального розвитку штучного інтелекту. Ці техніки представляють значні кроки у розгортанні складностей моделей машинного навчання та глибокого навчання, перетворюючи їх з неясних “чорних скриньок” на зрозумілі системи, чиї рішення та поведінку можна зрозуміти, довіряти та ефективно використовувати.
Масштаб і складність LLM
Масштаб цих моделей додає до їх складності. Візьміть, наприклад, GPT-3 з його 175 мільярдами параметрів, та новіші моделі з трильйонами. Кожен параметр взаємодіє складним чином у нейронній мережі, спричиняючи появу здатностей, які не можуть бути передбачені окремим компонентом. Цей масштаб та складність роблять майже неможливим повністю зрозуміти їх внутрішню логіку, ставлячи перешкоду на шляху діагностики упереджень чи нежаданих поведінок у цих моделях.
Торгівля: Масштаб проти інтерпретації
Зменшення масштабу LLM може підвищити інтерпретацію, але за рахунок їх просунутих можливостей. Масштаб – це те, що дозволяє поведінку, яку менші моделі не можуть досягти. Це представляє внутрішню торгівлю між масштабом, можливостями та інтерпретацією.
Вплив проблеми чорної скриньки LLM
1. Помилкове прийняття рішень
Непрозорість у процесі прийняття рішень LLM, таких як GPT-3 або BERT, може привести до непомічених упереджень та помилок. У сферах, таких як охорона здоров’я чи кримінальна справедливість, де рішення мають далекосяжні наслідки, неможливість аудиту LLM для етичної та логічної правильності є серйозною проблемою. Наприклад, медична система діагностики LLM, що покладається на застарілі чи упереджені дані, може зробити шкідливі рекомендації. Аналогічно, LLM у процесах найму можуть ненавмисно підтримувати гендерні упередження. Чорна скринька не лише приховує недоліки, але й потенційно посилює їх, вимагаючи проактивного підходу для підвищення прозорості.
2. Обмежена адаптивність у різних контекстах
Недостатня прозорість у внутрішній роботі LLM обмежує їх адаптивність. Наприклад, система найму LLM може бути неефективною у оцінці кандидатів на роль, яка цінує практичні навички над академічними кваліфікаціями, через її нездатність регулювати критерії оцінки. Аналогічно, медична система LLM може боротися з діагностикою рідкісних захворювань через дисбаланс даних. Ця інфлексибільність підкреслює необхідність прозорості для перенастройки LLM для конкретних завдань та контекстів.
3. Упередження та прогалини у знаннях
Обробка LLM великих навчальних даних підлягає обмеженням, накладеним їх алгоритмами та архітектурами моделей. Наприклад, медична система LLM може демонструвати демографічні упередження, якщо вона навчена на несбалансированих даних. Також, професіоналізм LLM у вузьких темах може бути оманливим, що призводить до надто впевнених, неправильних виходів. Вирішення цих упереджень та прогалин у знаннях вимагає більшого, ніж просто додаткових даних; це вимагає дослідження механіки обробки моделі.
4. Юридична та етична відповідальність
Неясна природа LLM створює юридичну сіру зону щодо відповідальності за будь-яку шкоду, спричинену їх рішеннями. Якщо система LLM у медичній сфері надає хибні поради, що призводять до шкоди пацієнту, визначення відповідальності стає складним через неясність моделі. Ця юридична неясність створює ризики для організацій, які розгортають LLM у чутливих сферах, підкреслюючи необхідність прозорості та чіткого управління.
5. Проблеми довіри у чутливих застосуваннях
Для LLM, використовуваних у критичних сферах, таких як охорона здоров’я та фінанси, відсутність прозорості підкреслює їх недовіру. Користувачі та регулятори повинні забезпечити, щоб ці моделі не містили упереджень чи приймали рішення на основі несправедливих критеріїв. Перевірка відсутності упередження у LLM вимагає розуміння їх процесу прийняття рішень, підкреслюючи важливість пояснюваності для етичної реалізації.
6. Ризики з особистими даними
LLM вимагають великих навчальних даних, які можуть включати чутливі особисті відомості. Неясна природа цих моделей піднімає питання про те, як ці дані обробляються та використовуються. Наприклад, медична система LLM, навчена на медичних записах пацієнтів, піднімає питання про конфіденційність даних та їх використання. Забезпечення того, щоб особисті дані не були зловживані чи експлуатовані, вимагає прозорих процесів обробки даних у цих моделях.
Нові рішення для інтерпретації
Для вирішення цих викликів розробляються нові техніки. До них належать методи наближення контрфактичних даних. Перший метод включає в себе запит до LLM про зміну певної концепції тексту, залишаючи інші концепції незмінними. Цій підхід, хоча й ефективний, є ресурсоємним під час висновку.
Другий підхід включає створення спеціального простору вкладення, керованого LLM під час навчання. Цей простір відповідає каузальному графу та допомагає ідентифікувати збіги, що наближаються до контрфактичних даних. Цей метод вимагає менше ресурсів під час тестування та був показаний як ефективний у поясненні передбачень моделі, навіть у LLM з мільярдами параметрів.
Ці підходи підкреслюють важливість каузальних пояснень у системах обробки природної мови для забезпечення безпеки та довіри. Наближення контрфактичних даних надають спосіб уявити, як певний текст зміниться, якщо певна концепція у його генеративному процесі буде іншою, допомагаючи у практичній оцінці каузального впливу високорівневих концепцій на моделі обробки природної мови.
Глибоке дослідження: методи пояснення та каузальність у LLM
Зондування та інструменти важливості функцій
Зондування – це техніка, використовувана для розшифрування того, які внутрішні представлення моделей кодують. Воно може бути як наглядовим, так і ненаглядовим, і спрямоване на визначення того, чи певні концепції кодуються в певних місцях мережі. Хоча це ефективно до певної міри, зонди не дають каузальних пояснень, як підкреслили Geiger et al. (2021).
Інструменти важливості функцій, інший тип методу пояснення, часто зосереджуються на входних функціях, хоча деякі методи, засновані на градієнтах, розширюють це до прихованих станів. Прикладом є метод інтегральних градієнтів, який пропонує каузальне тлумачення, досліджуючи базові (контрфактичні, КФ) входи. Незважаючи на їх корисність, ці методи все ще борються з тим, щоб зв’язати свій аналіз з реальними концепціями за межами простих властивостей входу.
Методи, засновані на втручанні
Методи, засновані на втручанні, включають зміну входів або внутрішніх представлень для вивчення їх впливу на поведінку моделі. Ці методи можуть створити контрфактичні стани для оцінки каузальних впливів, але вони часто генерують недопустимі входи або стани мережі, якщо не контролюються належним чином. Модель каузального посередника (МКП), натхненна концепцією S-learner, є новим підходом у цій сфері, імітує поведінку пояснюваної моделі під контрфактичними входами. Однак необхідність окремого пояснювача для кожної моделі є суттєвим обмеженням.
Наближення контрфактичних даних
Контрфактичні дані широко використовуються у машинному навчанні для доповнення даних, включаючи порушення різних факторів чи міток. Ці дані можуть бути згенеровані шляхом ручного редагування, евристичного заміщення ключових слів або автоматичного переписування тексту. Хоча ручне редагування є точним, воно також ресурсоємне. Методи, засновані на ключових словах, мають свої обмеження, а генеративні підходи пропонують баланс між плавністю та покриттям.
Вірні пояснення
Вірність у поясненнях відноситься до точного зображення внутрішньої логіки моделі. Не існує загально прийнятої визначення вірності, що призводить до її характеристики через різні метрики, такі як чутливість, послідовність, узгодженість важливості функцій, стійкість та симулювання. Більшість цих методів зосереджуються на поясненнях на рівні функцій і часто плутають кореляцію з каузальністю. Наша робота спрямована на надання пояснень високорівневих концепцій, використовуючи літературу каузальності для пропозиції інтуїтивного критерію: Порядково-вірність.
Ми занурюємося у вбудовані складності LLM, розуміючи їх “чорну скриньку” та суттєві виклики, які вона представляє. Від ризиків помилкового прийняття рішень у чутливих сферах, таких як охорона здоров’я та фінанси, до етичних дилем, пов’язаних з упередженнями та справедливістю, потреба у прозорості LLM ніколи не була такою очевидною.
Майбутнє LLM та їх інтеграція у нашу повсякденну життя та критичні процеси прийняття рішень залежить від нашої здатності зробити ці моделі не лише більш просунутими, але й більш зрозумілими та відповідальними. Погоня за пояснюваністю та інтерпретацією не лише технічне завдання, але й фундаментальний аспект будівництва довіри до систем штучного інтелекту. Коли LLM стають все більш інтегрованими у суспільство, попит на прозорість зростатиме, не лише з боку практиків штучного інтелекту, але й з боку кожного користувача, який взаємодіє з цими системами.
Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя тривала цікавість також привела мене до природної обробки мови, галузі, яку я бажаю дослідити далі.