заглушки Що таке підсилення градієнта? - Об'єднуйтесь.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Що таке підсилення градієнта?

mm
оновлений on

Поширеним типом моделі машинного навчання, яка виявилася надзвичайно корисною в змаганнях з науки про дані, є модель посилення градієнта. Підвищення градієнта це в основному процес перетворення слабких моделей навчання на сильні моделі навчання. Але як саме це досягається? Давайте ближче розглянемо алгоритми посилення градієнта та краще зрозуміти, як модель посилення градієнта перетворює слабких учнів на сильних.

Визначення посилення градієнта

Ця стаття має на меті дати вам гарне уявлення про те, що таке посилення градієнта, без численних розкладів математики, яка лежить в основі алгоритмів. Коли ви зрозумієте, як на високому рівні працює підсилення градієнта, вам буде запропоновано піти глибше та дослідити математику, яка робить це можливим.

Давайте почнемо з визначення того, що означає «розвивати» учня. Слабкі учні перетворюються на сильних шляхом коригування властивостей моделі навчання. Який саме алгоритм навчання покращується?

Моделі покращення працюють, доповнюючи іншу поширену модель машинного навчання, дерево рішень.

A дерево рішень модель функціонує, розбиваючи набір даних на все менші й менші частини, і коли підмножини не можна далі розділити, результатом є дерево з вузлами та листками. Вузли в дереві рішень – це місце, де приймаються рішення щодо точок даних за допомогою різних критеріїв фільтрації. Листя в дереві рішень - це точки даних, які були класифіковані. Алгоритми дерева рішень можуть обробляти як числові, так і категоричні дані, а розбиття в дереві базується на конкретних змінних/функціях.

Ілюстрація способу навчання моделей підвищення.
Фото: SeattleDataBuy через Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

Одним із типів алгоритму підвищення є Алгоритм AdaBoost. Алгоритми AdaBoost починаються з навчання моделі дерева рішень і присвоєння однакової ваги кожному спостереженню. Після того як перше дерево було оцінено на точність, ваги для різних спостережень коригуються. Спостереження, які було легко класифікувати, мають знижену вагу, а спостереження, які було важко класифікувати, збільшили свою вагу. Друге дерево створюється з використанням цих скоригованих ваг, щоб прогнози другого дерева були точнішими, ніж прогнози першого дерева.

Тепер модель складається з передбачень для оригінального дерева та нового дерева (або Дерева 1 + Дерева 2). Точність класифікації ще раз оцінюється на основі нової моделі. Третє дерево створюється на основі обчисленої похибки для моделі, і ваги ще раз коригуються. Цей процес триває протягом певної кількості ітерацій, і остаточна модель є моделлю ансамблю, яка використовує зважену суму прогнозів, зроблених усіма раніше побудованими деревами.

Процес, описаний вище, використовує Дерева рішень і базові предиктори/моделі, але підхід підвищення може бути реалізований за допомогою широкого діапазону моделей, таких як багато стандартних класифікаторів і регресорних моделей. Ключові концепції, які слід зрозуміти, полягають у тому, що наступні предиктори вчаться на помилках попередніх і що предиктори створюються послідовно.

Основна перевага алгоритмів посилення полягає в тому, що вони потребують менше часу для пошуку поточних прогнозів порівняно з іншими моделями машинного навчання. Проте слід бути обережним, використовуючи алгоритми посилення, оскільки вони схильні до переобладнання.

Підвищення градієнта

Зараз ми розглянемо один із найпоширеніших алгоритмів підвищення. Моделі посилення градієнта (GBM) відомі своєю високою точністю, і вони доповнюють загальні принципи, які використовуються в AdaBoost.

Основна відмінність між моделлю посилення градієнта та AdaBoost полягає в тому, що GBM використовують інший метод обчислення того, хто з учнів неправильно ідентифікує точки даних. AdaBoost обчислює, де модель має низьку продуктивність, досліджуючи точки даних, які мають велику вагу. Тим часом GBM використовують градієнти для визначення точності учнів, застосовуючи функцію втрат до моделі. Функції втрат — це спосіб вимірювання точності відповідності моделі набору даних, обчислення помилки та оптимізація моделі для зменшення цієї помилки. GBM дозволяють користувачеві оптимізувати визначену функцію втрат на основі бажаної цілі.

Беручи найпоширенішу функцію втрат – Середня квадратична помилка (MSE) - як приклад, градієнтний спуск використовується для оновлення прогнозів на основі попередньо визначеної швидкості навчання з метою пошуку значень, де втрати мінімальні.

Щоб було зрозуміліше:

Нові прогнози моделі = вихідні змінні – старі недосконалі прогнози.

У більш статистичному сенсі GBM мають на меті знайти релевантні закономірності в залишках моделі, налаштовуючи модель, щоб відповідати шаблону та максимально наблизити залишки до нуля. Якби ви здійснили регресію прогнозів моделі, залишки розподілялися б навколо 0 (ідеальна відповідність), а GBM знаходять шаблони в залишках і оновлюють модель відповідно до цих шаблонів.

Іншими словами, прогнози оновлюються таким чином, щоб сума всіх залишків була якомога ближчою до 0, тобто прогнозовані значення будуть дуже близькими до фактичних значень.

Зверніть увагу, що GBM може використовувати широкий спектр інших функцій втрат (таких як логарифмічні втрати). MSE було вибрано вище з метою простоти.

Варіації моделей посилення градієнта

Моделі посилення градієнта — це жадібні алгоритми, які схильні до переобладнання набору даних. Від цього можна захиститися за допомогою кілька різних методів що може покращити продуктивність GBM.

GBM можна регулювати чотирма різними методами: зменшенням, обмеженнями дерева, посиленням стохастичного градієнта та штрафним навчанням.

Усадка

Як згадувалося раніше, у GBM прогнози підсумовуються послідовним способом. У «Усадці» коригуються додавання кожного дерева до загальної суми. Застосовуються ваги, які сповільнюють швидкість навчання алгоритму, що вимагає додавання більше дерев до моделі, що зазвичай покращує надійність і продуктивність моделі. Компроміс полягає в тому, що модель займає більше часу для навчання.

Дерево обмежень

Обмеження дерева за допомогою різних налаштувань, як-от додавання більшої глибини дереву або збільшення кількості вузлів або листків у дереві, може ускладнити перевиконання моделі. Накладення обмеження на мінімальну кількість спостережень на поділ має аналогічний ефект. Знову ж таки, компроміс полягає в тому, що для навчання моделі знадобиться більше часу.

Випадкова вибірка

Окремі учні можуть бути створені за допомогою стохастичного процесу на основі випадково вибраних підсемплів навчального набору даних. Це призводить до зменшення кореляції між деревами, що захищає від переобладнання. Набір даних може бути підштампований перед створенням дерев або перед розглядом розбиття дерева.

Штрафне навчання

Окрім обмеження моделі через обмеження структури дерева, можна використовувати регресійне дерево. Дерева регресії мають числові значення, прикріплені до кожного з листків, і вони функціонують як вагові коефіцієнти та можуть бути скориговані за допомогою звичайних функцій регуляризації, таких як регулярізація L1 і L2.

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.