заглушки Що таке лінійна регресія? - Об'єднуйтесь.AI
Зв'язатися з нами
Майстер-клас ШІ:

AI 101

Що таке лінійна регресія?

mm
оновлений on

Що таке лінійна регресія?

Лінійна регресія – це алгоритм, який використовується для прогнозування або візуалізації a зв'язок між двома різними ознаками/змінними. У задачах лінійної регресії досліджуються два типи змінних: залежна змінна і незалежна змінна. Незалежна змінна – це змінна, яка є самостійною, на яку не впливає інша змінна. Коли незалежна змінна коригується, рівні залежної змінної будуть коливатися. Залежна змінна – це змінна, яка вивчається, і це те, що регресійна модель розв’язує/намагається передбачити. У задачах лінійної регресії кожне спостереження/випадок складається як зі значення залежної змінної, так і зі значення незалежної змінної.

Це було коротке пояснення лінійної регресії, але давайте переконаємося, що ми прийшли до кращого розуміння лінійної регресії, подивившись на її приклад і вивчивши формулу, яку вона використовує.

Розуміння лінійної регресії

Припустімо, що у нас є набір даних, що охоплює розміри жорстких дисків і вартість цих жорстких дисків.

Припустімо, що набір даних, який ми маємо, складається з двох різних характеристик: обсягу пам’яті та вартості. Чим більше пам'яті ми купуємо для комп'ютера, тим більше зростає вартість покупки. Якщо ми нанесемо окремі точки даних на точкову діаграму, ми можемо отримати графік, який виглядає приблизно так:

Точне співвідношення пам’яті та вартості може відрізнятися залежно від виробника та моделі жорсткого диска, але загалом тенденція даних починається в нижньому лівому куті (де жорсткі диски дешевші та мають меншу ємність) і рухається до праворуч угорі (де накопичувачі дорожчі та мають більшу місткість).

Якби у нас був обсяг пам’яті на осі X, а вартість на осі Y, лінія, що фіксує зв’язок між змінними X і Y, починалася б у нижньому лівому куті та проходила у верхньому правому куті.

Функція регресійної моделі полягає у визначенні лінійної функції між змінними X і Y, яка найкраще описує зв’язок між двома змінними. У лінійній регресії передбачається, що Y можна обчислити з певної комбінації вхідних змінних. Зв’язок між вхідними змінними (X) і цільовими змінними (Y) можна зобразити, провівши лінію через точки на графіку. Лінія представляє функцію, яка найкраще описує зв’язок між X і Y (наприклад, кожен раз, коли X збільшується на 3, Y збільшується на 2). Мета полягає в тому, щоб знайти оптимальну «лінію регресії» або лінію/функцію, яка найкраще відповідає даним.

Лінії зазвичай представлені рівнянням: Y = m*X + b. X відноситься до залежної змінної, тоді як Y є незалежною змінною. Між тим, m – це нахил лінії, визначений «підйомом» над «пробігом». Практики машинного навчання представляють відоме рівняння нахилу дещо інакше, використовуючи натомість це рівняння:

y(x) = w0 + w1 * x

У наведеному вище рівнянні y — цільова змінна, тоді як «w» — це параметри моделі, а вхідні дані — «x». Тож рівняння читається так: «Функція, яка дає Y, залежно від X, дорівнює параметрам моделі, помноженим на ознаки». Параметри моделі коригуються під час навчання, щоб отримати найкращу лінію регресії.

Множина лінійна регресія

Фото: Cbaf через Wikimedia Commons, громадське надбання (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Процес, описаний вище, застосовується до простої лінійної регресії або регресії на наборах даних, де є лише одна функція/незалежна змінна. Однак регресію також можна зробити з кількома функціями. У випадку "множинна лінійна регресія”, рівняння розширюється кількістю змінних, знайдених у наборі даних. Іншими словами, у той час як рівняння для звичайної лінійної регресії є y(x) = w0 + w1 * x, рівняння для множинної лінійної регресії буде y(x) = w0 + w1x1 плюс ваги та вхідні дані для різних ознак. Якщо ми представимо загальну кількість ваг і ознак як w(n)x(n), то формулу можна представити так:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Після встановлення формули для лінійної регресії модель машинного навчання використовуватиме різні значення для ваг, малюючи різні лінії відповідності. Пам’ятайте, що метою є знайти лінію, яка найкраще відповідає даним, щоб визначити, яка з можливих комбінацій ваг (і, отже, яка можлива лінія) найкраще відповідає даним і пояснює зв’язок між змінними.

Функція вартості використовується для вимірювання того, наскільки близькі припущені значення Y до фактичних значень Y, якщо дано певне значення ваги. Функція витрат для лінійної регресії — це середня квадратична помилка, яка просто бере середню (квадратичну) помилку між прогнозованим значенням і справжнім значенням для всіх різних точок даних у наборі даних. Функція витрат використовується для обчислення вартості, яка фіксує різницю між прогнозованим цільовим значенням і справжнім цільовим значенням. Якщо лінія відповідності розташована далеко від точок даних, вартість буде вищою, а вартість буде ставати меншою, чим ближче лінія наближається до фіксації справжніх зв’язків між змінними. Потім ваги моделі коригуються, доки не буде знайдено конфігурацію ваги, яка створює найменшу кількість похибок.

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.