Вештачка интелигенција

Едноставна линеарна регресија во областа на науката за податоци

Ажурирани on Декември 9, 2022

Науката за податоци е огромно поле кое расте со секој изминат ден. Денес, врвните компании бараат професионални научници за податоци кои поседуваат силно знаење за областа и нејзините сродни концепти. За да се претстави добро на ова поле, важно е да се има солидно знаење за сите алгоритми за наука за податоци. Еден од најосновните алгоритми на науката за податоци е едноставна линеарна регресија. Секој научник за податоци треба да знае како да го користи овој алгоритам за да решава проблеми и да изведе значајни резултати.

Едноставна линеарна регресија е методологија за одредување на односот помеѓу влезните и излезните променливи. Влезните променливи се сметаат за независни променливи или предвидувачи, а излезните променливи се зависни променливи или одговори. Во едноставна линеарна регресија се разгледува само една влезна променлива.

Пример во реално време за едноставна линеарна регресија

Да разгледаме збир на податоци што се состои од два параметри: број на одработени часови и количина на завршена работа. Едноставната линеарна регресија има за цел да ја погоди количината на извршената работа ако се дадени работните часови. Се повлекува регресивна линија, која генерира минимална грешка. Формирана е и линеарна равенка, која потоа може да се користи за речиси секое множество податоци.

Принципи кои ја прикажуваат целта на едноставната линеарна регресија:

Едноставна линеарна регресија се користи за да се предвиди односот помеѓу променливите во збир на податоци и да се извлечат значајни заклучоци. Едноставната линеарна регресија главно се користи за да се изведе статистичката врска помеѓу променливите, која не е доволно точна. Четири основни принципи ја прикажуваат употребата на едноставна линеарна регресија. Овие принципи се наведени подолу:

Врската помеѓу двете променливи се смета за линеарна и адитивна: За секој пар на зависни и независни променливи се воспоставува права линија. Наклонот на оваа линија е различен од вредностите на променливите достапни во множеството податоци. Зависните променливи имаат адитивен ефект врз вредностите на независните променливи.
Грешките се статистички независни: Овој принцип може да се земе предвид за збир на податоци што содржи информации поврзани со времето и сериите. Последователните грешки на таков збир на податоци не се во корелација и се статистички независни.
Грешките имаат постојана варијанса (хомоскедастичност): Хомоскедастичноста на грешките може да се смета врз основа на различни параметри. Овие параметри вклучуваат време, други прогнози и други променливи.
Нормалност на дистрибуција на грешка: Ова е важен принцип бидејќи ги поддржува другите три споменати погоре. Ако не може да се воспостави врска помеѓу променливите во множеството податоци, или ако некој од горенаведените принципи не е воспоставен, тогаш сите предвидувања и заклучоци произведени од моделот се неточни. Овие заклучоци не можат да се користат понатаму во проектот бидејќи нема да се добијат вистински резултати доколку се користат погрешни и погрешни податоци.

Предности на едноставна линеарна регресија

Оваа методологија е исклучително лесна за употреба, а резултатите може да се добијат без напор.
Овој метод има исклучително помала сложеност од другите алгоритми на науката за податоци, првенствено ако е позната врската помеѓу зависните и независните променливи.
Прекумерното вклопување е честа состојба што се јавува кога оваа методологија зема бесмислени информации. За да се справите со овој проблем, достапна е техниката на регулација, која го намалува проблемот на претерување преку намалување на сложеноста.

Недостатоци на едноставна линеарна регресија

Иако проблемот со прекумерното вклопување може да се елиминира, тој не може да се игнорира. Методот може да земе предвид бесмислени податоци и исто така да ги елиминира значајните информации. Во таков случај, сите прогнози се заклучоци за одреден збир на податоци кои ќе бидат неточни и не може да се генерираат ефективни резултати.
Проблемот со пониските податоци е исто така многу чест. Оддалечените вредности се сметаат за погрешни вредности кои не се совпаѓаат со точните податоци. Кога ќе се земат предвид таквите вредности, целиот модел ќе произведе погрешни резултати кои немаат никаква корист.
Во едноставна линеарна регресија, множеството податоци во рака се смета дека има независни податоци. Оваа претпоставка е погрешна бидејќи може да има одредена зависност помеѓу променливите.

Едноставна линеарна регресија е корисна техника за одредување на односите на различни влезни и излезни променливи во множество податоци. Постојат неколку апликации во реално време на едноставна линеарна регресија. Овој алгоритам не бара висока пресметковна моќ и може лесно да се имплементира. Изведените равенки и заклучоци можат дополнително да се изградат и се исклучително едноставни за разбирање. Сепак, некои професионалци, исто така, сметаат дека едноставната линеарна регресија не е вистинската методологија што треба да се користи за различни апликации, бидејќи има многу претпоставки што се направени. Овие претпоставки може да се покажат и погрешни. Затоа, неопходно е да се користи оваа техника секаде каде што може правилно да се примени.

Поврзани теми:наука за податоци линеарна регресија

Следно

Истражувачите развија оптички сензор за да имитираат човечко око

Не ја пропуштајте

Новата вештачка интелигенција на DeepMind може да ги научи правилата на играта додека се игра

Палак Ајрон

Персонал на Data Scientist со над 8 години професионално искуство во ИТ индустријата. Надлежен за наука за податоци и дигитален маркетинг. Експертиза за професионално истражени технички содржини.