никулец Што е дрво на одлука? - Обединете се.АИ
Поврзете се со нас
Мастеркласа за вештачка интелигенција:

АИ 101 година

Што е дрво на одлуки?

mm
Ажурирани on

Што е дрво на одлуки?

A дрво на одлука е корисен алгоритам за машинско учење што се користи и за задачи за регресија и за класификација. Името „дрво на одлуки“ доаѓа од фактот што алгоритмот продолжува да ја дели базата на податоци на помали и помали делови додека податоците не се поделат на единечни примероци, кои потоа се класифицираат. Ако ги визуелизирате резултатите од алгоритмот, начинот на кој се поделени категориите ќе личи на дрво и многу лисја.

Тоа е брза дефиниција за дрво на одлуки, но ајде длабоко да се нурнеме во тоа како функционираат дрвјата за одлуки. Ако имате подобро разбирање за тоа како функционираат стеблата на одлуки, како и случаите на нивната употреба, ќе ви помогне да знаете кога да ги користите за време на вашите проекти за машинско учење.

Формат на стебло на одлуки

Дрво на одлуки е многу како дијаграм на текови. За да користите дијаграм на текови, започнувате од почетната точка, или коренот, на графиконот и потоа врз основа на тоа како ќе одговорите на критериумите за филтрирање на тој почетен јазол, се префрлате на еден од следните можни јазли. Овој процес се повторува додека не се постигне крај.

Дрвјата за одлучување функционираат во суштина на ист начин, при што секој внатрешен јазол во дрвото е некој вид критериум за тестирање/филтрирање. Јазлите однадвор, крајните точки на дрвото, се ознаки за предметната податочна точка и тие се наречени „лисја“. Гранките што водат од внатрешните јазли до следниот јазол се карактеристики или сврзници на карактеристики. Правилата што се користат за класификација на податочните точки се патеките што се движат од коренот до лисјата.

Алгоритми за дрва за одлучување

Дрвата за одлучување работат на алгоритамски пристап кој го дели сетот на податоци на поединечни точки на податоци врз основа на различни критериуми. Овие поделби се направени со различни променливи или различни карактеристики на сетот на податоци. На пример, ако целта е да се утврди дали кучето или мачка се опишуваат или не со влезните карактеристики, променливите на кои се поделени податоците може да бидат работи како „канџи“ и „лае“.

Значи, кои алгоритми се користат за всушност да се поделат податоците на гранки и лисја? Постојат различни методи кои можат да се користат за да се подели дрвото, но најчестиот метод на разделување е веројатно техниката наречена „рекурзивна бинарна поделба“. При спроведување на овој метод на разделување, процесот започнува од коренот и бројот на карактеристики во сетот го претставува можниот број на можни поделби. Се користи функција за да се одреди колку точност ќе чини секое можно поделување, а поделбата се прави со користење на критериуми што ја жртвуваат најмала точност. Овој процес се спроведува рекурзивно и се формираат подгрупи користејќи ја истата општа стратегија.

Со цел да се одреди ја цената на поделбата, се користи функција на трошоци. Различна функција на трошоци се користи за задачи за регресија и задачи за класификација. Целта на двете функции на трошоците е да се одреди кои гранки имаат најслични вредности на одговор, или најхомогени гранки. Сметајте дека сакате тест податоците од одредена класа да следат одредени патеки и тоа има интуитивна смисла.

Во однос на функцијата за регресија на трошоците за рекурзивна бинарна поделба, алгоритмот што се користи за пресметување на трошоците е како што следува:

сума(y – предвидување)^2

Предвидувањето за одредена група на податочни точки е средна вредност на одговорите на податоците за обуката за таа група. Сите точки на податоци се извршуваат преку функцијата цена за да се одреди трошокот за сите можни поделби и се избира поделбата со најниска цена.

Во однос на функцијата на трошоци за класификација, функцијата е следна:

G = збир (пк * (1 – пк))

Ова е Џини резултат и е мерење на ефективноста на поделбата, врз основа на тоа колку примероци од различни класи има во групите што произлегуваат од поделбата. Со други зборови, квантификува колку се мешани групите по поделбата. Оптимална поделба е кога сите групи кои произлегуваат од поделбата се состојат само од влезови од една класа. Ако се создаде оптимална поделба, вредноста „pk“ ќе биде или 0 или 1, а G ќе биде еднаква на нула. Можеби ќе можете да погодите дека најлошиот случај на поделба е оној каде што има 50-50 застапеност на класите во поделбата, во случај на бинарна класификација. Во овој случај, вредноста „pk“ би била 0.5, а G исто така би била 0.5.

Процесот на разделување се прекинува кога сите точки на податоци се претвораат во листови и се класифицираат. Сепак, можеби ќе сакате рано да го запрете растот на дрвото. Големите сложени дрвја се склони кон преоптоварување, но може да се користат неколку различни методи за борба против тоа. Еден од методите за намалување на прекумерното поставување е да се определи минимален број на податочни точки што ќе се користат за создавање на лист. Друг метод за контрола на преоптоварување е ограничување на дрвото на одредена максимална длабочина, што контролира колку долго патеката може да се протега од коренот до листот.

Друг процес вклучен во создавањето стебла на одлуки е кроење. Кастрењето може да помогне да се зголемат перформансите на дрвото на одлуки со отстранување на гранките што содржат карактеристики кои имаат мала моќ на предвидување/мала важност за моделот. На овој начин, сложеноста на дрвото се намалува, станува помала веројатноста да се преклопи и се зголемува предвидувачката корисност на моделот.

Кога се врши кастрење, процесот може да започне или на врвот на дрвото или на дното на дрвото. Сепак, најлесниот метод за кастрење е да се започне со лисјата и да се обиде да го испушти јазолот што ја содржи најчестата класа во тој лист. Ако точноста на моделот не се влоши кога тоа е направено, тогаш промената е зачувана. Постојат и други техники кои се користат за изведување на кастрењето, но методот опишан погоре - кастрење со намалена грешка - е веројатно најчестиот метод за резидба на дрвјата.

Размислувања за користење на дрва за одлучување

Одлуки дрва често се корисни кога треба да се изврши класификација, но времето на пресметување е главно ограничување. Дрвата за одлучување може да разјаснат кои карактеристики во избраните збирки на податоци имаат најголема моќ на предвидување. Понатаму, за разлика од многу алгоритми за машинско учење каде што правилата што се користат за класификација на податоците може да биде тешко да се толкуваат, стеблата на одлуки може да направат интерпретабилни правила. Дрвата за одлучување исто така се способни да користат и категорични и континуирани променливи што значи дека е потребна помала претобработка, во споредба со алгоритмите кои можат да се справат само со еден од овие типови на променливи.

Дрвјата за одлучување имаат тенденција да не работат многу добро кога се користат за одредување на вредностите на континуираните атрибути. Друго ограничување на стеблата на одлуки е тоа што, кога се врши класификација, ако има неколку примери за обука, но многу класи, дрвото на одлуки има тенденција да биде неточно.

Блогер и програмер со специјалитети во Машинско учење Длабоко учење теми. Даниел се надева дека ќе им помогне на другите да ја искористат моќта на вештачката интелигенција за општествено добро.