AI 101 թ

Ի՞նչ է որոշման ծառը:

Թարմացվել է on Օգոստոս 23, 2020

Ի՞նչ է որոշման ծառը:

A որոշման ծառ մեքենայական ուսուցման օգտակար ալգորիթմ է, որն օգտագործվում է ինչպես ռեգրեսիայի, այնպես էլ դասակարգման առաջադրանքների համար: «Որոշումների ծառ» անվանումը գալիս է նրանից, որ ալգորիթմը շարունակում է տվյալների բազան բաժանել ավելի ու ավելի փոքր մասերի, մինչև տվյալները բաժանվեն առանձին օրինակների, որոնք այնուհետև դասակարգվում են: Եթե դուք պատկերացնեիք ալգորիթմի արդյունքները, կատեգորիաների բաժանման ձևը նման կլինի ծառի և բազմաթիվ տերևների:

Սա որոշումների ծառի արագ սահմանումն է, բայց եկեք խորը ուսումնասիրենք, թե ինչպես են աշխատում որոշումների ծառերը: Ավելի լավ հասկանալով, թե ինչպես են գործում որոշումների ծառերը, ինչպես նաև դրանց օգտագործման դեպքերը, կօգնի ձեզ իմանալ, թե երբ պետք է դրանք օգտագործել ձեր մեքենայական ուսուցման նախագծերի ընթացքում:

Որոշումների ծառի ձևաչափը

Որոշման ծառ է շատ նման է սխեմայի: Հոսքերի գծապատկերն օգտագործելու համար դուք սկսում եք գծապատկերի մեկնարկային կետից կամ արմատից, այնուհետև՝ հիմնվելով այն բանի վրա, թե ինչպես եք պատասխանում այդ մեկնարկային հանգույցի զտման չափանիշներին, տեղափոխվում եք հաջորդ հնարավոր հանգույցներից մեկը: Այս գործընթացը կրկնվում է մինչև ավարտը հասնի:

Որոշման ծառերը գործում են ըստ էության նույն ձևով, ընդ որում ծառի յուրաքանչյուր ներքին հանգույց հանդիսանում է ինչ-որ փորձարկման/զտման չափանիշներ: Դրսի հանգույցները՝ ծառի վերջնակետերը, տվյալ տվյալների կետի պիտակներն են, և դրանք կոչվում են «տերևներ»: Այն ճյուղերը, որոնք ներքին հանգույցներից տանում են դեպի հաջորդ հանգույց, հատկանիշներ կամ հատկանիշների միացումներ են։ Տվյալների կետերը դասակարգելու համար օգտագործվող կանոններն այն ուղիներն են, որոնք անցնում են արմատից մինչև տերևներ:

Որոշման ծառերի ալգորիթմներ

Որոշման ծառերը գործում են ալգորիթմական մոտեցման հիման վրա, որը տվյալների բազան բաժանում է առանձին տվյալների կետերի` տարբեր չափանիշների հիման վրա: Այս բաժանումները կատարվում են տարբեր փոփոխականներով կամ տվյալների բազայի տարբեր հատկանիշներով: Օրինակ, եթե նպատակն է որոշել, թե արդյոք շունը կամ կատուն նկարագրվում է մուտքագրման հատկանիշներով, թե ոչ, ապա տվյալների բաշխված փոփոխականները կարող են լինել այնպիսի բաներ, ինչպիսիք են «ճանկերը» և «հաչերը»:

Այսպիսով, ի՞նչ ալգորիթմներ են օգտագործվում տվյալները իրականում բաժանելու ճյուղերի և տերևների: Կան տարբեր մեթոդներ, որոնք կարող են օգտագործվել ծառը բաժանելու համար, բայց պառակտման ամենատարածված մեթոդը հավանաբար տեխնիկան է, որը կոչվում է «ռեկուրսիվ երկուական բաժանում»: Պառակտման այս մեթոդն իրականացնելիս գործընթացը սկսվում է արմատից, և տվյալների հավաքածուի առանձնահատկությունների թիվը ներկայացնում է հնարավոր բաժանումների հավանական թիվը: Գործառույթն օգտագործվում է որոշելու համար, թե որքան ճշգրտություն կարժենա յուրաքանչյուր հնարավոր բաժանումը, և բաժանումը կատարվում է օգտագործելով այն չափանիշները, որոնք զոհաբերում են նվազագույն ճշգրտությունը: Այս գործընթացն իրականացվում է ռեկուրսիվ, և ենթախմբերը ձևավորվում են՝ օգտագործելով նույն ընդհանուր ռազմավարությունը:

Որպեսզի որոշել բաժանման արժեքը, օգտագործվում է ծախսերի ֆունկցիա։ Արժեքի այլ գործառույթ օգտագործվում է ռեգրեսիայի առաջադրանքների և դասակարգման առաջադրանքների համար: Ծախսերի երկու գործառույթների նպատակն է որոշել, թե որ ճյուղերն ունեն արձագանքման ամենանման արժեքները կամ առավել համասեռ ճյուղերը: Մտածեք, որ դուք ցանկանում եք, որ որոշակի դասի թեստային տվյալները հետևեն որոշակի ուղիների, և դա ինտուիտիվ իմաստ ունի:

Ինչ վերաբերում է ռեկուրսիվ երկուական բաժանման ռեգրեսիոն ծախսերի ֆունկցիային, արժեքը հաշվարկելու համար օգտագործվող ալգորիթմը հետևյալն է.

sum(y – կանխատեսում)^2

Տվյալների որոշակի խմբի համար կանխատեսումը տվյալ խմբի վերապատրաստման տվյալների պատասխանների միջինն է: Տվյալների բոլոր կետերը գործարկվում են ծախսերի ֆունկցիայի միջոցով՝ բոլոր հնարավոր բաժանումների արժեքը որոշելու համար, և ընտրվում է ամենացածր արժեքով բաժանումը:

Ինչ վերաբերում է դասակարգման ծախսերի ֆունկցիային, ապա գործառույթը հետևյալն է.

G = գումար (pk * (1 – pk))

Սա Ջինիի միավորն է, և դա բաժանման արդյունավետության չափումն է՝ հիմնված այն բանի վրա, թե տարբեր դասերի քանի դեպք կա բաժանման արդյունքում առաջացած խմբերում: Այլ կերպ ասած, այն քանակականացնում է, թե որքան խառն են խմբերը բաժանումից հետո: Օպտիմալ բաժանումն այն է, երբ բաժանման արդյունքում առաջացող բոլոր խմբերը բաղկացած են միայն մեկ դասի մուտքերից: Եթե ստեղծվել է օպտիմալ բաժանում, «pk» արժեքը կլինի կամ 0 կամ 1, իսկ G-ն հավասար կլինի զրոյի: Դուք կարող եք կռահել, որ ամենավատ դեպքերում բաժանումն այն է, երբ բաժանման մեջ կա դասերի 50-50 ներկայացում, երկուական դասակարգման դեպքում: Այս դեպքում «pk» արժեքը կլինի 0.5, իսկ G-ն նույնպես կլինի 0.5:

Պառակտման գործընթացը ավարտվում է, երբ տվյալների բոլոր կետերը վերածվում են տերևների և դասակարգվում: Այնուամենայնիվ, դուք կարող եք վաղաժամ դադարեցնել ծառի աճը: Խոշոր բարդ ծառերը հակված են չափից ավելի հարմարեցման, սակայն դրա դեմ պայքարելու համար կարող են օգտագործվել մի քանի տարբեր մեթոդներ: Գերհամապատասխանությունը նվազեցնելու եղանակներից մեկն այն է, որ նշվի տվյալների նվազագույն քանակի կետեր, որոնք կօգտագործվեն տերև ստեղծելու համար: Չափազանցման վերահսկման մեկ այլ մեթոդ ծառի սահմանափակումն է որոշակի առավելագույն խորության վրա, որը վերահսկում է, թե որքան երկար կարող է ձգվել ուղին արմատից մինչև տերև:

Մեկ այլ գործընթաց, որը կապված է որոշման ծառերի ստեղծման հետ էտում է. Էտումը կարող է օգնել բարձրացնել որոշումների ծառի արդյունավետությունը՝ հեռացնելով այն ճյուղերը, որոնք պարունակում են առանձնահատկություններ, որոնք փոքր կանխատեսող ուժ ունեն/փոքր նշանակություն ունեն մոդելի համար: Այսպիսով, ծառի բարդությունը կրճատվում է, ավելի քիչ հավանական է դառնում, որ այն ավելի հարմարվի, և մոդելի կանխատեսող օգտակարությունը մեծանում է:

Էտում իրականացնելիս գործընթացը կարող է սկսվել կամ ծառի վերևից կամ ծառի ներքևից: Այնուամենայնիվ, էտման ամենահեշտ մեթոդն այն է, որ սկսենք տերևներից և փորձենք գցել այն հանգույցը, որը պարունակում է այդ տերևի մեջ ամենատարածված դասը: Եթե մոդելի ճշգրտությունը չի վատանում, երբ դա արվում է, ապա փոփոխությունը պահպանվում է: Կան նաև այլ մեթոդներ, որոնք օգտագործվում են էտում իրականացնելու համար, բայց վերը նկարագրված մեթոդը` կրճատված սխալներով էտումը, հավանաբար որոշման ծառերի էտման ամենատարածված մեթոդն է:

Որոշումների ծառերի օգտագործման նկատառումներ

Որոշել ծառերը հաճախ օգտակար են երբ դասակարգումը պետք է իրականացվի, բայց հաշվարկման ժամանակը հիմնական սահմանափակում է: Որոշման ծառերը կարող են պարզ դարձնել, թե ընտրված տվյալների հավաքածուի որ հատկանիշներն ունեն առավել կանխատեսող ուժ: Ավելին, ի տարբերություն շատ մեքենայական ուսուցման ալգորիթմների, որտեղ տվյալների դասակարգման համար օգտագործվող կանոնները դժվար է մեկնաբանել, որոշումների ծառերը կարող են մեկնաբանելի կանոններ տալ: Որոշման ծառերը կարող են նաև օգտագործել ինչպես կատեգորիկ, այնպես էլ շարունակական փոփոխականներ, ինչը նշանակում է, որ ավելի քիչ նախնական մշակում է պահանջվում՝ համեմատած ալգորիթմների հետ, որոնք կարող են կարգավորել միայն այս փոփոխական տեսակներից մեկը:

Որոշման ծառերը հակված են ոչ այնքան լավ գործելու, երբ օգտագործվում են շարունակական ատրիբուտների արժեքները որոշելու համար: Որոշման ծառերի մեկ այլ սահմանափակում այն է, որ դասակարգումը կատարելիս, եթե կան ուսուցման քիչ օրինակներ, բայց շատ դասեր, որոշման ծառը հակված է անճշտության:

Հարակից թեմաներ.101 Որոշման ծառ

Հաջորդը

Ի՞նչ է փոխանցումային ուսուցումը:

Բաց մի թողեք

Ի՞նչ է ուժեղացման ուսուցումը:

Դանիել Նելսոն

Բլոգեր և ծրագրավորող մասնագիտություններով Machine Learning և Խորը ուսուցում թեմաներ. Դանիելը հույս ունի օգնել ուրիշներին օգտագործել AI-ի ուժը սոցիալական բարօրության համար:

Unite.AI

Ի՞նչ է որոշման ծառը:

AI 101 թ

Ի՞նչ է որոշման ծառը:

Բովանդակություն

Ի՞նչ է որոշման ծառը:

Որոշումների ծառի ձևաչափը

Որոշման ծառերի ալգորիթմներ

Որոշումների ծառերի օգտագործման նկատառումներ

Unite.AI

Ի՞նչ է որոշման ծառը:

Բովանդակություն

Ի՞նչ է որոշման ծառը:

Որոշումների ծառի ձևաչափը

Որոշման ծառերի ալգորիթմներ

Որոշումների ծառերի օգտագործման նկատառումներ

Դուք կարող եք հավանել