naycha Qaror daraxti nima? - Unite.AI
Biz bilan ulang
AI master-klassi:

AI 101

Qaror daraxti nima?

mm
yangilangan on

Qaror daraxti nima?

A qaror daraxti regressiya va tasniflash vazifalari uchun ishlatiladigan foydali mashinani o'rganish algoritmidir. "Qaror daraxti" nomi algoritm ma'lumotlar to'plamini kichikroq va kichikroq qismlarga bo'lishda davom etishi, ma'lumotlar keyinchalik tasniflangan yagona misollarga bo'linmaguncha paydo bo'lgan. Agar siz algoritm natijalarini tasavvur qilsangiz, toifalarning bo'linish usuli daraxt va ko'plab barglarga o'xshaydi.

Bu qarorlar daraxtining qisqacha ta'rifi, ammo keling, qarorlar daraxti qanday ishlashini chuqurroq ko'rib chiqaylik. Qaror daraxtlari qanday ishlashini va ulardan foydalanish holatlarini yaxshiroq tushunish sizga mashinani o'rganish loyihalarida ulardan qachon foydalanishni bilishga yordam beradi.

Qarorlar daraxti formati

Qaror daraxti oqim sxemasiga juda o'xshaydi. Oqim diagrammasidan foydalanish uchun siz diagrammaning boshlang'ich nuqtasidan yoki ildizidan boshlaysiz va keyin ushbu boshlang'ich tugunning filtrlash mezonlariga qanday javob berganingizga qarab, keyingi mumkin bo'lgan tugunlardan biriga o'tasiz. Bu jarayon oxiriga yetguncha takrorlanadi.

Qaror daraxtlari deyarli bir xil tarzda ishlaydi, daraxtdagi har bir ichki tugun qandaydir sinov/filtrlash mezonlari hisoblanadi. Tashqi tomondan tugunlar, daraxtning so'nggi nuqtalari ko'rib chiqilayotgan ma'lumotlar nuqtasi uchun teglar va ular "barglar" deb nomlanadi. Ichki tugunlardan keyingi tugunga olib boradigan shoxlar xususiyatlar yoki xususiyatlarning birikmalaridir. Ma'lumotlar nuqtalarini tasniflash uchun ishlatiladigan qoidalar ildizdan barglargacha bo'lgan yo'llardir.

Qaror daraxtlari uchun algoritmlar

Qaror daraxtlari algoritmik yondashuv asosida ishlaydi, bu ma'lumotlar to'plamini turli mezonlar asosida alohida ma'lumotlar nuqtalariga ajratadi. Ushbu bo'linishlar turli xil o'zgaruvchilar yoki ma'lumotlar to'plamining turli xususiyatlari bilan amalga oshiriladi. Misol uchun, agar maqsad it yoki mushuk kiritish xususiyatlari bilan tasvirlangan yoki yo'qligini aniqlash bo'lsa, ma'lumotlar bo'lingan o'zgaruvchilar "panjalar" va "qobiqlar" kabi narsalar bo'lishi mumkin.

Xo'sh, ma'lumotlarni novdalar va barglarga bo'lish uchun qanday algoritmlar qo'llaniladi? Daraxtni bo'lishning turli usullari mavjud, ammo bo'linishning eng keng tarqalgan usuli, ehtimol, "" deb ataladigan usuldir.rekursiv ikkilik bo'linish”. Ushbu bo'linish usulini amalga oshirishda jarayon ildizdan boshlanadi va ma'lumotlar to'plamidagi xususiyatlar soni mumkin bo'lgan bo'linishlar sonini ifodalaydi. Har bir mumkin bo'lgan bo'linish qanchalik aniqligini aniqlash uchun funktsiyadan foydalaniladi va bo'linish eng kam aniqlikdan mahrum bo'lgan mezonlar yordamida amalga oshiriladi. Bu jarayon rekursiv tarzda amalga oshiriladi va bir xil umumiy strategiya yordamida kichik guruhlar tuziladi.

Qilish uchun bo'linish narxini aniqlang, xarajat funksiyasidan foydalaniladi. Regressiya vazifalari va tasniflash vazifalari uchun boshqa xarajat funksiyasidan foydalaniladi. Ikkala xarajat funktsiyasining maqsadi qaysi filiallarning javob qiymatlari eng o'xshash yoki eng bir xil bo'lgan filiallarga ega ekanligini aniqlashdir. O'ylab ko'ring, siz ma'lum bir sinfning test ma'lumotlari ma'lum yo'llardan borishini xohlaysiz va bu intuitiv ma'noga ega.

Rekursiv ikkilik bo'linish uchun regressiya xarajati funktsiyasi nuqtai nazaridan, xarajatlarni hisoblash uchun ishlatiladigan algoritm quyidagicha:

summa(y – bashorat)^2

Ma'lumotlar nuqtalarining ma'lum bir guruhi uchun bashorat ushbu guruh uchun o'quv ma'lumotlarining javoblarining o'rtacha qiymati hisoblanadi. Barcha mumkin bo'lgan bo'linishlarning narxini aniqlash uchun barcha ma'lumotlar punktlari xarajat funktsiyasi orqali boshqariladi va eng past narxga ega bo'linish tanlanadi.

Tasniflash uchun xarajat funktsiyasiga kelsak, funktsiya quyidagicha:

G = summa (pk * (1 – pk))

Bu Gini balli bo'lib, bu bo'linish natijasida yuzaga kelgan guruhlarda qancha turli sinflar mavjudligiga asoslangan bo'linish samaradorligining o'lchovidir. Boshqacha qilib aytadigan bo'lsak, bo'linishdan keyin guruhlar qanchalik aralashganligini aniqlaydi. Optimal bo'linish - bu bo'linish natijasida hosil bo'lgan barcha guruhlar faqat bitta sinfdan olingan ma'lumotlardan iborat bo'lganda. Agar optimal bo'linish yaratilgan bo'lsa, "pk" qiymati 0 yoki 1 bo'ladi va G nolga teng bo'ladi. Ikkilik tasniflashda bo'linishdagi sinflarning 50-50 ko'rinishi mavjud bo'lgan eng yomon bo'linish ekanligini taxmin qilishingiz mumkin. Bunday holda, "pk" qiymati 0.5, G esa 0.5 bo'ladi.

Barcha ma'lumotlar nuqtalari barglarga aylantirilganda va tasniflanganda bo'linish jarayoni tugatiladi. Biroq, daraxtning o'sishini erta to'xtatishni xohlashingiz mumkin. Katta murakkab daraxtlar haddan tashqari moslashishga moyil, ammo bunga qarshi kurashish uchun bir nechta turli usullardan foydalanish mumkin. Haddan tashqari o'rnatishni kamaytirish usullaridan biri barg yaratish uchun ishlatiladigan minimal ma'lumot nuqtalarini belgilashdir. Haddan tashqari o'rnatishni nazorat qilishning yana bir usuli - daraxtni ma'lum bir maksimal chuqurlikka cheklash, bu yo'lning ildizdan barggacha qancha davom etishini nazorat qiladi.

Qaror daraxtlarini yaratish bilan bog'liq yana bir jarayon Azizillo hisoblanadi. Azizillo, kam bashoratli kuchga ega bo'lgan/model uchun unchalik ahamiyatli bo'lmagan xususiyatlarni o'z ichiga olgan novdalarni olib tashlash orqali qaror daraxti samaradorligini oshirishga yordam beradi. Shu tarzda, daraxtning murakkabligi kamayadi, uning haddan tashqari sig'ish ehtimoli kamayadi va modelning bashoratli foydaliligi ortadi.

Azizillo o'tkazilayotganda, jarayon daraxtning tepasida ham, pastki qismida ham boshlanishi mumkin. Biroq, kesishning eng oson usuli barglardan boshlash va bu barg ichida eng keng tarqalgan sinfni o'z ichiga olgan tugunni tushirishga harakat qilishdir. Agar bu bajarilganda modelning aniqligi yomonlashmasa, u holda o'zgarish saqlanib qoladi. Azizilloni amalga oshirish uchun boshqa usullar qo'llaniladi, ammo yuqorida tavsiflangan usul - xatolarni kamaytirish - ehtimol, qaror daraxtini kesishning eng keng tarqalgan usuli.

Qaror daraxtlaridan foydalanish bo'yicha fikrlar

Qaror daraxtlari ko'pincha foydalidir tasniflash kerak bo'lganda, lekin hisoblash vaqti asosiy cheklovdir. Qarorlar daraxtlari tanlangan ma'lumotlar to'plamining qaysi xususiyatlari eng ko'p bashorat qilish kuchiga ega ekanligini aniq ko'rsatishi mumkin. Bundan tashqari, ma'lumotlarni tasniflash uchun ishlatiladigan qoidalarni izohlash qiyin bo'lishi mumkin bo'lgan ko'plab mashinani o'rganish algoritmlaridan farqli o'laroq, qaror daraxtlari talqin qilinadigan qoidalarni ko'rsatishi mumkin. Qaror daraxtlari ham kategorik, ham uzluksiz o'zgaruvchilardan foydalanishga qodir, bu esa ushbu o'zgaruvchilar turlaridan faqat bittasini boshqara oladigan algoritmlarga nisbatan kamroq oldindan ishlov berish talab qilinishini anglatadi.

Qaror daraxtlari doimiy atributlarning qiymatlarini aniqlashda foydalanilganda unchalik yaxshi ishlamaydi. Qaror daraxtlarining yana bir cheklovi shundaki, tasniflashda, agar o'qitish misollari kam bo'lsa, lekin ko'p sinflar bo'lsa, qaror daraxti noto'g'ri bo'ladi.

Mutaxassislikka ega blogger va dasturchi Machine Learning va Chuqur o'rganish mavzular. Daniel boshqalarga AI kuchidan ijtimoiy manfaatlar uchun foydalanishga yordam berishga umid qilmoqda.