tunggul Naon Dupi Tangkal Kaputusan? - Ngahiji.AI
Connect with kami

AI 101

Naon Dupi Tangkal Kaputusan?

mm
diropéa on

Naon Dupi Tangkal Kaputusan?

A tangkal kaputusan mangrupikeun algoritma pembelajaran mesin anu mangpaat anu dianggo pikeun tugas régrési sareng klasifikasi. Ngaran "tangkal kaputusan" asalna tina kanyataan yén algoritma tetep ngabagi dataset ka handap kana porsi nu leuwih leutik sarta leuwih leutik nepi ka data geus dibagi kana instansi tunggal, nu lajeng digolongkeun. Upami anjeun ngabayangkeun hasil tina algoritma, cara ngabagi kategori bakal siga tangkal sareng seueur daun.

Éta definisi gancang tina tangkal kaputusan, tapi hayu urang teuleum jero kana kumaha tangkal kaputusan jalan. Ngabogaan pamahaman anu langkung saé ngeunaan kumaha tangkal kaputusan beroperasi, ogé kasus pamakeanna, bakal ngabantosan anjeun terang iraha ngagunakeunana salami proyék pembelajaran mesin anjeun.

Format Tangkal Kaputusan

Tangkal kaputusan nyaéta loba kawas flowchart. Pikeun ngagunakeun diagram alur, anjeun mimitian ti titik awal, atanapi akar, tina bagan teras dumasar kana kumaha anjeun ngajawab kritéria panyaring tina titik awal éta anjeun ngalih ka salah sahiji titik salajengna anu mungkin. Prosés ieu diulang nepi ka hiji tungtung ngahontal.

Tangkal kaputusan beroperasi dina dasarna cara anu sami, kalayan unggal titik internal dina tangkal janten sababaraha jinis kriteria tés / nyaring. Titik-titik di luar, titik tungtung tangkal, mangrupikeun labél pikeun titik data anu dimaksud sareng disebat "daun". Cabang-cabang anu nuju ti titik internal ka titik salajengna nyaéta fitur atanapi konjungsi fitur. Aturan anu digunakeun pikeun ngagolongkeun titik data nyaéta jalur anu dijalankeun ti akar ka daun.

Algoritma pikeun Tangkal Kaputusan

Tangkal kaputusan beroperasi dina pendekatan algoritmik anu ngabagi set data kana titik data individu dumasar kana kriteria anu béda. Pamisahan ieu dilakukeun ku variabel anu béda, atanapi fitur anu béda tina set data. Salaku conto, upami tujuanna nyaéta pikeun nangtukeun naha anjing atanapi ucing dijelaskeun ku fitur input, variabel anu dibagi data tiasa janten hal sapertos "cakar" sareng "barks".

Janten naon algoritma anu dianggo pikeun ngabagi data kana cabang sareng daun? Aya sababaraha cara anu tiasa dianggo pikeun meulah tangkal, tapi metode anu paling umum pikeun meulah sigana mangrupikeun téknik anu disebut "pamisah binér rekursif”. Nalika ngalaksanakeun metode pamisahan ieu, prosésna dimimitian dina akar sareng jumlah fitur dina set data ngagambarkeun jumlah kamungkinan pamisah. A fungsi dipaké pikeun nangtukeun sabaraha akurasi unggal pamisah mungkin bakal ngarugikeun, sarta pamisah dijieun maké kriteria nu kurban akurasi sahenteuna. Prosés ieu dilaksanakeun sacara rekursif sareng sub-grup dibentuk nganggo strategi umum anu sami.

Supados nangtukeun biaya pamisah, fungsi ongkos dipaké. Fungsi biaya anu béda dianggo pikeun tugas régrési sareng tugas klasifikasi. Tujuan tina duanana fungsi biaya nyaéta pikeun nangtukeun cabang mana anu gaduh nilai réspon anu paling mirip, atanapi cabang anu paling homogen. Pertimbangkeun yén anjeun hoyong data tés tina kelas anu tangtu nuturkeun jalur anu tangtu sareng ieu ngajadikeun rasa intuitif.

Dina hal fungsi biaya régrési pikeun pamisah binér rekursif, algoritma anu dianggo pikeun ngitung biaya nyaéta kieu:

jumlah(y – prediksi)^2

Prediksi pikeun grup tinangtu titik data nyaéta mean tina réspon data latihan pikeun grup éta. Sadaya titik data dijalankeun ngaliwatan fungsi biaya pikeun nangtukeun biaya pikeun sakabéh pamisah mungkin jeung pamisah jeung ongkos panghandapna dipilih.

Ngeunaan fungsi biaya pikeun klasifikasi, fungsina nyaéta kieu:

G = jumlah (pk * (1 – pk))

Ieu mangrupikeun skor Gini, sareng éta mangrupikeun ukuran éféktivitas pamisah, dumasar kana sabaraha conto kelas anu béda dina grup anu hasil tina pamisah. Kalayan kecap séjén, éta quantifies kumaha dicampur grup sanggeus pamisah. Pamisahan optimal nyaéta nalika sadaya grup anu hasil tina pamisah ngan ukur diwangun ku input ti hiji kelas. Lamun hiji pamisah optimal geus dijieun nilai "pk" bakal boh 0 atawa 1 jeung G bakal sarua jeung nol. Anjeun panginten tiasa nebak yén pamisah anu paling awon nyaéta dimana aya perwakilan 50-50 kelas dina pamisah, dina kasus klasifikasi binér. Dina hal ieu, nilai "pk" bakal 0.5 jeung G ogé bakal 0.5.

Prosés pamisahan ditungtungan nalika sadaya titik data parantos dirobih janten daun sareng diklasifikasikeun. Sanajan kitu, Anjeun meureun hoyong ngeureunkeun tumuwuhna tangkal mimiti. Tangkal kompleks ageung rawan overfitting, tapi sababaraha metode anu béda tiasa dianggo pikeun merangan ieu. Salah sahiji metodeu pikeun ngirangan overfitting nyaéta netepkeun sajumlah minimum titik data anu bakal dianggo pikeun nyiptakeun daun. Métode séjén pikeun ngadalikeun overfitting nyaéta ngawatesan tangkal ka jero maksimum anu tangtu, anu ngatur sabaraha lila jalur tiasa manjang ti akar ka daun.

prosés sejen aub dina kreasi tangkal kaputusan nyaéta pruning. Pruning bisa mantuan ngaronjatkeun kinerja tangkal kaputusan ku stripping kaluar cabang ngandung fitur nu boga kakuatan prediksi saeutik / saeutik pentingna pikeun model. Ku cara kieu, pajeulitna tangkal diréduksi, janten kurang kamungkinan kana overfit, sareng utilitas prediksi modél ningkat.

Nalika ngalaksanakeun pruning, prosésna tiasa dimimitian di luhureun tangkal atanapi handapeun tangkal. Sanajan kitu, métode panggampangna pikeun pruning nyaéta mimitian ku daun jeung nyoba leupaskeun titik nu ngandung kelas paling umum dina daun éta. Upami katepatan modél henteu mudun nalika ieu dilakukeun, maka parobahanana dilestarikan. Aya téknik séjén anu dianggo pikeun pruning, tapi metodeu anu ditétélakeun di luhur - ngirangan kasalahan pruning - sigana mangrupikeun metode anu paling umum pikeun pruning tangkal kaputusan.

Pertimbangan Pikeun Ngagunakeun Tangkal Kaputusan

Tangkal kaputusan anu mindeng mangpaat nalika klasifikasi kedah dilaksanakeun tapi waktos komputasi mangrupikeun kendala utama. Tangkal kaputusan tiasa ngajelaskeun fitur mana dina set data anu dipilih anu gaduh kakuatan anu paling duga. Salaku tambahan, teu siga seueur algoritma pembelajaran mesin dimana aturan anu dianggo pikeun mengklasifikasikan data tiasa sesah diinterpretasi, tangkal kaputusan tiasa ngadamel aturan anu tiasa diinterpretasi. Tangkal kaputusan ogé tiasa ngagunakeun variabel categorical sareng kontinyu anu hartosna kirang preprocessing diperyogikeun, dibandingkeun sareng algoritma anu ngan ukur tiasa ngadamel salah sahiji jinis variabel ieu.

Tangkal kaputusan condong henteu ngalakukeun anu saé nalika dianggo pikeun nangtukeun nilai atribut kontinyu. Watesan séjén tina tangkal kaputusan nyaéta, nalika ngalakukeun klasifikasi, upami aya sababaraha conto latihan tapi seueur kelas, tangkal kaputusan condong henteu akurat.

Blogger sareng programer kalayan spesialisasi dina mesin Learning jeung jero Learning jejer. Daniel ngaharepkeun ngabantosan batur ngagunakeun kakawasaan AI pikeun kasaéan sosial.