Diyan Aprilia Lestari (0216104050)
Kelas B – Reg B2
Dosen : Iis Rostiawati, S.E., M.M
Pohon keputusan dalam aturan keputusan (decision rule) merupakan metodologi data mining yang banyak diterapkan sebagai solusi untuk klasifikasi. Decision tree merupakan suatu metode klasifikasi yang menggunakan struktur pohon, dimana setiap node merepresentasikan atribut dan cabangnya merepresentasikan nilai dari atribut, sedangkan daunnya digunakan untuk merepresentasikan kelas. Node teratas dari decision tree ini disebut dengan root.
Breiman et al. (1984) menyatakan bahwa metode ini merupakan metode yang sangat populer untuk digunakan karena hasil dari model yang terbentuk mudah untuk dipahami. Dinamakan pohon keputusan karena aturan yang terbentuk mirip dengan bentuk pohon. Pohon terbentuk dari proses pemilahan rekursif biner pada suatu gugus data sehingga nilai variabel respon pada setiap gugus data hasil pemilahan akan lebih homogen. Pada pohon keputusan terdapat tiga jenis node, antara lain :
- Akar
Merupakan nodeteratas, pada nodeini tidak ada input dan dapat tidak mempunyai output atau dapat mempunyai output lebih dari satu.
2. Internal node
Merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.
3. Daun
Merupakan node akhir atau terminal node, pada node ini hanya terdapat satu input dan tidak mempunyai output (simpul terminal).
Sebagai contoh suatu pohon disusun oleh simpul t1, t2, …, t4 dengan rincian terdapat 3 daun, 1 akar, dan 1 internal node. Setiap pemilah (split) memilah simpul nonterminal menjadi dua simpul yang saling lepas. Hasil prediksi respon suatu amatan terdapat pada simpul terminal (daun).
Konsep dari pohon keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Pohon keputusan merupakan himpunan aturan if — then, dimana setiap path dalam pohon dihubungkan dengan sebuah aturan dimana premis terdiri atas sekumpulan node yang ditemui dan kesimpulan dari aturan terdiri atas kelas yang dihubungkan dengan daun dari path. Pembentukan pohon keputusan terdiri dari beberapa tahap :
- Konstruksi pohondiawali dengan pembentukan akar (terletak paling atas). Kemudian data dibagi berdasarkan atribut-atribut yang cocok untuk dijadikan daun.
- Pemangkasan pohon (tree pruning)yaitu mengidentifikasikan dan membuang cabang yang tidak diperlukan pada pohon yang telah terbentuk. Hal ini dikarenakan pohon keputusan yang dikontruksi dapat berukuran besar, maka dapat disederhanakan dengan melakukan pemangkasan berdasarkan nilai kepercayaan (confident level). Pemangkasan pohon dilakukan selain untuk pengurangan ukuran pohon juga bertujuan untuk mengurangi tingkat kesalahan prediksi pada kasus baru dari hasil pemecahan yang dilakukan dengan divide and conquer. Pruningada dua pendekatan yaitu :
- Pre-pruningyaitu menghentikan pembangunan suatu subtree lebih awal (dengan memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika berhenti, maka node berubah menjadi leaf (node akhir). Node akhir ini menjadi kelas yang paling sering muncul di antara subset sampel.
- Post-pruningyaitu menyederhanakan tree dengan cara membuang beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering muncul.
- Pembentukan aturan keputusanyaitu membuat aturan keputusan dari pohon yang telah dibentuk. Aturan tersebut dapat dalam bentuk if — then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Untuk setiap simpul dan percabangannya akan diberikan di if, sedangkan nilai pada daun akan ditulis di then. Setelah semua aturan dibuat maka aturan dapat disederhanakan atau digabung.
Decision tree adalah suatu model klasifikasi yang paling populer karena mudah diinterpretasikan oleh manusia. Banyak algoritma yang dapat digunakan dalam pembentukan pohon keputusan seperti ID3, C4.5, CART, dan GUIDE. Algoritma decision tree banyak digunakan dalam proses data mining karena memiliki beberapa kelebihan :
- Mudah mengintegrasikan dengan sistem basis data.
2.Memiliki ketelitian yang baik.
3. Dapat menemukan gabungan tak terduga dari suatu data.
4. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global dapat diubah menjadi lebih sederhana dan spesifik.
5. Dapat melakukan eliminasi untuk perhitungan-perhitungan yang tidak diperlukan. Karena ketika menggunakan metode ini maka sampel hanya diuji berdasarkan kriteria atau kelas tertentu.
6. Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama.
Kekurangan pohon keputusan adalah.
- Terjadi overlap terutama ketika kelas-kelas dan kriteria yang digunakan jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu pengambilan keputusan dan jumlah memori yang diperlukan.
2.Pengakumulasian jumlah error dari setiap tingkat dalam sebuah pohon keputusan yang besar.
3. Kesulitan dalam mendesain pohon keputusan yang optimal.
4. Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat bergantung pada bagaimana pohon tersebut didesain.
Contoh Pohon Keputusan
Kasus: Saya bekerja di perusahaan jasa komunikasi data dan berada di divisi jasa data center. Data Center memiliki perangkat-perangkat besar seperti Precision Air Conditioning, FM200, UPS, Battery, dan lainnya yang perlu dilakukan Preventive Maintenance secara berkala.
Berikut pohon keputusan dalam menentukan bagaimana Preventive Maintenance akan dilakukan.
Terdapat dua alternatif pilihan yaitu:
- Tim Internal
Jika preventive maintenance dilakukan oleh tim internal, maka biaya yang dikeluarkan adalah hanya biaya lembur dan biaya pembelian sparepart. Dan prosedur yang dilakukan adalah hanya melalui penugasan lembur saja oleh atasan dari divisi data center, sehingga preventive maintenance bisa dilakukan langsung. Namun untuk pengerjaannya akan sedikit memakan waktu yang lebih lama dikarenakan tim internal tidak mempunyai beberapa alat khusus untuk melakukan preventive maintenance.
- Vendor
Jika preventive maintenance dilakukan oleh vendor, maka biaya yang dilakukan terdapat dua pilihan yaitu dengan kesepakatan kontrak selama waktu tertentu atau dengan one time charge dimana hanya satu kali membayar dalam satu kali aktivitas.
Apabila menggunakan vendor terdapat dua pilihan prosedur yaitu dengan melakukan tender atau penunjukkan langsung.
Biaya yang dikeluarkan apabila menggunakan vendor tentu akan jauh lebih mahal, namun kapabilitas kemampuan dan peralatan yang dimiliki vendor sudah lengkap. Prosedur yang dilakukan sebelum penentuan vendor juga akan memakan waktu yang cukup lama sehingga preventive maintenance tidak dapat langsung dilakukan.
Sumber :
Breiman, L., Friedman, JH., Olshen, RA., Stone, CJ., 1984, Classification and Regression Trees, Chapman &Hall/CRC, New York.
Mubarok, Muhammad I., 2018, Pohon Regresi dengan Pendekatan Generalized Unbiased Interaction Detection Estimation (Guide) untuk Data Multirespon, Skripsi, Program Studi Statistika FMIPA UGM, Yogyakarta.
Firmani, Alfina N., 2016, Penyelesaian Regresi Semiparametrik dengan Menggunakan Regresi Random Forest, Skripsi, Program Studi Statistika FMIPA UGM, Yogyakarta.
https://medium.com/@mimubarok.mim/decision-tree-pohon-keputusan-6484ad30c289