Saya ingin tahu apa arti parameter n.minobsinnode dalam paket GBM. Saya membaca manual, tetapi tidak jelas apa fungsinya. Haruskah angka itu kecil atau besar untuk meningkatkan hasil?
Saya ingin tahu apa arti parameter n.minobsinnode dalam paket GBM. Saya membaca manual, tetapi tidak jelas apa fungsinya. Haruskah angka itu kecil atau besar untuk meningkatkan hasil?
Jawaban:
Pada setiap langkah algoritma GBM, pohon keputusan baru dibangun. Pertanyaan ketika menumbuhkan pohon keputusan adalah 'kapan harus berhenti?'. Yang terjauh yang bisa Anda tempuh adalah untuk membagi setiap node hingga hanya ada 1 pengamatan di setiap node terminal. Ini sesuai dengan n.minobsinnode = 1. Atau, pemisahan node dapat berhenti ketika sejumlah pengamatan ada di setiap node. Default untuk paket R GBM adalah 10.
Apa nilai terbaik untuk digunakan? Itu tergantung pada kumpulan data dan apakah Anda melakukan klasifikasi atau regresi. Karena prediksi masing-masing pohon diambil sebagai rata-rata dari variabel dependen dari semua input dalam simpul terminal, nilai 1 mungkin tidak akan bekerja dengan baik untuk regresi (!) Tetapi mungkin cocok untuk klasifikasi.
Nilai yang lebih tinggi berarti pohon yang lebih kecil sehingga membuat algoritma berjalan lebih cepat dan menggunakan lebih sedikit memori, yang mungkin menjadi pertimbangan.
Secara umum, hasilnya tidak terlalu sensitif terhadap parameter ini dan mengingat sifat stokastik dari kinerja GBM sebenarnya mungkin sulit untuk menentukan dengan tepat nilai apa yang 'terbaik'. Kedalaman interaksi, susut dan jumlah pohon semuanya akan jauh lebih signifikan secara umum.