Ketika membangun model CART (khususnya pohon klasifikasi) menggunakan rpart (dalam R), seringkali menarik untuk mengetahui apa pentingnya berbagai variabel yang diperkenalkan pada model.
Dengan demikian, pertanyaan saya adalah: Apa ukuran umum yang ada untuk menentukan peringkat / mengukur variabel kepentingan variabel yang berpartisipasi dalam model CART? Dan bagaimana ini bisa dihitung menggunakan R (misalnya, ketika menggunakan paket rpart)
Misalnya, berikut adalah beberapa kode dummy, dibuat sehingga Anda dapat menunjukkan solusi Anda di atasnya. Contoh ini terstruktur sehingga jelas bahwa variabel x1 dan x2 adalah "penting" sementara (dalam beberapa hal) x1 lebih penting daripada x2 (karena x1 harus diterapkan pada lebih banyak kasus, sehingga membuat lebih banyak pengaruh pada struktur data, lalu x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(referensi selalu diterima)