Rpart hanya menyediakan pemisahan univariat. Saya percaya, berdasarkan pertanyaan Anda, bahwa Anda tidak sepenuhnya akrab dengan perbedaan antara metode partisi univariat dan metode partisi multivariat. Saya telah melakukan yang terbaik untuk menjelaskan ini di bawah ini, serta memberikan beberapa referensi untuk penelitian lebih lanjut dan untuk menyarankan beberapa paket R untuk mengimplementasikan metode ini.
Rpart adalah classifier berbasis pohon yang menggunakan partisi rekursif. Dengan metode pemartisian, Anda harus menentukan titik-titik dalam data Anda di mana pemisahan harus dilakukan. Algoritme rpart dalam R melakukan ini dengan menemukan variabel dan titik yang memisahkan terbaik (dan dengan demikian mengurangi) RSS. Karena pemisahan hanya terjadi di sepanjang satu variabel pada satu waktu, ini adalah pemisahan univariat. Split Multivariat biasanya didefinisikan sebagai partisi simultan di sepanjang beberapa sumbu (karenanya multivarian), yaitu simpul rpart pertama mungkin terbelah sepanjang Umur> 35, simpul kedua mungkin dibagi sepanjang Pendapatan> 25.000, dan simpul ketiga mungkin terbelah di sepanjang Kota di sebelah barat Mississippi. Node kedua dan ketiga terpecah pada himpunan bagian yang lebih kecil dari keseluruhan data, sehingga pada node kedua kriteria pendapatan terbaik membagi RSS hanya untuk orang-orang yang memiliki usia lebih dari 35, itu tidak berlaku untuk pengamatan yang tidak ditemukan dalam simpul ini, sama berlaku untuk kriteria Kota. Satu dapat terus melakukan ini sampai ada simpul untuk setiap pengamatan dalam dataset Anda (rpart menggunakan fungsi ukuran ember minimum selain kriteria ukuran simpul minimum dan parameter cp yang merupakan minimum nilai r-kuadrat harus meningkat untuk terus pas).
Metode multivariat, seperti Metode Induksi Aturan Pasien (paket utama dalam R) akan secara bersamaan dipisah dengan memilih, misalnya, Semua Pengamatan di mana Penghasilan lebih besar dari 22.000, Usia> 32, dan Kota-kota Barat Atlanta. Alasan mengapa kecocokan tersebut mungkin berbeda adalah karena perhitungan untuk kecocokan adalah multivariat, bukan univariat, kecocokan ketiga kriteria ini dihitung berdasarkan kesesuaian simultan dari ketiga variabel pada semua pengamatan yang memenuhi kriteria ini daripada berdasarkan pembagian yang iteratif berdasarkan perpecahan univariat (seperti dengan rpart).
Ada berbagai kepercayaan dalam hal efektivitas metode partisi univariat versus multivariat. Secara umum apa yang saya lihat dalam praktek, adalah bahwa kebanyakan orang lebih suka partisi univariat (seperti rpart) untuk tujuan penjelasan (hanya digunakan dalam prediksi ketika berhadapan dengan masalah di mana strukturnya didefinisikan dengan sangat baik dan variasi antar variabel cukup konstan, inilah mengapa ini sering digunakan dalam pengobatan). Model pohon univariat biasanya digabungkan dengan pelajar ensemble saat digunakan untuk prediksi (yaitu Hutan Acak). Orang yang menggunakan partisi atau pengelompokan multivariat (yang sangat erat hubungannya dengan pengelompokan multivariat) sering melakukannya untuk masalah kompleks yang metode univariatnya sangat buruk, dan melakukannya terutama untuk prediksi, atau mengelompokkan pengamatan ke dalam kategori.
Saya sangat merekomendasikan buku Julian Faraway, Extending the Linear Model with R. Chapter 13, yang didedikasikan sepenuhnya untuk penggunaan Trees (semuanya univariat). Jika Anda tertarik lebih jauh dalam metode multivariat, Elemen Pembelajaran Statistik oleh Hastie et. al, memberikan tinjauan yang sangat baik tentang banyak metode multivariat, termasuk PRIM (walaupun Friedman di Stanford memiliki artikel aslinya tentang metode yang diposting di situs webnya), serta metode pengelompokan.
Sehubungan dengan Paket R untuk menggunakan metode ini, saya yakin Anda sudah menggunakan paket rpart, dan saya telah menyebutkan paket prim di atas. Ada berbagai rutinitas pengelompokan bawaan, dan saya cukup menyukai paket partai yang disebutkan oleh orang lain di utas ini, karena penerapan inferensi kondisional dalam proses pembuatan pohon keputusan. Paket optpart memungkinkan Anda melakukan partisi multivarian, dan paket mvpart (juga disebutkan oleh orang lain) memungkinkan Anda melakukan multivariate rpart tree, namun saya pribadi lebih suka menggunakan partDSA, yang memungkinkan Anda menggabungkan node lebih jauh di pohon Anda untuk membantu mencegah partisi yang serupa pengamatan, jika saya merasa rpart dan party tidak memadai untuk tujuan pemodelan saya.
Catatan: Dalam contoh saya tentang pohon rpart di paragraf 2, saya menjelaskan bagaimana partisi bekerja dengan nomor simpul, jika seseorang menggambar pohon ini, partisi akan melanjutkan ke kiri jika aturan untuk pemisahan itu benar, namun di RI percaya perpecahan itu benar-benar berproses ke kanan jika aturannya benar.