Saya akan mencantumkan beberapa properti dan kemudian memberi Anda penilaian saya berapa nilainya:
- CHAID menggunakan multiway splits secara default (multiway splits berarti bahwa node saat ini dibagi menjadi lebih dari dua node). Ini mungkin atau mungkin tidak diinginkan (dapat menyebabkan segmen yang lebih baik atau interpretasi yang lebih mudah). Apa yang pasti dilakukan, adalah menipiskan ukuran sampel di node dan dengan demikian menyebabkan pohon kurang dalam. Ketika digunakan untuk tujuan segmentasi, ini dapat menjadi bumerang segera setelah CHAID membutuhkan ukuran sampel yang besar untuk bekerja dengan baik. CART melakukan pembelahan biner (setiap node dibagi menjadi dua simpul anak) secara default.
- CHAID dimaksudkan untuk bekerja dengan target kategoris / diskrit (XAID adalah untuk regresi tetapi mungkin mereka telah bergabung sejak itu). CART pasti dapat melakukan regresi dan klasifikasi.
- CHAID menggunakan ide pra-pemangkasan . Suatu simpul hanya dibagi jika kriteria signifikan dipenuhi. Ini terkait dengan masalah di atas yang membutuhkan ukuran sampel besar karena uji Chi-Square hanya memiliki sedikit kekuatan dalam sampel kecil (yang secara efektif dikurangi lebih jauh dengan koreksi Bonferroni untuk beberapa pengujian). CART di sisi lain menumbuhkan pohon besar dan kemudian memangkas pohon kembali ke versi yang lebih kecil.
- Dengan demikian CHAID mencoba untuk mencegah overfitting sejak awal (hanya perpecahan yang ada hubungan yang signifikan), sedangkan CART dapat dengan mudah menutupi pakaian kecuali pohon tersebut dipangkas kembali. Di sisi lain, ini memungkinkan CART berkinerja lebih baik daripada CHAID di dalam dan di luar sampel (untuk kombinasi parameter penyetelan tertentu).
- Perbedaan paling penting menurut saya adalah bahwa pemilihan variabel terpecah dan titik perpecahan dalam CHAID kurang begitu membingungkan seperti pada CART . Ini sebagian besar tidak relevan ketika pohon digunakan untuk prediksi tetapi merupakan masalah penting ketika pohon digunakan untuk interpretasi: Sebuah pohon yang memiliki dua bagian algoritma yang sangat dikacaukan dikatakan "bias dalam pemilihan variabel" (nama yang disayangkan) . Ini berarti bahwa pemilihan variabel terpecah lebih suka variabel dengan banyak kemungkinan pemisahan (katakanlah prediksi metrik). CART sangat "bias" dalam arti itu, CHAID tidak begitu banyak.
- Dengan pemisahan pengganti, CART tahu cara menangani nilai yang hilang (pemisahan pengganti berarti bahwa dengan nilai yang hilang (NAs) untuk variabel prediktor, algoritma menggunakan variabel prediktor lain yang tidak sebagus variabel split primer tetapi meniru split yang dihasilkan oleh primer. splitter). CHAID tidak memiliki hal seperti itu.
Jadi tergantung pada apa yang Anda butuhkan, saya sarankan untuk menggunakan CHAID jika sampel berukuran dan aspek interpretasi lebih penting. Juga, jika multiway splits atau pohon lebih kecil diinginkan CHAID lebih baik. Sebaliknya, CART adalah mesin prediksi yang berfungsi dengan baik sehingga jika prediksi adalah tujuan Anda, saya akan menggunakan CART.