Singkat cerita : lakukan apa yang dikatakan @untitleprogrammer, coba kedua model dan validasi silang untuk membantu memilihnya.
Baik pohon keputusan (tergantung pada implementasinya, misalnya C4.5) dan regresi logistik harus dapat menangani data yang kontinu dan kategorikal dengan baik. Untuk regresi logistik, Anda ingin membuat dummy kode variabel kategoris Anda .
Seperti yang disebutkan @untitleprogrammer, sulit untuk mengetahui apriori mana teknik yang akan lebih baik hanya berdasarkan pada jenis fitur yang Anda miliki, terus menerus atau sebaliknya. Ini benar-benar tergantung pada masalah spesifik Anda dan data yang Anda miliki. (Lihat Tidak Ada Teorema Makan Siang Gratis )
Anda perlu diingat bahwa model regresi logistik sedang mencari batas keputusan linier tunggal dalam ruang fitur Anda, sedangkan pohon keputusan pada dasarnya mempartisi ruang fitur Anda menjadi setengah-ruang menggunakan batas keputusan linear -axis-aligned . Efek bersihnya adalah Anda memiliki batas keputusan non-linear, mungkin lebih dari satu.
Ini bagus ketika titik data Anda tidak mudah dipisahkan oleh hyperplane tunggal, tetapi di sisi lain, pohon keputusan sangat fleksibel sehingga mereka cenderung rentan terhadap overfitting. Untuk mengatasi ini, Anda dapat mencoba pemangkasan. Regresi logistik cenderung kurang rentan (tetapi tidak kebal!) Terhadap overfitting.
x yxy
Jadi, Anda harus bertanya pada diri sendiri:
- batas keputusan seperti apa yang lebih masuk akal dalam masalah khusus Anda?
- bagaimana Anda ingin menyeimbangkan bias dan varians?
- apakah ada interaksi antara fitur saya?
Tentu saja, selalu merupakan ide yang baik untuk mencoba kedua model dan melakukan cross-validation. Ini akan membantu Anda mengetahui mana yang lebih mungkin memiliki kesalahan generalisasi yang lebih baik.