Saya pikir akan sangat berharga untuk mencoba Random Forests ( randomForest ); beberapa referensi diberikan sebagai jawaban atas pertanyaan terkait: Pemilihan fitur untuk model "final" saat melakukan validasi silang dalam pembelajaran mesin ; Bisakah model CART dibuat kuat? . Boosting / bagging membuat mereka lebih stabil daripada satu CART yang dikenal sangat sensitif terhadap gangguan kecil. Beberapa penulis berpendapat bahwa itu dilakukan serta dihukum SVM atau Gradient Boosting Machines (lihat, misalnya Cutler et al., 2009). Saya pikir mereka pasti mengungguli NNs.
Boulesteix dan Strobl memberikan gambaran yang bagus tentang beberapa pengklasifikasi dalam pemilihan pengklasifikasi Optimal dan bias negatif dalam estimasi tingkat kesalahan: studi empiris pada prediksi dimensi tinggi (BMC MRM 2009 9: 85). Saya pernah mendengar tentang penelitian lain yang baik pada pertemuan IV EAM , yang harus ditinjau dalam Statistik dalam Kedokteran ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. Apakah Hutan Acak Mengungguli Jaringan Saraf Tiruan, Mendukung Mesin Vektor, dan pengklasifikasi Analisis Diskriminan? Sebuah studi kasus dalam evolusi ke demensia pada pasien usia lanjut dengan keluhan kognitif
Saya juga menyukai paket caret : ia didokumentasikan dengan baik dan memungkinkan untuk membandingkan akurasi prediktif dari pengklasifikasi yang berbeda pada set data yang sama. Ini menangani pengelolaan sampel pelatihan / uji, akurasi komputasi, dll dalam beberapa fungsi yang mudah digunakan.
The glmnet paket, dari Friedman dan coll., Alat dihukum GLM (lihat review di Journal of Software statistik ), sehingga Anda tetap dalam kerangka pemodelan terkenal.
Jika tidak, Anda juga dapat mencari pengklasifikasi berdasarkan aturan asosiasi (lihat Tampilan Tugas CRAN pada Pembelajaran Mesin atau 10 algoritma teratas dalam penambangan data untuk pengenalan lembut pada beberapa di antaranya).
Saya ingin menyebutkan pendekatan lain yang menarik yang saya rencanakan untuk diterapkan kembali dalam R (sebenarnya, ini adalah kode Matlab) yang merupakan Analisis Korespondensi Diskriminan dari Hervé Abdi. Meskipun awalnya dikembangkan untuk mengatasi studi sampel kecil dengan banyak variabel penjelas (akhirnya dikelompokkan menjadi blok yang koheren), tampaknya secara efisien menggabungkan DA klasik dengan teknik reduksi data.
Referensi
- Cutler, A., Cutler, DR, dan Stevens, JR (2009). Metode Berbasis Pohon , dalam Analisis Data Dimensi Tinggi dalam Penelitian Kanker , Li, X. dan Xu, R. (eds.), Hlm. 83-101, Springer.
- Saeys, Y., Inza, I., dan Larrañaga, P. (2007). Tinjauan teknik pemilihan fitur dalam bioinformatika . Bioinformatika, 23 (19): 2507-2517.