Saya sedang mengerjakan sebuah proyek dan membutuhkan sumber daya untuk mempercepat saya.
Dataset adalah sekitar 35.000 pengamatan pada 30 atau lebih variabel. Sekitar setengah variabel adalah kategori dengan beberapa memiliki banyak nilai yang berbeda, yaitu jika Anda membagi variabel kategori menjadi variabel dummy Anda akan memiliki lebih dari 30 variabel. Tapi mungkin masih dalam urutan beberapa ratus maks. (n> p).
Respons yang ingin kita prediksi bersifat ordinal dengan 5 level (1,2,3,4,5). Prediktor adalah campuran yang berkesinambungan dan kategorikal, sekitar setengah dari masing-masing. Inilah pemikiran / rencana saya sejauh ini: 1. Perlakukan respons sebagai terus menerus dan jalankan regresi linier vanila. 2. Jalankan logistik nominal dan ordinal dan regresi probit 3. Gunakan MARS dan / atau aroma lain dari regresi non-linear
Saya kenal dengan regresi linier. MARS digambarkan dengan cukup baik oleh Hastie dan Tibshirani. Tapi saya bingung ketika datang ke ordinal logit / probit, terutama dengan begitu banyak variabel dan satu set data besar.
Paket r glmnetcr tampaknya menjadi taruhan terbaik saya sejauh ini, tetapi dokumentasi hampir tidak cukup untuk membawa saya ke tempat yang saya inginkan .
Di mana saya bisa belajar lebih banyak?