Saya telah menjelajahi berbagai utas di sini, tetapi saya rasa pertanyaan saya yang sebenarnya tidak dijawab.
Saya memiliki dataset ~ 50.000 siswa dan waktu mereka untuk putus sekolah. Saya akan melakukan regresi bahaya proporsional dengan sejumlah besar kovariat potensial. Saya juga akan melakukan regresi logistik pada dropout / tetap masuk. Tujuan utama akan menjadi prediksi untuk kohort siswa baru, tetapi kami tidak memiliki alasan untuk percaya bahwa mereka akan sangat bervariasi dari kohort tahun lalu.
Biasanya, saya tidak memiliki kemewahan data dan melakukan model yang sesuai dengan semacam hukuman, tapi kali ini saya berpikir untuk membagi pelatihan int dan menguji set data dan kemudian melakukan pemilihan variabel pada set pelatihan; kemudian menggunakan set data uji untuk memperkirakan parameter dan kapasitas prediksi.
Apakah ini strategi yang baik? Jika tidak, apa yang lebih baik?
Kutipan diterima tetapi tidak perlu.