Situasi saya:
- ukuran sampel kecil: 116
- variabel hasil biner
- daftar panjang variabel penjelas: 44
- variabel penjelas tidak datang dari atas kepala saya; pilihan mereka didasarkan pada literatur.
- kebanyakan kasus dalam sampel dan sebagian besar variabel memiliki nilai yang hilang.
Pendekatan untuk pemilihan fitur yang dipilih: LASSO
Paket glmnet R tidak akan membiarkan saya menjalankan rutin glmnet, tampaknya karena adanya nilai-nilai yang hilang dalam kumpulan data saya. Tampaknya ada berbagai metode untuk menangani data yang hilang, jadi saya ingin tahu:
- Apakah LASSO memberlakukan batasan dalam hal metode imputasi yang dapat saya gunakan?
- Apa yang akan menjadi taruhan terbaik untuk metode imputasi? Idealnya, saya memerlukan metode yang bisa saya jalankan di SPSS (lebih disukai) atau R.
UPDATE1: Menjadi jelas dari beberapa jawaban di bawah ini bahwa saya telah menangani masalah yang lebih mendasar sebelum mempertimbangkan metode imputasi. Saya ingin menambahkan di sini pertanyaan baru tentang itu. Pada jawaban yang menyarankan pengkodean sebagai nilai konstan dan pembuatan variabel baru untuk menangani nilai-nilai 'tidak berlaku' dan penggunaan laso grup:
- Apakah Anda mengatakan bahwa jika saya menggunakan grup LASSO, saya akan dapat menggunakan pendekatan yang disarankan untuk prediktor kontinu juga untuk prediktor kategoris? Jika demikian, saya anggap itu sama dengan membuat kategori baru - saya khawatir ini dapat menimbulkan bias.
- Apakah ada yang tahu jika paket glmnet R mendukung grup LASSO? Jika tidak, apakah ada yang menyarankan yang lain yang melakukan itu dalam kombinasi dengan regresi logistik? Beberapa opsi yang menyebutkan grup LASSO dapat ditemukan di repositori CRAN, ada saran yang paling sesuai untuk kasus saya? Mungkin SGL?
Ini adalah tindak lanjut dari pertanyaan saya sebelumnya ( Bagaimana memilih subset variabel dari daftar panjang asli saya untuk melakukan analisis regresi logistik? ).
OBS: Saya bukan ahli statistik.