Saya mencoba melakukan pemilihan model pada beberapa kandidat yang menggunakan LASSO dengan hasil yang berkelanjutan. Tujuannya adalah untuk memilih model optimal dengan kinerja prediksi terbaik, yang biasanya dapat dilakukan dengan validasi silang K-fold setelah mendapatkan jalur solusi dari parameter tuning dari LASSO. Masalahnya di sini adalah bahwa data berasal dari desain survei multi-tahap yang kompleks (NHANES), dengan pengambilan sampel cluster dan stratifikasi. Bagian estimasi tidak sulit karena glmnet
di R dapat mengambil bobot sampel. Tetapi bagian validasi silang kurang jelas bagi saya karena pengamatan sekarang tidak iid lagi, dan bagaimana prosedur menjelaskan bobot sampel mewakili populasi yang terbatas?
Jadi pertanyaan saya adalah:
1) Bagaimana cara melakukan validasi silang K-fold dengan data survei yang kompleks untuk memilih parameter tuning yang optimal? Lebih khusus lagi, bagaimana cara mempartisi data sampel dengan tepat ke dalam set pelatihan dan validasi? Dan bagaimana cara menentukan estimasi kesalahan prediksi?
2) Apakah ada cara alternatif untuk memilih parameter tuning optimal?