Saya sedang melakukan analisis di mana tujuan utamanya adalah untuk memahami data. Dataset cukup besar untuk cross-validation (10k), dan prediktor menyertakan variabel kontinu dan dummy, dan hasilnya kontinu. Tujuan utama adalah untuk melihat apakah masuk akal untuk mengeluarkan beberapa prediktor, agar model lebih mudah diinterpretasikan.
Pertanyaan:
Pertanyaan saya adalah "vars yang menjelaskan hasil dan merupakan bagian 'cukup kuat' dari penjelasan itu". Tetapi untuk memilih parameter lambda untuk laso, Anda menggunakan validasi silang, yaitu validitas prediktif sebagai kriteria. Ketika melakukan inferensi, apakah validitas prediktif merupakan proxy yang cukup baik untuk pertanyaan umum yang saya tanyakan?
Katakanlah LASSO hanya menyimpan 3 dari 8 prediksi. Dan sekarang saya bertanya pada diri sendiri: "apa dampaknya terhadap hasilnya". Sebagai contoh, saya menemukan perbedaan gender. Setelah penyusutan laso, koefisien menunjukkan bahwa wanita mendapat skor 1 poin lebih tinggi daripada pria. Tetapi tanpa penyusutan (yaitu, pada dataset aktual), mereka mendapat skor 2,5 poin lebih tinggi.
- Mana yang akan saya ambil sebagai efek gender "nyata" saya? Pergi hanya dengan validitas prediktif, itu akan menjadi koefisien menyusut.
- Atau dalam konteks, katakan bahwa saya sedang menulis laporan untuk orang yang tidak berpengalaman dalam statistik. Koefisien mana yang akan saya laporkan kepada mereka?