[Pertanyaan serupa ditanyakan di sini tanpa jawaban]
Saya telah cocok dengan model regresi logistik dengan L1 regularisasi (regresi logistik Lasso) dan saya ingin menguji koefisien yang dipasang untuk signifikansi dan mendapatkan nilai-p mereka. Saya tahu tes Wald (misalnya) adalah pilihan untuk menguji signifikansi koefisien individu dalam regresi penuh tanpa regularisasi, tetapi dengan Lasso saya pikir masalah lebih lanjut muncul yang tidak memungkinkan untuk menerapkan formula Wald biasa. Misalnya, estimasi varians yang diperlukan untuk pengujian tidak mengikuti ekspresi yang biasa. Kertas Lasso asli
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
menyarankan prosedur berbasis bootstrap untuk memperkirakan varians koefisien, yang (sekali lagi, saya pikir) mungkin diperlukan untuk pengujian (bagian 2.5, paragraf terakhir halaman 272 dan awal 273):
Salah satu pendekatan adalah melalui bootstrap: dapat diperbaiki atau kami dapat mengoptimalkan untuk setiap sampel bootstrap. Memperbaiki analog dengan memilih subset terbaik ( fitur ) dan kemudian menggunakan standar kesalahan kuadrat terkecil untuk subset tersebutt t
Apa yang saya pahami adalah: paskan regresi Lasso berulang kali ke seluruh dataset hingga kami menemukan nilai optimal untuk parameter regularisasi (ini bukan bagian dari bootstrap), dan kemudian gunakan hanya fitur yang dipilih oleh Lasso agar sesuai dengan regresi OLS ke subsamples dari data dan menerapkan rumus biasa untuk menghitung varian dari masing-masing regresi tersebut. (Lalu apa yang harus saya lakukan dengan semua varian dari masing-masing koefisien untuk mendapatkan estimasi varian akhir dari masing-masing koefisien?)
Selain itu, apakah benar menggunakan tes signifikansi biasa (misalnya tes Wald yang menggunakan estimasi beta dan varian) dengan estimasi Lasso dari koefisien dan varian estimasi bootstrap? Saya cukup yakin tidak, tetapi bantuan apa pun (gunakan tes yang berbeda, gunakan pendekatan yang lebih mudah, apa pun ...) lebih dari diterima.
Menurut jawaban di sini saya menduga inferensi dan nilai-p tidak dapat diperoleh. Dalam kasus saya, nilai-p adalah persyaratan eksternal (meskipun penggunaan regularisasi L1 adalah pilihan saya).
Terima kasih banyak
EDIT Bagaimana jika saya cocok dengan regresi logistik OLS hanya menggunakan variabel yang dipilih oleh menjalankan sebelumnya dari regresi logistik Lasso? Rupanya (lihat di sini ),
Tidak perlu menjalankan model lagi setelah melakukan cross-validation (Anda baru saja mendapatkan koefisien dari output cv.glmnet), dan bahkan jika Anda memasukkan model regresi logistik baru tanpa penalti maka Anda mengalahkan tujuan menggunakan laso
Tetapi bagaimana jika saya melakukan ini dengan tujuan tunggal untuk dapat menghitung nilai-p sambil menjaga jumlah variabel tetap rendah? Apakah ini pendekatan yang sangat kotor? :-)