Pengujian untuk koefisien signifikansi dalam regresi logistik Lasso

[Pertanyaan serupa ditanyakan di sini tanpa jawaban]

Saya telah cocok dengan model regresi logistik dengan L1 regularisasi (regresi logistik Lasso) dan saya ingin menguji koefisien yang dipasang untuk signifikansi dan mendapatkan nilai-p mereka. Saya tahu tes Wald (misalnya) adalah pilihan untuk menguji signifikansi koefisien individu dalam regresi penuh tanpa regularisasi, tetapi dengan Lasso saya pikir masalah lebih lanjut muncul yang tidak memungkinkan untuk menerapkan formula Wald biasa. Misalnya, estimasi varians yang diperlukan untuk pengujian tidak mengikuti ekspresi yang biasa. Kertas Lasso asli

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

menyarankan prosedur berbasis bootstrap untuk memperkirakan varians koefisien, yang (sekali lagi, saya pikir) mungkin diperlukan untuk pengujian (bagian 2.5, paragraf terakhir halaman 272 dan awal 273):

Salah satu pendekatan adalah melalui bootstrap: dapat diperbaiki atau kami dapat mengoptimalkan untuk setiap sampel bootstrap. Memperbaiki analog dengan memilih subset terbaik ( fitur ) dan kemudian menggunakan standar kesalahan kuadrat terkecil untuk subset tersebut $t$ $t$ $t$

Apa yang saya pahami adalah: paskan regresi Lasso berulang kali ke seluruh dataset hingga kami menemukan nilai optimal untuk parameter regularisasi (ini bukan bagian dari bootstrap), dan kemudian gunakan hanya fitur yang dipilih oleh Lasso agar sesuai dengan regresi OLS ke subsamples dari data dan menerapkan rumus biasa untuk menghitung varian dari masing-masing regresi tersebut. (Lalu apa yang harus saya lakukan dengan semua varian dari masing-masing koefisien untuk mendapatkan estimasi varian akhir dari masing-masing koefisien?)

Selain itu, apakah benar menggunakan tes signifikansi biasa (misalnya tes Wald yang menggunakan estimasi beta dan varian) dengan estimasi Lasso dari koefisien dan varian estimasi bootstrap? Saya cukup yakin tidak, tetapi bantuan apa pun (gunakan tes yang berbeda, gunakan pendekatan yang lebih mudah, apa pun ...) lebih dari diterima.

Menurut jawaban di sini saya menduga inferensi dan nilai-p tidak dapat diperoleh. Dalam kasus saya, nilai-p adalah persyaratan eksternal (meskipun penggunaan regularisasi L1 adalah pilihan saya).

Terima kasih banyak

EDIT Bagaimana jika saya cocok dengan regresi logistik OLS hanya menggunakan variabel yang dipilih oleh menjalankan sebelumnya dari regresi logistik Lasso? Rupanya (lihat di sini ),

Tidak perlu menjalankan model lagi setelah melakukan cross-validation (Anda baru saja mendapatkan koefisien dari output cv.glmnet), dan bahkan jika Anda memasukkan model regresi logistik baru tanpa penalti maka Anda mengalahkan tujuan menggunakan laso

Tetapi bagaimana jika saya melakukan ini dengan tujuan tunggal untuk dapat menghitung nilai-p sambil menjaga jumlah variabel tetap rendah? Apakah ini pendekatan yang sangat kotor? :-)

— Pablo
sumber

Untuk melakukan inferensi untuk model LASSO Anda juga dapat memeriksa paket CRAN hdi yang menyediakan inferensi untuk model dimensi tinggi, Anda mungkin ingin melihatnya ...

— Tom Wenseleers

Metode lengkap dijelaskan dengan baik dalam makalah ini: projecteuclid.org/euclid.ss/1449670857

— Tom Wenseleers

Dan ada juga paket cran.r-project.org/web/packages/selectiveInference/index.html yang mungkin berguna untuk memberikan kesimpulan bagi LASSO ...

— Tom Wenseleers

Ini adalah pertanyaan yang bagus dan penting untuk ditanyakan.

— Jinhua Wang

Jawaban:

Masalah dengan menggunakan tes signifikansi biasa, adalah bahwa mereka menganggap nol yaitu bahwa ada variabel acak, tanpa hubungan dengan variabel hasil. Namun apa yang Anda miliki dengan laso, adalah sekelompok variabel acak, dari mana Anda memilih yang terbaik dengan laso, juga beta menyusut. Jadi Anda tidak dapat menggunakannya, hasilnya akan menjadi bias.

Sejauh yang saya tahu, bootstrap tidak digunakan untuk mendapatkan estimasi varians, tetapi untuk mendapatkan probabilitas variabel yang dipilih. Dan itu adalah nilai-p Anda. Periksa buku gratis Hasie, Statistical Learning with Sparsity, bab 6 berbicara tentang hal yang sama. http://web.stanford.edu/~hastie/StatLearnSparsity/

Juga periksa makalah ini untuk beberapa cara lain untuk mendapatkan nilai-p dari lasso https://arxiv.org/pdf/1408.4026.pdf Mungkin ada lebih banyak

— rep_ho
sumber

$\sqrt{n}$

Untungnya, ada banyak kemajuan dalam beberapa tahun terakhir dalam mengembangkan metode inferensi yang memperhitungkan pasca seleksi. Beberapa referensi yang relevan untuk kasus Anda adalah: http://projecteuclid.org/euclid.aos/1460381681 dan, https://arxiv.org/pdf/1602.07358.pdf . Teknik yang dibahas dalam referensi ini diimplementasikan dalam paket R selectiveInference- https://cran.r-project.org/web/packages/selectiveInference/index.html . Paket SelectiveInference harus menghasilkan interval kepercayaan yang valid yang Anda butuhkan.

— pengguna3903581
sumber

In the Machine Learning Spesialisasi dalam Coursera oleh Univ. dari Washington, para guru tentu saja 2 (Regresi) mengabdikan seluruh minggu untuk regresi Lasso. Dalam salah satu slide, prosedur yang saya jelaskan (menggunakan Lasso untuk memilih fitur dan kemudian menyesuaikan regresi LS dengan hanya variabel-variabel tersebut) didebitinasi dan dianggap benar dan diilustrasikan dengan grafik dari kertas oleh Mario Figueiredo. Periksa slide 105 di sini: github.com/MaxPoon/coursera-Machine-Learning-specialization/…

— Pablo

Meskipun mereka merekomendasikan debiasing laso, mereka tidak membahas pengujian hipotesis sama sekali. Juga, istilah de-biasing menyesatkan, karena sementara refitting model menghilangkan bias ke bawah yang disebabkan oleh laso, itu tidak membantu dengan bias ke atas yang disebabkan oleh kutukan pemenang. Sejauh yang saya tahu, satu-satunya cara untuk benar-benar melakukan bias estimasi koefisien regresi dari model yang dipilih adalah dengan menghitung estimasi kemungkinan maksimum bersyarat. arxiv.org/abs/1705.09417

— user3903581