Saya ingin mengajukan pertanyaan ini dalam dua bagian. Keduanya berurusan dengan model linier umum, tetapi yang pertama berkaitan dengan pemilihan model dan yang lainnya berkaitan dengan regularisasi.
Latar Belakang: Saya menggunakan model GLM (linier, logistik, regresi gamma) untuk prediksi dan deskripsi. Ketika saya merujuk pada " hal-hal normal yang dilakukan seseorang dengan regresi " Saya sebagian besar maksud deskripsi dengan (i) interval kepercayaan di sekitar koefisien, (ii) interval kepercayaan di sekitar prediksi dan (iii) tes hipotesis mengenai kombinasi linear dari koefisien seperti "adalah ada perbedaan antara pengobatan A dan pengobatan B? "
Apakah Anda secara sah kehilangan kemampuan untuk melakukan hal-hal ini menggunakan teori normal di bawah masing-masing berikut ini? Dan jika demikian, apakah hal-hal ini benar-benar hanya baik untuk model yang digunakan untuk prediksi murni?
I. Ketika GLM telah cocok melalui beberapa proses pemilihan model (untuk konkret mengatakan prosedur bertahap berdasarkan AIC).
II Ketika GLM telah fit melalui metode regularisasi (katakanlah menggunakan glmnet di R).
Menurut saya, untuk saya, jawabannya secara teknis Anda harus menggunakan bootstrap untuk " hal normal yang dilakukan seseorang dengan regresi ", tetapi tidak ada yang benar-benar mematuhinya.
Tambahkan:
Setelah mendapatkan beberapa tanggapan dan membaca di tempat lain, inilah pendapat saya tentang hal ini (untuk orang lain yang mendapat manfaat serta menerima koreksi).
I.
A) RE: Kesalahan Generalisasi. Untuk menggeneralisasi tingkat kesalahan pada data baru, ketika tidak ada set bertahan, validasi silang dapat bekerja tetapi Anda harus mengulangi proses sepenuhnya untuk setiap lipatan - menggunakan loop bersarang - sehingga setiap pilihan fitur, penyetelan parameter, dll. Harus dilakukan secara mandiri setiap kali. Gagasan ini harus berlaku untuk setiap upaya pemodelan (termasuk metode sanksi).
B) RE: Pengujian hipotesis dan interval kepercayaan GLM.Saat menggunakan pemilihan model (pemilihan fitur, penyetelan parameter, pemilihan variabel) untuk model linier umum dan set penahan ada, diperbolehkan untuk melatih model pada partisi dan kemudian menyesuaikan model pada data yang tersisa atau set data lengkap dan gunakan model / data itu untuk melakukan tes hipotesis, dll. Jika tidak ada set bertahan, bootstrap dapat digunakan, selama proses penuh diulang untuk setiap sampel bootstrap. Ini membatasi tes hipotesis yang dapat dilakukan karena mungkin variabel tidak selalu dipilih misalnya.
C) RE: Tidak membawa prediksi pada set data masa depan, kemudian cocok dengan model yang bertujuan dipandu oleh teori dan beberapa tes hipotesis dan bahkan mempertimbangkan meninggalkan semua variabel dalam model (signifikan atau tidak) (di sepanjang garis Hosmer dan Lemeshow). Ini adalah variabel kecil set tipe klasik pemodelan regresi dan kemudian memungkinkan penggunaan CI dan uji hipotesis.
D) RE: Regresi yang dihukum. Tidak ada saran, mungkin menganggap ini hanya cocok untuk prediksi (atau sebagai jenis pemilihan fitur untuk kemudian diterapkan ke data lain seperti pada B di atas) karena bias yang diperkenalkan membuat CI dan tes hipotesis tidak bijaksana - bahkan dengan bootstrap.