Latar Belakang
Saya sedang melakukan penelitian klinis di bidang kedokteran dan telah mengikuti beberapa kursus statistik. Saya tidak pernah menerbitkan makalah menggunakan regresi linier / logistik dan ingin melakukan pemilihan variabel dengan benar. Interpretabilitas itu penting, jadi tidak ada teknik pembelajaran mesin yang mewah. Saya telah merangkum pemahaman saya tentang pemilihan variabel - apakah seseorang akan keberatan menjelaskan kesalahpahaman? Saya menemukan dua (1) mirip (2) posting CV untuk yang satu ini, tetapi mereka tidak sepenuhnya menjawab keprihatinan saya. Setiap pemikiran akan sangat dihargai! Saya punya 3 pertanyaan utama di akhir.
Masalah dan Diskusi
Masalah regresi / klasifikasi tipikal saya memiliki 200-300 pengamatan, tingkat kejadian buruk 15% (jika klasifikasi), dan info tentang 25 dari 40 variabel yang telah diklaim memiliki efek "signifikan secara statistik" dalam literatur atau menjadikannya masuk akal akal dengan pengetahuan domain.
Saya memberi tanda kutip "signifikan secara statistik", karena sepertinya semua orang dan ibu mereka menggunakan regresi bertahap, tetapi Harrell (3) dan Flom (4) tampaknya tidak menyukainya karena sejumlah alasan bagus. Ini selanjutnya didukung oleh diskusi posting blog Gelman (5). Sepertinya satu-satunya waktu nyata yang dapat diterima secara bertahap adalah jika ini benar-benar analisis eksplorasi, atau orang tertarik pada prediksi dan memiliki skema validasi silang. Terutama karena banyak komorbiditas medis menderita kolinearitas DAN studi menderita ukuran sampel yang kecil, pemahaman saya adalah bahwa akan ada banyak positif palsu dalam literatur; ini juga membuat saya cenderung mempercayai literatur untuk memasukkan variabel potensial.
Pendekatan populer lainnya adalah dengan menggunakan serangkaian regresi / asosiasi univariat antara prediktor dan variabel independen sebagai titik awal. di bawah ambang tertentu (katakanlah, p <0,2). Ini tampaknya salah atau setidaknya menyesatkan karena alasan yang diuraikan dalam posting StackExchange ini (6).
Terakhir, pendekatan otomatis yang tampak populer dalam pembelajaran mesin adalah dengan menggunakan hukuman seperti L1 (Lasso), L2 (Ridge), atau L1 + L2 combo (Elastic Net). Pemahaman saya adalah bahwa ini tidak memiliki interpretasi mudah yang sama dengan OLS atau regresi logistik.
Gelman + Hill mengusulkan yang berikut:
Dalam kursus Statistik saya, saya juga ingat menggunakan tes F atau Analisis Penyimpangan untuk membandingkan model lengkap dan bersarang untuk melakukan model / pemilihan variabel variabel demi variabel. Ini tampaknya masuk akal, tetapi model bersarang berurutan pas secara sistematis untuk menemukan variabel yang menyebabkan penurunan terbesar dalam penyimpangan per df sepertinya bisa dengan mudah otomatis (jadi saya agak khawatir) dan juga sepertinya mengalami masalah urutan di mana Anda menguji inklusi variabel. Pemahaman saya adalah bahwa ini juga harus dilengkapi dengan menyelidiki multikolinieritas dan plot residual (residual vs prediksi).
Pertanyaan:
Apakah ringkasan Gelman adalah jalan yang harus ditempuh? Apa yang akan Anda tambahkan atau ubah dalam strategi yang diusulkannya?
Selain berpikir murni tentang potensi interaksi dan transformasi (yang tampaknya sangat bias / rawan kelalaian), adakah cara lain untuk menemukan yang potensial? Multivariate adaptive regression spline (MARS) direkomendasikan kepada saya, tetapi saya diberitahu bahwa nonlinier / transformasi tidak diterjemahkan ke dalam variabel yang sama dalam model regresi standar.
Misalkan tujuan saya sangat sederhana: katakan, "Saya ingin memperkirakan asosiasi X1 pada Y, hanya akuntansi untuk X2". Apakah cukup untuk hanya melakukan regresi Y ~ X1 + X2, melaporkan hasilnya, tanpa mengacu pada kemampuan prediksi aktual (seperti yang dapat diukur dengan RMSE validasi silang atau ukuran akurasi)? Apakah ini berubah tergantung pada tingkat kejadian atau ukuran sampel atau jika R ^ 2 super rendah (saya sadar bahwa R ^ 2 tidak baik karena Anda selalu dapat meningkatkannya dengan overfitting)? Saya umumnya lebih tertarik pada inferensi / interpretabilitas daripada mengoptimalkan kekuatan prediksi.
Contoh kesimpulan:
- "Mengontrol X2, X1 secara statistik tidak terkait secara signifikan dengan Y relatif terhadap tingkat referensi X1." (koefisien regresi logistik)
- "X1 bukan merupakan prediktor signifikan Y secara statistik karena dalam model penurunan penyimpangan tidak cukup relatif terhadap perubahan df." (Analisis Penyimpangan)
Apakah validasi silang selalu diperlukan? Dalam hal ini, seseorang mungkin juga ingin melakukan penyeimbangan kelas melalui SMOTE, pengambilan sampel, dll.