Meskipun manfaat pemilihan model bertahap telah dibahas sebelumnya, menjadi tidak jelas bagi saya apa sebenarnya " pemilihan model bertahap " atau " regresi bertahap ". Saya pikir saya memahaminya, tetapi tidak begitu yakin lagi.
Pemahaman saya adalah bahwa kedua istilah ini sinonim (setidaknya dalam konteks regresi), dan bahwa mereka merujuk pada pemilihan set variabel prediktor terbaik dalam model "optimal" atau "terbaik" , diberikan data. (Anda dapat menemukan halaman Wikipedia di sini , dan ikhtisar lain yang berpotensi bermanfaat di sini .)
Berdasarkan beberapa utas sebelumnya (misalnya di sini: Algoritma untuk pemilihan model otomatis ), tampak bahwa pemilihan model bertahap dianggap sebagai dosa utama. Namun, tampaknya itu digunakan sepanjang waktu, termasuk oleh apa yang tampaknya menjadi ahli statistik yang dihormati. Atau apakah saya mencampur terminologi?
Pertanyaan utama saya adalah:
Dengan "pemilihan model bertahap" atau "regresi bertahap", apakah maksud kami:
A ) melakukan pengujian hipotesis berurutan seperti tes rasio kemungkinan atau melihat nilai-p? (Ada posting terkait di sini: Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap? ) Apakah ini yang dimaksud dengan itu dan mengapa itu buruk?
Atau
B ) apakah kita juga menganggap seleksi berdasarkan AIC (atau kriteria informasi serupa) sama buruknya? Dari jawaban di Algoritma untuk pemilihan model otomatis , tampaknya ini juga dikritik. Di sisi lain, Whittingham et al. (2006; pdf ) 1 tampaknya menyarankan bahwa pemilihan variabel berdasarkan pendekatan informasi-teori (TI) berbeda dari seleksi bertahap (dan tampaknya menjadi pendekatan yang valid) ...?Dan ini adalah sumber dari semua kebingungan saya.
Untuk menindaklanjuti, jika seleksi berbasis AIC berada di bawah "stepwise" dan dianggap tidak tepat, maka berikut adalah pertanyaan tambahan:
Jika pendekatan ini salah, mengapa itu diajarkan di buku pelajaran, kursus universitas, dll? Apakah semua itu salah?
Apa alternatif yang baik untuk memilih variabel mana yang harus tetap dalam model? Saya telah menemukan rekomendasi untuk menggunakan validasi silang dan set data pelatihan-tes, dan LASSO.
Saya pikir semua orang bisa setuju bahwa tanpa pandang bulu melemparkan semua variabel yang mungkin ke dalam model dan kemudian melakukan seleksi bertahap adalah masalah. Tentu saja, penilaian yang bijaksana harus memandu apa yang masuk pada awalnya. Tetapi bagaimana jika kita sudah mulai dengan sejumlah variabel prediktor yang mungkin berdasarkan pada pengetahuan (katakanlah biologis), dan semua prediktor ini mungkin menjelaskan respons kita? Apakah pendekatan pemilihan model ini masih cacat? Saya juga mengakui bahwa pemilihan model "terbaik" mungkin tidak sesuai jika nilai AIC di antara model yang berbeda sangat mirip (dan inferensi multi-model dapat diterapkan dalam kasus seperti itu). Tetapi apakah masalah yang mendasari penggunaan seleksi bertahap berbasis AIC masih bermasalah?
Jika kita mencari untuk melihat variabel mana yang tampaknya menjelaskan respon dan dengan cara apa, mengapa pendekatan ini salah, karena kita tahu "semua model salah, tetapi ada yang berguna"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB, & Freckleton, RP (2006). Mengapa kita masih menggunakan pemodelan bertahap dalam ekologi dan perilaku? Jurnal Ekologi Hewan, 75, hlm. 1182–1189.