Apa sebenarnya “pemilihan model bertahap”?

Meskipun manfaat pemilihan model bertahap telah dibahas sebelumnya, menjadi tidak jelas bagi saya apa sebenarnya " pemilihan model bertahap " atau " regresi bertahap ". Saya pikir saya memahaminya, tetapi tidak begitu yakin lagi.

Pemahaman saya adalah bahwa kedua istilah ini sinonim (setidaknya dalam konteks regresi), dan bahwa mereka merujuk pada pemilihan set variabel prediktor terbaik dalam model "optimal" atau "terbaik" , diberikan data. (Anda dapat menemukan halaman Wikipedia di sini , dan ikhtisar lain yang berpotensi bermanfaat di sini .)

Berdasarkan beberapa utas sebelumnya (misalnya di sini: Algoritma untuk pemilihan model otomatis ), tampak bahwa pemilihan model bertahap dianggap sebagai dosa utama. Namun, tampaknya itu digunakan sepanjang waktu, termasuk oleh apa yang tampaknya menjadi ahli statistik yang dihormati. Atau apakah saya mencampur terminologi?

Pertanyaan utama saya adalah:

Dengan "pemilihan model bertahap" atau "regresi bertahap", apakah maksud kami:
A ) melakukan pengujian hipotesis berurutan seperti tes rasio kemungkinan atau melihat nilai-p? (Ada posting terkait di sini: Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap? ) Apakah ini yang dimaksud dengan itu dan mengapa itu buruk?
Atau
B ) apakah kita juga menganggap seleksi berdasarkan AIC (atau kriteria informasi serupa) sama buruknya? Dari jawaban di Algoritma untuk pemilihan model otomatis , tampaknya ini juga dikritik. Di sisi lain, Whittingham et al. (2006; pdf ) ¹ tampaknya menyarankan bahwa pemilihan variabel berdasarkan pendekatan informasi-teori (TI) berbeda dari seleksi bertahap (dan tampaknya menjadi pendekatan yang valid) ...?

Dan ini adalah sumber dari semua kebingungan saya.

Untuk menindaklanjuti, jika seleksi berbasis AIC berada di bawah "stepwise" dan dianggap tidak tepat, maka berikut adalah pertanyaan tambahan:
Jika pendekatan ini salah, mengapa itu diajarkan di buku pelajaran, kursus universitas, dll? Apakah semua itu salah?
Apa alternatif yang baik untuk memilih variabel mana yang harus tetap dalam model? Saya telah menemukan rekomendasi untuk menggunakan validasi silang dan set data pelatihan-tes, dan LASSO.
Saya pikir semua orang bisa setuju bahwa tanpa pandang bulu melemparkan semua variabel yang mungkin ke dalam model dan kemudian melakukan seleksi bertahap adalah masalah. Tentu saja, penilaian yang bijaksana harus memandu apa yang masuk pada awalnya. Tetapi bagaimana jika kita sudah mulai dengan sejumlah variabel prediktor yang mungkin berdasarkan pada pengetahuan (katakanlah biologis), dan semua prediktor ini mungkin menjelaskan respons kita? Apakah pendekatan pemilihan model ini masih cacat? Saya juga mengakui bahwa pemilihan model "terbaik" mungkin tidak sesuai jika nilai AIC di antara model yang berbeda sangat mirip (dan inferensi multi-model dapat diterapkan dalam kasus seperti itu). Tetapi apakah masalah yang mendasari penggunaan seleksi bertahap berbasis AIC masih bermasalah?

Jika kita mencari untuk melihat variabel mana yang tampaknya menjelaskan respon dan dengan cara apa, mengapa pendekatan ini salah, karena kita tahu "semua model salah, tetapi ada yang berguna"?

_{1. Whittingham, MJ, Stephens, PA, Bradbury, RB, & Freckleton, RP (2006). Mengapa kita masih menggunakan pemodelan bertahap dalam ekologi dan perilaku? Jurnal Ekologi Hewan, 75, hlm. 1182–1189.}

— Tilen
sumber

baik AIC dan p-value menyesatkan menggunakan regresi bertahap! Anda dapat menemukan penjelasan intuitif di sini dengan contoh regresi bertahap menggunakan AIC di sini: metariat.wordpress.com/2016/12/19/…

— Metariat

Bisakah Anda mengklarifikasi apa yang sebenarnya tidak jelas untuk Anda dalam Algoritma untuk utas pemilihan model otomatis yang Anda rujuk ...? Tampaknya itu menjawab semua pertanyaan Anda, memberikan jawaban yang cukup rinci. Menjawab pertanyaan dasar: pemilihan model bertahap mengambil regresi dengan sejumlah prediktor dan kemudian menjatuhkan satu per satu (atau menambahkan satu per satu) berdasarkan beberapa kriteria peningkatan model sampai menemukan model "terbaik".

— Tim

@Tim, permintaan maaf atas tanggapan yang tertunda. Yah tidak, saya tidak berpikir itu menjawab semua pertanyaan saya dan beberapa masalah masih belum jelas (bagi saya). 1), saya ingin mengklarifikasi terminologi, karena berbagai sumber menggunakan istilah yang berbeda, jadi saya ingin memahami dengan seksama apakah istilah yang saya maksudkan adalah sinonim atau tidak. 2) Sementara saya bisa mengerti dari utas bahwa masalahnya sama terlepas dari kriteria yang digunakan, ada ketidakkonsistenan dalam literatur. 3) ketika membaca makalah dan buku, tampaknya ada perbedaan pendapat tentang apa yang pantas dan apa yang tidak (atau kapan).

— Tilen

4) salah satu pertanyaan saya juga mengapa kemudian masih diajarkan (dengan nama yang tampaknya berpengetahuan), jika dianggap salah. Saya ingin memahami apakah ini adalah masa lalu (tetapi sepertinya tidak, mengingat waktu penerbitan buku-buku tertentu), aliran pemikiran yang berbeda, atau sekadar ketidaktahuan. 5) Saya ingin memahami apakah pendekatan ini salah bahkan jika set variabel prediktor kandidat awal sudah terbatas. Dengan kata lain, minat pribadi saya adalah menemukan seperangkat prediktor terbaik, mengingat set yang sudah berkurang dan dipikirkan dengan baik.

— Tilen

Intinya, meskipun utas tentang Algoriths untuk pemilihan model otomatis sangat informatif dan berguna, itu masih membuat saya banyak pertanyaan dan kebingungan.

— Tilen

Jawaban:

1) Alasan Anda bingung adalah bahwa istilah "stepwise" digunakan secara tidak konsisten. Terkadang itu berarti prosedur yang cukup spesifik $p$ -nilai koefisien regresi, dihitung dengan cara biasa, digunakan untuk menentukan kovariat apa yang ditambahkan atau dihapus dari model, dan proses ini diulang beberapa kali. Ini dapat merujuk pada (a) variasi tertentu dari prosedur ini di mana variabel dapat ditambahkan atau dihapus pada langkah apa pun (saya pikir inilah yang SPSS sebut "bertahap"), atau mungkin merujuk pada (b) variasi ini bersama dengan yang lain variasi seperti hanya menambahkan variabel atau hanya menghapus variabel. Secara lebih luas, "bertahap" dapat digunakan untuk merujuk pada (c) prosedur apa pun di mana fitur ditambahkan atau dihapus dari model sesuai dengan beberapa nilai yang dihitung setiap kali fitur (atau serangkaian fitur) ditambahkan atau dihapus.

Strategi yang berbeda ini semuanya telah dikritik karena berbagai alasan. Saya akan mengatakan bahwa sebagian besar kritik adalah tentang (b), bagian kunci dari kritik itu adalah itu $p$ -nilai tidak dilengkapi dengan baik untuk pemilihan fitur (tes signifikansi di sini benar-benar menguji sesuatu yang sangat berbeda dari "haruskah saya memasukkan variabel ini dalam model?"), dan sebagian besar ahli statistik merekomendasikan untuk menentangnya dalam segala keadaan. (c) lebih kontroversial.

2) Karena pendidikan statistik sangat buruk. Untuk memberikan satu contoh saja: sejauh yang saya tahu dari pendidikan saya sendiri, itu tampaknya dianggap sebagai bagian penting dari pendidikan statistik untuk jurusan psikologi untuk memberitahu siswa untuk menggunakan koreksi Bessel untuk mendapatkan perkiraan yang tidak bias dari populasi SD. Memang benar bahwa koreksi Bessel membuat estimasi varians tidak bias, tetapi mudah untuk membuktikan bahwa estimasi SD masih bias. Lebih baik lagi, koreksi Bessel dapat meningkatkan MSE dari perkiraan ini.

3) Pemilihan variabel secara praktis adalah bidang tersendiri. Validasi silang dan pemisahan uji kereta adalah cara untuk mengevaluasi suatu model, mungkin setelah pemilihan fitur; mereka sendiri tidak memberikan saran untuk fitur mana yang digunakan. Lasso sering merupakan pilihan yang baik. Begitu juga himpunan bagian terbaik.

4) Dalam pikiran saya, masih tidak masuk akal dalam menggunakan (b), terutama ketika Anda bisa melakukan sesuatu yang lain dalam (c), seperti menggunakan AIC. Saya tidak keberatan dengan seleksi bertahap berbasis AIC, tetapi perlu diketahui bahwa itu akan sensitif terhadap sampel (khususnya, ketika sampel tumbuh besar secara sewenang-wenang, AIC, seperti laso, selalu memilih model yang paling kompleks), jadi jangan ' t menyajikan pemilihan model itu sendiri seolah-olah itu adalah kesimpulan yang dapat digeneralisasikan.

Jika kita mencari untuk melihat variabel mana yang tampaknya menjelaskan respons dan dengan cara apa

Pada akhirnya, jika Anda ingin melihat efek dari semua variabel, Anda harus memasukkan semua variabel, dan jika sampel Anda terlalu kecil untuk itu, Anda perlu sampel yang lebih besar. Ingat, hipotesis nol tidak pernah benar dalam kehidupan nyata. Ada tidak akan banyak variabel yang sedang dikaitkan dengan hasil dan sekelompok variabel lain yang tidak . Setiap variabel akan dikaitkan dengan hasil — pertanyaannya adalah sejauh mana, ke arah apa, dalam interaksi apa dengan variabel lain, dll.

— Kodiologis
sumber

Re (4): @gung memiliki 220 upvotes untuk kritiknya terhadap prosedur bertahap di stats.stackexchange.com/questions/20836 , tapi saya pikir kritik seperti itu akan berlaku untuk prosedur berbasis AIC dengan cara yang persis sama dengan p-value- yang berbasis.

— amoeba

@amoeba Poin bernomor Frank Harrell tampaknya berlaku sebagian besar untuk (b) (dan poin 9 adalah keuntungan, bukan kerugian). Deskripsi Gung tentang bagaimana pemilihan model dapat melampaui pakaian adalah benar, tetapi untuk itulah validasi model itu berlaku, dan masalahnya berlaku untuk semua skenario pemilihan model

— Kodiologist

Saya pikir jawaban gung serta poin Frank yang dikutip ada tentang pemilihan bertahap tanpa validasi model eksternal. Jelas, jika seleksi bertahap dimasukkan ke dalam loop validasi silang, maka tidak ada masalah prinsip dengan itu, bahkan jika itu didasarkan pada nilai-p. Jika cocok, kita akan melihatnya dalam kinerja yang divalidasi silang. Kritik seperti "Ini menghasilkan nilai R-kuadrat yang sangat bias menjadi tinggi" hanya masuk akal jika dilakukan tanpa validasi silang.

— amoeba

@amoeba saya kira, tetapi sesuai dengan apa yang saya katakan dalam jawaban saya, sepertinya itu tidak mungkin

p

$p$ Metode berbasis nilai akan mengungguli metode berdasarkan, misalnya, AIC. Tidak ada motivasi matematika untuk mereka.

— Kodiologist

@Kodiologist, terima kasih atas jawabannya, ini sangat membantu. 1) Komentar yang mengikuti adalah wahyu bagi saya: Saya tidak menyadari seluruh diskusi ini di utas lainnya didasarkan pada premis tanpa validasi model. Saya menganggap validasi model sebagai bagian penting dalam kasus apa pun, terlepas dari metode pemilihan variabel. 2) Sehubungan dengan pengajaran yang buruk, saya masih bingung, karena orang / universitas / buku yang tampaknya dihormati mengajar atau menggunakannya. Misalnya, Zuur et al. 2009 (model efek campuran dan ekstensi dalam ekologi dengan R), serta yang lain (Faraway 2005, 2006 jika saya tidak salah).

— Tilen

Mengenai stepwise vs AIC

Stepwise adalah istilah yang menggambarkan cara urutan model dibangun dan mungkin cara model dipilih dalam urutan.

Dalam konstruksi model bertahap , variabel ditambahkan atau dihapus satu per satu atau dalam kelompok sesuai dengan beberapa aturan untuk menentukan variabel mana yang akan ditambahkan / dihapus. Ini sesuai dengan poin Kodiologist (c).
Dalam pemilihan model bertahap , satu membandingkan model tetangga dalam urutan dan akan berhenti ketika model yang dipertimbangkan tampak lebih unggul dari kedua tetangganya (yang sebelumnya dan yang berikutnya). Ini dapat dilakukan dengan melihat properti yang berbeda dari model, misalnya nilai AIC, nilai-p, dll

Sementara itu,

AIC adalah ukuran kualitas relatif dari model statistik untuk set data yang diberikan. ( Wikipedia )

AIC dapat diterapkan untuk memilih model dari kumpulan kandidat. Ini dapat digunakan sebagai kriteria seleksi dalam seleksi bertahap, tetapi tidak hanya.

Jadi stepwise dan AIC adalah dua aspek berbeda dari pemilihan model yang dapat digunakan bersama atau secara terpisah, dan tergantung pada itu dan pada pertimbangan lain mungkin atau mungkin tidak tepat.

— Richard Hardy
sumber

terima kasih atas jawaban yang bermanfaat juga. Ya, saya menyadari bahwa AIC dapat digunakan secara terpisah dari stepwise. Namun di bidang saya (biologi), saya sering dihadapkan dengan beberapa kandidat prediksi untuk respon. Akibatnya, membangun satu set kecil hanya beberapa model yang telah ditentukan dan membandingkannya (tanpa melakukan seleksi bertahap maju atau mundur, atau semua kombinasi yang mungkin (mengeruk)) seringkali tidak mungkin, bahkan dengan pengetahuan biologis terbaik yang tersedia dan pemikiran yang cermat. Adakah saran lain tentang cara terbaik dalam kasus seperti itu?

— Tilen

@ Tilen, estimasi yang teratur seringkali merupakan ide yang bagus; misalnya jaring elastis atau kasing khusus (laso dan punggungan) dapat bermanfaat. Kuadrat terkecil parsial adalah cara lain.

— Richard Hardy

Terima kasih, saya akan melihatnya. Apakah metode ini jauh lebih rumit dari, misalnya, prosedur bertahap berbasis AIC, atau mereka baru saja? Alasan saya bertanya adalah untuk memahami mengapa kursus pemodelan statistik dan buku-buku (setidaknya pengantar atau dasar, tetapi semua diterapkan) tampaknya mengandung prosedur bertahap (baik p-value dan berbasis AIC), daripada metode yang Anda rujuk.

— Tilen

@ Tilen, mungkin keduanya.

— Richard Hardy

Saya melihat. Saya bertanya-tanya apakah Anda memiliki pemikiran tentang pertanyaan terkait langsung, tetapi berbeda: stats.stackexchange.com/questions/265572/… ?

— Tilen