setelah melakukan seleksi bertahap berdasarkan kriteria AIC, adalah keliru untuk melihat nilai-p untuk menguji hipotesis nol bahwa setiap koefisien regresi benar adalah nol.
Memang, nilai-p menunjukkan probabilitas untuk melihat statistik uji setidaknya yang ekstrim seperti yang Anda miliki, ketika hipotesis nol itu benar. Jika H0 benar, nilai-p harus memiliki distribusi yang seragam.
Tetapi setelah seleksi bertahap (atau memang, setelah berbagai pendekatan lain untuk pemilihan model), nilai-p dari istilah-istilah yang tetap dalam model tidak memiliki properti itu, bahkan ketika kita tahu bahwa hipotesis nol itu benar.
Ini terjadi karena kami memilih variabel yang memiliki atau cenderung memiliki nilai-p kecil (tergantung pada kriteria tepat yang kami gunakan). Ini berarti bahwa nilai-p dari variabel yang tersisa dalam model biasanya jauh lebih kecil daripada jika kita memasang model tunggal. Perhatikan bahwa pemilihan rata-rata akan memilih model yang tampaknya lebih cocok daripada model yang sebenarnya, jika kelas model menyertakan model yang benar, atau jika kelas model cukup fleksibel untuk mendekati model yang sebenarnya.
[Selain itu dan untuk alasan yang pada dasarnya sama, koefisien yang tersisa bias dari nol dan kesalahan standarnya bias rendah; ini pada gilirannya berdampak pada interval kepercayaan dan prediksi juga - prediksi kami akan terlalu sempit misalnya.]
Untuk melihat efek ini, kita dapat mengambil regresi berganda di mana beberapa koefisien adalah 0 dan beberapa tidak, melakukan prosedur bertahap dan kemudian untuk model-model yang berisi variabel yang memiliki koefisien nol, lihat nilai-p yang dihasilkan.
(Dalam simulasi yang sama, Anda dapat melihat perkiraan dan standar deviasi untuk koefisien dan menemukan yang sesuai dengan koefisien tidak nol juga terpengaruh.)
Singkatnya, tidak pantas untuk menganggap nilai-p yang biasa sebagai bermakna.
Saya mendengar bahwa seseorang harus mempertimbangkan semua variabel yang tersisa dalam model sebagai signifikan.
Mengenai apakah semua nilai dalam model setelah bertahap harus 'dianggap signifikan', saya tidak yakin sejauh mana itu adalah cara yang berguna untuk melihatnya. Apa yang dimaksud dengan "signifikansi" itu?
Inilah hasil menjalankan R stepAIC
dengan pengaturan default pada 1000 sampel yang disimulasikan dengan n = 100, dan sepuluh variabel kandidat (tidak ada yang terkait dengan respons). Dalam setiap kasus jumlah istilah yang tersisa dalam model dihitung:
Hanya 15,5% dari waktu adalah model yang benar dipilih; sisa waktu model termasuk istilah yang tidak berbeda dari nol. Jika itu benar-benar mungkin ada variabel nol koefisien dalam himpunan variabel kandidat, kita cenderung memiliki beberapa istilah di mana koefisien sebenarnya adalah nol dalam model kami. Akibatnya, tidak jelas itu ide yang baik untuk menganggap mereka semua sebagai tidak nol.