Pengujian signifikansi atau validasi silang?

20

Dua pendekatan umum untuk memilih variabel berkorelasi adalah uji signifikansi dan validasi silang. Masalah apa yang masing-masing coba selesaikan dan kapan saya lebih suka yang satu daripada yang lain?

cross-validation feature-selection

— JohnRos
sumber

22

Pertama, mari kita eksplisit dan memasukkan pertanyaan ke dalam konteks regresi linier berganda di mana kita meringkas variabel respon, , pada beberapa variabel berbeda (berkorelasi atau tidak), dengan parameter vektor dan fungsi regresi yang dapat menjadi model rata-rata variabel respon untuk pengamatan . $y$ $x_1, \ldots, x_p$ $\beta = (\beta_0, \beta_1, \ldots, \beta_p)$

f (x_{1}, \dots, x_{p}) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p},

$f(x_1, \ldots, x_p) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p,$

x_{1}, \dots, x_{p}

$x_1, \ldots, x_p$

Pertanyaannya adalah bagaimana memilih subset dari 's untuk menjadi non-nol, dan, khususnya, perbandingan pengujian signifikansi dibandingkan lintas validasi . $\beta_i$

Agar jelas tentang terminologi, pengujian signifikansi adalah konsep umum, yang dilakukan secara berbeda dalam konteks yang berbeda. Itu tergantung, misalnya, pada pemilihan statistik uji. Validasi silang sebenarnya merupakan algoritma untuk estimasi kesalahan generalisasi yang diharapkan , yang merupakan konsep umum yang penting, dan yang tergantung pada pilihan fungsi kerugian.

The error generalisasi diharapkan sedikit teknis untuk menentukan secara formal, tetapi dalam kata-kata itu adalah hilangnya diharapkan dari model pas bila digunakan untuk prediksi pada set data independen , di mana harapan adalah atas data yang digunakan untuk estimasi serta data independen set digunakan untuk prediksi.

Untuk membuat perbandingan yang masuk akal mari kita fokus pada apakah dapat diambil sama dengan 0 atau tidak. $\beta_1$

Untuk menguji signifikansi dari hipotesis nol bahwa prosedur utama adalah untuk menghitung -nilai, yang merupakan probabilitas bahwa yang dipilih uji-statistik lebih besar dari yang diamati untuk set data kami di bawah hipotesis nol , yaitu ketika dengan asumsi bahwa . Interpretasinya adalah bahwa nilai- kecil adalah bukti terhadap hipotesis nol. Ada aturan yang biasa digunakan untuk arti "kecil" dalam arti absolut seperti tingkat signifikansi 0,05 atau 0,01 yang terkenal. $\beta_1 = 0$ $p$ $\beta_1 = 0$ $p$
Untuk kesalahan generalisasi yang diharapkan, kami menghitung, mungkin menggunakan validasi silang, perkiraan kesalahan generalisasi yang diharapkan dengan asumsi bahwa . Kuantitas ini memberi tahu kami seberapa baik model yang dipasang oleh metode yang kami gunakan, dan dengan , akan berperforma rata-rata saat digunakan untuk prediksi data independen. Kesalahan generalisasi yang diharapkan besar adalah buruk, tetapi tidak ada aturan dalam hal nilai absolutnya pada seberapa besar itu harus buruk. Kami harus memperkirakan kesalahan generalisasi yang diharapkan untuk model di mana juga dibiarkan berbeda dari 0, dan kemudian kami dapat membandingkan dua perkiraan kesalahan tersebut. Mana yang paling sesuai dengan model yang kita pilih. $\beta_1 = 0$ $\beta_1 = 0$ $\beta_1$

Menggunakan signifikansi pengujian kita tidak langsung berkaitan dengan "kinerja" dari model di bawah hipotesis nol dibandingkan model lain, tapi kami sedang prihatin dengan mendokumentasikan bahwa nol yang salah. Ini paling masuk akal (bagi saya) dalam pengaturan konfirmasi di mana tujuan utamanya adalah untuk mengkonfirmasi dan mendokumentasikan hipotesis ilmiah priorat yang ditentukan dengan baik, yang dapat dirumuskan sebagai . $\beta_1 \neq 0$

The error generalisasi diharapkan adalah, di sisi lain, hanya peduli dengan "kinerja" Rata-rata dalam hal penurunan prediksi yang diharapkan, dan menyimpulkan bahwa yang terbaik adalah untuk memungkinkan berbeda dari 0 dalam hal prediksi bukan merupakan upaya untuk dokumen bahwa "benar-benar" berbeda dari 0 apa pun artinya. $\beta_1$ $\beta_1$ $-$

Saya secara pribadi tidak pernah menangani masalah di mana saya secara formal membutuhkan pengujian signifikan, namun nilai- menemukan jalan mereka ke dalam pekerjaan saya dan memberikan panduan yang masuk akal dan kesan pertama untuk pemilihan variabel. Saya, bagaimanapun, kebanyakan menggunakan metode hukuman seperti laso dalam kombinasi dengan kesalahan generalisasi untuk setiap pemilihan model formal, dan saya perlahan-lahan mencoba menekan kecenderungan saya untuk bahkan menghitung nilai- . $p$ $p$

Untuk analisis eksplorasi saya tidak melihat argumen yang mendukung pengujian signifikansi dan nilai- , dan saya pasti akan merekomendasikan fokus pada konsep seperti kesalahan generalisasi yang diharapkan untuk pemilihan variabel. Dalam konteks lain di mana orang mungkin mempertimbangkan menggunakan nilai- untuk mendokumentasikan bahwa bukan 0, saya akan mengatakan bahwa hampir selalu merupakan ide yang lebih baik untuk melaporkan perkiraan dan interval kepercayaan sebagai gantinya. $p$ $p$ $\beta_1$ $\beta_1$

— NRH
sumber

17

Cukup menggunakan tes signifikansi dan prosedur bertahap untuk melakukan pemilihan model dapat membuat Anda percaya bahwa Anda memiliki model yang sangat kuat dengan prediktor signifikan ketika Anda, pada kenyataannya, tidak; Anda mungkin mendapatkan korelasi kuat secara kebetulan dan korelasi ini tampaknya dapat ditingkatkan saat Anda menghilangkan prediktor yang tidak perlu lainnya.

Prosedur pemilihan, tentu saja, hanya membuat variabel-variabel tersebut dengan korelasi terkuat dengan hasil dan, ketika prosedur bertahap bergerak maju, probabilitas melakukan kesalahan Tipe I menjadi lebih besar daripada yang Anda bayangkan. Ini karena kesalahan standar (dan dengan demikian nilai-p) tidak disesuaikan untuk memperhitungkan fakta bahwa variabel tidak dipilih untuk dimasukkan dalam model secara acak dan beberapa uji hipotesis dilakukan untuk memilih set itu.

David Freedman memiliki kertas lucu di mana ia menunjukkan poin-poin ini yang disebut " Catatan tentang Penyaringan Regresi Persamaan ." Abstrak:

Pertimbangkan mengembangkan model regresi dalam konteks di mana teori substantif lemah. Untuk fokus pada kasus ekstrim, anggaplah bahwa sebenarnya tidak ada hubungan antara variabel dependen dan variabel penjelas. Meski begitu, jika ada banyak variabel penjelas, akan tinggi. Jika variabel penjelas dengan statistik t kecil diturunkan dan persamaannya dipasang kembali, akan tetap tinggi dan F keseluruhan akan menjadi sangat signifikan. Ini ditunjukkan oleh simulasi dan dengan perhitungan asimptotik. $R^2$ $R^2$

Salah satu solusi potensial untuk masalah ini, seperti yang Anda sebutkan, adalah menggunakan varian validasi silang. Ketika saya tidak memiliki alasan ekonomi yang baik (bidang penelitian saya) atau statistik untuk mempercayai model saya, ini adalah pendekatan pilihan saya untuk memilih model yang tepat dan melakukan inferensi.

Responden lain mungkin menyebutkan bahwa prosedur bertahap menggunakan AIC atau BIC secara asympotically setara dengan validasi silang. Ini hanya berfungsi karena jumlah pengamatan relatif terhadap jumlah prediktor menjadi besar. Dalam konteks memiliki banyak variabel relatif terhadap jumlah pengamatan (Freedman mengatakan 1 variabel per 10 pengamatan atau lebih sedikit), seleksi dengan cara ini dapat menunjukkan sifat-sifat buruk yang dibahas di atas.

Di zaman komputer yang kuat, saya tidak melihat alasan untuk tidak menggunakan validasi silang sebagai prosedur pemilihan model melalui seleksi bertahap.

— Charlie
sumber

Bisakah Anda memberikan referensi untuk prosedur bertahap menggunakan AIC atau BIC yang secara asympotically setara dengan validasi silang ? Saya telah membaca tentang kesetaraan AIC / BIC untuk melewati validasi, tetapi tidak dalam pengaturan bertahap.

— Richard Hardy