Apakah variabel signifikan dalam model regresi linier?


9

Saya punya model regresi linier dengan sampel dan observasi variabel dan saya ingin tahu:

  1. Apakah variabel tertentu cukup signifikan untuk tetap dimasukkan dalam model.
  2. Apakah variabel lain (dengan pengamatan) harus dimasukkan dalam model.

Statistik mana yang dapat membantu saya? Bagaimana cara mendapatkannya dengan paling efisien?

Jawaban:


26

Signifikansi statistik biasanya tidak menjadi dasar yang baik untuk menentukan apakah suatu variabel harus dimasukkan dalam model. Tes statistik dirancang untuk menguji hipotesis, bukan variabel terpilih. Saya tahu banyak buku teks membahas pemilihan variabel menggunakan tes statistik, tetapi ini umumnya pendekatan yang buruk. Lihat buku Harrell's Regression Modeling Strategies untuk beberapa alasan mengapa. Saat ini, pemilihan variabel berdasarkan AIC (atau yang serupa) biasanya lebih disukai.


Sebenarnya, seingat saya, Harrell sangat tidak menyarankan penggunaan AIC. Saya kira validasi silang mungkin akan menjadi metode teraman di sekitar.
Tal Galili

1
AIC secara asimtotik setara dengan CV. Lihat jawaban untuk stats.stackexchange.com/questions/577/… . Saya memeriksa Harrell sebelum saya menulis jawaban itu, dan saya tidak melihat adanya keputusasaan AIC. Dia memperingatkan tentang pengujian signifikansi setelah pemilihan variabel, dengan AIC atau metode lain.
Rob Hyndman

@Tal: Mungkin dari salah satu makalahnya dan bukan di buku RMS, saya ingat Harrell keberatan dengan penggunaan AIC karena hanya memilih di antara kumpulan banyak model. Saya pikir maksudnya adalah Anda harus menambahkan variabel pada satu waktu dan membandingkan dua model secara metodis atau menggunakan beberapa strategi serupa. (Agar lebih jelas, ini sesuai dengan jawaban Rob.)
ars

Melakukan pencarian cepat, saya menemukan Harrell menulis yang berikut: "Waspadalah dalam melakukan pemilihan model berdasarkan nilai-P, R-square, parsial R-square, AIC, BIC, koefisien regresi, atau Mallows 'Cp." Dia menulis bahwa pada 12/14/08, pada milis berjudul [R] Memperoleh nilai-p untuk koefisien dari fungsi LRM (Desain paket) - plaintext. Saya kira saya salah mengerti maknanya.
Tal Galili

2
@Tal, @Rob: Di utas itu, ia mengatakan "Pastikan untuk menggunakan prinsip hierarki". Mungkin menarik, diskusi ini dari medstats (gulir ke bawah untuk tanggapan Harrell): groups.google.com/group/medstats/browse_thread/thread/…
ars

4

Saya komentar kedua Rob. Alternatif yang semakin disukai adalah memasukkan semua variabel Anda dan mengecilkannya ke 0. Lihat Tibshirani, R. (1996). Penyusutan regresi dan seleksi melalui laso.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
Apakah ada cara untuk mengukur apa yang "semakin disukai" belakangan ini?
Tal Galili

Saya pikir itu diakui secara ilmiah lebih benar di banyak bidang dalam arti bahwa pendekatan penyusutan lebih banyak digunakan dalam makalah stat yang baru-baru ini diterapkan daripada pendekatan * .IC. Itu menunjukkan konsensus teoritis -tidak setidaknya diam-diam- tertentu.
user603

1
2p

3

Untuk bagian 1, Anda mencari F-test . Hitung jumlah residu kuadrat Anda dari setiap model yang cocok dan hitung statistik F, yang dapat Anda gunakan untuk menemukan nilai-p baik dari distribusi-F atau dari beberapa distribusi nol lain yang Anda hasilkan sendiri.


1

Suara lain untuk jawaban Rob.

Ada juga beberapa ide menarik dalam literatur "kepentingan relatif". Karya ini mengembangkan metode yang berusaha untuk menentukan seberapa besar pentingnya dikaitkan dengan masing-masing dari sejumlah calon prediktor. Ada metode Bayesian dan Frequentist. Periksa paket "relaimpo" dalam R untuk kutipan dan kode.


1

Saya juga suka jawaban Rob. Dan, jika Anda kebetulan menggunakan SAS daripada R, Anda dapat menggunakan PROC GLMSELECT untuk model yang akan dilakukan dengan PROC GLM, meskipun itu berfungsi dengan baik untuk beberapa model lain, juga. Lihat

Flom dan Cassell "Menghentikan Stepwise: Mengapa Metode Pemilihan Stepwise Buruk dan Apa yang Harus Anda Gunakan" disajikan di berbagai kelompok, yang terbaru, NESUG 2009

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.