Menghitung subset prediktor terbaik untuk regresi linier


9

Untuk pemilihan prediktor dalam regresi linier multivariat dengan prediktor yang cocok, apa metode yang tersedia untuk menemukan 'optimal' subset dari prediktor tanpa secara eksplisit menguji semua 2 p subset? Dalam 'Analisis Kelangsungan Hidup Terapan,' Hosmer & Lemeshow membuat referensi ke metode Kuk, tetapi saya tidak dapat menemukan kertas aslinya. Adakah yang bisa menggambarkan metode ini, atau, bahkan lebih baik, teknik yang lebih modern? Seseorang dapat mengasumsikan kesalahan yang didistribusikan secara normal.hal2hal


1
Apakah Anda merujuk pada makalah berikut? Kuk, AYC (1984) Semua himpunan bagian regresi dalam model bahaya proporsional. Biometrika, 71, 587-592
chl

ya memang. Saya kira saya harus menggali kertas itu entah bagaimana. Sepertinya sudah tua.
shabbychef

2
Sementara itu, temukan artikel ini, Metode laso untuk pemilihan variabel dalam model cox, dari Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl

1
dan yang lebih baru ini (terkait erat dengan penalizedpaket R), j.mp/cooIT3 . Mungkin yang ini juga, j.mp/bkDQUj . Cheers
chl

Jawaban:


12

Saya belum pernah mendengar metode Kuk, tapi topik hangat hari ini adalah minimisasi L1. Alasannya adalah bahwa jika Anda menggunakan istilah hukuman dari nilai absolut dari koefisien regresi, yang tidak penting harus menjadi nol.

Teknik-teknik ini memiliki beberapa nama lucu: Lasso, LARS, pemilih Dantzig. Anda dapat membaca makalah, tetapi tempat yang baik untuk memulai adalah dengan Elemen Pembelajaran Statistik , Bab 3.


2
BTW, paket R yang dihukum ( j.mp/bdQ0Rp ) mencakup estimasi l1 / l2 yang dihukum untuk model Generalized Linear dan Cox.
chl

terjebak di tanah matlab, mengimplementasikannya sendiri ...
shabbychef

LAR itu bagus, BTW. hal yang sangat keren. tidak yakin bagaimana saya bisa memasukkannya ke dalam kerangka model Cox Proportional Hazards, tho ...
shabbychef

2
Perangkat lunak Glmnet memiliki model Cox PH lasso: cran.r-project.org/web/packages/glmnet/index.html ada juga versi MATLAB (tidak yakin apakah itu menggunakan model cox): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne

3

Ini adalah topik besar. Seperti yang disebutkan sebelumnya, Hastie, Tibshirani, dan Friedman memberikan intro yang baik dalam Ch3 dari Elemen Pembelajaran Statistik.

Beberapa poin. 1) Apa yang Anda maksud dengan "terbaik" atau "optimal"? Apa yang terbaik di satu sisi mungkin tidak terbaik di yang lain. Dua kriteria umum adalah akurasi prediksi (memprediksi variabel hasil) dan menghasilkan penaksir yang tidak bias dari koefisien. Beberapa metode, seperti Lasso & Ridge Regression pasti menghasilkan estimasi estimator yang bias.

2) Ungkapan "himpunan bagian terbaik" itu sendiri dapat digunakan dalam dua pengertian yang terpisah. Secara umum merujuk pada subset terbaik di antara semua prediktor yang mengoptimalkan beberapa kriteria pembangunan model. Lebih khusus itu dapat merujuk pada algoritma efisien Furnival dan Wilson untuk menemukan bahwa subset di antara jumlah prediktor linier (~ 50) moderat (Regresi oleh Leaps dan Bound. Technometrics, Vol. 16, No. 4 (November, 1974), hlm. 499-51)

http://www.jstor.org/stable/1267601


1) ya, pertanyaannya agak ambigu; ada, seperti yang Anda sebutkan, banyak definisi 'optimal': melalui kriteria informasi, validasi silang, dll. Sebagian besar pendekatan heuristik telah saya lihat untuk masalah, lanjutkan dengan penambahan / penghapusan prediktor bertahap: penambahan atau pengurangan satu langkah maju, dll. Namun, Hosmer & Lemeshow membuat referensi ke metode ini (varian karya oleh Lawless & Singhal), yang entah bagaimana 'ajaib' memilih prediktor dengan perhitungan tunggal MLR (modulo beberapa hal lain). Saya sangat ingin tahu tentang metode ini ...
shabbychef

0

Apa yang saya pelajari adalah yang pertama kali menggunakan Pendekatan Subsets Terbaik sebagai alat skrining, kemudian prosedur seleksi bertahap dapat membantu Anda akhirnya memutuskan model mana yang mungkin merupakan model subset terbaik (saat ini jumlah model tersebut cukup kecil untuk ditangani). Jika salah satu model memenuhi kondisi model, lakukan pekerjaan yang baik untuk merangkum tren dalam data, dan yang paling penting memungkinkan Anda untuk menjawab pertanyaan penelitian Anda, maka selamat pekerjaan Anda selesai.


1
Saya pikir Anda mungkin salah mengingat ini. Himpunan bagian yang terbaik jauh lebih mahal secara komputasi daripada bertahap, tetapi tentu akan menangkap apa pun yang akan dilakukan secara bertahap, sehingga Anda akan menggunakan bertahap untuk menyaring & himpunan bagian yang terbaik setelahnya. FWIW, saya tidak setuju dg penggunaan strategi ini secara naif, untuk alasan yang saya bahas dalam jawaban saya di sini: algoritma untuk pemilihan model otomatis .
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.