Bagaimana Anda memilih variabel dalam model regresi?


12

Pendekatan tradisional untuk pemilihan variabel adalah menemukan variabel yang berkontribusi paling besar dalam memprediksi respons baru. Baru-baru ini saya belajar tentang alternatif untuk ini. Dalam memodelkan variabel yang menentukan efek dari suatu pengobatan - seperti misalnya dalam uji klinis farmasi - variabel tersebut dikatakan saling berinteraksi secara kualitatif.dengan pengobatan jika, membiarkan hal-hal lain tetap, perubahan dalam variabel itu dapat membuat perubahan di mana pengobatan paling efektif. Variabel-variabel ini tidak selalu merupakan prediktor yang kuat tentang efek tetapi mungkin penting bagi seorang dokter ketika memutuskan pengobatan untuk masing-masing pasien. Dalam tesis PhD-nya Lacey Gunter mengembangkan metode untuk memilih variabel-variabel yang berinteraksi secara kualitatif yang dapat dilewatkan oleh algoritma yang mendasarkan seleksi pada prediksi. Baru-baru ini saya telah bekerja dengannya untuk memperluas metode ini ke model lain termasuk regresi logistik dan model regresi hazard proporsional Cox.

Saya punya dua pertanyaan:

  1. Apa pendapat Anda tentang nilai metode baru ini?
  2. Dalam hal metode tradisional pendekatan apa yang Anda sukai? Kriteria seperti AIC, BIC, Mallows Cp, uji F untuk memasukkan atau menjatuhkan variabel secara bertahap, maju dan mundur ...

Makalah pertama tentang ini keluar di Gunter, L., Zhu, J dan Murphy, SA (2009). Seleksi variabel untuk interaksi kualitatif . Metodologi Statistik doi: 10, 1016 / j.stamet.2009.05.003.

Makalah berikutnya muncul di Gunter, L., Zhu, J. dan Murphy, SA (2011). Pilihan variabel interaksi kualitatif dalam pengobatan yang dipersonalisasi sambil mengendalikan tingkat kesalahan kekeluargaan . Jurnal Statistik Biofarmasi 21, 1063-1078.

Yang berikutnya muncul dalam edisi khusus pada pemilihan variabel Gunter, L., Chernick, MR dan Sun, J. (2011). Sebuah metode sederhana untuk seleksi variabel dalam regresi sehubungan dengan pemilihan pengobatan . Jurnal Statistik dan Operasi Riset Pakistan 7: 363-380.

Anda dapat menemukan makalah di situs web jurnal. Anda mungkin harus membeli artikel. Saya mungkin punya file pdf untuk artikel ini. Lacey dan saya baru saja menyelesaikan monograf tentang topik ini yang akan diterbitkan sebagai SpringerBrief akhir tahun ini.


11
Mungkin saya tidak mengikuti - jika ada alasan apriori untuk mencurigai modifikasi efek, lalu bagaimana metode baru ini berbeda dari, misalnya, termasuk istilah interaksi dalam daftar variabel "kandidat" untuk pemilihan model?
Makro

6
(1) Satu atau lebih kalimat sepertinya hilang dalam pertanyaan ini. Saya kira itu mungkin melanjutkan "bertahap, maju dan mundur, ..." (2) Identifikasi model dan pemilihan variabel telah banyak dibahas di sini. Misalnya, mencari di + model + variabel + seleksi menyajikan 145 utas pada saat ini. Mempersempit pencarian itu kemungkinan akan menjawab pertanyaan kedua. (3) Untuk memfasilitasi jawaban atas pertanyaan pertama, dapatkah Anda memberikan tautan atau referensi eksplisit untuk penelitian ini?
whuber

2
Ini adalah masalah termasuk variabel yang berinteraksi dengan perawatan. Tetapi ini adalah interaksi kualitatif bukan hanya interaksi sederhana. Untuk berinteraksi dua garis tidak harus paralel. Untuk berinteraksi secara kualitatif, mereka harus melewati interval di mana variabel didefinisikan. Jadi idenya adalah untuk menemukan variabel yang berinteraksi secara kualitatif. Ini berbeda dari memilih variabel dan istilah interaksi yang meningkatkan kecocokan atau prediksi.
Michael R. Chernick

3
Terima kasih telah mengambil kesempatan untuk merespons, Michael. Mungkin poin kunci untuk mengemuka adalah bahwa situs ini bukan situs diskusi, melainkan situs tanya jawab. Dengan itu muncul beberapa modalitas komunikasi yang sedikit berbeda. FAQ membahas hal ini secara terperinci. Kadang-kadang threading bisa sedikit hilang, tetapi ternyata sangat jarang saya temukan, begitu seseorang mendapatkan sedikit pengalaman dengan skema umum. Bersulang.
kardinal

6
Michael, ya, sistem SE membutuhkan waktu untuk membiasakan diri dan tidak sempurna. Tetapi itu masuk akal dan konsisten. Satu hal yang kami tuju adalah peningkatan berkelanjutan : tidak seperti server daftar dan papan buletin, pertanyaan (dan jawaban) dapat dimodifikasi; ini diharapkan. Pada akhirnya, kami ingin utas untuk memulai dengan satu, lengkap, pertanyaan lengkap yang berdiri sendiri tanpa mengacu pada utas komentar; maka itu harus dilanjutkan dengan satu atau lebih jawaban kanonik yang ditulis dengan baik, dan dikaitkan dengan baik. Dengan pemikiran ideal ini, saran @ cardinal mungkin lebih masuk akal bagi Anda.
whuber

Jawaban:


2
  1. Lihat Gelman dan Hill, Analisis Data Menggunakan Regresi dan Multilevel / Hierarchical Model hal 69, mereka memiliki bagian tentang pemilihan model. Dia menggunakan pendekatan berbasis pertanyaan yang benar-benar baik-baik saja tetapi dalam makalahnya dia perlu membenarkan mengapa dia memasukkan apa yang dia lakukan dalam model. Seperti yang Anda katakan, "Variabel-variabel ini tidak selalu merupakan prediktor yang kuat tentang efeknya tetapi mungkin penting bagi seorang dokter ketika memutuskan perawatan untuk masing-masing pasien." jadi selama dia membenarkan mengapa prediksi ini harus dimasukkan maka itu baik-baik saja. Bagi saya pribadi saya lebih suka metode ini. Jadi inilah jawaban saya untuk 2.
  2. Berturut-turut, maju, dan mundur saya pikir kotak hitam. Saat Anda menjalankan model melalui ketiganya, Anda tidak akan sampai pada prediktor yang sama. Karena itu dalam hal untuk menggunakan saya tidak akan memiliki jawaban yang jelas. AIC atau BIC boleh digunakan untuk membandingkan model.
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.