Diskusi pemilihan variabel yang lebih pasti

Latar Belakang

Saya sedang melakukan penelitian klinis di bidang kedokteran dan telah mengikuti beberapa kursus statistik. Saya tidak pernah menerbitkan makalah menggunakan regresi linier / logistik dan ingin melakukan pemilihan variabel dengan benar. Interpretabilitas itu penting, jadi tidak ada teknik pembelajaran mesin yang mewah. Saya telah merangkum pemahaman saya tentang pemilihan variabel - apakah seseorang akan keberatan menjelaskan kesalahpahaman? Saya menemukan dua (1) mirip (2) posting CV untuk yang satu ini, tetapi mereka tidak sepenuhnya menjawab keprihatinan saya. Setiap pemikiran akan sangat dihargai! Saya punya 3 pertanyaan utama di akhir.

Masalah dan Diskusi

Masalah regresi / klasifikasi tipikal saya memiliki 200-300 pengamatan, tingkat kejadian buruk 15% (jika klasifikasi), dan info tentang 25 dari 40 variabel yang telah diklaim memiliki efek "signifikan secara statistik" dalam literatur atau menjadikannya masuk akal akal dengan pengetahuan domain.

Saya memberi tanda kutip "signifikan secara statistik", karena sepertinya semua orang dan ibu mereka menggunakan regresi bertahap, tetapi Harrell (3) dan Flom (4) tampaknya tidak menyukainya karena sejumlah alasan bagus. Ini selanjutnya didukung oleh diskusi posting blog Gelman (5). Sepertinya satu-satunya waktu nyata yang dapat diterima secara bertahap adalah jika ini benar-benar analisis eksplorasi, atau orang tertarik pada prediksi dan memiliki skema validasi silang. Terutama karena banyak komorbiditas medis menderita kolinearitas DAN studi menderita ukuran sampel yang kecil, pemahaman saya adalah bahwa akan ada banyak positif palsu dalam literatur; ini juga membuat saya cenderung mempercayai literatur untuk memasukkan variabel potensial.

Pendekatan populer lainnya adalah dengan menggunakan serangkaian regresi / asosiasi univariat antara prediktor dan variabel independen sebagai titik awal. di bawah ambang tertentu (katakanlah, p <0,2). Ini tampaknya salah atau setidaknya menyesatkan karena alasan yang diuraikan dalam posting StackExchange ini (6).

Terakhir, pendekatan otomatis yang tampak populer dalam pembelajaran mesin adalah dengan menggunakan hukuman seperti L1 (Lasso), L2 (Ridge), atau L1 + L2 combo (Elastic Net). Pemahaman saya adalah bahwa ini tidak memiliki interpretasi mudah yang sama dengan OLS atau regresi logistik.

Gelman + Hill mengusulkan yang berikut:

Dalam kursus Statistik saya, saya juga ingat menggunakan tes F atau Analisis Penyimpangan untuk membandingkan model lengkap dan bersarang untuk melakukan model / pemilihan variabel variabel demi variabel. Ini tampaknya masuk akal, tetapi model bersarang berurutan pas secara sistematis untuk menemukan variabel yang menyebabkan penurunan terbesar dalam penyimpangan per df sepertinya bisa dengan mudah otomatis (jadi saya agak khawatir) dan juga sepertinya mengalami masalah urutan di mana Anda menguji inklusi variabel. Pemahaman saya adalah bahwa ini juga harus dilengkapi dengan menyelidiki multikolinieritas dan plot residual (residual vs prediksi).

Pertanyaan:

Apakah ringkasan Gelman adalah jalan yang harus ditempuh? Apa yang akan Anda tambahkan atau ubah dalam strategi yang diusulkannya?
Selain berpikir murni tentang potensi interaksi dan transformasi (yang tampaknya sangat bias / rawan kelalaian), adakah cara lain untuk menemukan yang potensial? Multivariate adaptive regression spline (MARS) direkomendasikan kepada saya, tetapi saya diberitahu bahwa nonlinier / transformasi tidak diterjemahkan ke dalam variabel yang sama dalam model regresi standar.
Misalkan tujuan saya sangat sederhana: katakan, "Saya ingin memperkirakan asosiasi X1 pada Y, hanya akuntansi untuk X2". Apakah cukup untuk hanya melakukan regresi Y ~ X1 + X2, melaporkan hasilnya, tanpa mengacu pada kemampuan prediksi aktual (seperti yang dapat diukur dengan RMSE validasi silang atau ukuran akurasi)? Apakah ini berubah tergantung pada tingkat kejadian atau ukuran sampel atau jika R ^ 2 super rendah (saya sadar bahwa R ^ 2 tidak baik karena Anda selalu dapat meningkatkannya dengan overfitting)? Saya umumnya lebih tertarik pada inferensi / interpretabilitas daripada mengoptimalkan kekuatan prediksi.

Contoh kesimpulan:

"Mengontrol X2, X1 secara statistik tidak terkait secara signifikan dengan Y relatif terhadap tingkat referensi X1." (koefisien regresi logistik)
"X1 bukan merupakan prediktor signifikan Y secara statistik karena dalam model penurunan penyimpangan tidak cukup relatif terhadap perubahan df." (Analisis Penyimpangan)

Apakah validasi silang selalu diperlukan? Dalam hal ini, seseorang mungkin juga ingin melakukan penyeimbangan kelas melalui SMOTE, pengambilan sampel, dll.

regression feature-selection model-selection

— sharper_image
sumber

Referensi 1. stats.stackexchange.com/questions/56725/… 2. stats.stackexchange.com/questions/221907/… 3. stats.stackexchange.com/questions/18214/… 4. lexjansen.com/pnwsug/2008/ DavidCassell-StoppingStepwise.pdf 5. andrewgelman.com/2014/06/02/hate-stepwise-regress 6. stats.stackexchange.com/questions/138860/…

— sharper_image

Apakah sesuatu dapat diotomatiskan (saat ini - sebelum munculnya AI yang kuat) menurut saya adalah ikan hering merah.

— gung - Reinstate Monica

+1 untuk pertanyaan yang sangat bijaksana. Satu hal yang diperlihatkan oleh ulasan Anda adalah tidak ada resep atau buku resep standar untuk pemilihan variabel. Setiap orang memiliki pendekatan dan rangkaian praktik "terbaik" yang berbeda. Kemudian, ada perbedaan yang sangat penting antara model teoritis atau populasi vs yang didorong secara empiris - kerangka kerja yang berbeda ini jarang selaras dan mudah untuk mengacaukannya. Kekhawatiran Anda tentang "kehilangan" sesuatu bukanlah tidak berdasar tetapi kenyataannya adalah bahwa jawaban yang tegas dan pasti tidak ada. Pendekatan yang telah Anda ulas didokumentasikan secara luas, pilih satu

— Mike Hunter

Harrell, Flom, & Kolassa; sudah beres kalau begitu.

— gung - Reinstate Monica

Re Gelman & Hill's 4 (b): Harrell, RMS 1st edn, p60: "Masalah terakhir dengan pemilihan variabel diilustrasikan dengan membandingkan pendekatan ini [sc. Stepwise] dengan cara masuk akal banyak ekonom mengembangkan model regresi. Ekonom sering menggunakan strategi menghapus hanya variabel - variabel yang tidak signifikan & yang koefisien regresinya memiliki arah yang tidak masuk akal ". Dan saya ingat bahwa Steyerberg akan menulis makalah tentang itu. [Akan mencoba mencari referensi. ketika saya mendapat kesempatan.]

— Scortchi - Reinstate Monica

Jawaban:

Andrew Gelman jelas merupakan nama yang disegani di dunia statistik. Prinsip-prinsipnya erat selaras dengan beberapa penelitian pemodelan kausal yang telah dilakukan oleh "nama besar" lainnya di lapangan. Tetapi saya pikir mengingat minat Anda dalam penelitian klinis, Anda harus berkonsultasi dengan sumber lain.

Saya menggunakan kata "kausal" secara longgar (seperti yang dilakukan orang lain) karena ada garis tipis yang harus kita tarik antara melakukan "inferensial sebab akibat" dari data pengamatan, dan menyatakan hubungan sebab akibat antar variabel. Kita semua sepakat bahwa RCT adalah cara utama untuk menilai kausalitas. Kami jarang menyesuaikan untuk apa pun dalam uji coba tersebut per asumsi pengacakan, dengan beberapa pengecualian ( Senn, 2004 ). Studi observasional memiliki kepentingan dan kegunaannya ( Weiss, 1989 ) dan pendekatan berbasis kontrafaktual untuk membuat inferensi dari data observasi diterima sebagai pendekatan filosofis yang sehat untuk melakukannya ( Höfler, 2005 ). Ini sering mendekati sangat dekat efisiensi penggunaan diukur dalam RCT ( Anglemyer, 2014 ).

Karena itu, saya akan fokus pada studi dari data observasi. Pendapat saya tentang rekomendasi Gelman adalah: semua prediktor dalam suatu model dan hubungan sebab akibat mereka antara satu keterpaparan minat dan satu hasil kepentingan harus ditentukan apriori . Melemparkan dan mengecualikan kovariat berdasarkan hubungan mereka di antara serangkaian temuan utama sebenarnya mendorong kasus khusus 'kisi statistik Munchausen' ( Martin, 1984 ). Beberapa jurnal (dan tren semakin populer) akan menolak artikel apa pun yang menggunakan regresi bertahap untuk mengidentifikasi model akhir ( Babyak, 2004 ), dan saya pikir masalahnya terlihat dengan cara yang sama di sini.

Dasar pemikiran untuk inklusi dan eksklusi kovariat dalam model dibahas dalam: Kausalitas Judea Pearl ( Pearl, 2002 ). Ini mungkin salah satu teks terbaik di sekitar untuk memahami prinsip-prinsip inferensi statistik, regresi, dan penyesuaian multivariat. Praktis apa pun yang dilakukan oleh Sanders dan Greenland menerangkan, khususnya diskusi mereka tentang perancu yang dengan menyesal dihilangkan dari daftar rekomendasi ini ( Greenland dkk. 1999). Kovariat khusus dapat diberi label berdasarkan hubungan grafis dengan model kausal. Penunjukan seperti variabel prognostik, perancu, atau presisi menuntut inklusi sebagai kovariat dalam model statistik. Mediator, colliders, atau variabel di luar jalur sebab akibat harus dihilangkan. Definisi istilah-istilah ini dibuat ketat dengan banyak contoh di Kausalitas.

Dengan latar belakang kecil ini saya akan membahas poin satu per satu.

Ini umumnya merupakan pendekatan yang masuk akal dengan satu peringatan utama: variabel-variabel ini TIDAK boleh menjadi mediator dari hasilnya. Jika, misalnya, Anda memeriksa hubungan antara merokok dan kebugaran fisik, dan Anda menyesuaikan fungsi paru-paru, yang melemahkan efek merokok karena dampak langsung pada kebugaran adalah mengurangi fungsi paru-paru. Ini seharusnya TIDAKmenjadi bingung dengan perancu di mana variabel ketiga adalah penyebab prediktor minat dan hasil bunga. Pembaur harus dimasukkan dalam model. Selain itu, penyesuaian yang berlebihan dapat menyebabkan berbagai bentuk bias dalam analisis. Mediator dan perancu dianggap BUKAN karena apa yang ditemukan dalam analisis, tetapi karena apa yang DIPERCAYA oleh ANDA sebagai subjek-pakar-masalah (UKM). Jika Anda memiliki 20 pengamatan per variabel atau lebih sedikit, atau 20 pengamatan per peristiwa dalam analisis waktu-ke-peristiwa atau logistik, Anda harus mempertimbangkan metode kondisional.
Ini adalah pendekatan penghematan daya yang sangat baik yang tidak begitu rumit seperti penyesuaian skor kecenderungan atau SEM atau analisis faktor. Saya pasti akan merekomendasikan melakukan ini bila memungkinkan.
Saya tidak setuju dengan sepenuh hati. Titik penyesuaian untuk variabel lain dalam analisis adalah untuk membuat strata yang memungkinkan perbandingan. Hubungan perancu yang salah menentukan umumnya tidak mengarah pada analisis yang terlalu murah, sehingga sisa perancu dari istilah interaksi yang dihilangkan, menurut pengalaman saya, bukan masalah besar. Anda mungkin, bagaimanapun, mempertimbangkan istilah interaksi antara prediktor minat dan variabel lain sebagai analisis post-hoc. Ini adalah prosedur yang menghasilkan hipotesis yang dimaksudkan untuk memperbaiki setiap kemungkinan temuan (atau ketiadaannya) sebagai a. berpotensi menjadi bagian dari subkelompok atau b. melibatkan interaksi mekanistik antara dua faktor lingkungan dan / atau genetik.
Saya juga tidak setuju dengan ini sepenuh hati. Itu tidak bertepatan dengan pendekatan berbasis analisis konfirmasi untuk regresi. Anda adalah UKM. Analisis harus diinformasikan oleh PERTANYAAN dan bukan DATA. Nyatakan dengan yakin apa yang Anda yakini sedang terjadi, berdasarkan pada penggambaran model hubungan sebab akibat (menggunakan DAG dan prinsip-prinsip terkait dari Pearl et. Al), lalu pilih prediktor untuk model minat, kecocokan, dan bahas Anda. Hanya sebagai analisis sekunder Anda harus mempertimbangkan pendekatan ini, bahkan sama sekali.

Peran pembelajaran mesin dalam semua ini sangat bisa diperdebatkan. Secara umum, pembelajaran mesin difokuskan pada prediksi dan bukan inferensi yang merupakan pendekatan yang berbeda untuk analisis data. Anda benar bahwa interpretasi efek dari regresi yang dihukum tidak mudah diinterpretasikan untuk komunitas non-statistik, tidak seperti perkiraan dari OLS, di mana 95% CI dan estimasi koefisien memberikan ukuran hubungan.

Interpretasi koefisien dari model OLS Y ~ X sangat mudah: itu adalah kemiringan, perbedaan yang diharapkan dalam kelompok pembanding Y yang berbeda dengan 1 unit di X. Dalam model yang disesuaikan multivariat Y ~ X1 + X2 kami memodifikasi ini sebagai persyaratan. slope: ini adalah perbedaan yang diharapkan pada kelompok pembanding Y yang berbeda dengan 1 unit di X1 yang memiliki nilai X2 yang sama. Secara geometri, dengan menyesuaikan X2 mengarah ke strata atau "penampang" yang berbeda dari tiga ruang tempat kami membandingkan X1 dengan Y, maka kami meratakan temuan atas masing-masing strata tersebut. Dalam R, coplotfungsi ini sangat berguna untuk memvisualisasikan hubungan tersebut.

— AdamO
sumber

Sangat menghargai komentar terperinci Anda - Saya belum pernah ada yang menjawab pertanyaan saya secara mendetail sebelumnya. Saya akan melalui tautan Anda sekarang!

— sharper_image

(+1) Pada poin # 1: G&H mengatakan ini adalah "prinsip umum untuk membangun model regresi untuk prediksi " [huruf miring saya] sehingga peringatan Anda tidak perlu diterapkan. (Mungkin para perokok langka dengan fungsi paru-paru yang baik memang cenderung sangat cocok.) Ketika mereka mulai berdiskusi dengan model sebab-akibat, mereka membuat poin yang sama (Bab 9.7).

— Scortchi

(+1) Respons luar biasa, AdamO! Menghargai bahwa Anda telah melakukan banyak pekerjaan, saya ingin tahu apakah Anda akan memberi tahu lebih banyak lagi tentang status adopsi kebijakan jurnal yang Anda sebutkan saat ini. Saya masih marah karena melihat kata 'stepwise' di jurnal JAMA setidaknya. Bisakah Anda mengutip editorial tentang kebijakan ini?

— David C. Norris

@ DavidC.Norris "Pengukuran Pendidikan dan Psikologis" adalah jurnal yang dipertanyakan dan sayangnya, artikel Babyak hanya membahas regresi bertahap bertahap otomatis . Saya telah melihat dalam beberapa artikel penulis yang membahas pendekatan "langsung" mereka untuk memasukkan dan memperbaiki model sebagai "bertahap" (walaupun tidak otomatis). Saya berpendapat mereka telah dengan benar menggambarkan prosedur yang mereka gunakan, tetapi saya masih memiliki perdebatan serius dengan pendekatan ini.

— AdamO

1/2 +1 Jawaban yang indah. Niggle: "Pembaur harus dimasukkan dalam model." Bergantung pada hubungan kausal spesifik yang terlibat dalam melakukan hal itu dapat membuat bias asosiasi menjauh dari perkiraan sebab akibat. Misalnya, dalam DAG yang dijelaskan oleh , , , , dan , adalah perancu , baik dalam arti kriteria pintu belakang, dan dalam klasik (i) yang terkait dengan & , (ii) penyebab atau , dan (iii) sebelum &

L \to A

$L \rightarrow A$

U_{1} \to L

$U_{1} \rightarrow L$

U_{1} \to A

$U_{1} \rightarrow A$

U_{2} \to Y

$U_{2} \rightarrow Y$

U_{2} \to L

$U_{2} \rightarrow L$

L

$L$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

A

$A$

Y

$Y$ merasakan. Namun, bias (dari ).

E [Y | A, L]

$E[Y|A,L]$

A - U_{1} - L - U_{2} - Y

$A-U_{1}-L-U_{2}-Y$

— Alexis

Pertanyaan yang luar biasa ini dan jawaban komprehensif @ AdamO adalah contoh utama tentang bagaimana CV secara teratur memperbarui keyakinan saya pada kemanusiaan. Saya akan bertujuan di sini terutama untuk menawarkan beberapa cara untuk menghargai jawaban itu (dan pertanyaan OP) dalam konteks yang lebih luas.

Pertama, saya berani menyatakan bahwa semua saran yang dapat dipercaya mengenai praktik statistik pada dasarnya bersifat peringatan - pro skriptik daripada pra skriptik. Gelman & Hill point # 3, misalnya, ketika dibaca secara dangkal sebagai saran untuk secara aktif melakukan sesuatu ("pertimbangkan"), benar-benar lebih baik dipahami sebagai peringatan agar tidak mempertimbangkan interaksi dengan efek yang kuat. Dipahami secara intuitif sebagai daya tarik untuk intuisi yang terhubung dengan memilih istilah yang paling penting dalam ekspansi seri Taylor (multivarian) , tampaknya tidak dapat diprediksi oleh saya.

Kedua, sementara OP sibuk mendapatkan pendidikan yang lebih baik daripada kebanyakan biostatistik PhD (dengan mengikuti kutipan AdamO), OP mungkin juga mengambil David A. Friedman Model Statistik dan Inferensial Kausal [1], di mana tantangan yang sehat akan ditemukan dengan anggapan bahwa regresi harus menjadi alat utama kami dalam penelitian klinis. Saya merekomendasikan terutama Bab 3, "Model Statistik dan Kulit Sepatu," yang juga tersedia dalam bentuk yang diterbitkan sebelumnya [2] di sini . (Jangan biarkan nama jurnal mematikan Anda; pelajaran utama yang diambil adalah dari investigasi John Snow pada kolera. Lihat juga jawaban ini , di mana pelajaran ini dituangkan dalam beberapa detail.)

Akhirnya - dan mungkin ini benar-benar akibat wajar bagi Freedman - harus disebutkan bahwa contoh 'kesimpulan' yang ditawarkan oleh OP akan benar-benar termasuk dalam bagian Hasil dari makalah ini. Akan lebih sehat untuk mempertimbangkan sedini mungkin bagaimana bagian Kesimpulan dan Diskusi asli dari makalah ini akan diucapkan, sehingga dapat diakses oleh dokter, media, dan bahkan untuk meningkatnya jumlah pasien dan pendukung awam mereka yang heroik. kerja keras untuk membaca literatur medis. Mempertahankan fokus pada titik akhir itu akan berguna membentuk pekerjaan teknis dari analisis statistik, dan menjaganya tetap pada kenyataan dunia yang ingin digambarkan, dan kebutuhan yang ingin dilayani.

Freedman, David, David Collier, Jasjeet Singh Sekhon, dan Philip B. Stark. Model Statistik dan Inferensial Kausal: Dialog dengan Ilmu Sosial. Cambridge; New York: Cambridge University Press, 2010.
Freedman, David A. "Model Statistik dan Kulit Sepatu." Metodologi Sosiologis 21 (1991): 291–313. doi: 10.2307 / 270939.

— David C. Norris
sumber