Dapatkah validasi silang digunakan untuk inferensi kausal?

37

Dalam semua konteks, saya akrab dengan validasi silang. Ini hanya digunakan dengan tujuan meningkatkan akurasi prediksi. Bisakah logika validasi silang diperluas dalam memperkirakan hubungan yang tidak memihak antar variabel?

Sementara makalah ini oleh Richard Berk menunjukkan penggunaan sampel tahan untuk pemilihan parameter dalam model regresi "final" (dan menunjukkan mengapa pemilihan parameter langkah-bijaksana bukan ide yang baik), saya masih tidak melihat bagaimana hal itu memastikan perkiraan yang tidak bias dari efek X terhadap Y lebih dari memilih model berdasarkan logika dan pengetahuan sebelumnya dari subjek.

Saya meminta orang-orang mengutip contoh-contoh di mana orang menggunakan sampel penahan untuk membantu dalam inferensial kausal, atau esai umum yang dapat membantu pemahaman saya. Saya juga tidak meragukan konsepsi validasi silang saya naif, jadi jika dikatakan demikian. Tampaknya begitu saja penggunaan sampel bertahan akan menerima kesimpulan kausal, tapi saya tidak tahu ada pekerjaan yang melakukan ini atau bagaimana mereka akan melakukan ini.

Kutipan untuk Kertas Berk:

Inferensi Statistik Setelah Pemilihan Model oleh: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, No. 2. (1 Juni 2010), hlm. 217-236.

Versi PDF di sini

Pertanyaan ini pada analisis data eksplorasi dalam studi sampel kecil oleh chl mendorong pertanyaan ini.

cross-validation causality

— Andy W
sumber

19

Saya pikir ini berguna untuk meninjau kembali apa yang kita ketahui tentang validasi silang. Hasil statistik sekitar CV jatuh ke dalam dua kelas: efisiensi dan konsistensi.

Efisiensi adalah apa yang biasanya kita perhatikan ketika membangun model prediksi. Idenya adalah bahwa kita menggunakan CV untuk menentukan model dengan jaminan asimptotik mengenai fungsi kerugian. Hasil yang paling terkenal di sini adalah karena Stone 1977 dan menunjukkan bahwa CV LOO secara asimtotik setara dengan AIC. Tetapi, Brett memberikan contoh yang baik di mana Anda dapat menemukan model prediksi yang tidak memberi tahu Anda tentang mekanisme penyebabnya.

Konsistensi adalah yang menjadi perhatian kami jika tujuan kami adalah menemukan model "benar". Idenya adalah bahwa kita menggunakan CV untuk menentukan model dengan jaminan asimptotik bahwa, mengingat ruang model kita termasuk model yang sebenarnya, kita akan menemukannya dengan sampel yang cukup besar. Hasil yang paling terkenal di sini adalah karena Shao 1993 tentang model linier, tetapi ketika ia menyatakan secara abstrak, "penemuan mengejutkannya" bertentangan dengan hasil LOO. Untuk model linier, Anda dapat mencapai konsistensi menggunakan LKO CV selama sebagai . Di luar ukuran linier, lebih sulit untuk mendapatkan hasil statistik. $k/n \rightarrow 1$ $n \rightarrow \infty$

Tetapi misalkan Anda dapat memenuhi kriteria konsistensi dan prosedur CV Anda mengarah ke model yang benar: . Apa yang telah kita pelajari tentang mekanisme kausal? Kita hanya tahu bahwa ada korelasi yang jelas antara dan , yang tidak banyak bicara tentang klaim kausal. Dari perspektif tradisional, Anda perlu memasukkan desain eksperimental dengan mekanisme kontrol / manipulasi untuk membuat klaim kausal. Dari perspektif kerangka Judea Pearl, Anda dapat memanggang asumsi kausal ke dalam model struktural dan menggunakan kalkulus kontrafaktual berbasis probabilitas untuk mendapatkan beberapa klaim, tetapi Anda harus memenuhi sifat-sifat tertentu . $Y = \beta X + e$ $Y$ $X$

Mungkin Anda bisa mengatakan bahwa CV dapat membantu dengan inferensial kausal dengan mengidentifikasi model yang sebenarnya (asalkan Anda dapat memenuhi kriteria konsistensi!). Tapi itu hanya membuat Anda sejauh ini; CV dengan sendirinya tidak melakukan pekerjaan apa pun dalam kerangka inferensi kausal.

Jika Anda tertarik lebih jauh pada apa yang bisa kami katakan dengan validasi silang, saya akan merekomendasikan Shao 1997 atas kertas 1993 yang dikutip secara luas:

Teori Asimtotik untuk Pemilihan Model Linier (Shao, 1997)

Anda dapat membaca hasil utama, tetapi menarik untuk membaca diskusi yang mengikuti. Saya pikir komentar oleh Rao & Tibshirani, dan oleh Stone, sangat mendalam. Tetapi perhatikan bahwa sementara mereka membahas konsistensi, tidak ada klaim yang pernah dibuat mengenai hubungan sebab akibat.

— ars
sumber

Terima kasih untuk semua referensi, terutama tanggapan Judea Pearl (saya perlu membeli buku berdasarkan semua info yang bagus dalam esai tanggapan singkat itu.)

— Andy W

1

Komentar untuk downvote selalu diterima!

— chl

18

Ini adalah pertanyaan yang sangat menarik dan saya tidak menawarkan kutipan khusus. Namun, secara umum, saya akan mengatakan, TIDAK, dengan sendirinya, validasi silang tidak menawarkan wawasan apa pun tentang kausalitas. Dengan tidak adanya percobaan yang dirancang, masalah kausalitas selalu tidak pasti. Seperti yang Anda sarankan, validasi silang dapat dan akan meningkatkan akurasi prediksi. Ini, sendirian, tidak mengatakan apa pun tentang kausalitas.

Tidak adanya percobaan yang dirancang, inferensi kausal akan membutuhkan model yang mencakup semua prediktor yang relevan - sesuatu yang jarang bisa kita jamin dalam penelitian observasional. Selain itu, variabel lag sederhana, misalnya (atau apa pun yang sangat berkorelasi dengan hasil apa pun yang kami coba prediksi) akan menghasilkan model yang baik dan yang dapat divalidasi dalam beberapa sampel. Namun, itu tidak berarti bahwa kita dapat menyimpulkan sebab akibat. Validasi silang memastikan pengulangan dalam prediksi dan tidak lebih. Kausalitas adalah masalah desain dan logika.

EDIT: Ini contoh untuk diilustrasikan. Saya bisa membangun model dengan akurasi prediksi yang baik yang memprediksi populasi kota berdasarkan jumlah uang yang dihabiskan kota untuk menghilangkan sampah. Saya bisa menggunakan validasi silang untuk menguji keakuratan model itu serta metode lain untuk meningkatkan akurasi prediksi dan mendapatkan parameter yang lebih stabil. Sekarang, sementara model ini bekerja dengan baik untuk prediksi, logika sebab akibat salah - arah sebab akibat dibalik. Tidak peduli apa pendapat orang-orang di Departemen Pekerjaan Umum, meningkatkan anggaran mereka untuk membuang sampah tidak akan menjadi strategi yang baik untuk meningkatkan populasi kota (interpretasi kausal).

Masalah akurasi dan pengulangan model terpisah dari kemampuan kita untuk membuat kesimpulan kausal tentang hubungan yang kita amati. Validasi silang membantu kita dengan yang pertama dan bukan yang kedua. Sekarang, JIKA kita memperkirakan model "yang benar" dalam hal menentukan hubungan biasa (misalnya, mencoba menentukan apa yang harus berdasarkan anggaran pengeluaran sampah kita pada populasi yang diharapkan tahun depan), validasi silang dapat membantu kita untuk memiliki yang lebih besar kepercayaan pada estimasi kami atas efek tersebut. Namun, validasi silang tidak membantu kita memilih model "yang benar" sehubungan dengan hubungan kausal. Sekali lagi, di sini kita perlu mengandalkan desain penelitian, keahlian materi pelajaran kita, teori, dan logika.

— Brett
sumber

1

Jadi Anda tidak berpikir pengulangan estimasi efek dapat berguna? Meskipun Anda tidak sendirian dalam konsepsi tentang apa bukti kausalitas itu, saya pikir itu cukup sempit. Kita tidak akan pernah bisa membuktikan hubungan sebab akibat tanpa batas, bahkan dengan percobaan, tidak ada semua bukti di alam semesta. Oleh karena itu, menurut pendapat saya, tujuannya adalah untuk memberikan bukti bahwa hubungan apa pun yang kita perkirakan sedekat mungkin dengan kebenaran mengingat informasi yang kita ketahui. Mengingat Anda tidak berpikir pengulangan dalam prediksi dari pelatihan yang ditetapkan untuk sampel bertahan bisa menjadi pemeriksaan yang berguna pada kesimpulan yang dibuat?

— Andy W

Saya menghargai komentar Anda juga, dan saya sepenuhnya setuju bahwa kesimpulan sangat bergantung pada logika dan desain penelitian.

— Andy W

1

Andy, saya telah mengedit posting saya untuk menanggapi komentar Anda. Juga, saya tidak bermaksud menyarankan bahwa inferensial kausal tidak dapat dilakukan di luar konteks percobaan yang dirancang. Meskipun demikian, itu lebih sulit dan kurang pasti dalam studi observasional dan kita seharusnya tidak mencari model prosedur pembangunan untuk membantu kita dengan masalah itu. Sebaliknya, kita harus mencoba untuk lebih memahami masalah yang kita coba untuk memahami hubungan sebab akibat.

— Brett

Saya setuju dengan hampir semua yang Anda katakan, kecuali bahwa masalah akurasi dan pengulangan sangat penting untuk membuat kesimpulan yang benar dalam menghadapi keraguan. Saya dapat memberi para ahli manfaat dari keraguan bahwa mereka sedang membangun model yang logis. Yang saya perhatikan adalah pengulangan temuan dalam banyak konteks pengamatan. Meskipun saya setuju pengulangan tidak selalu menjelaskan pengaruh yang paling baik ditangani dalam pengaturan eksperimental.

— Andy W

(+1) Permintaan maaf saya. Sepertinya saya juga lupa untuk memperbaiki jawaban Anda yang sangat bagus. Sudah memilih komentar Anda yang bermanfaat.

— chl

13

Tampaknya bagi saya bahwa pertanyaan Anda lebih umum membahas rasa validasi yang berbeda untuk model prediksi: Validasi silang agak lebih berkaitan dengan validitas internal , atau setidaknya tahap pemodelan awal, sedangkan menggambar hubungan sebab akibat pada populasi yang lebih luas lebih terkait. ke validitas eksternal. Dengan itu (dan sebagai pembaruan mengikuti komentar bagus @ Brett), maksud saya bahwa kami biasanya membangun model pada sampel yang berfungsi, dengan asumsi model konseptual hipotetis (yaitu kami menentukan hubungan antara prediktor dan hasil yang diinginkan), dan kami mencoba untuk mendapatkan taksiran yang andal dengan tingkat kesalahan klasifikasi minimal atau kesalahan prediksi minimal. Semoga, semakin baik kinerja model, semakin baik memungkinkan kita untuk memprediksi hasil pada data yang tidak terlihat; tetap saja, CV tidak mengatakan apa-apa tentang "validitas" atau kecukupan hubungan sebab akibat yang dihipotesiskan. Kami tentu saja dapat mencapai hasil yang layak dengan model di mana beberapa efek moderasi dan / atau mediasi diabaikan atau tidak diketahui sebelumnya.

Maksud saya adalah bahwa apa pun metode yang Anda gunakan untuk memvalidasi model Anda (dan metode bertahan tentu bukan yang terbaik, tetapi masih banyak digunakan dalam studi epidemiologi untuk mengatasi masalah yang timbul dari pembuatan model bertahap), Anda bekerja dengan sampel yang sama (yang kami anggap mewakili populasi yang lebih besar). Sebaliknya, menggeneralisasi hasil dan hubungan sebab-akibat yang disimpulkan dengan cara ini ke sampel baru atau populasi terkait yang masuk akal biasanya dilakukan dengan studi replikasi . Ini memastikan bahwa kami dapat dengan aman menguji kemampuan prediktif model kami dalam "superpopulasi" yang menampilkan variasi variasi individu yang lebih besar dan dapat menunjukkan faktor-faktor potensial lain yang menarik.

Model Anda mungkin memberikan prediksi yang valid untuk sampel kerja Anda, dan itu mencakup semua perancu potensial yang mungkin Anda pikirkan; Namun, ada kemungkinan bahwa itu tidak akan berkinerja baik dengan data baru, hanya karena faktor-faktor lain muncul dalam jalur sebab akibat yang tidak diidentifikasi ketika membangun model awal. Ini dapat terjadi jika beberapa prediktor dan hubungan sebab akibat yang disimpulkan darinya tergantung pada pusat percobaan tertentu di mana pasien direkrut, misalnya.

Dalam epidemiologi genetik, banyak studi asosiasi genome gagal untuk mereplikasi hanya karena kami mencoba untuk memodelkan penyakit kompleks dengan pandangan yang disederhanakan pada hubungan sebab akibat antara penanda DNA dan fenotipe yang diamati, sementara itu sangat mungkin bahwa gen-gen (epistasis), gen-penyakit (pleiotropi), gen-lingkungan, dan substruktur populasi semua ikut berperan, tetapi lihat misalnya memvalidasi, menambah dan memperbaiki sinyal asosiasi genome-wide(Ioannidis et al., Nature Reviews Genetics, 2009 10). Jadi, kita dapat membangun model pemain untuk menjelaskan variasi silang yang diamati antara satu set penanda genetik (dengan ukuran efek yang sangat rendah dan jarang) dan pola multivariat dari fenotipe yang diamati (misalnya, volume materi putih / abu-abu atau aktivitas terlokalisasi di otak seperti yang diamati melalui fMRI, respons terhadap penilaian neuropsikologis, atau inventaris kepribadian), tetap saja tidak akan berfungsi seperti yang diharapkan pada sampel independen.

Adapun referensi umum tentang topik ini, dapat merekomendasikan bab 17 dan Bagian III dari Model Prediksi Klinis , dari EW Steyerberg (Springer, 2009). Saya juga suka artikel berikut dari Ioannidis:

Ioannidis, JPA, Mengapa Sebagian Besar Temuan Penelitian yang Diterbitkan Salah? PLoS Med. 2005 2 (8): e124

— chl
sumber

1

@ chl: Bisakah Anda menjelaskan pernyataan Anda dalam paragraf pertama tentang validitas internal v. eksternal? Dalam tradisi yang saya kenal: validitas internal mengacu pada kemampuan untuk menegaskan hubungan sebab dan akibat di antara variabel-variabel dalam sampel tertentu; validitas eksternal adalah tentang kemampuan untuk menggeneralisasi dari sampel ke orang lain, tempat, dan waktu. Secara tradisional, validasi silang adalah tentang yang terakhir dan dengan demikian oleh definisi di atas tentang validitas eksternal, sedangkan Anda menyatakan bahwa itu adalah tentang validitas internal. Apakah saya salah memahami pernyataan Anda?

— Brett

1

@ Brett Saya sedang memikirkan CV sebagai teknik statistik untuk menghindari overfitting atau untuk memberikan ukuran akurasi prediksi pada sampel kerja (karenanya tidak perlu sebagai alat khusus untuk menunjukkan validitas internal). Saya tidak begitu jelas, terima kasih atau menunjukkan itu. Saya setuju bahwa ini kemudian digunakan untuk menggeneralisasi atas sampel yang ada, tetapi di sana saya pikir itu tidak ada hubungannya dengan inferensial kausal (CV tidak membuktikan apa pun tentang tautan sebab akibat sebagaimana dimodelkan pada sampel yang bekerja). Saya membagikan pandangan Anda tentang validitas eksternal, tetapi untuk menunjukkannya, kami memerlukan sampel lain, bukan?

— chl

1

Anda bisa mengklarifikasi paragraf pertama itu. Saya pikir Anda mencoba mengatakan bahwa CV tidak melakukan validitas internal. Itu masalah untuk proses lain. Tetapi, jika kita memiliki validitas internal yang baik untuk alasan lain, apa pun itu, CV akan membantu memperkirakan efek yang lebih akurat di seluruh orang, tempat, dan waktu - yaitu meningkatkan validitas eksternal. Saya masih tidak dapat memikirkan cara apa pun bahwa CV akan membantu kami untuk membuat klaim kausal tentang hubungan antara variabel - pertanyaan validitas internal itu sendiri - hanya untuk membantu menggeneralisasi hubungan kausal yang sudah mapan.

— Brett

1

@ Brett Saya pikir komentar Anda untuk pertanyaan ini sangat relevan dan merangkum beberapa masalah dengan sangat baik. Saya ragu itu akan membantu salah satu kebingungan antara validitas internal dan eksternal pada saat ini, tetapi contoh epidemiologi genetik chl sebenarnya masalah validitas internal bukan validitas eksternal (kecuali untuk antara heterogenitas dataset (atau substruktur populasi), tetapi IMO adalah dari kurang perhatian daripada validitas internal dalam contoh-contoh ini).

— Andy W

2

Definisi Brett antara validitas internal dan eksternal adalah akurat, tetapi untuk tujuan kami, akan membantu untuk mendefinisikannya dalam istilah yang berbeda. Validitas eksternal hanya berkaitan dengan sampel dan bagaimana sampel itu berhubungan dengan populasi lain. Validitas internal berkaitan dengan berbagai aspek tentang perkiraan efek dan konstruk yang digunakan untuk memperkirakan efek tersebut.

— Andy W

12

Ini adalah pertanyaan yang bagus, tetapi jawabannya pasti tidak: validasi silang tidak akan meningkatkan inferensial kausal. Jika Anda memiliki pemetaan antara gejala dan penyakit, validasi silang akan membantu memastikan bahwa model Anda cocok dengan distribusi bersama mereka lebih baik daripada jika Anda hanya memasukkan model Anda ke seluruh kumpulan data mentah, tetapi tidak dapat memberi tahu Anda apa pun tentang arah hubungan sebab akibat.

Validasi silang sangat penting dan layak dipelajari, tetapi itu tidak lebih dari mencegah Anda dari kebisingan berlebihan pada kumpulan data Anda. Jika Anda ingin lebih memahaminya, saya sarankan Bab 7 ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

— John Myles White
sumber

Terima kasih untuk referensi Jadi katakanlah Anda tidak khawatir tentang pemilihan model, dapat memvalidasi silang perkiraan efek dari data pelatihan yang ditetapkan ke dataset tahan berguna?

— Andy W

Bisa jadi, tapi saya akan mengatakan bahwa Anda pada dasarnya melakukan bootstrap (atau beberapa variasi darinya) pada saat itu.

— John Myles White

Saya setuju, saya dan berpikir ada hal-hal lain yang dilakukan secara teratur yang mencerminkan jenis logika yang sama (seperti tes subset spesifisitas atau variabel dependen yang tidak setara). Saya hanya mengajukan pertanyaan karena saya membayangkan perawatan yang lebih formal ada.

— Andy W

Komentar untuk downvote selalu diterima!

— chl

Buku ini adalah hadiah yang terus memberi!

— hayd

6

Untuk menanggapi tindak lanjut, @Andy memposting sebagai jawaban di sini ...

Walaupun saya tidak bisa mengatakan estimasi mana yang benar dan mana yang salah, bukankah inkonsistensi dalam Assault Conviction dan the Gun conviction estimation antara kedua model meragukan bahwa keduanya memiliki efek kausal yang benar pada panjang kalimat?

Saya pikir apa yang Anda maksud adalah perbedaan dalam estimasi parameter memberi kami alasan untuk percaya bahwa estimasi parameter tidak mewakili efek kausal yang sebenarnya. Saya setuju dengan itu, meskipun kami sudah punya banyak alasan untuk skeptis bahwa model seperti itu akan memberikan efek kausal yang sebenarnya.

Inilah pendapat saya: Data yang terlalu pas adalah sumber estimasi parameter yang bias, dan tanpa alasan untuk percaya bahwa bias ini mengimbangi sumber bias lain dalam memperkirakan efek kausal tertentu, maka harus lebih baik, rata-rata, untuk memperkirakan efek kausal. tanpa terlalu pas data. Validasi silang mencegah pemasangan berlebihan, sehingga harus, secara rata-rata, meningkatkan perkiraan efek kausal.

Tetapi jika seseorang mencoba meyakinkan saya untuk mempercayai perkiraan mereka tentang efek sebab akibat dari data pengamatan, membuktikan bahwa mereka tidak terlalu cocok dengan data mereka adalah prioritas rendah kecuali jika saya memiliki alasan kuat untuk mencurigai strategi pemodelan mereka cenderung memiliki terlalu bugar.

Dalam aplikasi ilmu sosial tempat saya bekerja, saya jauh lebih peduli dengan masalah substantif, masalah pengukuran, dan pemeriksaan sensitivitas. Dengan pemeriksaan sensitivitas yang saya maksud memperkirakan variasi pada model di mana istilah ditambahkan atau dihapus, dan memperkirakan model dengan interaksi yang memungkinkan efek yang menarik bervariasi di seluruh sub-kelompok. Seberapa besar perubahan pada model statistik ini memengaruhi estimasi parameter yang ingin kita interpretasikan secara kausal? Apakah perbedaan dalam estimasi parameter ini di seluruh spesifikasi model atau sub-kelompok dapat dipahami dalam hal cerita kausal yang Anda coba ceritakan, atau apakah mereka mengisyaratkan efek yang didorong oleh, misalnya seleksi.

Bahkan, sebelum Anda menjalankan spesifikasi alternatif ini. Tuliskan bagaimana menurut Anda perkiraan parameter Anda akan berubah. Sangat bagus jika estimasi parameter minat Anda tidak banyak berbeda di seluruh sub-kelompok, atau spesifikasi - dalam konteks pekerjaan saya, itu lebih penting daripada validasi silang. Tetapi masalah substantif lain yang mempengaruhi interpretasi saya masih lebih penting.

— Michael Bishop
sumber

Terima kasih banyak untuk menimbang! Perspektif Anda tentu saja menempatkan motivasi yang sangat langsung untuk validasi silang dalam model sebab-akibat yang belum pernah saya formulasikan secara meyakinkan. IMO Anda bahkan menjual diri Anda sedikit pendek dengan menggunakan label over-fitting. Misalnya, dalam set eksplorasi awal saya dapat melihat kecocokan model antara persamaan menggunakan variabel independen pada skala awal versus skala log. Saya memutuskan model dengan skala log lebih cocok, dan kemudian menggunakannya dalam model tahan. Ini biasanya tidak dianggap terlalu pas (memilih antara satu atau yang lain), kont ...

— Andy W

tetapi masih sesuai dengan paradigma yang Anda sarankan di sini inilah paragraf take saya.

— Andy W

5

Saya berterima kasih kepada semua orang atas jawaban mereka, tetapi pertanyaan itu telah berkembang menjadi sesuatu yang tidak saya inginkan, menjadi terutama esai tentang gagasan umum inferensial kausal tanpa jawaban yang benar.

Awalnya saya bermaksud pertanyaan untuk menyelidiki audiens untuk contoh penggunaan validasi silang untuk inferensial kausal. Saya mengasumsikan metode seperti itu ada, karena gagasan menggunakan sampel uji dan menahan sampel untuk menilai pengulangan estimasi efek tampaknya logis bagi saya. Seperti dicatat John, apa yang saya sarankan tidak berbeda dengan bootstrap, dan saya akan mengatakan itu menyerupai metode lain yang kami gunakan untuk memvalidasi hasil seperti tes subset spesifisitas atau variabel dependen yang tidak setara (bootstrap mengendurkan asumsi parametrik dari model, dan subset tes secara lebih umum digunakan sebagai pemeriksaan bahwa hasilnya logis dalam berbagai situasi). Tidak ada satu pun dari metode ini yang memenuhi salah satu dari jawaban lain standar pembuktian untuk inferensial kausal, tetapi saya percaya metode ini masih berguna untuk inferensial kausal.

Komentar chl benar karena pernyataan saya untuk menggunakan validasi silang adalah pemeriksaan validitas internal untuk membantu dalam inferensial kausal. Tetapi saya meminta kita membuang perbedaan antara validitas internal dan eksternal untuk saat ini, karena tidak melakukan apa pun untuk melanjutkan perdebatan. Contoh chl tentang studi genom luas dalam epidemiologi saya akan mempertimbangkan contoh utama validitas internal yang buruk, membuat kesimpulan yang kuat secara inheren meragukan. Saya pikir studi asosiasi genom sebenarnya adalah contoh dari apa yang saya minta. Apakah Anda pikir kesimpulan antara gen dan penyakit ditingkatkan melalui penggunaan validasi silang (bukan hanya melemparkan semua penanda ke dalam satu model dan menyesuaikan nilai-p yang sesuai?)

Di bawah ini saya telah menempelkan salinan tabel di artikel Berk yang saya kutip dalam pertanyaan saya. Sementara tabel-tabel ini diperlihatkan untuk menunjukkan logika salah menggunakan kriteria seleksi step-wise dan inferensial kausal pada model yang sama, mari kita berpura-pura tidak ada kriteria pemilihan model yang digunakan, dan parameter dalam pelatihan dan tahan sampel ditentukan A priori. Ini tidak mengejutkan saya sebagai hasil yang tidak realistis. Walaupun saya tidak bisa mengatakan estimasi mana yang benar dan mana yang salah, bukankah inkonsistensi dalam Assault Conviction dan the Gun conviction estimation antara kedua model meragukan bahwa keduanya memiliki efek kausal yang benar pada panjang kalimat? Apakah mengetahui variasi itu tidak berguna? Jika kita tidak kehilangan apa-apa dengan meminta sampel tahan untuk menguji model kita, mengapa kita tidak dapat menggunakan validasi silang untuk meningkatkan inferensial kausal (atau saya kehilangan apa yang hilang dengan menggunakan sampel tahan?) teks alternatif

— Andy W
sumber

1

Catatan mengapa ini diturunkan akan dihargai.

— Andy W

2

Saya akan kedua @Andy dan menyarankan meninggalkan komentar ketika downvoting: itu selalu membantu untuk mengetahui apa yang salah, jika ada. Terutama dalam kasus ini: Andy W kembali dengan komentar panjang CW yang, menurut pendapat saya, menambah dukungan lebih lanjut untuk pertanyaan awal. Tidak perlu menurunkan suara apa pun di sini!

— chl

1

Bukankah interval kesalahan / kepercayaan standar sudah memberi Anda indikasi variabilitas ini? perkiraan set tes Anda terkandung dalam interval kepercayaan standar Anda dari set pelatihan Anda. Saya akan berpikir kesalahan standar kecil dan CI sempit penting untuk hubungan sebab akibat.

— probabilityislogic

Ya @probabilityislogic Anda benar. Saya percaya ketika saya mengatakan hal ini bukan untuk situasi di mana Anda menerapkan CV ke dataset yang sudah tersedia, tetapi ke dataset yang dikumpulkan pada waktu lain. Saya pikir CV mungkin berguna di sini untuk mendukung pernyataan kausal, tetapi masih belum jelas bagi saya apakah itu masalahnya. Saya hanya melihatnya bermanfaat dalam hal pemilihan model, tidak memvalidasi model dengan cara apa pun (misalnya model saya pada data baru ini menghasilkan kesesuaian yang sangat dekat).

— Andy W

2

@ AriB.Friedman, mengingatkan saya pada tanda-tanda filosofis Ed Tufte , Korelasi bukanlah sebab-akibat, tetapi pasti membantu .

— Andy W

1

Saya kira ini adalah cara intuitif untuk berpikir tentang hubungan antara CV dan inferensi kausal: (harap perbaiki jika saya salah)

Saya selalu berpikir tentang CV sebagai cara untuk mengevaluasi kinerja model dalam prediksi. Namun, dalam kesimpulan kausal kami lebih peduli dengan sesuatu yang setara dengan Occam's Razor (kekikiran), maka CV tidak akan membantu.

Terima kasih.

— suncoolsu
sumber

Alasan saya mengajukan pertanyaan adalah karena kita tidak perlu memikirkan validasi silang sebagai cara semata-mata untuk mengevaluasi kemampuan prediksi model. Tidak jarang khawatir bahwa hasil model (dan karenanya kesimpulan dibuat) adalah artefak karena banyak alasan potensial. Oleh karena itu kami ingin menguji kekuatan dari temuan, dan saya pikir validasi silang bisa menjadi konteks yang berguna untuk memeriksa ketahanan hasil.

— Andy W

maaf untuk salah tafsir.

— suncoolsu

Tidak perlu minta maaf. Saya yang menyarankan sesuatu yang tampaknya pinggiran, dan validasi silang tampaknya selalu digunakan dalam konteks yang Anda sarankan.

— Andy W

@ suncoolsu, Ketika saya berpikir tentang inferensial kausal, saya tidak pernah khawatir tentang Occam's Razor orparsimony, bisakah Anda menjelaskan hubungannya dengan saya?

— Michael Bishop