Tampaknya bagi saya bahwa pertanyaan Anda lebih umum membahas rasa validasi yang berbeda untuk model prediksi: Validasi silang agak lebih berkaitan dengan validitas internal , atau setidaknya tahap pemodelan awal, sedangkan menggambar hubungan sebab akibat pada populasi yang lebih luas lebih terkait. ke validitas eksternal. Dengan itu (dan sebagai pembaruan mengikuti komentar bagus @ Brett), maksud saya bahwa kami biasanya membangun model pada sampel yang berfungsi, dengan asumsi model konseptual hipotetis (yaitu kami menentukan hubungan antara prediktor dan hasil yang diinginkan), dan kami mencoba untuk mendapatkan taksiran yang andal dengan tingkat kesalahan klasifikasi minimal atau kesalahan prediksi minimal. Semoga, semakin baik kinerja model, semakin baik memungkinkan kita untuk memprediksi hasil pada data yang tidak terlihat; tetap saja, CV tidak mengatakan apa-apa tentang "validitas" atau kecukupan hubungan sebab akibat yang dihipotesiskan. Kami tentu saja dapat mencapai hasil yang layak dengan model di mana beberapa efek moderasi dan / atau mediasi diabaikan atau tidak diketahui sebelumnya.
Maksud saya adalah bahwa apa pun metode yang Anda gunakan untuk memvalidasi model Anda (dan metode bertahan tentu bukan yang terbaik, tetapi masih banyak digunakan dalam studi epidemiologi untuk mengatasi masalah yang timbul dari pembuatan model bertahap), Anda bekerja dengan sampel yang sama (yang kami anggap mewakili populasi yang lebih besar). Sebaliknya, menggeneralisasi hasil dan hubungan sebab-akibat yang disimpulkan dengan cara ini ke sampel baru atau populasi terkait yang masuk akal biasanya dilakukan dengan studi replikasi . Ini memastikan bahwa kami dapat dengan aman menguji kemampuan prediktif model kami dalam "superpopulasi" yang menampilkan variasi variasi individu yang lebih besar dan dapat menunjukkan faktor-faktor potensial lain yang menarik.
Model Anda mungkin memberikan prediksi yang valid untuk sampel kerja Anda, dan itu mencakup semua perancu potensial yang mungkin Anda pikirkan; Namun, ada kemungkinan bahwa itu tidak akan berkinerja baik dengan data baru, hanya karena faktor-faktor lain muncul dalam jalur sebab akibat yang tidak diidentifikasi ketika membangun model awal. Ini dapat terjadi jika beberapa prediktor dan hubungan sebab akibat yang disimpulkan darinya tergantung pada pusat percobaan tertentu di mana pasien direkrut, misalnya.
Dalam epidemiologi genetik, banyak studi asosiasi genome gagal untuk mereplikasi hanya karena kami mencoba untuk memodelkan penyakit kompleks dengan pandangan yang disederhanakan pada hubungan sebab akibat antara penanda DNA dan fenotipe yang diamati, sementara itu sangat mungkin bahwa gen-gen (epistasis), gen-penyakit (pleiotropi), gen-lingkungan, dan substruktur populasi semua ikut berperan, tetapi lihat misalnya memvalidasi, menambah dan memperbaiki sinyal asosiasi genome-wide(Ioannidis et al., Nature Reviews Genetics, 2009 10). Jadi, kita dapat membangun model pemain untuk menjelaskan variasi silang yang diamati antara satu set penanda genetik (dengan ukuran efek yang sangat rendah dan jarang) dan pola multivariat dari fenotipe yang diamati (misalnya, volume materi putih / abu-abu atau aktivitas terlokalisasi di otak seperti yang diamati melalui fMRI, respons terhadap penilaian neuropsikologis, atau inventaris kepribadian), tetap saja tidak akan berfungsi seperti yang diharapkan pada sampel independen.
Adapun referensi umum tentang topik ini, dapat merekomendasikan bab 17 dan Bagian III dari Model Prediksi Klinis , dari EW Steyerberg (Springer, 2009). Saya juga suka artikel berikut dari Ioannidis:
Ioannidis, JPA, Mengapa Sebagian Besar Temuan Penelitian yang Diterbitkan Salah? PLoS Med. 2005 2 (8): e124