Saya pikir ini adalah pertanyaan yang sangat bagus; itu sampai ke jantung "pengujian" beberapa masalah kontroversial yang mengganggu bidang mulai dari epidemiologi ke ekonometrik. Lagi pula, bagaimana kita bisa tahu apakah makna yang kita temukan itu palsu atau tidak? Seberapa benar model multivariabel kami?
Dalam hal pendekatan teknis untuk mengimbangi kemungkinan penerbitan variabel kebisingan, saya sepenuh hati setuju dengan 'whuber' yang menggunakan bagian dari sampel Anda sebagai data pelatihan dan sisanya sebagai data uji adalah ide yang bagus. Ini adalah pendekatan yang dibahas dalam literatur teknis, jadi jika Anda meluangkan waktu, Anda mungkin dapat menemukan beberapa panduan yang baik untuk kapan dan bagaimana menggunakannya.
Tetapi untuk lebih memahami filosofi pengujian berganda, saya sarankan Anda membaca artikel yang saya rujuk di bawah ini, beberapa di antaranya mendukung posisi bahwa penyesuaian untuk beberapa pengujian sering kali berbahaya (biaya daya), tidak perlu, dan bahkan mungkin merupakan kesalahan logis . I untuk satu tidak secara otomatis menerima klaim bahwa kemampuan kita untuk menyelidiki satu prediktor potensial berkurang dengan penyelidikan yang lain. Tingkat kesalahan Tipe 1 yang bijaksana keluarga dapat meningkat karena kami menyertakan lebih banyak prediktor dalam model yang diberikan, tetapi selama kami tidak melampaui batas ukuran sampel kami, probabilitas kesalahan Tipe 1 untuk setiap individuprediktor konstan; dan mengendalikan kesalahan keluarga tidak menjelaskan variabel spesifik mana yang berisik dan mana yang tidak. Tentu saja, ada juga kontra-argumen yang meyakinkan.
Jadi, selama Anda membatasi daftar variabel potensial Anda ke variabel yang masuk akal (yaitu, akan mengetahui jalur menuju hasilnya) maka risiko keburukan sudah ditangani dengan cukup baik.
Namun, saya ingin menambahkan bahwa model prediktif tidak terlalu peduli dengan "nilai kebenaran" dari prediktornya sebagai model kausal ; mungkin ada banyak perancu dalam model, tetapi selama kita menjelaskan sebagian besar varian maka kita tidak terlalu khawatir. Ini membuat pekerjaan lebih mudah, setidaknya dalam satu hal.
Tepuk tangan,
Brenden, Konsultan Biostatistik
PS: Anda mungkin ingin melakukan regresi Poisson nol-meningkat untuk data yang Anda gambarkan, bukan dua regresi terpisah.
- Perneger, TV. Apa yang salah dengan penyesuaian Bonferroni . BMJ 1998; 316: 1236
- Cook, RJ & Perpisahan, VT Pertimbangan multiplisitas dalam desain dan analisis uji klinis . Jurnal Masyarakat Statistik Kerajaan , Seri A 1996; Vol. 159, No. 1: 93-110
- Rothman, KJ Tidak diperlukan penyesuaian untuk beberapa perbandingan . Epidemiologi 1990; Vol. 1, No. 1: 43-46
- Marshall, JR pengerukan Data dan noteworthiness . Epidemiologi 1990; Vol. 1, No. 1: 5-7
- Greenland, S. & Robins, JM penyesuaian Empiris-Bayes untuk beberapa perbandingan kadang-kadang berguna . Epidemiologi 1991; Vol. 2, No. 4: 244-251