Saya ingin memahami penggunaan simulasi Monte Carlo dalam chisq.test()
fungsi di R.
Saya memiliki variabel kualitatif yang memiliki 128 level / kelas. Ukuran sampel saya adalah 26 (saya tidak dapat mengambil sampel lebih banyak "individu"). Jadi jelas, saya akan memiliki beberapa level dengan 0 "individu". Tetapi kenyataannya adalah bahwa saya hanya memiliki sejumlah kecil kelas yang diwakili dari 127 yang mungkin. Ketika saya telah mendengar bahwa untuk menerapkan uji chi-squared kita harus memiliki setidaknya 5 orang di setiap level (saya tidak sepenuhnya memahami alasannya), saya pikir saya harus menggunakan simulate.p.value
opsi untuk menggunakan simulasi Monte Carlo untuk memperkirakan distribusi dan menghitung nilai p. Tanpa simulasi Monte Carlo, R memberi saya nilai p < 1e-16
. Dengan simulasi Monte Carlo, itu memberi saya nilai p di 4e-5
.
Saya mencoba untuk menghitung nilai-p dengan vektor 26 dan 101 nol, dan dengan simulasi Monte-Carlo, saya mendapatkan nilai-p pada 1.
Apakah boleh menyatakan bahwa, bahkan jika ukuran sampel saya kecil dibandingkan dengan jumlah kelas yang mungkin, distribusi yang diamati sedemikian rupa sehingga sangat tidak mungkin bahwa semua kelas yang mungkin ada pada probabilitas yang sama (1/127) dalam populasi nyata ?