Mengesampingkan masalah yang jelas dari rendahnya daya chi-square dalam keadaan seperti ini, bayangkan melakukan uji kebaikan chi-square untuk beberapa kepadatan dengan parameter yang tidak ditentukan, dengan mengelompokkan data.
Untuk konkret, katakanlah distribusi eksponensial dengan rata-rata tidak diketahui dan ukuran sampel katakanlah 100.
Untuk mendapatkan jumlah yang wajar dari pengamatan yang diharapkan per bin, beberapa akun perlu diambil dari data (misalnya jika kita memilih untuk meletakkan 6 sampah di bawah rata-rata dan 4 di atasnya, itu masih akan menggunakan batas-batas bin berbasis data) .
Tetapi penggunaan tempat sampah ini berdasarkan pada melihat data mungkin akan mempengaruhi distribusi statistik uji di bawah nol.
Saya telah melihat banyak diskusi tentang fakta bahwa - jika parameter diperkirakan dengan kemungkinan maksimum dari data binned - Anda kehilangan 1 df per parameter yang diperkirakan (masalah yang berasal dari Fisher vs Karl Pearson) - tapi saya tidak ingat membaca apa pun tentang menemukan batas-batas bin sendiri berdasarkan data. (Jika Anda memperkirakannya dari data yang tidak dimasukkan, maka dengan bin distribusi statistik uji terletak di antara a dan .)χ 2 k χ 2 k - p
Apakah pilihan tempat sampah berbasis data ini secara substantif berdampak pada tingkat signifikansi atau kekuatan? Apakah ada beberapa pendekatan yang lebih penting daripada yang lain? Jika ada banyak efek, apakah itu sesuatu yang hilang dalam sampel besar?
Jika memang memiliki dampak substantif, ini akan membuat penggunaan uji chi-kuadrat ketika parameter tidak diketahui hampir tidak berguna dalam banyak kasus (meskipun masih diadvokasi dalam beberapa teks), kecuali Anda memiliki Estimasi -priori dari parameter.
Diskusi masalah atau petunjuk untuk referensi (sebaiknya dengan menyebutkan kesimpulan mereka) akan bermanfaat.
Edit, selain pertanyaan utama:
Terjadi pada saya bahwa ada solusi potensial untuk kasus spesifik eksponensial * (dan seragam datang untuk memikirkannya), tetapi saya masih tertarik pada masalah yang lebih umum tentang dampak memilih batas bin.
* Sebagai contoh, untuk eksponensial, seseorang mungkin menggunakan pengamatan terkecil (katakanlah sama dengan ) untuk mendapatkan ide yang sangat kasar tentang di mana harus menempatkan sampah (karena pengamatan terkecil adalah eksponensial dengan rata-rata ), dan kemudian uji perbedaan tersisa ( ) untuk eksponensial. Tentu saja itu mungkin menghasilkan estimasi sangat buruk , dan karenanya pilihan bin yang buruk, meskipun saya kira orang mungkin menggunakan argumen secara rekursif untuk mengambil dua atau tiga pengamatan terendah dari mana untuk memilih nampan yang masuk akal dan kemudian menguji perbedaan dari pengamatan yang tersisa di atas yang terbesar dari statistik pesanan terkecil untuk eksponensialitas)μ / n n - 1 x i - m μ