Saya mengumpulkan sampel kategori data yang sangat besar (> 1.000.000) setiap hari dan ingin melihat data yang terlihat "berbeda" secara signifikan antar hari untuk mendeteksi kesalahan dalam pengumpulan data.
Saya pikir menggunakan tes good-of-fit (khususnya, G-test) akan menjadi cocok (pun intended) untuk ini. Distribusi yang diharapkan diberikan oleh distribusi hari sebelumnya.
Tapi, karena ukuran sampel saya sangat besar, tes ini memiliki daya yang sangat tinggi dan mengeluarkan banyak positif palsu. Dengan kata lain, fluktuasi harian yang sangat kecil sekalipun akan memberikan nilai p mendekati nol.
Saya akhirnya mengalikan statistik pengujian saya dengan beberapa konstan (0,001), yang memiliki interpretasi yang bagus dari pengambilan sampel data pada tingkat itu. Artikel ini tampaknya setuju dengan pendekatan ini. Mereka mengatakan itu:
Chi square paling dapat diandalkan dengan sampel antara sekitar 100 hingga 2500 orang
Saya mencari beberapa komentar yang lebih otoritatif tentang ini. Atau mungkin beberapa solusi alternatif untuk false positive ketika menjalankan tes statistik pada set data besar.