Saya sedang memeriksa bagian dari dataset saya yang berisi 46840 nilai ganda mulai dari 1 hingga 1690 yang dikelompokkan dalam dua grup. Untuk menganalisis perbedaan antara kelompok-kelompok ini saya mulai dengan memeriksa distribusi nilai-nilai untuk memilih tes yang tepat.
Mengikuti panduan tentang pengujian normalitas, saya melakukan qqplot, histogram & boxplot.
Ini sepertinya bukan distribusi normal. Karena panduan ini menyatakan agak benar bahwa pemeriksaan grafis murni tidak cukup, saya juga ingin menguji distribusi untuk normalitas.
Mengingat ukuran dataset dan batasan uji shapiro-wilks dalam R, bagaimana seharusnya distribusi yang diberikan diuji normalitas dan mempertimbangkan ukuran dataset, apakah ini bahkan dapat diandalkan? ( Lihat jawaban yang diterima untuk pertanyaan ini )
Edit:
Keterbatasan tes Shapiro-Wilk yang saya maksudkan adalah bahwa dataset yang akan diuji dibatasi hingga 5.000 poin. Untuk mengutip jawaban bagus lain tentang topik ini:
Masalah tambahan dengan tes Shapiro-Wilk adalah bahwa ketika Anda memberinya lebih banyak data, kemungkinan hipotesis nol ditolak menjadi lebih besar. Jadi yang terjadi adalah bahwa untuk sejumlah besar data, bahkan penyimpangan yang sangat kecil dari normalitas dapat dideteksi, yang mengarah pada penolakan peristiwa hipotesis nol tetapi untuk tujuan praktis, datanya lebih dari cukup.
[...] Untungnya shapiro.test melindungi pengguna dari efek yang dijelaskan di atas dengan membatasi ukuran data hingga 5.000.
Mengapa saya menguji distribusi normal di tempat pertama:
Beberapa tes hipotesis mengasumsikan distribusi data normal. Saya ingin tahu apakah saya bisa menggunakan tes ini atau tidak.