Menguji dataset besar untuk normalitas - bagaimana dan apakah ini dapat diandalkan?

Saya sedang memeriksa bagian dari dataset saya yang berisi 46840 nilai ganda mulai dari 1 hingga 1690 yang dikelompokkan dalam dua grup. Untuk menganalisis perbedaan antara kelompok-kelompok ini saya mulai dengan memeriksa distribusi nilai-nilai untuk memilih tes yang tepat.

Mengikuti panduan tentang pengujian normalitas, saya melakukan qqplot, histogram & boxplot.

masukkan deskripsi gambar di sini

Ini sepertinya bukan distribusi normal. Karena panduan ini menyatakan agak benar bahwa pemeriksaan grafis murni tidak cukup, saya juga ingin menguji distribusi untuk normalitas.

Mengingat ukuran dataset dan batasan uji shapiro-wilks dalam R, bagaimana seharusnya distribusi yang diberikan diuji normalitas dan mempertimbangkan ukuran dataset, apakah ini bahkan dapat diandalkan? ( Lihat jawaban yang diterima untuk pertanyaan ini )

Edit:

Keterbatasan tes Shapiro-Wilk yang saya maksudkan adalah bahwa dataset yang akan diuji dibatasi hingga 5.000 poin. Untuk mengutip jawaban bagus lain tentang topik ini:

Masalah tambahan dengan tes Shapiro-Wilk adalah bahwa ketika Anda memberinya lebih banyak data, kemungkinan hipotesis nol ditolak menjadi lebih besar. Jadi yang terjadi adalah bahwa untuk sejumlah besar data, bahkan penyimpangan yang sangat kecil dari normalitas dapat dideteksi, yang mengarah pada penolakan peristiwa hipotesis nol tetapi untuk tujuan praktis, datanya lebih dari cukup.

[...] Untungnya shapiro.test melindungi pengguna dari efek yang dijelaskan di atas dengan membatasi ukuran data hingga 5.000.

Mengapa saya menguji distribusi normal di tempat pertama:

Beberapa tes hipotesis mengasumsikan distribusi data normal. Saya ingin tahu apakah saya bisa menggunakan tes ini atau tidak.

r normal-distribution normality-assumption large-data

— Deemel
sumber

Tidak ada pengujian poin; setiap tes penggunaan apa pun, tingkat signifikansi yang masuk akal akan dengan jelas menolak. Panduan apa pun yang Anda baca telah menyesatkan Anda. Apa yang Anda maksud dengan 'dapat diandalkan' tepatnya. 'Batasan' Shapiro-Wilk apa yang Anda maksud? Saya akan sangat setuju dengan pernyataan dalam jawaban yang Anda tautkan ke ... "Saya belum pernah menemukan situasi di mana tes normal adalah hal yang benar untuk dilakukan" (Saya telah melihat setidaknya satu kali situasi di mana saya pikir itu adalah hal yang benar untuk dilakukan, tetapi orang hampir selalu melakukannya karena alasan yang buruk).

— Glen_b -Reinstate Monica

@ Glen_b: kebetulan, saya menemukan diri saya menggunakan Shapiro-Wilk beberapa hari yang lalu untuk mengukur bukti terhadap nol, yang secara keliru oleh seseorang di Akademia diasumsikan lebih besar daripada sampel kelas. Saya ingin tahu apakah itu penggunaan yang dapat dipertahankan.

— Nick Stauner

@NickStauner tanggapan saya tumbuh terlalu lama untuk satu komentar dan saya tidak ingin membajak pertanyaan ini dengan serangkaian komentar tentang posting Anda di sana. Kemungkinan: Kami berbicara dalam obrolan, atau Anda memposting pertanyaan tentang itu (di mana saya dapat mengirim jawaban yang luas), atau kami membahasnya dengan cara lain, seperti email.

— Glen_b -Reinstate Monica

Saya tidak mengerti mengapa Anda repot-repot. Ini jelas tidak normal - dalam hal ini, pemeriksaan grafis tampak cukup bagi saya. Anda mendapatkan banyak pengamatan dari apa yang tampak sebagai distribusi gamma bersih yang bagus. Pergi saja dengan itu. kolmogorov-smirnov jika Anda harus - Saya akan merekomendasikan distribusi referensi.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
masukkan deskripsi gambar di sini

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Seperti yang selalu saya katakan, "Lihat Apakah pengujian normal 'pada dasarnya tidak berguna' ," terutama jawaban @ MånsT , yang menunjukkan bahwa analisis yang berbeda memiliki sensitivitas yang berbeda terhadap berbagai pelanggaran asumsi normalitas. Jika distribusi Anda sedekat mungkin dengan milik saya, Anda mungkin memiliki kemiringan dan kurtosis ("kelebihan kurtosis" ). Itu mungkin menjadi masalah untuk banyak tes. Jika Anda tidak bisa hanya menemukan tes dengan asumsi parametrik yang lebih tepat atau tidak sama sekali, mungkin Anda bisa mengubah data Anda, atau setidaknya melakukan analisis sensitivitas dari analisis apa pun yang ada dalam pikiran Anda. $\approx1.4$ $\approx5.9$ $\approx2.9$

— Nick Stauner
sumber