Interpretasi uji Shapiro-Wilk


29

Saya cukup baru dalam bidang statistik dan saya membutuhkan bantuan Anda.
Saya punya sampel kecil, sebagai berikut:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Saya menjalankan tes Shapiro-Wilk menggunakan R:

shapiro.test(precisionH4U$H4U)

dan saya mendapat hasil sebagai berikut:

 W = 0.9502, p-value = 0.6921

Sekarang, jika saya menganggap tingkat signifikansi pada 0,05 daripada nilai p lebih besar maka alpha (0,6921> 0,05) dan saya tidak dapat menolak hipotesis nol tentang distribusi normal, tetapi apakah itu memungkinkan saya untuk mengatakan bahwa sampel memiliki distribusi normal ?

Terima kasih!

Jawaban:


28

Tidak - Anda tidak dapat mengatakan "sampel memiliki distribusi normal" atau "sampel berasal dari populasi yang memiliki distribusi normal", tetapi hanya "Anda tidak dapat menolak hipotesis bahwa sampel berasal dari populasi yang memiliki distribusi normal".

Bahkan sampel tidak memiliki distribusi normal (lihat qqplot di bawah), tetapi Anda tidak akan mengharapkannya karena hanya sampel. Pertanyaan tentang distribusi populasi yang mendasarinya tetap terbuka.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot


2
qqplot terlihat sangat normal, saya pikir ... Anda dapat mencoba qqnorm(rnorm(9))beberapa kali ...
Curious

2
@ Thomas: Mungkin lebih baik mengatakan "qqplot terlihat seolah-olah itu bisa berasal dari populasi normal". Mungkin itu bukan berasal dari distribusi dengan ekor yang lebih berat.
Henry

Ya, qqnorm(runif(9))dapat menghasilkan hasil yang serupa. Jadi kita tidak bisa mengatakan apa-apa ...
Curious

apa perbedaan antara "sampel memiliki distribusi normal" dan "sampel berasal dari populasi yang memiliki distribusi normal"?
auraham

1
Distribusi normal adalah distribusi berkelanjutan atas semua real. Sampel (terbatas atau bahkan tak terhingga) tidak dapat memiliki jenis distribusi ini sendiri, bahkan jika diambil dari populasi yang memiliki distribusi ini.
Henry

17

Gagal menolak hipotesis nol adalah indikasi bahwa sampel yang Anda miliki terlalu kecil untuk mengambil penyimpangan apa pun dari normalitas yang Anda miliki - tetapi sampel Anda sangat kecil sehingga bahkan penyimpangan yang cukup besar dari normalitas kemungkinan tidak akan terdeteksi.

Namun tes hipotesis cukup banyak di samping titik dalam kebanyakan kasus bahwa orang menggunakan tes normalitas untuk - Anda benar-benar tahu jawaban atas pertanyaan yang Anda uji - distribusi populasi dari data Anda diambil tidak akan menjadi normal . (Kadang-kadang mungkin cukup dekat, tetapi sebenarnya normal?)

Pertanyaan yang harus Anda perhatikan bukan 'apakah distribusi mereka diambil dari normal' (tidak akan). Pertanyaan yang Anda benar-benar harus pedulikan adalah lebih seperti 'apakah penyimpangan dari normalitas saya akan berdampak material pada hasil saya?'. Jika itu berpotensi masalah, Anda dapat mempertimbangkan analisis yang cenderung memiliki masalah itu.


10

Mengingat Anda cukup baru dalam bidang statistik, saya menduga Anda memikirkan hal ini karena ini adalah residu dari perkiraan rata-rata dan Anda ingin tahu apakah asumsi normalitas valid untuk estimasi kepercayaan menggunakan distribusi- .t

tt -tests yang cukup kuat untuk pelanggaran asumsi ini, data terlihat samar-samar yang normal dalam plot qq Henry, dan uji Shapiro tidak menunjukkan bahwa data berasal dari populasi dengan distribusi non-normal, jadi saya akan mengatakan bahwa -tes sesuai.t

Saya lebih lanjut berspekulasi bahwa Anda melihat proporsi, dalam hal ini Anda dapat menggunakan distribusi binomial jika Anda khawatir tentang pelanggaran asumsi.

Jika ada kekhawatiran lain yang membuat Anda mengikuti tes Shapiro, Anda dapat mengabaikan semua yang saya katakan.


Anda benar, saya ingin tahu apakah saya dapat menggunakan uji t untuk sampel saya. Terima kasih!
Jakub

4

Seperti yang sudah dikatakan Henry, Anda tidak bisa mengatakan itu normal. Coba jalankan perintah berikut dalam R beberapa kali:

shapiro.test(runif(9)) 

Ini akan menguji sampel 9 angka dari distribusi seragam. Berkali-kali nilai p akan jauh lebih besar dari 0,05 - yang berarti Anda tidak dapat menyimpulkan bahwa distribusinya normal.


4

Saya juga mencari cara untuk menginterpretasikan nilai W dengan benar dalam uji Shapiro-Wilk dan menurut artikel Emil OW Kirkegaard " Nilai W dari uji Shapiro-Wilk divisualisasikan dengan kumpulan data yang berbeda " sangat sulit untuk mengatakan apa-apa tentang normalitas suatu distribusi melihat nilai W sendiri.

Seperti yang ia nyatakan dalam kesimpulan:

Secara umum kita melihat bahwa dengan sampel yang besar, SW sensitif terhadap penyimpangan dari non-normalitas. Namun, jika keberangkatannya sangat kecil, itu tidak terlalu penting.

Kami juga melihat bahwa sulit untuk mengurangi nilai W bahkan jika seseorang sengaja mencoba. Kita perlu menguji distribusi yang sangat tidak normal agar bisa jatuh di bawah 0,99.

Lihat artikel asli untuk informasi lebih lanjut.


1

Satu masalah penting yang tidak disebutkan oleh jawaban sebelumnya adalah keterbatasan tes:

Tes memiliki keterbatasan, yang paling penting bahwa tes memiliki bias berdasarkan ukuran sampel . Semakin besar sampel, semakin besar kemungkinan Anda akan mendapatkan hasil yang signifikan secara statistik.

Untuk menjawab pertanyaan awal (ukuran sampel sangat kecil): lihat artikel berikut tentang alternatif yang lebih baik seperti plot QQ dan histogram untuk kasus khusus ini.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.