Kami biasanya tahu itu tidak mungkin untuk variabel yang akan persis terdistribusi secara normal ...
Distribusi normal memiliki ekor yang panjang tak terhingga memanjang ke arah mana pun - tidak mungkin bagi data untuk berada jauh di ekstrem ini, tetapi untuk distribusi normal sejati itu harus dimungkinkan secara fisik. Untuk usia, model yang terdistribusi normal akan memperkirakan ada kemungkinan data tidak nol terletak 5 deviasi standar di atas atau di bawah rata-rata - yang akan sesuai dengan usia yang secara fisik tidak mungkin, seperti di bawah 0 atau di atas 150. (Meskipun jika Anda melihat sebuah piramida penduduk , tidak jelas mengapa Anda harapkan usia untuk menjadi lebih mendekati normal didistribusikan di tempat pertama.) Demikian pula jika Anda memiliki data yang tinggi, yang secara intuitif mungkin mengikuti distribusi yang lebih "normal-seperti", itu hanya bisa benar-benar normal jika ada kemungkinan ketinggian di bawah 0 cm atau di atas 300 cm.
Saya kadang-kadang melihatnya menyarankan agar kita dapat menghindari masalah ini dengan memusatkan data menjadi nol. Dengan begitu baik "usia terpusat" positif dan negatif dimungkinkan. Tetapi meskipun ini membuat kedua nilai negatif secara fisik masuk akal dan dapat ditafsirkan (nilai-nilai berpusat negatif sesuai dengan nilai aktual yang berada di bawah rata-rata), itu tidak menyelesaikan masalah bahwa model normal akan menghasilkan prediksi yang secara fisik tidak mungkin dengan probabilitas nol, setelah Anda decode model "usia terpusat" kembali ke "usia sebenarnya".
... jadi mengapa repot-repot menguji? Bahkan jika tidak tepat, normalitas masih bisa menjadi model yang berguna
Pertanyaan penting sebenarnya bukan apakah data itu benar-benar normal - kita tahu apriori yang tidak dapat terjadi, dalam kebanyakan situasi, bahkan tanpa menjalankan tes hipotesis - tetapi apakah perkiraannya cukup dekat dengan kebutuhan Anda. Lihat pertanyaannya, apakah pengujian normal pada dasarnya tidak berguna? Distribusi normal adalah perkiraan yang nyaman untuk banyak tujuan. Jarang "benar" - tetapi umumnya tidak harus benar-benar tepat untuk berguna. Saya berharap distribusi normal biasanya menjadi model yang masuk akal untuk ketinggian orang, tetapi akan membutuhkan konteks yang lebih tidak biasa agar distribusi normal masuk akal sebagai model usia orang.
Jika Anda benar-benar merasa perlu untuk melakukan tes normalitas, maka Kolmogorov-Smirnov mungkin bukan pilihan terbaik: seperti disebutkan dalam komentar, tersedia tes yang lebih kuat. Shapiro-Wilk memiliki kekuatan yang baik terhadap berbagai alternatif yang memungkinkan, dan memiliki keuntungan bahwa Anda tidak perlu mengetahui mean dan varian sebenarnya sebelumnya . Tetapi berhati-hatilah bahwa dalam sampel kecil, penyimpangan yang berpotensi cukup besar dari normalitas mungkin tetap tidak terdeteksi, sementara dalam sampel besar, penyimpangan yang sangat kecil (dan untuk tujuan praktis, tidak relevan) dari normalitas cenderung muncul sebagai "sangat signifikan" (rendah ). -nilai).
"Berbentuk lonceng" belum tentu normal
Tampaknya Anda telah diberitahu untuk memikirkan data "berbentuk lonceng" - data simetris yang memuncak di bagian tengah dan yang memiliki kemungkinan lebih rendah di bagian ekor - sebagai "normal". Tetapi distribusi normal membutuhkan bentuk khusus untuk puncak dan ekornya. Ada distribusi lain dengan bentuk yang mirip pada pandangan pertama, yang mungkin juga Anda anggap sebagai "lonceng", tetapi tidak normal. Kecuali jika Anda memiliki banyak data, Anda tidak akan dapat membedakan bahwa "sepertinya ini distribusi di luar rak tetapi tidak seperti yang lain". Dan jika Anda memiliki banyak data, Anda mungkin akan mendapati bahwa itu tidak terlihat sama sekali seperti distribusi "di luar rak" sama sekali! Tetapi dalam hal itu untuk banyak tujuan Anda
The distribusi normal adalah "bel bentuk" Anda digunakan untuk; yang Cauchy memiliki puncak tajam dan "berat" (yaitu mengandung lebih probabilitas) ekor; yang t distribusi dengan 5 derajat kebebasan datang di suatu tempat di antara (normal adalah t dengan tak terbatas df dan Cauchy adalah t dengan 1 df, sehingga masuk akal); yang Laplace atau ganda distribusi eksponensial telah pdf terbentuk dari dua rescaled distribusi eksponensial back-to-back, menghasilkan puncak tajam dari distribusi normal; yang distribusi Betasangat berbeda - ia tidak memiliki ekor yang mengarah ke infinity misalnya, bukannya memiliki potongan tajam - tetapi masih dapat memiliki bentuk "punuk" di tengah. Sebenarnya dengan bermain-main dengan parameter, Anda juga bisa mendapatkan semacam "punuk miring", atau bahkan bentuk "U" - galeri di halaman Wikipedia yang terhubung cukup instruktif tentang fleksibilitas distribusi itu. Akhirnya, distribusi segitiga adalah distribusi sederhana lain pada dukungan yang terbatas, sering digunakan dalam pemodelan risiko.
Kemungkinan tidak ada distribusi ini yang benar-benar menggambarkan data Anda, dan sangat banyak distribusi lain dengan bentuk yang serupa ada, tetapi saya ingin mengatasi kesalahpahaman bahwa "berpunuk di tengah dan kira-kira simetris berarti normal". Karena ada batasan fisik pada data usia, jika data usia Anda "berpunuk" di tengah maka masih mungkin distribusi dengan dukungan terbatas seperti Beta atau bahkan distribusi segitiga dapat membuktikan model yang lebih baik daripada yang memiliki ekor tanpa batas seperti normal. Perhatikan bahwa meskipun data Anda benar-benar terdistribusi normal, histogram Anda masih tidak mungkin menyerupai "lonceng" klasik kecuali ukuran sampel Anda cukup besar. Bahkan sampel dari distribusi seperti Laplace, yang pdf-nya jelas dapat dibedakan dari yang normal karena titik puncaknya,
Kode r
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)