Definisi standar pencilan untuk plot Kotak dan Kumis adalah poin di luar rentang , di mana dan adalah kuartil pertama dan adalah kuartil ketiga dari data.
Apa dasar dari definisi ini? Dengan sejumlah besar poin, bahkan distribusi yang normal sekalipun menghasilkan outlier.
Misalnya, Anda mulai dengan urutan:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Urutan ini menciptakan peringkat persentil dari 4000 poin data.
Pengujian normalitas untuk qnorm
seri ini menghasilkan:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Hasilnya persis seperti yang diharapkan: normalitas dari distribusi normal adalah normal. Membuat qqnorm(qnorm(xseq))
menciptakan (seperti yang diharapkan) garis lurus data:
Jika boxplot dari data yang sama dibuat, boxplot(qnorm(xseq))
hasilkan:
Boxplot, tidak seperti shapiro.test
, ad.test
atau qqnorm
mengidentifikasi beberapa titik sebagai outlier ketika ukuran sampel cukup besar (seperti dalam contoh ini).