Hanya karena ringkasan lima angka itu identik, tidak berarti bahwa distribusinya sama. Ini memberi tahu Anda berapa banyak informasi yang hilang ketika kami menyajikan data secara grafik dalam plot kotak!
Mungkin cara termudah untuk melihat masalahnya adalah bahwa ringkasan lima angka tidak memberi tahu Anda apa pun tentang distribusi nilai antara kuartil minimum dan kuartil rendah, atau antara kuartil bawah dan median, dan sebagainya. Anda tahu bahwa frekuensi antara kuartil minimum dan terendah harus cocok dengan frekuensi antara kuartil rendah dan median (dengan pengecualian yang jelas, misalnya jika kita memiliki data yang terletak di kuartil, atau lebih buruk, jika dua kuartil terikat) tetapi tidak tahu untuk nilai variabel frekuensi mana yang dialokasikan. Kita dapat memiliki situasi seperti ini:
Dua distribusi ini memiliki ringkasan lima angka yang sama, sehingga plot kotak mereka identik, tetapi saya telah memilih X untuk memiliki distribusi yang seragam antara setiap kuartil sedangkan Ymemiliki distribusi dengan frekuensi rendah dekat dengan kuartil dan frekuensi tinggi di tengah dua kuartil. Secara efektif distribusiY telah dibentuk dengan mengambil distribusi Xdan memindahkan sebagian besar data yang dekat dengan kuartil lebih jauh darinya; R
kode saya sebenarnya melakukan ini secara terbalik, dimulai dengan distribusi tidak teraturY dan meratakan frekuensi dengan mengalokasikan kembali data dari puncak untuk mengisi palung.
EDIT: Seperti yang dikatakan @Glen_b, ini menjadi lebih jelas ketika Anda melihat distribusi kumulatif. Saya telah menambahkan garis kisi untuk menunjukkan lokasi kuartil, yang sama untuk dua distribusi sehingga CDFs empiris mereka bersinggungan.
Kode r
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00