Buku teks Anda bingung. Sangat sedikit orang atau perangkat lunak yang mendefinisikan kuartil dengan cara ini. (Itu cenderung membuat kuartil pertama terlalu kecil dan kuartil ketiga terlalu besar.)
The quantile
fungsi dalam R
mengimplementasikan sembilan cara yang berbeda untuk quantiles menghitung! Untuk melihat yang mana dari mereka, jika ada, yang sesuai dengan metode ini, mari kita mulai dengan mengimplementasikannya. Dari deskripsi kita dapat menulis suatu algoritma, pertama secara matematis dan kemudian di R
:
Pesan data .x1≤ x2≤ ⋯ ≤ xn
Untuk setiap set data median adalah nilai tengahnya ketika ada sejumlah nilai ganjil; jika tidak, ini adalah rata-rata dari dua nilai tengah ketika ada nilai genap. R
's median
fungsi menghitung ini.
Indeks nilai tengah adalah . Bila tidak integer, adalah median, di mana dan adalah dibulatkan ke bawah dan ke atas. Kalau tidak, ketika adalah bilangan bulat, adalah median. Dalam hal ini, ambil dan . Dalam kedua kasus, adalah indeks nilai data segera di sebelah kiri median dan adalah indeks nilai data segera di sebelah kanan median.( x l + x u ) / 2 l u m m x m l = m - 1 u = m + 1 l um = ( n + 1 ) / 2( xl+ xkamu) / 2lkamummxml=m−1u=m+1lu
"Kuartil pertama" adalah median dari semua yang . "Kuartil ketiga" adalah median dari yang . i ≤ l ( x i ) i ≥ uxii≤l(xi)i≥u
Berikut ini adalah implementasinya. Ini dapat membantu Anda melakukan latihan Anda di buku pelajaran ini.
quart <- function(x) {
x <- sort(x)
n <- length(x)
m <- (n+1)/2
if (floor(m) != m) {
l <- m-1/2; u <- m+1/2
} else {
l <- m-1; u <- m+1
}
c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}
Misalnya, output quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))
setuju dengan teks:
Q1 Q3
9 33
Mari kita hitung kuartil untuk beberapa dataset kecil menggunakan semua sepuluh metode: sembilan di R
dan buku teks:
y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
j <- 1
for (i in 1:9) {
y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
}
y[, 10] <- quart(1:n)
cat("\n", n, ":\n")
print(y, digits=2)
}
Ketika Anda menjalankan ini dan cek, Anda akan menemukan bahwa nilai-nilai buku tidak setuju dengan salah satu R
output untuk semua tiga ukuran sampel. (Pola ketidaksepakatan berlanjut dalam siklus periode tiga, menunjukkan bahwa masalah tetap ada, tidak peduli seberapa besar sampel itu.)
Buku teks itu mungkin telah salah mengartikan metode komputasi "engsel" John Tukey (alias "perempat"). Perbedaannya adalah bahwa ketika memisahkan dataset di sekitar median, ia memasukkan median di kedua bagian. Itu akan menghasilkan dan untuk dataset contoh.289.528
quantile
tipe 1, 2, dan 6 akan mereproduksi mereka untuk dataset dengan ukuran khusus ini . Tak satu pun dariR
metode sesuai dengan buku Anda. (Orang bertanya-tanya tentang kualitas teks ini ...)