Ada banyak jawaban untuk pertanyaan ini. Ini salah satu yang Anda mungkin tidak akan melihat di tempat lain jadi saya memasukkannya di sini karena saya percaya itu berkaitan dengan topik. Orang sering percaya bahwa karena median dianggap sebagai ukuran yang kuat sehubungan dengan outlier, itu juga kuat untuk sebagian besar segalanya. Bahkan, itu juga dianggap kuat untuk bias dalam distribusi miring. Dua sifat kuat dari median ini sering diajarkan bersama. Orang mungkin mencatat bahwa distribusi miring yang mendasari juga cenderung menghasilkan sampel kecil yang terlihat seperti mereka memiliki outlier dan kebijaksanaan konvensional adalah bahwa seseorang menggunakan median dalam situasi seperti itu.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(hanya demonstrasi bahwa ini miring dan bentuk dasarnya)
hist(rexg(1e4, 0, 1, 1))
Sekarang, mari kita lihat apa yang terjadi jika kita sampel dari distribusi ini berbagai ukuran sampel dan menghitung median dan bermaksud untuk melihat apa perbedaan di antara mereka.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Seperti yang bisa dilihat dari plot di atas, median (merah) jauh lebih sensitif terhadap n daripada rata-rata. Ini bertentangan dengan beberapa kebijaksanaan konvensional tentang penggunaan median dengan ns rendah, terutama jika distribusinya mungkin miring. Dan, itu memperkuat titik bahwa nilai tengah adalah nilai yang diketahui sementara median peka terhadap sifat-sifat lainnya, satu jika yang menjadi n.
Analisis ini mirip dengan Miller, J. (1988). Peringatan tentang waktu reaksi tengah. Jurnal Psikologi Eksperimental: Persepsi dan Kinerja Manusia , 14 (3): 539-543.
REVISI
Setelah memikirkan masalah kemiringan, saya menganggap bahwa dampak pada median mungkin hanya karena dalam sampel kecil Anda memiliki probabilitas lebih besar bahwa median berada di ujung distribusi, sedangkan mean akan hampir selalu tertimbang oleh nilai-nilai lebih dekat ke nilai mode. Oleh karena itu, mungkin jika seseorang hanya mengambil sampel dengan kemungkinan pencilan maka mungkin hasil yang sama akan terjadi.
Jadi saya berpikir tentang situasi di mana outlier dapat terjadi dan eksperimen dapat mencoba untuk menghilangkannya.
Jika pencilan terjadi secara konsisten, seperti satu dalam setiap pengambilan sampel data tunggal, maka median kuat terhadap efek pencilan ini dan kisah konvensional tentang penggunaan median berlaku.
Tapi biasanya tidak seperti itu.
Orang mungkin menemukan pencilan dalam sangat sedikit sel percobaan dan memutuskan untuk menggunakan median, bukan rata-rata dalam kasus ini. Sekali lagi, median lebih kuat tetapi dampak sebenarnya relatif kecil karena ada sangat sedikit outlier. Ini pasti akan menjadi kasus yang lebih umum daripada yang di atas tetapi efek menggunakan median mungkin akan sangat kecil sehingga tidak masalah.
Mungkin outlier yang lebih umum mungkin merupakan komponen acak dari data. Sebagai contoh, rata-rata sebenarnya dan standar deviasi populasi mungkin sekitar 0 tetapi ada persentase waktu kita sampel dari populasi outlier di mana rata-rata adalah 3. Pertimbangkan simulasi berikut, di mana hanya populasi seperti itu sampel yang memvariasikan sampel bervariasi ukuran.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Median dalam warna merah dan rata-rata dalam warna hitam. Ini adalah temuan yang mirip dengan distribusi yang miring.
Dalam contoh yang relatif praktis tentang penggunaan median untuk menghindari efek outlier kita dapat menemukan situasi di mana estimasi dipengaruhi oleh n lebih banyak ketika median digunakan daripada ketika rata-rata digunakan.