Bagian 1.7.2 dari Menemukan Statistik Menggunakan R oleh Andy Fields, dkk, sambil mendaftar nilai rata-rata vs median, menyatakan:
... rerata cenderung stabil pada sampel yang berbeda.
Ini setelah menjelaskan banyak kebajikan median, misalnya
... Median relatif tidak terpengaruh oleh skor ekstrem di kedua ujung distribusi ...
Mengingat bahwa median relatif tidak terpengaruh oleh skor ekstrim, saya akan berpikir itu lebih stabil di seluruh sampel. Jadi saya bingung dengan pernyataan penulis. Untuk mengkonfirmasi saya menjalankan simulasi - saya menghasilkan angka acak 1M dan mengambil sampel 100 angka 1000 kali dan menghitung rata-rata dan median dari setiap sampel dan kemudian menghitung sd dari rata-rata dan median sampel tersebut.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Seperti yang Anda lihat, alat-alatnya lebih rapat daripada median.
Pada gambar terlampir histogram merah untuk median - seperti yang Anda lihat itu kurang tinggi dan memiliki ekor lebih gemuk yang juga menegaskan pernyataan penulis.
Saya terperangah dengan ini, meskipun! Bagaimana median yang lebih stabil cenderung pada akhirnya bervariasi lebih banyak di seluruh sampel? Tampaknya paradoks! Wawasan apa pun akan dihargai.
rnorm
dengan rcauchy
.