Ini adalah dua pertanyaan: satu tentang bagaimana mean dan median meminimalkan fungsi kerugian dan satu lagi tentang sensitivitas estimasi ini terhadap data. Kedua pertanyaan itu saling terhubung, seperti yang akan kita lihat.
Meminimalkan Kerugian
Ringkasan (atau penaksir) pusat kumpulan angka dapat dibuat dengan membiarkan nilai ringkasan berubah dan membayangkan bahwa setiap angka dalam kumpulan mengerahkan kekuatan pemulihan pada nilai itu. Ketika gaya tidak pernah mendorong nilai menjauh dari angka, maka bisa dibilang setiap titik di mana keseimbangan gaya adalah "pusat" dari bets.
Kehilangan kuadratik ( )L.2
Misalnya, jika kita melampirkan pegas klasik (mengikuti Hukum Hooke ) antara ringkasan dan masing-masing angka, gaya akan sebanding dengan jarak ke setiap pegas. Mata air akan menarik ringkasan dengan cara ini dan itu, akhirnya menetap di lokasi stabil energi minimum yang unik.
Saya ingin menarik perhatian ke sulap kecil yang baru saja terjadi: energi sebanding dengan jumlah jarak kuadrat . Mekanika Newton mengajarkan kepada kita bahwa gaya adalah laju perubahan energi. Mencapai keseimbangan - meminimalkan energi - menghasilkan keseimbangan kekuatan. Tingkat perubahan bersih dalam energi adalah nol.
Sebut saja ini " ringkasan ," atau "ringkasan kerugian kuadrat."L.2
Kehilangan Mutlak ( )L.1
Ringkasan lain dapat dibuat dengan mengandaikan ukuran kekuatan pemulih adalah konstan , terlepas dari jarak antara nilai dan data. Namun, gaya itu sendiri tidak konstan, karena mereka harus selalu menarik nilai ke setiap titik data. Jadi, ketika nilainya kurang dari titik data gaya diarahkan positif, tetapi ketika nilainya lebih besar dari titik data gaya diarahkan negatif. Sekarang energi sebanding dengan jarak antara nilai dan data. Biasanya akan ada seluruh wilayah di mana energi konstan dan gaya totalnya nol. Nilai apa pun di wilayah ini yang kami sebut " ringkasan " atau "ringkasan kehilangan absolut."L.1
Analogi fisik ini memberikan intuisi yang berguna tentang dua ringkasan. Misalnya, apa yang terjadi pada ringkasan jika kita memindahkan salah satu titik data? Dalam kasus dengan pegas yang terpasang, memindahkan satu titik data akan meregangkan atau mengendurkan pegasnya. Hasilnya adalah perubahan yang berlaku pada ringkasan, sehingga harus berubah sebagai respons. Tetapi dalam kasus , sebagian besar waktu perubahan dalam titik data tidak melakukan apa pun pada ringkasan, karena gaya bersifat konstan secara lokal. Satu-satunya cara kekuatan dapat berubah adalah agar titik data bergerak melintasi ringkasan.L 1L.2L.1
(Faktanya, harus jelas bahwa gaya total pada suatu nilai diberikan oleh jumlah poin yang lebih besar dari itu - yang menariknya ke atas - minus jumlah poin lebih sedikit dari itu - yang menariknya ke bawah. Dengan demikian, yang Ringkasan harus terjadi pada setiap lokasi di mana jumlah nilai data melebihi itu persis sama dengan jumlah nilai data kurang dari itu.)L.1
Menggambarkan Kerugian
Karena kedua kekuatan dan energi bertambah, dalam kedua kasus ini kita dapat menguraikan energi bersih menjadi kontribusi individu dari titik data. Dengan grafik energi atau gaya sebagai fungsi dari nilai ringkasan, ini memberikan gambaran rinci tentang apa yang terjadi. Ringkasan akan menjadi lokasi di mana energi (atau "kerugian" dalam bahasa statistik) adalah yang terkecil. Secara ekuivalen, itu akan menjadi lokasi di mana kekuatan menyeimbangkan: pusat data terjadi di mana perubahan bersih dalam kerugian adalah nol.
Gambar ini menunjukkan energi dan kekuatan untuk dataset kecil dengan enam nilai (ditandai dengan garis vertikal samar di setiap plot). Kurva hitam putus-putus adalah total dari kurva berwarna yang menunjukkan kontribusi dari nilai-nilai individual. Sumbu x menunjukkan kemungkinan nilai ringkasan.
Rata- rata aritmatika adalah titik di mana kerugian kuadrat diminimalkan: itu akan terletak di puncak (bawah) parabola hitam di plot kiri atas. Itu selalu unik. The median adalah titik di mana kerugian mutlak diminimalkan. Seperti disebutkan di atas, itu harus terjadi di tengah data. Itu belum tentu unik. Ini akan terletak di bagian bawah kurva hitam yang rusak di kanan atas. (Bottom sebenarnya terdiri dari bagian datar pendek antara dan ; setiap nilai dalam interval ini adalah median.)- 0,17- 0,23- 0,17
Menganalisis Sensitivitas
Sebelumnya saya menjelaskan apa yang bisa terjadi pada ringkasan ketika suatu titik data bervariasi. Penting untuk merencanakan bagaimana ringkasan berubah sebagai respons terhadap perubahan setiap titik data tunggal. (Plot-plot ini pada dasarnya adalah fungsi pengaruh empiris . Mereka berbeda dari definisi yang biasa dalam hal mereka menunjukkan nilai aktual dari perkiraan daripada berapa banyak nilai-nilai itu diubah.) Nilai ringkasan dilabeli oleh "Perkirakan" pada y -saya untuk mengingatkan kita bahwa ringkasan ini memperkirakan di mana letak tengah dataset. Nilai (yang diubah) baru dari setiap titik data ditunjukkan pada sumbu x.
Gambar ini menyajikan hasil memvariasikan masing-masing nilai data dalam batch (yang sama dianalisis pada gambar pertama). Ada satu plot untuk setiap nilai data, yang disorot pada plotnya dengan centang hitam panjang di sepanjang sumbu bawah. (Nilai data yang tersisa ditunjukkan dengan kutu abu-abu pendek.) Kurva biru menelusuri ringkasan - rata-rata aritmatika - dan kurva merah menelusuri ringkasan - median. (Karena sering median adalah rentang nilai, konvensi merencanakan tengah rentang tersebut diikuti di sini.)L 2 L 1- 1,02 , - 0,82 , - 0,23 , - 0,17 , - 0,08 , 0,77L.2L.1
Memperhatikan:
Sensitivitas rata-rata tidak terbatas: garis-garis biru itu memanjang jauh ke atas dan ke bawah. Sensitivitas median dibatasi: ada batas atas dan bawah pada kurva merah.
Meskipun median berubah, ia berubah jauh lebih cepat daripada rata-rata. Kemiringan setiap garis biru adalah (umumnya untuk dataset dengan nilai ), sedangkan kemiringan bagian miring dari garis merah semuanya .1 / n n 1 / 21 / 61 / nn1 / 2
Rerata sensitif terhadap setiap titik data dan sensitivitas ini tidak memiliki batas (seperti kemiringan nol dari semua garis berwarna di plot kiri bawah gambar pertama menunjukkan). Meskipun median sensitif terhadap setiap titik data, sensitivitasnya dibatasi (itulah sebabnya kurva berwarna di plot kanan bawah gambar pertama terletak dalam kisaran vertikal sempit di sekitar nol). Ini, tentu saja, hanyalah pengulangan visual dari kekuatan dasar (kehilangan) hukum: kuadrat untuk mean, linier untuk median.
Interval di mana median dapat dibuat untuk berubah dapat bervariasi di antara titik data. Itu selalu dibatasi oleh dua nilai dekat-menengah di antara data yang tidak bervariasi . (Batas-batas ini ditandai oleh garis putus-putus vertikal samar.)
Karena laju perubahan median selalu , jumlah yang dapat bervariasi karenanya ditentukan oleh panjangnya kesenjangan antara nilai-nilai dekat-menengah dari dataset.1 / 2
Meskipun hanya poin pertama yang umum dicatat, keempat poin itu penting. Khususnya,
Jelas salah bahwa "median tidak bergantung pada setiap nilai." Angka ini memberikan contoh tandingan.
Namun demikian, median tidak bergantung "secara material" pada setiap nilai dalam arti bahwa meskipun mengubah nilai individu dapat mengubah median, jumlah perubahan dibatasi oleh kesenjangan antara nilai-nilai hampir menengah dalam dataset. Secara khusus, jumlah perubahan dibatasi . Kami mengatakan bahwa median adalah ringkasan "tahan".
Meskipun rata-rata tidak tahan , dan akan mengubah setiap kali setiap nilai data berubah, tingkat perubahan relatif kecil. Semakin besar dataset, semakin kecil tingkat perubahannya. Secara setara, untuk menghasilkan perubahan material dalam rata-rata dataset yang besar, setidaknya satu nilai harus menjalani variasi yang relatif besar. Ini menunjukkan bahwa non-resistance dari mean hanya menjadi perhatian untuk (a) dataset kecil atau (b) dataset di mana satu atau lebih data mungkin memiliki nilai yang sangat jauh dari tengah batch.
Pernyataan ini - yang saya harap angka-angkanya menjadi jelas - mengungkapkan hubungan yang mendalam antara fungsi kerugian dan sensitivitas (atau resistensi) dari estimator. Untuk lebih lanjut tentang ini, mulailah dengan salah satu artikel Wikipedia tentang penduga-M dan kemudian kejar ide-ide itu sejauh yang Anda suka.
Kode
R
Kode ini menghasilkan angka-angka dan dapat dengan mudah dimodifikasi untuk mempelajari dataset lain dengan cara yang sama: cukup ganti vektor yang dibuat secara acak y
dengan vektor angka apa pun.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}