Jika rata-rata sangat sensitif, mengapa menggunakannya sejak awal?


84

Ini adalah fakta yang diketahui bahwa median tahan terhadap pencilan. Jika itu masalahnya, kapan dan mengapa kita akan menggunakan mean di tempat pertama?

Satu hal yang bisa saya pikirkan adalah memahami keberadaan outlier yaitu jika median jauh dari rata-rata, maka distribusinya miring dan mungkin data perlu diperiksa untuk memutuskan apa yang harus dilakukan dengan outlier. Apakah ada kegunaan lain?


14
Mengenai pertanyaan pertama, catatan singkat: Rata-rata dalam statistik hanyalah momen pertama dari suatu populasi , sementara median tidak. Mencari untuk menggunakan CLT, hukum jumlah besar, dll. Anda lagi terhubung dengan keberadaan momen yang terbatas. Meskipun mengambil contoh distribusi Cauchy: median ada, sementara rata-rata tidak;)
Dmitrij Celov

2
@Dmitrij Itu adalah jawaban yang mendalam dan berwawasan luas. Mengapa Anda tidak menjelaskannya dalam balasan?
whuber

Jika Anda tidak menggunakan cara Anda akan melukai perasaannya? (Maaf, tidak bisa menahan diri.)
Daniel R Hicks

3
@ Daniel R Hicks: Dan itu sangat kejam, bukan? (Maaf, tidak bisa menahan juga).
Muhammad Alkarouri

3
Pertanyaan ini jauh lebih menarik dari biasanya, "Kenapa kita tidak selalu menggunakan algoritma yang kuat?" pertanyaan, tetapi mungkin memiliki pemikiran dasar yang sama dengan "robust == magical" dan jika kami hanya menggunakan metode yang kuat, kami tidak perlu memeriksa data kami, memahaminya, atau khawatir tentang berbagai jenis masalah akurasi, karena mereka "kuat". Tetap, +1.
Wayne

Jawaban:


113

2πn

Sangat menarik untuk dicatat bahwa untuk ukuran variasi (spread, dispersi), ada estimator yang sangat kuat yaitu 0,98 seefisien deviasi standar, yaitu perbedaan rata-rata Gini. Ini adalah perbedaan mutlak rata-rata antara dua pengamatan. [Anda harus melipatgandakan deviasi standar sampel dengan konstanta untuk memperkirakan kuantitas yang sama dengan selisih rata-rata Gini.] Ukuran efisien kecenderungan sentral adalah estimator Hodges-Lehmann, yaitu median dari semua cara berpasangan. Kami akan menggunakannya lebih banyak jika interpretasinya lebih sederhana.


13
+1 untuk menyebutkan penaksir kecenderungan pusat Hodges-Lehmann. Dalam banyak hal itu adalah di antara rata-rata dan median. Kalau saja itu mudah untuk menghitung dalam sampel besar itu akan lebih populer daripada rata-rata atau median sebagai ukuran lokasi, saya pikir.
ttnphns

BTW, @ Frank, apakah Anda tahu distribusi sampel teoritis mana yang diikuti oleh pusat Hodges-Lehmann? Saya tidak - dan saya tertarik.
ttnphns

16
Terima kasih atas komentarnya. Sebuah satu-liner R dapat menghitung secara efisien hingga N = 5000: w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2. Program C, Fortran, atau Ratfor yang sepele bisa dipanggil oleh R untuk membuatnya menyala cepat. Paket ICSNP dalam R memiliki implementasi yang cukup efisien dengan hl.locfungsinya. Untuk N = 5000 itu 2,66 kali lebih cepat dari kode di atas (total waktu 1,5 detik). Akan menyenangkan juga mendapatkan interval kepercayaan secara efisien.
Frank Harrell

SnQnσ

1
Kita berbicara tentang ukuran dispersi sehingga perbandingan model tidak dipermasalahkan (dan jangan bingung dengan "Indeks Gini"). Perbedaan rata-rata Gini adalah ukuran absolut. Lebih mudah untuk menafsirkan daripada langkah-langkah lainnya. Fakta bahwa Anda perlu menghitung konstanta yang berbeda untuk setiap distribusi memberitahu saya bahwa kami tidak ingin menggunakan konstanta.
Frank Harrell

36

Sudah banyak jawaban bagus, tetapi, mundur dan sedikit lebih mendasar, saya katakan itu karena jawaban yang Anda dapatkan tergantung pada pertanyaan yang Anda ajukan. Rata-rata dan median menjawab berbagai pertanyaan - terkadang yang satu sesuai, kadang yang lain.

Sangat sederhana untuk mengatakan bahwa median harus digunakan ketika ada outlier, atau untuk distribusi miring, atau apa pun. Tapi itu tidak selalu terjadi. Ambil penghasilan - hampir selalu dilaporkan dengan median, dan biasanya itu benar. Tetapi jika Anda melihat kekuatan belanja seluruh komunitas, itu mungkin tidak benar. Dan dalam beberapa kasus, bahkan mode mungkin yang terbaik (khususnya jika data dikelompokkan).


8
Memberi +1 untuk poin yang jelas yang tampaknya tidak disapa orang lain: mereka adalah konsep yang berbeda dan menjawab pertanyaan yang berbeda. Juga dalam banyak kasus banyak yang hilang dengan memadatkan seluruh distribusi menjadi satu nomor ringkasan, jadi kadang-kadang mereka berdua melakukan pekerjaan yang buruk.
Michael McGowan

25

Ketika suatu nilai adalah sampah bagi kami, kami menyebutnya "outliar" dan ingin analisis kuat terhadapnya (dan lebih suka median); ketika nilai yang sama menarik, kami menyebutnya "ekstrem" dan ingin analisis menjadi peka terhadapnya (dan lebih disukai berarti). Dialektika...

Berarti bereaksi sama terhadap pergeseran nilai terlepas dari di mana dalam distribusi terjadi pergeseran. Misalnya, 1 2 3 4 5Anda dapat meningkatkan nilai apa pun sebesar 2 - peningkatan rata-rata akan sama. Reaksi Median kurang "konsisten": tambahkan 2 ke titik data 4 atau 5, dan median tidak akan meningkat; tetapi tambahkan 2 ke poin 2 - sehingga pergeserannya melebihi median, dan median berubah secara dramatis (jauh dari rata-rata akan berubah).

Berarti selalu tepat berada. Median tidak; misalnya, dalam set nilai 1 2 3 4 apa pun antara 2 dan 3 dapat disebut median. Dengan demikian, analisis berdasarkan median tidak selalu merupakan solusi unik.

Mean adalah lokus jumlah minimum penyimpangan kuadrat. Banyak tugas pengoptimalan berdasarkan aljabar linier (termasuk regresi OLS yang terkenal) meminimalkan kesalahan kuadrat ini dan karenanya menyiratkan konsep rata-rata. Median lokus jumlah minimum penyimpangan mutlak. Teknik optimasi untuk meminimalkan kesalahan semacam itu adalah non-linear dan lebih kompleks / kurang dikenal.


2
+1 Saya punya sedikit kekhawatiran bahwa paragraf pertama mungkin disalahpahami karena menyiratkan deteksi outlier sepenuhnya merupakan proses subyektif. Saya tidak berpikir Anda bermaksud mengatakan itu.
whuber

8
+1 | Saya pikir kalimat pertama menyiratkan bahwa penerapan deteksi outlier sepenuhnya subyektif dan karena itu saya memilih untuk tetap apa adanya.
John

2
Maksud saya deteksi outliar adalah prosedur yang ketat dengan akar filosofis atau moral
subyektif

3
@ttnphns, ejaan "outliar" bukannya "outlier" disengaja, atau tidak?
mpiktas

1
Kesalahan ketik yang tidak disengaja.
ttnphns

16

Ada banyak jawaban untuk pertanyaan ini. Ini salah satu yang Anda mungkin tidak akan melihat di tempat lain jadi saya memasukkannya di sini karena saya percaya itu berkaitan dengan topik. Orang sering percaya bahwa karena median dianggap sebagai ukuran yang kuat sehubungan dengan outlier, itu juga kuat untuk sebagian besar segalanya. Bahkan, itu juga dianggap kuat untuk bias dalam distribusi miring. Dua sifat kuat dari median ini sering diajarkan bersama. Orang mungkin mencatat bahwa distribusi miring yang mendasari juga cenderung menghasilkan sampel kecil yang terlihat seperti mereka memiliki outlier dan kebijaksanaan konvensional adalah bahwa seseorang menggunakan median dalam situasi seperti itu.

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(hanya demonstrasi bahwa ini miring dan bentuk dasarnya)

hist(rexg(1e4, 0, 1, 1))

merencanakan

Sekarang, mari kita lihat apa yang terjadi jika kita sampel dari distribusi ini berbagai ukuran sampel dan menghitung median dan bermaksud untuk melihat apa perbedaan di antara mereka.

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

Seperti yang bisa dilihat dari plot di atas, median (merah) jauh lebih sensitif terhadap n daripada rata-rata. Ini bertentangan dengan beberapa kebijaksanaan konvensional tentang penggunaan median dengan ns rendah, terutama jika distribusinya mungkin miring. Dan, itu memperkuat titik bahwa nilai tengah adalah nilai yang diketahui sementara median peka terhadap sifat-sifat lainnya, satu jika yang menjadi n.

Analisis ini mirip dengan Miller, J. (1988). Peringatan tentang waktu reaksi tengah. Jurnal Psikologi Eksperimental: Persepsi dan Kinerja Manusia , 14 (3): 539-543.

REVISI

Setelah memikirkan masalah kemiringan, saya menganggap bahwa dampak pada median mungkin hanya karena dalam sampel kecil Anda memiliki probabilitas lebih besar bahwa median berada di ujung distribusi, sedangkan mean akan hampir selalu tertimbang oleh nilai-nilai lebih dekat ke nilai mode. Oleh karena itu, mungkin jika seseorang hanya mengambil sampel dengan kemungkinan pencilan maka mungkin hasil yang sama akan terjadi.

Jadi saya berpikir tentang situasi di mana outlier dapat terjadi dan eksperimen dapat mencoba untuk menghilangkannya.

Jika pencilan terjadi secara konsisten, seperti satu dalam setiap pengambilan sampel data tunggal, maka median kuat terhadap efek pencilan ini dan kisah konvensional tentang penggunaan median berlaku.

Tapi biasanya tidak seperti itu.

Orang mungkin menemukan pencilan dalam sangat sedikit sel percobaan dan memutuskan untuk menggunakan median, bukan rata-rata dalam kasus ini. Sekali lagi, median lebih kuat tetapi dampak sebenarnya relatif kecil karena ada sangat sedikit outlier. Ini pasti akan menjadi kasus yang lebih umum daripada yang di atas tetapi efek menggunakan median mungkin akan sangat kecil sehingga tidak masalah.

Mungkin outlier yang lebih umum mungkin merupakan komponen acak dari data. Sebagai contoh, rata-rata sebenarnya dan standar deviasi populasi mungkin sekitar 0 tetapi ada persentase waktu kita sampel dari populasi outlier di mana rata-rata adalah 3. Pertimbangkan simulasi berikut, di mana hanya populasi seperti itu sampel yang memvariasikan sampel bervariasi ukuran.

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

hasil

Median dalam warna merah dan rata-rata dalam warna hitam. Ini adalah temuan yang mirip dengan distribusi yang miring.

Dalam contoh yang relatif praktis tentang penggunaan median untuk menghindari efek outlier kita dapat menemukan situasi di mana estimasi dipengaruhi oleh n lebih banyak ketika median digunakan daripada ketika rata-rata digunakan.


Contoh yang bagus, tapi itu sangat tergantung pada distribusinya. Jika Anda menggunakan distribusi normal atau distribusi seragam, grafiknya sangat berbeda, dengan dua garis ditumpangkan. Distribusi eksponensial yang menghasilkan perbedaan.
nico

1
-1 Jawaban ini membingungkan "sensitivitas" dengan "bias."
whuber

4
Jauh lebih baik; Saya telah menghapus downvote. Tapi saya tertarik dengan penjelasan baru: dapatkah Anda menunjukkan beberapa sumber - teks, kertas, atau situs Web - yang sebenarnya membuat klaim "[median] juga dianggap kuat untuk bias dalam distribusi yang miring" dan menjelaskan apa artinya itu? Saya belum pernah menemukan klaim seperti itu sebelumnya dan tidak yakin apa yang sebenarnya dikatakannya.
whuber

3
Ini lebih banyak pengetahuan orang untuk berurusan dengan waktu reaksi (dikenal miring) dalam penelitian psikologi. Saya memasukkan referensi ke sebuah makalah yang menyangkal kearifan rakyat dalam psikologi (bahwa saya merasa tidak enak karena tidak merujuk sebelumnya).
John

3
BTW, meskipun Miller (1988) kertas orang masih menggunakan waktu reaksi rata-rata dalam studi dengan manipulasi probabilitas di mana kondisi memiliki jumlah sampel yang berbeda dan yang lebih rendah biasanya agak kecil.
John

11
  • Dari rata-rata, mudah untuk menghitung jumlah dari semua item, misalnya jika Anda mengetahui pendapatan rata-rata populasi dan ukuran populasi, Anda dapat segera menghitung total pendapatan seluruh populasi.

  • Rata-rata sangat mudah untuk menghitung O(n)kompleksitas waktu. Menghitung median dalam waktu linier dimungkinkan tetapi membutuhkan lebih banyak pemikiran. Solusi yang jelas membutuhkan penyortiran memiliki O(n log n)kompleksitas waktu yang lebih buruk ( ).

Dan saya berspekulasi bahwa ada alasan lain mengapa rata-rata lebih populer daripada median:

  • Rata-rata diajarkan kepada lebih banyak orang di sekolah dan mungkin diajarkan sebelum mengajar median

Untuk titik kompleksitas waktu Anda, itu tergantung pada bagaimana nilai disimpan. Jika nilai-nilai sudah diurutkan, maka mungkin untuk menghitung median dalam O (1) kompleksitas waktu kasus terburuk.
luiscubal

Saya setuju - penerapannya dalam perhitungan seperti jumlah adalah salah satu keunggulan utama mean. Sementara saya sering lebih suka median ketika tujuannya adalah untuk mendeskripsikan sesuatu, kita sering menggunakan mean ketika input untuk perhitungan lain.
Jonathan

5

"Sudah diketahui bahwa median tahan terhadap pencilan. Jika itu masalahnya, kapan dan mengapa kita akan menggunakan mean pada awalnya?"

Dalam kasus seseorang tahu tidak ada outlier, misalnya ketika seseorang tahu proses menghasilkan data (misalnya dalam statistik matematika).

Satu harus menunjukkan sepele, bahwa, dua kuantitas ini (rata-rata dan median) sebenarnya tidak mengukur hal yang sama dan bahwa sebagian besar pengguna meminta yang pertama ketika apa yang mereka benar-benar tertarik pada yang terakhir (poin ini digambarkan dengan baik oleh tes Wilcoxon berbasis median yang lebih mudah ditafsirkan daripada tes-t).

Lalu, ada kasus-kasus di mana untuk beberapa alasan kebetulan atau lain, beberapa peraturan memaksakan penggunaan maksudnya.


2

Jika kekhawatiran adalah tentang keberadaan pencilan, ada beberapa cara langsung untuk memeriksa data Anda.

Pencilan, hampir secara definisi, masuk ke data kami ketika sesuatu berubah baik dalam proses menghasilkan data atau dalam proses mengumpulkan data. yaitu data tidak lagi homogen. Jika data Anda tidak homogen, maka mean dan median tidak masuk akal, karena Anda mencoba memperkirakan kecenderungan sentral dari dua set data terpisah yang telah dicampur bersama.

Metode terbaik untuk memastikan homogenitas adalah memeriksa proses pengumpulan dan pengumpulan data untuk memastikan bahwa semua data Anda berasal dari satu set proses. Tidak ada yang mengalahkan sedikit kekuatan otak, di sini.

Sebagai pemeriksaan sekunder, Anda dapat beralih ke salah satu dari beberapa tes statistik: chi-squared, Dixon Q-test, Grubb's test atau diagram kontrol / diagram perilaku proses (biasanya X-bar R atau XmR). Pengalaman saya adalah bahwa, ketika data Anda dapat dipesan seperti yang dikumpulkan, bagan perilaku proses lebih baik dalam mendeteksi outlier daripada tes outlier. Penggunaan ini untuk grafik mungkin agak kontroversial, tapi saya percaya itu sepenuhnya konsisten dengan maksud asli Shewhart dan ini adalah penggunaan yang secara eksplisit dianjurkan oleh Donald Wheeler. Apakah Anda menggunakan tes pencilan atau bagan perilaku proses, ingatlah bahwa "pencilan" yang terdeteksi hanyalah potensi pensinyalannon-homogenitas yang perlu diteliti lebih lanjut. Jarang masuk akal untuk membuang poin data jika Anda tidak memiliki penjelasan tentang mengapa mereka outlier.

Jika Anda menggunakan R, paket outlier menyediakan tes outlier, dan untuk bagan perilaku proses ada qcc , IQCC dan qAnalyst. Saya memiliki preferensi pribadi untuk penggunaan dan output dari paket qcc.


2

Kapan Anda mungkin menginginkannya?

Contoh dari keuangan:

  • Pengembalian obligasi:
    • Pengembalian obligasi median umumnya akan menjadi beberapa poin persentase.
    • Pengembalian obligasi rata-rata mungkin rendah atau tinggi tergantung pada tingkat default dan pemulihan di default. Median akan mengabaikan semua ini!
    • Selamat mencoba menjelaskan kepada investor Anda, "Saya tahu dana kami turun 40% tahun ini karena hampir setengahnya obligasi bangkrut tanpa pemulihan, tetapi median obligasi kami mengembalikan 1%!"
  • Pengembalian modal ventura:
    • Hal yang sama terbalik. Median VC atau investasi malaikat adalah sebuah kegagalan, dan semua pengembaliannya datang dari beberapa pemenang! (Catatan / peringatan: perkiraan modal ventura atau pengembalian ekuitas swasta sangat bermasalah ... hati-hati!)

Ketika membentuk portofolio yang terdiversifikasi, memutuskan untuk berinvestasi apa dan berapa banyak, rata-rata dan kovarians pengembalian cenderung menjadi faktor penting dalam masalah optimasi Anda.


Setuju, tetapi tampaknya rata-rata atau median bukanlah fokus dalam situasi-situasi ini: itu lebih berarti bahwa total dapat menjadi jumlah kunci. Secara alami itu menyiratkan pada gilirannya itu berarti ringkasan akan lebih baik daripada median. Tetapi dengan mengingat bahwa pengembalian obligasi median mungkin merupakan jawaban konyol, tetapi apakah ada yang mengusulkannya?
Nick Cox

@NickCox Dua komentar. (1) Intinya pengembalian obligasi adalah konyol! Ada teori yang bagus dalam jawaban ini, tetapi saya pikir contoh yang sangat sederhana mungkin menambah warna. Mengutip jawaban Frank, "mean digunakan karena sensitif terhadap data" dan pengembalian portofolio memberikan situasi yang sederhana dan dapat dimengerti di mana Anda menginginkannya. (2) Perbedaan antara peduli tentang "total" vs peduli tentang "rata-rata" bisa agak kabur. "Haruskah aku berinvestasi dalam hedge fund?" Untuk menjawab itu, mungkin saya ingin tahu, "apa arti pengembalian dana lindung nilai?"
Matthew Gunn

1
(1) Saya setuju, seperti yang dikatakan; pertanyaan saya hanya apakah median disebutkan secara serius dalam pengajaran atau literatur penelitian untuk tujuan ini. (2) Saya pikir poin saya tidak jelas; ini adalah pertanyaan sederhana tentang apa yang datang pertama, yaitu kepentingan utama praktis. Saya melihat berita utama "geng dipenjara selama total 200 tahun" dan saya tahu mengapa mereka dicetak, tapi itu cara yang aneh untuk merangkum. Sebaliknya, 200 orang tewas dalam serangkaian bencana adalah yang utama, bukan 5 bencana dengan rata-rata 40 orang tewas di setiap bencana. Masalah (kecil) adalah memilih pernyataan ringkasan mana yang paling cocok.
Nick Cox

@NickCox Point diambil. Saya setuju Anda peduli dengan total investasi Anda sendiri. Ketika membentuk portofolio dan menentukan bobot portofolio pada sekuritas tertentu, Anda akan memperhatikan properti dari pengembalian sekuritas itu. Saya tidak akan membeli SEMUA obligasi daerah, saya tidak secara langsung peduli dengan total, tetapi saya peduli tentang apa pengembalian rata-rata pada obligasi daerah? Apa risiko / pengembalian properti jika saya menambahkan beberapa ke portofolio saya?
Matthew Gunn

Sepakat. Itu wilayah di sini.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.