Kesalahan standar median


14

Apakah rumus berikut ini benar jika saya ingin mengukur kesalahan standar median dalam kasus sampel kecil dengan distribusi tidak normal (saya menggunakan python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Jawaban:


12

Berdasarkan beberapa komentar @ mary, saya pikir yang berikut ini sesuai. Dia tampaknya memilih median karena sampelnya kecil.

Jika Anda memilih median karena sampel kecil itu bukan pembenaran yang baik. Anda memilih median karena median adalah nilai penting. Ia mengatakan sesuatu yang berbeda dari rata-rata. Anda juga dapat memilihnya untuk beberapa perhitungan statistik karena kuat terhadap masalah tertentu seperti pencilan atau kemiringan. Namun, ukuran sampel yang kecil bukan salah satu masalah yang sangat kuat. Misalnya, ketika ukuran sampel semakin kecil itu sebenarnya jauh lebih sensitif terhadap kemiringan daripada rata-rata.


John terima kasih! Sebenarnya saya memilih untuk menggunakan median sebagai pengganti mean karena alasan yang baru saja Anda tulis. Saya punya sampel yang berbeda, semuanya memiliki distribusi non-gaussian. Ada sampel yang mengandung lebih dari 50 poin, lainnya mengandung kurang dari 10 poin, tetapi untuk semuanya saya pikir komentar Anda valid, bukan?
maria

Dengan begitu sedikit poin saya tidak yakin apa yang dapat Anda katakan tentang distribusi yang mendasarinya. Jika Anda membandingkan sampel yang mengandung kurang dari 10 dengan sampel yang mengandung 50 dan distribusi yang mendasarinya tidak simetris, median akan menunjukkan efek bahkan jika tidak ada satu karena akan memiliki lebih banyak bias dalam sampel kecil daripada yang besar. Artinya tidak akan.
John

Di masa depan menyempurnakan pertanyaan Anda lebih baik dan bertanya lebih banyak tentang apa yang benar-benar perlu Anda ketahui. Katakan mengapa Anda telah melakukan apa yang telah Anda lakukan sejauh ini dan jelaskan data yang Anda miliki dengan baik. Anda akan mendapatkan jawaban yang jauh lebih baik.
John

1
" ukuran sampel kecil bukan salah satu masalah yang sangat kuat " bernilai +1 sendiri; sisanya adalah bonus
Glen_b -Reinstate Monica

Faktanya, Huber menegaskan dalam bukunya bahwa tidak ada konsep ketahanan yang tunggal. Ada kekuatan untuk outlier (dan itulah yang median kuat untuk). Pandangan lain, bagaimanapun, adalah kekokohan terhadap kesalahan pengukuran, dan itulah yang dimaksudkan untuk kuat, karena rata-rata kesalahan pengukuran ini. Median, bagaimanapun, sangat rentan terhadap fluktuasi kesalahan pengukuran karena mereka dapat mempengaruhi bagian tengah distribusi sama buruknya dengan ekor.
Tugas

12

Sokal dan Rohlf memberikan formula ini dalam buku mereka Biometry (halaman 139). Di bawah "Komentar tentang penerapan" mereka menulis: Sampel besar dari populasi normal. Jadi, saya khawatir jawaban untuk pertanyaan Anda adalah tidak. Lihat juga di sini .

Salah satu cara untuk mendapatkan interval kesalahan dan kepercayaan standar untuk median dalam sampel kecil dengan distribusi tidak normal adalah bootstrap. Posting ini menyediakan tautan ke paket Python untuk bootstrap.

Peringatan

@whuber menunjukkan bahwa bootstrap median dalam sampel kecil tidak terlalu informatif karena pembenaran bootstrap adalah asimptotik (lihat komentar di bawah).


Terima kasih atas jawaban anda! Saya tahu bahwa bootstrap akan menjadi alternatif, saya hanya menebak jika ada cara untuk mengukur kesalahan median dengan cara yang berbeda. Apakah jawabannya tidak juga untuk kesalahan standar pada MEAN (sampel non gaussian kecil yang sama)?
maria

@Ringkasan Untuk kesalahan standar rata-rata, Sokal dan Rohl menulis bahwa itu berlaku untuk "[...] populasi dengan varian terbatas." Jadi jawaban untuk kesalahan standar dari rata-rata tampaknya ya, Anda dapat menghitungnya. Sidenote: Ada distribusi meskipun (misalnya distribusi Cauchy) yang tidak memiliki varian atau rata-rata yang ditentukan dan dalam kasus seperti itu, SEM tidak dapat dihitung.
COOLSerdash

5
tt

@whuber Terima kasih atas komentar Anda. Senang mendengarnya. Saya menghapus saran untuk mem-bootstrap median dalam sampel kecil dari jawaban saya.
COOLSerdash

1
Saya tidak mencoba menyarankan itu saran yang buruk: Saya hanya ingin menunjukkan keterbatasannya (yang tidak dapat dihindari). Belajar banyak dari sampel kecil itu sulit. Tetapi bootstrap sampel kecil sangat berlipat ganda, karena tidak ada pembenaran teoretis untuk mendukungnya (semua pembenarannya adalah asimptotik).
whuber

12

Angka ajaib 1,253 berasal dari rumus varians asimptotik :

SEBUAHs.VSebuahr.[m^]=14f(m)2n
dimana m adalah median yang benar, dan f(m) adalah kepadatan sebenarnya pada saat itu.

Untuk distribusi apa pun selain yang normal (dan mary mengakui bahwa ini meragukan dalam datanya), Anda akan memiliki faktor yang berbeda. Mendapatkan taksiran medianm^bukan masalah besar, meskipun Anda bisa mulai menderita tentang nilai-nilai tengah untuk jumlah pengamatan genap vs membalikkan cdf atau sesuatu seperti itu. Nilai kerapatan yang relevan dapat diperkirakan oleh penaksir kerapatan kernel , jika perlu. Secara keseluruhan, ini tentu saja relatif meragukan karena tiga pendekatan diambil:

  1. Bahwa formula asimptotik untuk varian bekerja untuk sampel kecil;
  2. Bahwa median yang diperkirakan cukup dekat dengan median yang sebenarnya;
  3. Penaksir kepadatan kernel memberikan nilai yang akurat.

Semakin rendah ukuran sampel, semakin meragukan.


3
Mungkin perlu ditambahkan bahwa angka ajaibnya adalah π21.253314
Henry
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.