Perkiraan median yang tidak bias


16

Misalkan kita memiliki variabel acak didukung pada dari mana kita dapat mengambil sampel. Bagaimana kita bisa menghasilkan estimasi median ?X[0,1]X

Kita tentu saja dapat menghasilkan beberapa sampel dan mengambil median sampel, tetapi saya mengerti ini secara umum tidak akan memihak.

Catatan: pertanyaan ini terkait, tetapi tidak identik, dengan pertanyaan terakhir saya , di mana kasus hanya bisa dijadikan sampel.X

Jawaban:


13

Penaksir seperti itu tidak ada.

Intuisi adalah bahwa median dapat tetap tetap sementara kita dengan bebas menggeser kepadatan probabilitas di kedua sisi itu, sehingga setiap penaksir yang nilai rata-rata adalah median untuk satu distribusi akan memiliki rata-rata yang berbeda untuk distribusi yang diubah, membuatnya bias. Eksposisi berikut memberikan sedikit ketegaran untuk intuisi ini.


Kami fokus pada distribusi memiliki median unik , sehingga menurut definisi dan untuk semua . Perbaiki ukuran sampel dan anggap bahwa perkiraan . (Ini akan cukup bahwa hanya dibatasi, tetapi biasanya seseorang tidak secara serius mempertimbangkan penduga yang menghasilkan nilai yang jelas tidak mungkin.) Kami tidak membuat asumsi tentang ; bahkan tidak harus berkelanjutan di mana pun.FmF(m)1/2F(x)<1/2x<mn1t:[0,1]n[0,1]mtt

Arti dari tidak bias (untuk ukuran sampel tetap ini) adalah itut

EF[t(X1,,Xn)]=m

untuk setiap sampel iid dengan . "Estimator yang tidak memihak" adalah satu dengan properti ini untuk semua seperti itu .XiFtF

Misalkan ada penduga yang tidak bias. Kami akan mendapatkan kontradiksi dengan menerapkannya pada rangkaian distribusi yang sangat sederhana. Pertimbangkan distribusi memiliki properti ini:F=Fx,y,m,ε

  1. 0x<y1 ;

  2. 0<ε<(yx)/4 ;

  3. x+ε<m<yε ;

  4. Pr(X=x)=Pr(X=y)=(1ε)/2 ;

  5. Pr(mεXm+ε)=ε ; dan

  6. F seragam pada .[mε,m+ε]

Distribusi ini menempatkan probabilitas pada masing-masing dan dan sejumlah kecil probabilitas secara simetris ditempatkan di sekitar antara dan . Merek ini median yang unik dari . (Jika Anda khawatir ini bukan distribusi berkelanjutan, gabungkan dengan Gaussian yang sangat sempit dan kurangi hasilnya menjadi : argumennya tidak akan berubah.)(1ε)/2xymxymF[0,1]

Sekarang, untuk setiap diduga median estimator , perkiraan menunjukkan mudah yang secara ketat dalam dari rata-rata dari nilai mana bervariasi pada semua kombinasi yang mungkin dari dan . Namun, kita dapat memvariasikan antara dan , perubahan setidaknya (berdasarkan kondisi 2 dan 3). Jadi ada , dan dari mana distribusi yang sesuaitE[t(X1,X2,,Xn)]ε2nt(x1,x2,,xn)xixymx+εyεεmFx,y,m,ε, untuk yang harapan ini tidak sama dengan median, QED.


(+1) Bukti bagus. Apakah Anda datang dengan itu, atau itu sesuatu yang Anda ingat dari sekolah pascasarjana?
Tugas

4
Ini bukti lain: Kebanyakan variabel acak Bernoulli memiliki median atau . Estimasi dari percobaan hanya bergantung pada nilai rata-rata estimator pada simpul dengan , dan bobot nilai rata-rata ini adalah polinomial dalam derajat . Jika ini adalah penaksir yang tidak bias, ia harus memiliki nilai rata-rata untuk , dan ada lebih dari nilai-nilai , sehingga polinomial ini harus konstan ... tetapi harus pada nilai lebih rendah , jadi tidak bisa tidak bias di sana juga.01n[0,1]nkpn1p>1/2n+1p0p
Douglas Zare

1
@ Douglas Itu bukti bagus. Saya menduga beberapa orang mungkin merasa sedikit tidak nyaman tentang ruang lingkup penerapannya, karena median untuk variabel Bernoulli agak istimewa, karena bertepatan dengan salah satu dari dua titik dukungannya (kecuali ketika ). Pembaca mungkin tergoda untuk menyatakan ini sebagai "patologis" dan mencoba untuk melarang monster seperti itu dengan hanya melihat distribusi terus menerus dengan kepadatan positif di mana-mana di domain mereka. Itu sebabnya saya berhati-hati untuk menunjukkan bahwa upaya seperti itu akan gagal. p=1/2
whuber

3

Menemukan estimator yang tidak bias tanpa memiliki model parametrik akan sulit! Tapi Anda bisa menggunakan bootstrap, dan menggunakannya untuk memperbaiki median empiris untuk mendapatkan penaksir yang tidak bias.


Jika ini tidak mungkin, apakah mungkin untuk membuktikannya? Misalnya, jika adalah sampel independen dari maka dapatkah seseorang membuktikan bahwa tidak dapat objektif untuk setiap pilihan ? X1,X2,,XnXf(X1,,Xn)f
robinson

2
Saya pikir kjetil mengatakan bahwa dalam kerangka nonparametrik tidak ada metode yang akan memberikan perkiraan yang tidak bias untuk setiap distribusi yang mungkin. Tetapi dalam kerangka parametrik Anda mungkin bisa. Bootstrap estimasi sampel yang bias dapat memungkinkan Anda untuk memperkirakan bias dan menyesuaikannya untuk mendapatkan estimasi bootstrap yang hampir tidak bias. Itulah sarannya untuk menangani masalah dalam kerangka nonparametrik. Membuktikan bahwa estimasi yang tidak bias tidak mungkin juga akan sulit.
Michael R. Chernick

2
Jika Anda benar-benar ingin mencoba membuktikan bahwa tidak ada penaksir yang tidak bias, ada sebuah buku, Ferguson: "Statistik Matematika - Suatu Pendekatan Teori Keputusan" yang memiliki beberapa contoh hal semacam itu!
kjetil b halvorsen

Saya membayangkan bahwa kondisi keteraturan untuk bootstrap akan dilanggar dengan fungsi distribusi yang dipertimbangkan Whuber dalam jawabannya. Michael, bisakah Anda berkomentar?
Tugas

2
@Stas Seperti yang saya tunjukkan, fungsi saya dapat dibuat terlihat sangat "bagus" dengan meredakannya. Mereka juga dapat digeneralisasi untuk meredakan campuran-campuran atom berhingga yang besar. Kelas distribusi seperti itu padat di semua distribusi pada interval unit, jadi saya tidak berpikir keteraturan bootstrap akan terlibat di sini.
Whuber

0

Saya percaya regresi kuantil akan memberi Anda penaksir median yang konsisten. Diberikan model . Dan Anda ingin memperkirakan karena adalah konstanta. Yang Anda butuhkan adalah yang seharusnya benar selama Anda memiliki undian independen. Namun, sejauh tidak memihak, saya tidak tahu. Median itu sulit.Y=α+umed(y)=med(α+u)=α+med(u)αmed(u)=0


Lihat jawaban @whuber
Peter Flom - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.