Estimasi Kemungkinan Maksimum - mengapa digunakan meskipun bias dalam banyak kasus

25

Estimasi kemungkinan maksimum seringkali menghasilkan estimasi bias (mis. Estimasi untuk varians sampel bias untuk distribusi Gaussian).

Lalu apa yang membuatnya begitu populer? Mengapa persisnya itu digunakan begitu banyak? Juga, apa yang secara khusus membuatnya lebih baik daripada pendekatan alternatif - metode momen?

Juga, saya perhatikan bahwa untuk Gaussian, penskalaan sederhana dari penaksir MLE membuatnya tidak bias. Mengapa penskalaan ini bukan prosedur standar? Maksud saya - Mengapa setelah perhitungan MLE, tidaklah rutin untuk menemukan penskalaan yang diperlukan untuk membuat estimator tidak bias? Praktik standar tampaknya menjadi perhitungan sederhana dari estimasi MLE, kecuali tentu saja untuk kasus Gaussian yang terkenal di mana faktor penskalaannya diketahui dengan baik.

normal-distribution maximum-likelihood method-of-moments

— Minaj
sumber

11

Ada banyak, banyak alternatif untuk ML, bukan hanya metode momen - yang juga cenderung menghasilkan estimator yang bias, omong-omong. Yang mungkin ingin Anda tanyakan adalah "mengapa ada orang yang ingin menggunakan estimator yang tidak bias?" Cara yang baik untuk mulai meneliti masalah ini adalah pencarian tradeoff bias-varians .

— whuber

7

Seperti yang ditunjukkan oleh whuber, tidak ada keunggulan intrinsik dalam bersikap tidak memihak.

— Xi'an

4

Saya pikir @whuber berarti "mengapa ada orang yang ingin menggunakan estimator yang bias ?" Tidak perlu banyak usaha untuk meyakinkan seseorang bahwa estimator yang tidak bias mungkin masuk akal.

— Cliff AB

5

Lihat en.wikipedia.org/wiki/... untuk contoh di mana satu-satunya penaksir yang tidak bias tentu bukan yang ingin Anda gunakan.

— Scortchi

4

@ Tebing Saya bermaksud mengajukan pertanyaan dalam bentuknya yang lebih provokatif dan berpotensi lebih misterius. Bersembunyi di balik ini adalah gagasan bahwa ada banyak cara untuk mengevaluasi kualitas estimator dan banyak dari mereka tidak ada hubungannya dengan bias. Dari sudut pandang, itu adalah yang paling alami untuk bertanya mengapa seseorang akan mengusulkan berisi estimator. Lihat jawaban glen_b untuk lebih dari sudut pandang ini.

— Whuber

18

Ketidakcocokan belum tentu sangat penting.

Selain keadaan yang sangat terbatas, sebagian besar penaksir yang berguna bias, namun diperoleh.

Jika dua penaksir memiliki varian yang sama, seseorang dapat dengan mudah me-mount argumen untuk memilih yang tidak bias daripada yang bias, tetapi itu adalah situasi yang tidak biasa terjadi (yaitu, Anda mungkin lebih suka ketidakberpihakan , ceteris paribus - tetapi mereka ceteris sial hampir tidak pernah paribus ).

Lebih khusus, jika Anda menginginkan ketidakberpihakan Anda akan menambahkan beberapa variasi untuk mendapatkannya, dan kemudian pertanyaannya adalah mengapa Anda melakukan itu ?

Bias adalah seberapa jauh nilai yang diharapkan dari penaksir saya akan terlalu tinggi rata-rata (dengan bias negatif menunjukkan terlalu rendah).

Ketika saya mempertimbangkan penduga sampel kecil, saya tidak terlalu peduli tentang itu. Saya biasanya lebih tertarik pada seberapa jauh penaksir saya akan dalam hal ini - jarak khas saya dari kanan ... sesuatu seperti kesalahan root-mean-square atau kesalahan absolut rata-rata akan lebih masuk akal.

Jadi jika Anda menyukai varians rendah dan bias rendah, meminta katakanlah penduga kesalahan kuadrat minimum rata-rata akan masuk akal; ini sangat jarang tidak bias.

Bias dan ketidakberpihakan adalah gagasan yang berguna untuk diperhatikan, tetapi itu bukan properti yang sangat berguna untuk dicari kecuali Anda hanya membandingkan estimator dengan varian yang sama.

Pengukur ML cenderung varians rendah; mereka biasanya bukan MSE minimum, tetapi mereka sering memiliki MSE yang lebih rendah daripada memodifikasi mereka menjadi tidak bias (ketika Anda bisa melakukannya sama sekali) akan memberi Anda.

Sebagai contoh, pertimbangkan memperkirakan varians ketika sampling dari distribusi normal (memang MMSE untuk varian selalu memiliki penyebut yang lebih besar daripada). $\hat{\sigma}^2_\text{MMSE} = \frac{S^2}{n+1}, \hat{\sigma}^2_\text{MLE} = \frac{S^2}{n}, \hat{\sigma}^2_\text{Unb} = \frac{S^2}{n-1}$ $n-1$

— Glen_b -Reinstate Monica
sumber

1

+1. Apakah ada intuisi untuk (atau mungkin beberapa teori di balik) paragraf kedua sebelum terakhir Anda? Mengapa estimator ML cenderung varians rendah? Mengapa mereka sering memiliki MSE yang lebih rendah daripada estimator yang tidak bias? Juga, saya kagum melihat ekspresi untuk penduga varians MMSE; entah kenapa aku belum pernah menjumpainya sebelumnya. Mengapa sangat jarang digunakan? Dan apakah itu ada hubungannya dengan penyusutan? Tampaknya "menyusut" dari tidak memihak ke nol, tetapi saya bingung karena saya terbiasa berpikir tentang penyusutan hanya dalam konteks multivariat (sepanjang garis James-Stein).

— Amuba kata Reinstate Monica

1

@amoeba MLE pada umumnya merupakan fungsi dari statistik yang cukup, dan setidaknya memiliki perbedaan minimal asimptotik, sehingga Anda mengharapkannya sebagai varian rendah dalam sampel besar, biasanya mencapai CRLB dalam batas; ini sering tercermin dalam sampel yang lebih kecil.

$\:$ Estimator MMSE yang umumnya menyusut menuju nol karena yang mengurangi varians (dan karenanya sejumlah kecil bias terhadap 0 diperkenalkan oleh penyusutan kecil biasanya akan mengurangi MSE).

— Glen_b -Reinstate Monica

{\hat{σ}}_{MMSE}^{2} = \frac{S^{2}}{n + 1}

$\hat{\sigma}^2_\text{MMSE} = \frac{S^2}{n+1}$

Juga, apakah itu menyiratkan penaksir varians ML bukan penaksir varians minimum? Kalau tidak, penaksir MSE minimum akan menjadi rata-rata tertimbang (dengan bobot positif) dari MLE dan penaksir tidak bias, tetapi sekarang berada di luar kisaran itu. Saya bisa mengajukan ini sebagai pertanyaan terpisah jika Anda pikir itu masuk akal.

— Richard Hardy

1

Menemukan seluruh derivasi dalam artikel Wikipedia tentang MSE , saya kira itu menjelaskan semuanya.

— Richard Hardy

16

MLE menghasilkan nilai parameter model yang paling mungkin , mengingat model dan data yang ada - yang merupakan konsep yang cukup menarik. Mengapa Anda memilih nilai parameter yang membuat data yang diamati kurang memungkinkan ketika Anda dapat memilih nilai yang membuat data yang paling mungkin diamati di seluruh rangkaian nilai? Apakah Anda ingin mengorbankan fitur ini untuk ketidakberpihakan? Saya tidak mengatakan jawabannya selalu jelas, tetapi motivasi untuk MLE cukup kuat dan intuitif.

Juga, MLE mungkin lebih banyak diterapkan daripada metode momen, sejauh yang saya tahu. MLE tampaknya lebih alami dalam kasus variabel laten; misalnya, model rata-rata bergerak (MA) atau model heteroskedastisitas kondisional autoregresif umum (GARCH) dapat diestimasi secara langsung oleh MLE (secara langsung maksud saya cukup untuk menentukan fungsi kemungkinan dan mengirimkannya ke rutin optimasi) - tetapi bukan dengan metode momen (meskipun solusi tidak langsung memanfaatkan metode momen mungkin ada).

— Richard Hardy
sumber

4

+1. Tentu saja, ada banyak kasus di mana Anda tidak menginginkan perkiraan yang paling mungkin, seperti Gaussian Mixture Model (yaitu kemungkinan yang tidak terikat). Secara umum, jawaban yang bagus untuk membantu intuisi MLE.

— Cliff AB

3

(+1) Tapi saya pikir Anda perlu menambahkan definisi nilai parameter "paling mungkin" seperti yang diberikan data mana yang paling mungkin cukup jelas. Properti penaksir yang diinginkan secara intuitif lain yang tidak terkait dengan perilaku jangka panjangnya di bawah pengambilan sampel berulang mungkin termasuk tidak tergantung pada bagaimana Anda menetapkan suatu model, & tidak menghasilkan estimasi yang tidak mungkin dari nilai parameter sebenarnya.

— Scortchi

6

Berpikir masih ada risiko "kemungkinan besar" dibaca sebagai "paling mungkin".

— Scortchi

2

@ RichardHardy: Mereka sama sekali tidak sama. Kemungkinan besar, matahari telah padam. Kemungkinan besar, belum.

— user2357112 mendukung Monica

2

@dsaxton: Ahli statistik telah membedakan kemungkinan nilai parameter yang diberikan data dari probabilitas data yang diberi nilai parameter selama hampir satu abad - lihat Fisher (1921) "Tentang 'kemungkinan kesalahan korelasi", Metron , 1 , pp 3-32 & Pawitan (2013), In All Likelihood: Statistik Modeling & Inference Using Likelihood - jadi meskipun istilah ini identik dalam penggunaan biasa, sekarang agak terlambat untuk menolak.

— Scortchi

12

Sebenarnya, penskalaan estimasi kemungkinan maksimum untuk mendapatkan estimasi tidak bias adalah prosedur standar dalam banyak masalah estimasi. Alasan untuk itu adalah bahwa mle adalah fungsi dari statistik yang cukup dan oleh teorema Rao-Blackwell jika Anda dapat menemukan estimator yang tidak bias berdasarkan statistik yang cukup, maka Anda memiliki Estimator Tidak Bervariasi Minimum.

Saya tahu bahwa pertanyaan Anda lebih umum dari itu, tetapi yang ingin saya tekankan adalah bahwa konsep-konsep kunci terkait erat dengan kemungkinan dan perkiraan berdasarkannya. Perkiraan ini mungkin tidak bias dalam sampel terbatas tetapi mereka asimptotik sehingga dan lebih dari itu mereka asimtotik efisien, yaitu mereka mencapai batas varians Cramer-Rao untuk penduga tidak bias, yang mungkin tidak selalu menjadi kasus untuk penduga MOM.

— JohnK
sumber

11

Untuk menjawab pertanyaan Anda tentang mengapa MLE sangat populer, pertimbangkan bahwa meskipun bias, itu konsisten dalam kondisi standar. Selain itu, ia efisien secara asimptot, sehingga setidaknya untuk sampel besar, MLE cenderung melakukan dengan baik atau lebih baik seperti penduga lain yang Anda buat. Akhirnya, MLE ditemukan dengan resep sederhana; ambil fungsi kemungkinan dan maksimalkan. Dalam beberapa kasus, resep itu mungkin sulit untuk diikuti, tetapi untuk sebagian besar masalah, itu bukan resepnya. Plus, setelah Anda memiliki perkiraan ini, kami dapat memperoleh kesalahan standar asimptotik segera menggunakan informasi Fisher. Tanpa menggunakan informasi Fisher, seringkali sangat sulit untuk mendapatkan batas kesalahan.

Inilah sebabnya mengapa estimasi MLE sangat sering menjadi penaksir (kecuali Anda seorang Bayesian); itu sederhana untuk diterapkan dan cenderung sama baiknya jika tidak lebih baik dari hal lain yang perlu Anda lakukan lebih banyak pekerjaan untuk memasak.

— Cliff AB
sumber

1

Bisakah Anda jelaskan bagaimana perbandingannya dengan metode momen, karena ini tampaknya menjadi bagian penting dari OP?

— Antoni Parellada

1

sebagaimana ditunjukkan oleh whuber, penaksir MOM juga bias, sehingga tidak ada keuntungan "tidak bias" untuk penaksir MOM. Juga, ketika penaksir MOM dan MLE tidak setuju, MLE cenderung memiliki MSE yang lebih rendah. Tetapi jawaban ini benar-benar tentang mengapa MLE cenderung menjadi default, bukan perbandingan langsung dengan metode lain.

— Cliff AB

2

@AntoniParellada Ada utas menarik dalam membandingkan MLE dan MoM, stats.stackexchange.com/q/80380/28746

— Alecos Papadopoulos

3

Saya menambahkan bahwa kadang-kadang (sering) kita menggunakan penaksir MLE karena itulah yang kita dapatkan, bahkan jika di dunia yang ideal itu tidak akan seperti yang kita inginkan. (Saya sering menganggap statistik sebagai teknik, di mana kami menggunakan apa yang kami dapatkan, bukan yang kami inginkan.) Dalam banyak kasus, mudah untuk mendefinisikan dan menyelesaikan MLE, dan kemudian mendapatkan nilai menggunakan pendekatan berulang. Sedangkan untuk parameter yang diberikan dalam situasi tertentu mungkin ada penaksir yang lebih baik (untuk beberapa nilai "lebih baik"), tetapi untuk menemukannya mungkin perlu menjadi sangat pintar; dan ketika Anda selesai menjadi pintar, Anda masih memiliki estimator yang lebih baik untuk satu masalah tertentu.

— eac2222
sumber

1

Karena penasaran, apa contoh dari apa (di dunia ideal) yang Anda inginkan?

— Glen_b -Reinstate Monica

2

@Glen_b: Entahlah. Tidak cocok, varian terendah, mudah dihitung dalam bentuk tertutup? Ketika Anda pertama kali mempelajari estimator untuk regresi kuadrat-terkecil, kehidupan tampaknya lebih sederhana daripada yang seharusnya.

— eac2222