Kapan kemungkinan maksimum bekerja dan kapan tidak?

Saya bingung tentang metode kemungkinan maksimum dibandingkan dengan misalnya menghitung rata-rata aritmatika.

Kapan dan mengapa kemungkinan maksimum menghasilkan estimasi "lebih baik" daripada mis. Aritmatika? Bagaimana ini bisa diverifikasi?

maximum-likelihood

— mavavilj
sumber

+1 Ini adalah pertanyaan yang bagus untuk ditanyakan tentang prosedur statistik apa pun.

— whuber

Saya kira pertanyaan ini tidak terlalu jelas. Tentu OP tidak jelas, tapi itu sebabnya mereka bertanya. Isu-isu tentang sifat MLE & sarana aritmatika harus diselesaikan dengan jawaban yang baik.

— gung - Reinstate Monica

Apa yang Anda maksud dengan "lebih baik"? Dan mengapa aritmatika berarti penaksir yang baik dari parameter arbitrer?

— Xi'an

Pertanyaan tidak dapat dijawab tanpa menetapkan terlebih dahulu definisi "lebih baik", yaitu, fungsi kerugian atau kriteria lain yang memungkinkan untuk membandingkan penduga. Misalnya, MLE efisien, yang berarti tidak ada penduga dengan varian asimptotik yang lebih kecil (dalam beberapa kondisi keteraturan). Sebagai contoh, MLE mungkin tidak dapat diterima seperti yang ditunjukkan oleh efek Stein , yang berarti ada penduga dengan risiko kuadratik yang lebih kecil untuk semua nilai parameter di bawah beberapa kendala pada distribusi sampel dan dimensi parameter.

— Xi'an

@ Xi'an Kedengarannya seperti dasar jawaban.

— whuber

Jawaban:

Sementara rata-rata aritmatika mungkin terdengar sebagai penaksir "alami", orang dapat bertanya mengapa itu harus lebih disukai daripada MLE! Satu-satunya properti pasti yang terkait dengan rata-rata aritmatika adalah bahwa itu adalah penaksir yang tidak bias dari $\bar{x}$ $\mathbb{E}[X]$ ketika ekspektasi ini didefinisikan. (Pikirkan distribusi Cauchy sebagai contoh tandingan.) Yang belakangan memang menikmati berbagai properti dalam kondisi keteraturan pada fungsi kemungkinan. Untuk meminjam dari halaman wikipedia , MLE adalah

konsisten
normal asimptotik
efisien dalam mencapai varian asimptotik minimum
invarian di bawah transformasi bijective
dalam set parameter bahkan untuk set parameter terbatas

Dibandingkan dengan rata-rata aritmatika, sebagian besar properti tersebut juga puas untuk distribusi yang cukup teratur. Kecuali 4 dan 5. Dalam kasus keluarga eksponensial, MLE dan rata-rata aritmatika identik untuk memperkirakan parameter dalam parameterisasi rata-rata (tetapi tidak untuk parameterisasi lainnya). Dan MLE ada untuk sampel dari distribusi Cauchy.

Namun, ketika beralih ke properti optimalitas sampel terbatas seperti minimaxity atau diterimanya, mungkin terjadi bahwa MLE bukanlah minimax atau tidak dapat diterima. Sebagai contoh, efek Stein menunjukkan ada estimator dengan risiko kuadratik yang lebih kecil untuk semua nilai parameter di bawah beberapa kendala pada distribusi sampel dan dimensi parameter. Ini adalah kasus ketika dan . $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

— Xi'an
sumber

Hanya untuk mengklarifikasi tentang mle - 5 properti yang terdaftar semuanya dalam konteks model yang diasumsikan untuk populasi.

— probabilityislogic

@CagdasOzgenc: ya dominasi secara asimtotik diabaikan tetapi berlaku untuk semua

..! Namun kisaran estimator minimax James-Stein menyusut dengan

karena konstanta penyusutan adalah antara

dan

mana

adalah dimensi dan

varian dari satu komponen pengamatan. Namun, saya tidak pernah mendengar minimaxity asimptotik.

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

— Xi'an

Mari kita menafsirkan "menghitung rata-rata aritmatika" sebagai estimasi menggunakan Method of Moments (MoM). Saya percaya itu setia pada pertanyaan awal karena metode ini menggantikan rata-rata sampel dengan yang teoritis. Ini juga mengatasi kekhawatiran @ Xi'an tentang parameter arbitrer (dari model arbitrer).

Jika Anda masih bersama saya, maka saya pikir tempat yang bagus untuk pergi adalah Contoh di mana metode momen dapat mengalahkan kemungkinan maksimum dalam sampel kecil?Teks pertanyaan menunjukkan bahwa "Penaksir kemungkinan maksimum (MLE) efisien secara asimptot; kami melihat hasil praktis karena sering kali lebih baik daripada perkiraan metode momen (MoM) (bila berbeda)," dan mencari kasus-kasus tertentu di mana penduga MoM mencapai kesalahan kuadrat rata-rata yang lebih kecil daripada rekan MLE-nya. Beberapa contoh yang disediakan adalah dalam konteks regresi linier, distribusi Invers Gaussian dua parameter, dan distribusi daya eksponensial asimetris.

Gagasan "efisiensi asimptotik" ini berarti bahwa penaksir kemungkinan maksimum mungkin hampir menggunakan data secara maksimal (untuk memperkirakan parameter yang dipermasalahkan), jaminan yang tidak Anda dapatkan dengan metode momen secara umum. Sementara kemungkinan maksimum tidak selalu "lebih baik" daripada bekerja dengan rata-rata, properti efisiensi ini (jika hanya dalam batasnya) menjadikannya metode masuk akal bagi kebanyakan frekuensi. Tentu saja, pelawan bisa berpendapat bahwa dengan meningkatnya ukuran set data, jika Anda menunjuk target yang tepat dengan fungsi rata-rata, ikuti saja.

— Ben Ogorek
sumber

Ada beberapa contoh terkenal di mana kemungkinan maksimum (ML) tidak memberikan solusi terbaik. Lihat makalah Lucien Le Cam 1990: "Kemungkinan Maksimum: pengantar" [1] , yang berasal dari kuliahnya yang diundang di Univ. dari Maryland.

Contoh yang paling saya sukai, karena sangat mudah, adalah ini:

$X_j$ $Y_j$ $j = 1,...,n$ . Let's assume that $X_j\sim N(\mu_j,\sigma^2)$ and $Y_j\sim N(\mu_j,\sigma^2)$ . In other words, for each $j$ the pair $X_j$ and $Y_j$ are identically distributed with the same mean and variance and the mean is a function of $j$ . What is the ML estimate of $\sigma^2$ ?

I won't ruin the fun by giving you the answer, but (no surprise) there are two ways to solve this using ML and they give different solutions. One is the "arithmetic mean" of the squared residuals (as one would expect), and the other is half the arithmetic mean. You can find the answer here on my Github page.

— idnavid
sumber