Apakah ada contoh di mana MLE menghasilkan estimasi rata-rata yang bias?

17

Bisakah Anda memberikan contoh penduga MLE dari mean yang bias?

Saya tidak mencari contoh yang merusak penduga MLE secara umum dengan melanggar kondisi keteraturan.

Semua contoh yang dapat saya lihat di internet merujuk pada varians, dan sepertinya saya tidak dapat menemukan apa pun yang terkait dengan mean.

EDIT

@MichaelHardy memberikan contoh di mana kami mendapatkan estimasi yang bias dari rata-rata distribusi seragam menggunakan MLE di bawah model yang diusulkan tertentu.

Namun

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

menunjukkan bahwa MLE adalah penaksir rata-rata minimum yang seragam dan seragam, jelas di bawah model lain yang diusulkan.

Pada titik ini, masih belum terlalu jelas bagi saya apa yang dimaksud dengan estimasi MLE jika sangat tergantung pada model yang dihipotesiskan sebagai lawan untuk mengatakan penduga rata-rata sampel yang merupakan model netral. Pada akhirnya saya tertarik untuk memperkirakan sesuatu tentang populasi dan tidak benar-benar peduli tentang estimasi parameter dari model hipotesis.

EDIT 2

Seperti @ChristophHanck menunjukkan model dengan informasi tambahan yang diperkenalkan bias tetapi tidak berhasil mengurangi MSE.

Kami juga memiliki hasil tambahan:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slide 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slide 5)

"Jika ada penaksir tidak bias yang paling efisien ˆθ dari (ada (yaitu ˆθ tidak bias dan variansnya sama dengan CRLB) maka metode estimasi kemungkinan maksimum akan menghasilkannya."

"Selain itu, jika ada penduga yang efisien, itu adalah penduga ML."

Karena MLE dengan parameter model bebas tidak bias dan efisien, menurut definisi apakah ini "the" Estimator Kemungkinan Maksimum?

EDIT 3

@AlecosPapadopoulos memiliki contoh dengan distribusi Setengah Normal di forum matematika.

/math/799954/can-the-maximum-likelihood-estimator-be-unprice-and-fail-to-achieve-cramer-rao

Itu tidak berlabuh salah satu parameternya seperti dalam kasus seragam. Saya akan mengatakan bahwa menyelesaikannya, meskipun dia belum menunjukkan bias dari estimator rata-rata.

maximum-likelihood mean bias

— Cagdas Ozgenc
sumber

10

Rata-rata seragam pada nol dan theta.

— Christoph Hanck

1

Saya tidak dapat mengikuti perbedaan Anda antara "memperkirakan sesuatu tentang populasi" dan "parameter model hipotesis". Dalam semua statistik parametrik, kami membuat parameter populasi dengan beberapa parameter. Tentu saja, dengan demikian kita dapat mengalami masalah spesifikasi yang salah, tetapi itu tampaknya tidak relevan dengan masalah yang ada.

— Christoph Hanck

5

Sebagai contoh, bahwa suatu populasi dapat dicirikan dengan parameter / momennya, seperti mean dan varians (yang akan cukup untuk populasi normal, misalnya). Dan: Saya tidak berpikir bahwa orang-orang kurang lebih menyebalkan dengan Anda daripada dengan orang lain di forum ini.

— Christoph Hanck

2

Jika Anda merasa tidak senang dengan sulap tangan beralih antara "parameter" dan "rata-rata", izinkan saya mendefinisikan distribusi non-negatif tertentu dalam hal rata-rata

, dengan kepadatan

μ

$\mu$

pada dukungannya

\frac{1}{2 μ}

$\frac{1}{2\mu}$

...

[0, 2 μ]

$[0, 2\mu]$

— Silverfish

1

Mengenai hasil edit Anda 2, banyak dari hasil ini diperoleh dalam kondisi keteraturan yang tidak memuaskan untuk contoh seragam yang dibahas dalam utas ini, yang ruang sampelnya bergantung pada parameter.

— Christoph Hanck

32

Christoph Hanck belum memposting rincian contoh yang diusulkannya. Saya mengerti maksudnya distribusi seragam pada interval berdasarkan pada sampel awal $[0,\theta],$ ukuran lebih dari $X_1,\ldots,X_n$ $n=1.$

Rata adalah . $\theta/2$

MLE dari rata-rata adalah $\max\{X_1,\ldots,X_n\}/2.$

Itu bias sejak jadi $\Pr(\max < \theta) = 1,$ $\operatorname{E}({\max}/2)<\theta/2.$

PS: Mungkin kita harus mencatat bahwa penaksir tidak bias terbaik dari rata-rata adalah $\theta/2$ tidak sampel berarti, melainkan adalah Sampel rata-rata adalah penaksir buruk

\frac{n + 1}{2 n} \cdot max {X_{1}, \dots, X_{n}} .

$\frac{n+1} {2n} \cdot \max\{X_1,\ldots,X_n\}.$

karena untuk beberapa sampel, rata-rata sampel kurang dari

θ / 2

$\theta/2$

dan jelas mustahil untuk

kurang dari

\frac{1}{2} max {X_{1}, \dots, X_{n}},

$\dfrac 1 2 \max\{X_1,\ldots,X_n\},$

θ / 2

$\theta/2$

akhir PS

max / 2.

${\max}/2.$

Saya menduga distribusi Pareto adalah kasus lain. Inilah ukuran probabilitas: Nilai yang diharapkan adalah

α {(\frac{κ}{x})}^{α} \frac{d x}{x} for x > κ .

$\alpha\left( \frac \kappa x \right)^\alpha\ \frac{dx} x \text{ for } x >\kappa.$

MLE dari nilai yang diharapkan adalah

\frac{α}{α - 1} κ .

$\dfrac \alpha {\alpha -1 } \kappa.$

mana

\frac{n}{n - \sum_{i = 1}^{n} ((\log X_{i}) - \log (min))} \cdot min

$\frac n {n - \sum_{i=1}^n \big((\log X_i) - \log(\min)\big)} \cdot \min$

min = min {X_{1}, \dots, X_{n}} .

$\min = \min\{X_1,\ldots,X_n\}.$

Saya belum menghitung nilai yang diharapkan dari MLE untuk mean, jadi saya tidak tahu apa biasnya.

— Michael Hardy
sumber

12

Cagdas, Ini tidak sah untuk meminta contoh balasan dan kemudian menyangkal bahwa Anda akan mengusulkan sesuatu yang lain! Ini seperti meminta contoh buah yang tidak merah, diperlihatkan blueberry, dan kemudian mengatakan itu tidak masuk hitungan karena Anda tidak suka blueberry.

— Whuber

7

Itu tidak relevan dengan pertanyaan yang Anda ajukan.

— whuber

8

@CagdasOzgenc: Apakah MLE bias atau tidak tergantung pada model. Tidak ada yang namanya MLE tanpa model. Dan jika Anda mengubah model, Anda mengubah MLE.

— Michael Hardy

8

@CagdasOzgenc Inilah pertanyaan sokratik: mean sampel adalah penaksir tidak bias tentang apa? Anda memerlukan model untuk memiliki parameter yang akan diestimasi.

— Matthew Drury

9

Rata-rata sampel iid adalah penaksir yang tidak bias dari rata-rata populasi, tetapi orang tidak dapat berbicara tentang penaksir kemungkinan-maksimum dari sesuatu tanpa struktur lebih dari apa yang diperlukan untuk berbicara tentang penaksir yang tidak bias terhadap sesuatu.

— Michael Hardy

18

Berikut adalah contoh yang menurut saya beberapa mengejutkan:

Dalam regresi logistik, untuk setiap ukuran sampel hingga dengan hasil non-deterministik (yaitu ), setiap estimasi koefisien regresi tidak hanya bias, rata-rata koefisien regresi sebenarnya tidak terdefinisi. $0 < p_{i} < 1$

Ini karena untuk setiap ukuran sampel yang terbatas, ada probabilitas positif (walaupun sangat kecil jika jumlah sampel besar dibandingkan dengan jumlah parameter regresi) untuk mendapatkan pemisahan hasil yang sempurna. Ketika ini terjadi, estimasi koefisien regresi akan menjadi atau . Memiliki probabilitas positif menjadi atau menyiratkan nilai yang diharapkan tidak terdefinisi. $-\infty$ $\infty$ $-\infty$ $\infty$

Untuk lebih lanjut tentang masalah khusus ini, lihat efek Hauck-Donner .

— Cliff AB
sumber

1

Ini cukup pintar. Saya bertanya-tanya apakah MLE koefisien regresi logistik tidak tergantung pada tidak adanya efek Hauck-Donner?

— gung - Reinstate Monica

3

@ung: Jawaban singkat: mengabaikan efek Hauck-Donner, masih ada bias ke atas dalam koefisien regresi absolut (yaitu koefisien negatif memiliki bias ke bawah, positif memiliki bias ke atas). Menariknya, tampaknya ada bias terhadap 0,5 probabilitas estimasi. Saya sudah mulai menulis tentang hal ini di posting ini , tetapi belum memasang hasil saya pada bias estimasi probabilitas.

— Cliff AB

10

Meskipun @MichaelHardy telah menyatakan maksudnya, berikut adalah argumen yang lebih terperinci tentang mengapa MLE maksimum (dan karenanya, rata-rata $\theta/2$ , dengan invarian) tidak bias, meskipun dalam model yang berbeda (lihat edit di bawah).

Kami memperkirakan batas atas dari distribusi seragam . Di sini, adalah MLE, untuk sampel acak . Kami menunjukkan bahwa tidak bias. Cdf-nya adalah $U[0,\theta]$ $y_{(n)}$ $y$ $y_{(n)}$ Jadi, densitasnya adalah

\begin{array}{rcl} F_{y_{(n)}} (x) & = & Pr {Y_{1} ⩽ x, \dots, Y_{n} ⩽ x} \\ = & Pr {Y_{1} ⩽ x}^{n} \\ = & {\begin{cases} 0 & for x < 0 \\ {(\frac{x}{θ})}^{n} & for 0 ⩽ x ⩽ θ \\ 1 & for x > θ \end{cases} \end{array}

$\begin{eqnarray*} F_{y_{(n)}}(x)&=&\Pr\{Y_1\leqslant x,\ldots,Y_n\leqslant x\}\\ &=&\Pr\{Y_1\leqslant x\}^n\\ &=&\begin{cases} 0&\qquad\text{for}\quad x<0\\ \left(\frac{x}{\theta}\right)^n&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 1&\qquad\text{for}\quad x>\theta \end{cases} \end{eqnarray*}$

itu,

f_{y_{(n)}} (x) = {\begin{cases} \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} & for 0 ⩽ x ⩽ θ \\ 0 & else \end{cases}

$f_{y_{(n)}}(x)= \begin{cases} \frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}&\qquad\text{for}\quad 0\leqslant x\leqslant\theta\\ 0&\qquad\text{else} \end{cases}$

\begin{array}{rcl} E [Y_{(n)}] & = & \int_{0}^{θ} x \frac{n}{θ} {(\frac{x}{θ})}^{n - 1} d x \\ = & \int_{0}^{θ} n {(\frac{x}{θ})}^{n} d x \\ = & \frac{n}{n + 1} θ \end{array}

$\begin{eqnarray*} E[Y_{(n)}]&=&\int_0^\theta x\frac{n}{\theta}\left(\frac{x}{\theta}\right)^{n-1}dx\\ &=&\int_0^\theta n\left(\frac{x}{\theta}\right)^{n}dx\\ &=&\frac{n}{n+1}\theta \end{eqnarray*}$

$a$ $b$ $Y_{(1)}$ $a$

E (Y_{(1)}) = \frac{n a + b}{n + 1}

$E(Y_{(1)})=\frac{na+b}{n+1}$

E (Y_{(n)}) = \frac{n b + a}{n + 1}

$E(Y_{(n)})=\frac{nb+a}{n+1}$

(a + b) / 2

$(a+b)/2$

\frac{Y_{(1)} + Y_{(n)}}{2}

$\frac{Y_{(1)}+Y_{(n)}}{2}$

E (\frac{Y_{(1)} + Y_{(n)}}{2}) = \frac{n a + b + n b + a}{2 (n + 1)} = \frac{a + b}{2}

$E\left(\frac{Y_{(1)}+Y_{(n)}}{2}\right)=\frac{na+b+nb+a}{2(n+1)}=\frac{a+b}{2}$

EDIT 2: Untuk menguraikan poin Henry, berikut adalah sedikit simulasi untuk MSE dari penduga rata-rata, menunjukkan bahwa sementara MLE jika kita tidak tahu batas bawahnya nol adalah tidak bias, MSE untuk dua varian identik. , menunjukkan bahwa estimator yang menggabungkan pengetahuan batas bawah mengurangi variabilitas.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

— Christoph Hanck
sumber

Karena Wikipedia mengusulkan model yang berbeda untuk memulai. Di situlah kebingungan saya berada.

— Cagdas Ozgenc

a = 0

$a=0$

(m a x + 0) / 2

$(max+0)/2$

2

Saya belum mengerjakan detailnya, tetapi MLE dalam model itu bisa tidak bias jika minimum melebih-lebihkan batas bawah dengan jumlah yang sama dengan maksimum meremehkan maksimum, sehingga titik tengah diperkirakan tanpa bias.

— Christoph Hanck

4

@CagdasOzgenc: ketidakberpihakan bukan satu-satunya atau bahkan ukuran terpenting dari yang lebih baik . Dengan mengetahui salah satu ujung dukungan secara tepat, Anda mungkin kehilangan keseimbangan antara kesalahan dalam memperkirakan rata-rata, tetapi Anda berakhir dengan (misalnya) perkiraan kisaran yang lebih baik

— Henry

6

Pengukur kemungkinan maksimum tidak selalu "terbaik" di semua kriteria untuk ukuran sampel kecil. Terus? Mereka juga tidak berpura-pura. Jika Anda ingin menggunakan penduga yang berbeda untuk masalah Anda yang memiliki sifat lebih baik sesuai dengan beberapa kriteria untuk ukuran sampel yang berada di sekitar ukuran sampel Anda yang sebenarnya, Anda bebas untuk melakukannya. Saya melakukannya, dan juga orang lain. Tidak ada yang mengklaim bahwa menggunakan MLE dibenarkan dalam semua situasi hanya karena itu MLE.

— jbowman

5

Melengkapi di sini kelalaian dalam jawaban saya di math.se dirujuk oleh OP,

$n$

f_{H} (x) = \sqrt{2 / π} \cdot \frac{1}{v^{1 / 2}} \cdot \exp {- \frac{x^{2}}{2 v}} E (X) = \sqrt{2 / π} \cdot v^{1 / 2} \equiv μ, Var (X) = (1 - \frac{2}{π}) v

$f_H(x) = \sqrt{2/\pi}\cdot \frac 1{v^{1/2}}\cdot \exp\big\{-\frac {x^2}{2v} \big\} \\ E(X) = \sqrt{2/\pi}\cdot v^{1/2}\equiv \mu,\;\; \operatorname{Var}(X) = \left(1-\frac 2 \pi \right)v$

Log-kemungkinan sampel adalah

L (v ∣ x) = n \ln \sqrt{2 / π} - \frac{n}{2} \ln v - \frac{1}{2 v} \sum_{i = 1}^{n} x_{i}^{2}

$L(v\mid \mathbf x) = n\ln\sqrt{2/\pi}-\frac n2\ln v -\frac 1 {2v} \sum_{i=1}^n x_i^2$

The first derivative with respect to $v$ is

\frac{\partial}{\partial v} L (v ∣ x) = - \frac{n}{2 v} + \frac{1}{2 v^{2}} \sum_{i = 1}^{n} x_{i}^{2}, ⟹ {\hat{v}}_{MLE} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}

$\frac {\partial}{\partial v}L(v\mid\mathbf x) = -\frac n{2v} + \frac 1 {2v^2} \sum_{i=1}^n x_i^2,\implies \hat v_\text{MLE} = \frac 1n \sum_{i=1}^nx_i^2$

so it is a method of moments estimator. It is unbiased since,

E ({\hat{v}}_{MLE}) = E (X^{2}) = Var (X) + [E (X)])^{2} = (1 - \frac{2}{π}) v + \frac{2}{π} v = v

$E(\hat v_\text{MLE}) = E(X^2) = \operatorname{Var}(X) + [E(X)])^2 = \left(1-\frac 2 \pi \right)v + \frac 2 \pi v = v$

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

\begin{aligned} {\hat{μ}}_{MLE} = \sqrt{2 / π} \cdot \sqrt{{\hat{v}}_{MLE}} ⟹ & E ({\hat{μ}}_{MLE}) = \sqrt{2 / π} \cdot E (\sqrt{{\hat{v}}_{MLE}}) \\ < \sqrt{2 / π} \cdot [\sqrt{E ({\hat{v}}_{MLE})}] = \sqrt{2 / π} \cdot \sqrt{v} = μ \end{aligned}

$\begin{align} \hat \mu_\text{MLE} = \sqrt{2/\pi}\cdot \sqrt {\hat v_\text{MLE}} \implies & E\left(\hat \mu_\text{MLE}\right) = \sqrt{2/\pi}\cdot E\left(\sqrt {\hat v_\text{MLE}}\,\right) \\[6pt] & < \sqrt{2/\pi}\cdot \left[\sqrt {E(\hat v_\text{MLE})}\,\right] = \sqrt{2/\pi}\cdot \sqrt v = \mu \end{align}$

— Alecos Papadopoulos
sumber

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take $(X_i, Y_i) \sim \mathcal{N}\left(\mu_i, \sigma^2 \right)$ . The MLE of $\mu_i$ is $(X_i + Y_i)/2$ and of $\sigma^2$ is $\hat{\sigma}^2 = \sum_{i=1}^n \frac{1}{n} s_i^2$ with $s_i^2 = (X_i - \hat{\mu}_i)^2/2 + (Y_i - \hat{\mu}_i)^2/2 = (X_i - Y_i)^2 / 4$ which has expected value $\sigma^2/4$ and so biased by a factor of 2.

— AdamO
sumber

2

While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that

k / n \to 0

$k / n \rightarrow 0$ , where

k

$k$ is the number of parameters estimated and

n

$n$ is the sample size.

— Cliff AB

1

@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of

Θ

$\Theta$ goes to

\infty

$\infty$ as

n \to \infty

$n \rightarrow \infty$ . I think that's what you're saying, but don't know what

k

$k$ means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate

σ

$\sigma$ in this case.

— AdamO

3

There is an infinite range of examples for this phenomenon since

the maximum likelihood estimator of a bijective transform $\Psi(\theta)$ of a parameter $\theta$ is the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ ;
the expectation of the bijective transform of the maximum likelihood estimator of $\theta$ , $\Psi(\hat{\theta}_\text{MLE})$ , $\mathbb{E}[\Psi(\hat{\theta}_\text{MLE})]$ is not the bijective transform of the expectation of the maximum likelihood estimator, $\Psi(\mathbb{E}[\hat{\theta}_\text{MLE}])$ ;
most transforms $\Psi(\theta)$ are expectations of some transform of the data, $\mathfrak{h}(X)$ , at least for exponential families, provided an inverse Laplace transform can be applied to them.

— Xi'an
sumber