Untuk distribusi mana saja ada estimator tidak bias berbentuk tertutup untuk simpangan baku?

Untuk distribusi normal, ada penaksir yang tidak bias dari standar deviasi yang diberikan oleh:

{\hat{σ}}_{unbiased} = \frac{Γ (\frac{n - 1}{2})}{Γ (\frac{n}{2})} \sqrt{\frac{1}{2} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2}}

$\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})} \sqrt{\frac{1}{2}\sum_{k=1}^n(x_i-\bar{x})^2}$

Alasan mengapa hasil ini tidak begitu dikenal tampaknya karena sebagian besar merupakan curio daripada masalah impor besar . Buktinya tercakup di utas ini ; itu mengambil keuntungan dari properti utama dari distribusi normal:

\frac{1}{σ^{2}} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2} \sim χ_{n - 1}^{2}

$\frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1}$

Dari sana, dengan sedikit kerja, adalah mungkin untuk mengambil ekspektasi $\mathbb{E}\left( \sqrt{\sum_{k=1}^n(x_i-\bar{x})^2} \right)$ , dan dengan mengidentifikasi jawaban ini sebagai kelipatan dari $\sigma$ , kita dapat menyimpulkan hasil untuk. $\hat{\sigma}_\text{unbiased}$

Ini membuat saya penasaran mana distribusi lain yang memiliki penduga standar tak-bias yang tertutup dari standar deviasi. Berbeda dengan estimator yang tidak bias dari varians, ini jelas distribusi-spesifik. Selain itu, tidak mudah untuk mengadaptasi bukti untuk menemukan estimator untuk distribusi lain.

Distribusi condong-normal memiliki beberapa properti distribusi yang bagus untuk bentuk kuadratiknya, dimana properti distribusi normal yang kami gunakan secara efektif merupakan kasus khusus (karena normal adalah tipe khusus dari condong-normal) jadi mungkin tidak akan terlalu sulit untuk memperluas metode ini kepada mereka. Tetapi untuk distibusi lain akan muncul pendekatan yang sama sekali berbeda diperlukan.

Apakah ada distribusi lain yang penduga seperti itu diketahui?

mathematical-statistics standard-deviation unbiased-estimator

— Gegat
sumber

Jika Anda mengabaikan gangguan teknis, sifat jawabannya menjadi lebih jelas. Dalam kasus Normal, sedikit dari apa yang Anda tulis benar-benar relevan dengan kesimpulan; semua yang penting adalah bahwa jumlah bias dalam estimator khusus ini adalah fungsi

sendiri (dan tidak tergantung pada parameter distribusi lainnya yang perlu diperkirakan dari data).

n

$n$

— whuber

@whuber Saya pikir saya bisa melihat ide umum yang Anda mengisyaratkan, dan jelas "fungsi

sendiri" diperlukan. Tetapi saya tidak berpikir itu akan cukup - jika kita tidak memiliki akses ke beberapa hasil distribusi yang bagus, maka saya tidak dapat melihat bagaimana aspek "bentuk tertutup" akan dapat ditelusuri.

n

$n$

— Silverfish

Itu tergantung pada apa yang Anda maksud dengan "formulir tertutup." Misalnya, untuk satu orang fungsi theta mungkin "tertutup" tetapi untuk orang lain itu hanya produk tak terbatas, rangkaian daya, atau integral yang kompleks. Kalau dipikir-pikir, itulah fungsi Gamma :-).

— whuber

@whuber Poin bagus! Dengan "jumlah bias dalam penaksir khusus ini", saya anggap Anda bias dalam

(bukan penaksir yang tercantum dalam pertanyaan, yang memiliki nol bias) adalah fungsi dari

s

$s$

n

$n$ (dan juga dalam

, tapi untungnya sedemikian rupa sehingga kita dapat dengan mudah mengatur ulang untuk menemukan estimator yang tidak memihak)?

σ

$\sigma$

— Silverfish

@whuber: Seharusnya ada formula yang sama untuk setiap keluarga skala lokasi, dengan peringatan yang Anda tunjukkan bahwa fungsi

n

$n$ mungkin merupakan bagian yang tidak terpisahkan.

— Xi'an

Jawaban:

Meskipun ini tidak secara langsung terhubung ke pertanyaan, ada kertas 1968 oleh Peter Bickel dan Erich Lehmann yang menyatakan bahwa, untuk keluarga cembung distribusi , ada penaksir yang tidak bias dari fungsional (untuk ukuran sampel) cukup besar) jika dan hanya jika $F$ $q(F)$ $n$ adalah polinomial dalam $q(\alpha F+(1-\alpha)G)$ $0\le \alpha\le 1$ . Teorema ini tidak berlaku untuk masalah di sini karena pengumpulan distribusi Gaussian tidak cembung (campuran Gaussians bukan Gaussian).

Perpanjangan hasil dalam pertanyaan adalah bahwa setiap kekuatan dari standar deviasi dapat diperkirakan secara tidak memihak, asalkan ada pengamatan yang cukup ketika . Ini mengikuti dari hasil $\sigma^\alpha$ $\alpha<0$ yangadalah parameter skala (dan unik) untuk.

\frac{1}{σ^{2}} \sum_{k = 1}^{n} (x_{i} - \bar{x})^{2} \sim χ_{n - 1}^{2}

$\frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1}$

σ

$\sigma$

\sum_{k = 1}^{n} (x_{i} - \bar{x})^{2}

$\sum_{k=1}^n(x_i-\bar{x})^2$

Pengaturan normal ini kemudian dapat diperluas ke keluarga skala lokasi mana pun

X_{1}, \dots, X_{n} \overset{iid}{\sim} τ^{- 1} f (τ^{- 1} {x - μ})

$X_1,\ldots,X_n\stackrel{\text{iid}}{\sim} \tau^{-1}f(\tau^{-1}\{x-\mu\})$ dengan varians terbatas

. Memang,

σ^{2}

$\sigma^2$

varians hanya fungsi dari ; ${var}_{μ, τ} (X) = E_{μ, τ} [(X - μ)^{2}] = τ^{2} E_{0, 1} [X^{2}]$ $\text{var}_{\mu,\tau}(X)=\mathbb{E}_{\mu,\tau}[(X-\mu)^2]=\tau^2\mathbb{E}_{0,1}[X^2]$ $\tau$
jumlah kuadrat $\begin{aligned} E_{μ, τ} [\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}] & = τ^{2} E_{μ, τ} [\sum_{k = 1}^{n} τ^{- 2} (X_{i} - μ - \bar{X} + μ)^{2}] \\ = τ^{2} E_{0, 1} [\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}] \end{aligned}$ $\begin{align*}\mathbb{E}_{\mu,\tau}\left[\sum_{k=1}^n(X_i-\bar{X})^2\right]&=\tau^2\mathbb{E}_{\mu,\tau}\left[\sum_{k=1}^n\tau^{-2}(X_i-\mu-\bar{X}+\mu)^2\right]\\ &=\tau^2\mathbb{E}_{0,1}\left[\sum_{k=1}^n(X_i-\bar{X})^2\right]\end{align*}$ has an expectation of the form $\tau^2\psi(n)$ ;
$E_{μ, τ} [{\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}}^{α}] = τ^{2 α} E_{0, 1} [{\sum_{k = 1}^{n} (X_{i} - \bar{X})^{2}}^{α}]$ $\mathbb{E}_{\mu,\tau}\left[\left\{\sum_{k=1}^n(X_i-\bar{X})^2\right\}^\alpha\right]=\tau^{2\alpha}\mathbb{E}_{0,1}\left[\left\{\sum_{k=1}^n(X_i-\bar{X})^2\right\}^\alpha\right]$ such that the expectation is finite.

— Xi'an
sumber

A probably well known case, but a case nevertheless.
Consider a continuous uniform distribution $U(0,\theta)$ . Given an i.i.d. sample, the maximum order statistic, $X_{(n)}$ has expected value

E (X_{(n)}) = \frac{n}{n + 1} θ

$E(X_{(n)}) = \frac {n}{n+1}\theta$

The standard deviation of the distribution is

σ = \frac{θ}{2 \sqrt{3}}

$\sigma = \frac {\theta}{2\sqrt 3}$

So the estimator

\hat{σ} = \frac{1}{2 \sqrt{3}} \frac{n + 1}{n} X_{(n)}

$\hat \sigma = \frac 1{2\sqrt 3}\frac {n+1}{n}X_{(n)}$

is evidently unbiased for $\sigma$ .

This generalizes to the case where the lower bound of the distribution is also unknown, since we can have an unbiased estimator for the Range, and then the standard deviation is again a linear function of the Range (as is essentially above also).

This exemplifies @whuber's comment, that "the amount of bias is a function of $n$ alone" (plus possibly any known constants) -so it can be deterministically corrected. And this is the case here.

— Alecos Papadopoulos
sumber

Now the hard part: when in the world are we interested in the standard deviation of a uniform distribution? (+1)

— shadowtalker

@ssdecontrol That's an excellent question! -please proceed to the next one...

— Alecos Papadopoulos

One thing I love about this answer is how poor the estimator is. It's quite common to see a question which boils down to "why do we use

\hat{θ}

$\hat{\theta}$ as an estimator even though it's biased?" Some students need convincing that unbiasedness is not the be-all and end-all, and a poor unbiased estimator is one way to show them.

— Silverfish

@Silverfish Poor in what way? Some quick simulations show this to have lower MSE than the usual standard deviation (which surprised me).

— Dave

@Dave Interesting! I had jumped to the conclusion it would be poor since it only looked at the maximum order statistic, but I too stand surprised! Shows the value of doing some simulation...

— Silverfish