Keluarga Eksponensial: Statistik yang Memadai vs. yang Diharapkan

Pertanyaan saya muncul dari membaca bacaan Minka "Memperkirakan Distribusi Dirichlet" , yang menyatakan berikut tanpa bukti dalam konteks memperoleh penduga kemungkinan maksimum untuk distribusi Dirichlet berdasarkan pengamatan vektor acak:

Seperti biasa dengan keluarga eksponensial, ketika gradien adalah nol, statistik yang diharapkan cukup sama dengan statistik yang diamati cukup.

Saya belum melihat estimasi kemungkinan maksimum dalam keluarga eksponensial yang disajikan dengan cara ini, saya juga tidak menemukan penjelasan yang sesuai dalam pencarian saya. Dapatkah seseorang menawarkan wawasan tentang hubungan antara statistik yang diamati dan yang diharapkan cukup, dan mungkin membantu untuk memahami estimasi kemungkinan maksimum sebagai meminimalkan perbedaan mereka?

— Ben Bray
sumber

Ini adalah pernyataan biasa tentang keluarga eksponensial, tetapi menurut pendapat saya, sebagian besar waktu dinyatakan dengan cara yang dapat membingungkan pembaca yang kurang berpengalaman. Karena, diambil dari nilai nominal, dapat diartikan sebagai mengatakan "jika variabel acak kami mengikuti distribusi dalam keluarga eksponensial, maka jika kita mengambil sampel dan memasukkannya ke dalam statistik yang cukup, kita akan mendapatkan nilai yang diharapkan dari statistik. ". Kalau saja begitu ... Lebih dari itu tidak memperhitungkan ukuran sampel, yang dapat menyebabkan kebingungan lebih lanjut.

Fungsi kerapatan eksponensial adalah

\begin{matrix} (1) & f_{X} (x) = h (x) e^{η (θ) T (x)} e^{- A (θ)} \end{matrix}

$f_X(x) = h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)} \tag{1}$

di mana adalah statistik yang cukup. $T(x)$

Karena ini adalah kepadatan, ia harus berintegrasi ke kesatuan, jadi ( adalah dukungan ) $S_x$ $X$

\begin{matrix} (2) & \int_{S_{x}} h (x) e^{η (θ) T (x)} e^{- A (θ)} d x = 1 \end{matrix}

$\int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =1 \tag{2}$

Eq. berlaku untuk semua sehingga kita dapat membedakan kedua belah pihak sehubungan dengan itu: $(2)$ $\theta$

\begin{matrix} (3) & \frac{\partial}{\partial θ} \int_{S_{x}} h (x) e^{η (θ) T (x)} e^{- A (θ)} d x = \frac{\partial (1)}{\partial θ} = 0 \end{matrix}

$\frac {\partial}{\partial \theta} \int_{S_x} h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}dx =\frac {\partial (1)}{\partial \theta} =0 \tag{3}$

Saling menukar urutan diferensiasi dan integrasi, kami memperoleh

\begin{matrix} (4) & \int_{S_{x}} \frac{\partial}{\partial θ} (h (x) e^{η (θ) T (x)} e^{- A (θ)}) d x = 0 \end{matrix}

$\int_{S_x} \frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right)dx =0 \tag{4}$

Melaksanakan diferensiasi yang kita miliki

\begin{matrix} (5) & \frac{\partial}{\partial θ} (h (x) e^{η (θ) T (x)} e^{- A (θ)}) = f_{X} (x) [T (x) η^{'} (θ) - A^{'} (θ)] \end{matrix}

$\frac {\partial}{\partial \theta} \left(h(x)e^{\eta(\theta) T(x)}e^{-A(\theta)}\right) = f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big] \tag{5}$

Memasukkan ke kita dapatkan $(5)$ $(4)$

\int_{S_{x}} f_{X} (x) [T (x) η^{'} (θ) - A^{'} (θ)] d x = 0

$\int_{S_x} f_X(x)\big[T(x)\eta'(\theta) - A'(\theta)\big]dx =0$

\begin{matrix} (6) & \Rightarrow η^{'} (θ) E [T (X)] - A^{'} (θ) = 0 \Rightarrow E [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} \end{matrix}

$\Rightarrow \eta'(\theta)E[T(X)] - A'(\theta) = 0 \Rightarrow E[T(X)] = \frac {A'(\theta)}{\eta'(\theta)} \tag{6}$

Sekarang kami bertanya: sisi kiri adalah bilangan real. Jadi, sisi kanan juga harus berupa bilangan real, dan bukan fungsi . Oleh karena itu harus dievaluasi pada tertentu , dan itu harus menjadi "true" , jika tidak di sisi kiri kita tidak akan memiliki nilai yang diharapkan dari . Untuk menekankan ini, kami menyatakan nilai sebenarnya oleh , dan kami menulis ulang sebagai $(6)$ $\theta$ $\theta$ $T(X)$ $\theta_0$ $(6)$

\begin{matrix} (6a) & E_{θ_{0}} [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = θ_{0}} \end{matrix}

$E_{\theta_0}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\theta_0} \tag{6a}$

Kami beralih ke estimasi kemungkinan maksimum . Log-kemungkinan untuk sampel ukuran adalah $n$

L (θ ∣ x) = \sum_{i = 1}^{n} \ln h (x_{i}) + η (θ) \sum_{i = 1}^{n} T (x_{i}) - n A (θ)

$L(\theta \mid \mathbf x) = \sum_{i=1}^n\ln h(x_i) +\eta(\theta)\sum_{i=1}^nT(x_i) -nA(\theta)$

Dengan menetapkan turunannya terhadap sama dengan kami memperoleh MLE $\theta$ $0$

\begin{matrix} (7) & \hat{θ} (x) : \frac{1}{n} \sum_{i = 1}^{n} T (x_{i}) = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = \hat{θ} (x)} \end{matrix}

$\hat \theta(x) : \frac 1n\sum_{i=1}^nT(x_i) = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat \theta(x)} \tag {7}$

Bandingkan dengan . Sisi kanan tidak sama, karena kami tidak dapat berdebat bahwa penaksir MLE mengenai nilai sebenarnya. Begitu juga sisi kiri. Tapi ingat persamaan itu. berlaku untuk semua dan juga untuk . Jadi langkah-langkah dalam persamaan. dapat diambil sehubungan dengan sehingga kita dapat menulis eq. untuk : $(7)$ $(6a)$ $2$ $\theta$ $\hat \theta$ $3,4,5,6$ $\hat \theta$ $6a$ $\hat \theta$

\begin{matrix} (6b) & E_{\hat{θ} (x)} [T (X)] = \frac{A^{'} (θ)}{η^{'} (θ)} |_{θ = \hat{θ} (x)} \end{matrix}

$E_{\hat\theta(x)}[T(X)] = \frac {A'(\theta)}{\eta'(\theta)}\Big |_{\theta =\hat\theta(x)} \tag{6b}$

yang, dikombinasikan dengan , membawa kita ke hubungan yang valid $(7)$

E_{\hat{θ} (x)} [T (X)] = \frac{1}{n} \sum_{i = 1}^{n} T (x_{i})

$E_{\hat\theta(x)}[T(X)] = \frac 1n\sum_{i=1}^nT(x_i)$

itulah yang benar-benar dikatakan oleh pernyataan yang sedang diperiksa: nilai yang diharapkan dari statistik yang cukup di bawah MLE untuk parameter yang tidak diketahui (dengan kata lain, nilai momen mentah pertama dari distribusi yang akan kita peroleh jika kita menggunakan sebagai pengganti ), sama dengan (dan tidak hanya didekati oleh) rata - rata statistik yang cukup seperti yang dihitung dari sampel . $\hat \theta(x)$ $\theta$ $\mathbf x$

Selain itu, hanya jika ukuran sampel adalah maka kita dapat secara akurat mengatakan, "nilai yang diharapkan dari statistik yang cukup di bawah MLE sama dengan statistik yang cukup". $n=1$

— Alecos Papadopoulos
sumber

Bisakah Anda menjelaskan lebih lanjut mengapa transisi dari 6a ke 6b valid?

— Theoden

@Theoden Di antara eq. dan saya menulis "persamaan. berlaku untuk semua " - dan karenanya untuk juga. Jadi semua langkah dalam persamaan. dapat diambil sehubungan dengan . Saya mengulangi komentar ini dalam teks untuk kejelasan.

(2)

$(2)$

(3)

$(3)$

(2)

$(2)$

θ

$\theta$

\hat{θ}

$\hat \theta$

3, 4, 5, 6

$3,4,5,6$

\hat{θ}

$\hat \theta$

— Alecos Papadopoulos

@AlecosPapadopoulos bukti Anda di bawah ini tampaknya menunjukkan bahwa apa yang Anda katakan di awal - "jika variabel acak kami mengikuti distribusi dalam keluarga eksponensial, maka jika kami mengambil sampel dan memasukkannya ke dalam statistik yang cukup, kami akan mendapatkan nilai yang diharapkan benar dari statistik "adalah benar. Maksud saya, saya selalu bisa melakukan itu untuk (2), menggantinya dengan stat yang diamati cukup dan mendapatkan hasilnya. Apa yang kulewatkan di sini? Saya tidak mengerti.

— user10024395

@ user136266 Nilai sebenarnya yang diharapkan dari statistik adalah , dan untuk dapat dihitung, orang perlu mengetahui, dengan desain tidak diketahui, parameter . Jadi apa yang sebenarnya dapat kita hitung adalah yang merupakan nilai yang diharapkan dari statistik dengan asumsi bahwa estimasi titik kami telah mencapai nilai sebenarnya .

6 a

$6a$

θ

$\theta$

6 b

$6b$

— Alecos Papadopoulos

Bisakah Anda menjelaskan mengapa kami dapat mengubah urutan diferensiasi dan integrasi dalam persamaan. (3) tolong?

— Markus777