Apakah estimasi MLE normal dan efisien asimtotik walaupun modelnya tidak benar?

Premis: ini mungkin pertanyaan bodoh. Saya hanya tahu pernyataan tentang sifat asimptotik MLE, tetapi saya tidak pernah mempelajari buktinya. Jika saya melakukannya, mungkin saya tidak akan menanyakan pertanyaan-pertanyaan ini, atau saya mungkin saya akan menyadari pertanyaan-pertanyaan ini tidak masuk akal ... jadi tolong mudahkan saya :)

Saya sering melihat pernyataan yang mengatakan bahwa penduga MLE dari parameter model adalah asimtotik normal dan efisien. Pernyataan ini biasanya ditulis sebagai

$\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})$ sebagai $N\to\infty$

di mana adalah jumlah sampel, adalah informasi Fisher dan adalah parameter (vektor) nilai sebenarnya . Sekarang, karena ada referensi ke model yang benar, apakah ini berarti bahwa hasilnya tidak akan berlaku jika model tersebut tidak benar? $N$ $\mathbf{I}$ $\theta_0$

Contoh: misalkan saya memodelkan output daya dari turbin angin sebagai fungsi dari kecepatan angin ditambah aditif Gaussian noise $P$ $V$

$P=\beta_0+\beta_1V+\beta_2V^2+\epsilon$

Saya tahu modelnya salah, paling tidak karena dua alasan: 1) benar-benar sebanding dengan kekuatan ketiga dan 2) kesalahannya tidak bersifat aditif, karena saya mengabaikan prediktor lain yang tidak berkorelasi dengan kecepatan angin (saya juga tahu bahwa harus 0 karena pada 0 kecepatan angin tidak ada daya yang dihasilkan, tapi itu tidak relevan di sini). Sekarang, misalkan saya memiliki basis data daya dan kecepatan angin tak terbatas dari turbin angin saya. Saya bisa menggambar sebanyak mungkin sampel yang saya inginkan, dengan ukuran berapa pun. Misalkan saya menggambar 1000 sampel, masing-masing berukuran 100, dan menghitung , perkiraan MLE dari $P$ $V$ $\beta_0$ $\hat{\boldsymbol{\beta}}_{100}$ $\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$ (yang di bawah model saya hanya akan menjadi estimasi OLS). Karena itu saya memiliki 1000 sampel dari distribusi $\hat{\boldsymbol{\beta}}_{100}$ . Saya dapat mengulangi latihan dengan $N=500,1000,1500,\dots$ . Sebagai $N\to\infty$ , haruskah distribusi $\hat{\boldsymbol{\beta}}_{N}$ cenderung normal asimptotik, dengan mean dan varians yang dinyatakan? Atau apakah fakta bahwa model yang salah membuat hasil ini salah?

Alasan saya bertanya adalah bahwa jarang (jika pernah) model "benar" dalam aplikasi. Jika sifat asimptotik MLE hilang ketika model tidak benar, maka mungkin masuk akal untuk menggunakan prinsip estimasi yang berbeda, yang walaupun kurang kuat dalam pengaturan di mana model itu benar, dapat berkinerja lebih baik daripada MLE dalam kasus lain.

EDIT : tercatat dalam komentar bahwa gagasan tentang model yang benar dapat menjadi masalah. Saya memiliki definisi berikut dalam pikiran: diberikan keluarga model ditunjukkan oleh vektor parameter , untuk setiap model dalam keluarga Anda selalu dapat menulis $f_{\boldsymbol{\theta}}(x)$ $\boldsymbol{\theta}$

$Y=f_{\boldsymbol{\theta}}(X)+\epsilon$

dengan hanya mendefinisikan sebagai . Namun, secara umum kesalahan tidak akan ortogonal ke , memiliki rata-rata 0, dan itu tidak serta merta memiliki distribusi diasumsikan dalam derivasi model. Jika ada nilai sedemikian rupa sehingga memiliki dua properti ini, serta distribusi yang diasumsikan, saya akan mengatakan model itu benar. Saya pikir ini berkaitan langsung dengan mengatakan bahwa , karena istilah kesalahan dalam dekomposisi $\epsilon$ $Y-f_{\boldsymbol{\theta}}(X)$ $X$ $\boldsymbol{\theta_0}$ $\epsilon$ $f_{\boldsymbol{\theta_0}}(X)=E[Y|X]$

$Y=E[Y|X]+\epsilon$

memiliki dua properti yang disebutkan di atas.

maximum-likelihood model asymptotics

— DeltaIV
sumber

Estimasi MLE sering asimptotik normal walaupun modelnya tidak benar, mungkin konsisten dengan nilai parameter "paling tidak salah", misalnya. Tetapi dalam kasus seperti itu akan sulit untuk menunjukkan efisiensi atau sifat optimalitas lainnya.

— kjetil b halvorsen

Sebelum efisiensi, kita harus melihat konsistensi. Dalam skenario ketika kebenaran tidak ada dalam ruang pencarian Anda, kami memerlukan definisi konsistensi yang berbeda sehingga: d (P *, P), di mana d adalah divergensi P * adalah model terdekat dalam hal d, dan P adalah kebenaran. Ketika d adalah KL divergensi (apa yang diminimalkan MLE) misalnya diketahui bahwa prosedur Bayes tidak konsisten (tidak dapat mencapai model terdekat) kecuali model cembung. Karena itu saya akan berasumsi bahwa MLE juga tidak konsisten. Karenanya efisiensi menjadi tidak jelas. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf

— Cagdas Ozgenc

@Cagdas Ozgenc: Dalam banyak kasus (seperti regresi logistik) MLE masih konsisten untuk parameter "paling tidak salah". Apakah Anda memiliki referensi untuk klaim Anda tentang ketidakkonsistenan dalam kasus nonconvex? Akan sangat tertarik? (Kemungkinan fungsi regresi logistik adalah cembung)

— kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Ini jauh di atas kepala saya, tetapi itulah yang saya mengerti. Jika pemahaman saya salah, mohon koreksi saya. Lagipula aku hanya hobiis.

— Cagdas Ozgenc

Saya pikir kami mendapat masalah ketika kami menggunakan istilah seperti "model is true" atau "least false". Saat berhadapan dengan model dalam praktik, mereka semua adalah perkiraan. Jika kita membuat asumsi tertentu, kita dapat menggunakan matematika untuk menunjukkan properti statistik. Selalu ada konflik di sini antara matematika probabilitas dan analisis data praktis.

— Michael R. Chernick

Saya tidak percaya ada satu jawaban untuk pertanyaan ini.

Ketika kami mempertimbangkan kemungkinan kesalahan spesifikasi distribusi sambil menerapkan estimasi kemungkinan maksimum, kami mendapatkan apa yang disebut penaksir "Kuasi-Maksimum Kemungkinan" (QMLE). Dalam kasus-kasus tertentu QMLE konsisten dan asimptotik normal.

Yang hilang dengan pasti adalah efisiensi asimptotik. Ini karena varians asimptotik dari (ini adalah jumlah yang memiliki distribusi asimptotik, bukan hanya ), dalam semua kasus, $\sqrt n (\hat \theta - \theta)$ $\hat \theta$

\begin{matrix} (1) & Avar [\sqrt{n} (\hat{θ} - θ)] = plim ([\hat{H}]^{- 1} [\hat{S} {\hat{S}}^{T}] [\hat{H}]^{- 1}) \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = \text{plim}\Big( [\hat H]^{-1}[\hat S \hat S^T][\hat H]^{-1}\Big) \tag{1}$

di mana adalah matriks Hessian dari log-kemungkinan dan adalah gradien, dan topi menunjukkan perkiraan sampel. $H$ $S$

Sekarang, jika kita memiliki spesifikasi yang benar , kita dapatkan, pertama, itu

\begin{matrix} (2) & Avar [\sqrt{n} (\hat{θ} - θ)] = (E [H_{0}])^{- 1} E [S_{0} S_{0}^{T}] (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = (\mathbb E[H_0])^{-1}\mathbb E[S_0S_0^T](\mathbb E[H_0])^{-1} \tag{2}$

di mana " " subskrip menunjukkan evaluasi pada parameter sebenarnya (dan perhatikan bahwa istilah tengah adalah definisi Informasi Fisher), dan kedua, bahwa " kesetaraan matriks informasi " berlaku dan menyatakan bahwa , yang berarti bahwa varian asimtotik akhirnya akan menjadi $0$ $-\mathbb E[H_0] = \mathbb E[S_0S_0^T]$

\begin{matrix} (3) & Avar [\sqrt{n} (\hat{θ} - θ)] = - (E [H_{0}])^{- 1} \end{matrix}

$\text{Avar}[\sqrt n (\hat \theta - \theta)] = -(\mathbb E[H_0])^{-1} \tag{3}$

yang merupakan kebalikan dari informasi Fisher.

Tetapi jika kita memiliki kesalahan spesifikasi, ekspresi tidak mengarah pada ekspresi (karena turunan pertama dan kedua dalam diturunkan berdasarkan kemungkinan yang salah). Ini pada gilirannya menyiratkan bahwa ketidaksetaraan matriks informasi tidak berlaku, bahwa kita tidak berakhir dengan ekspresi , dan bahwa (Q) MLE tidak mencapai efisiensi asimptotik penuh. $(1)$ $(2)$ $(1)$ $(3)$

— Alecos Papadopoulos
sumber

Avar

$\text{Avar}$ adalah varians asimptotik dari variabel acak, dan adalah konvergensi dalam probabilitas, bukan? Jawaban Anda tampaknya sangat menarik, tapi aku tidak mengerti apa adalah dalam konteks Anda. Saya merujuk pada kasus di mana nilai yang tepat dari sama sekali tidak ada: lihat contoh turbin angin saya, di mana berapapun nilai , tidak ada nilai yang membuat model itu benar, karena tidak ada istilah , dan karena prediktor lain yang berkorelasi dengan tidak ada. Apa yang akan berarti dalam konteks ini?

plim

$\text{plim}$

θ

$\theta$

θ

$\theta$

β = (β_{0}, β_{1}, β_{2})

$\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)$

β_{3}

$\beta_3$

V

$V$

θ

$\theta$

— DeltaIV

maaf, edisi pertama komentar saya tidak bisa dimengerti: sekarang poin saya harus jelas. Dengan kata lain, jika tidak ada "benar" , apa yang harus kita intepret sebagai dalam ekspresi ?

θ

$\theta$

θ

$\theta$

\sqrt{n} (\hat{θ} - θ)

$\sqrt n (\hat \theta - \theta)$

— DeltaIV

@DeltaIV Zero. Akankah QMLE "menangkap" ini? Tergantung pada apakah itu akan konsisten atau tidak -dan lagi, tidak ada jawaban tunggal untuk pertanyaan itu

— Alecos Papadopoulos

Saya mengerti. Jadi QMLE (jika konsisten) harus konvergen ke : Saya akan berpikir itu akan konvergen ke beberapa nilai parameter "paling tidak salah", seperti yang disarankan oleh @kjetilbhalvorsen. Bisakah Anda menyarankan referensi pada QMLE dan persamaan yang Anda tulis? Terima kasih

θ = 0

$\theta=0$

— DeltaIV

@DeltaIV Saya akan menyarankan eksposisi di Hayashi ch. 7 tentang Extremum Estimators, mengenai konsistensi MLE, normalitas dll. Mengenai QMLE topiknya agak luas. Sebagai contoh, di bawah "QMLE" kami memang mungkin juga memiliki situasi di mana kami mengakui sejak awal bahwa parameter yang kami perkirakan mungkin tidak memiliki koneksi yang jelas ke "parameter sebenarnya" apa pun (tetapi latihan tersebut masih valid sebagai perkiraan)., dan dapatkan vektor "paling tidak salah" seperti yang disarankan.

— Alecos Papadopoulos