Mengapa Wilks 1938 proof tidak berfungsi untuk model yang tidak ditentukan spesifikasi?

Dalam makalah yang terkenal tahun 1938 (" Distribusi sampel-besar dari rasio kemungkinan untuk menguji hipotesis komposit ", Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks memperoleh distribusi asimtotik dari (log likelihood ratio) untuk hipotesis bersarang, dengan asumsi bahwa hipotesis yang lebih besar ditentukan dengan benar. Distribusi pembatas adalah (chi-squared) dengan derajat kebebasan , di mana adalah jumlah parameter dalam hipotesis yang lebih besar dan $2 \times LLR$ $\chi^2$ $h-m$ $h$ $m$ adalah jumlah parameter gratis dalam hipotesis bersarang. Namun, seharusnya diketahui bahwa hasil ini tidak berlaku ketika hipotesis salah ditentukan (yaitu, ketika hipotesis yang lebih besar bukanlah distribusi yang sebenarnya untuk data sampel).

Adakah yang bisa menjelaskan mengapa? Menurut saya bukti Wilks masih harus bekerja dengan modifikasi kecil. Ini bergantung pada normalitas asimptotik dari estimasi kemungkinan maksimum (MLE), yang masih berlaku dengan model yang salah ditentukan. Satu-satunya perbedaan adalah matriks kovarians dari multivariat normal yang membatasi: untuk model yang ditentukan dengan benar, kita dapat memperkirakan matriks kovarians dengan matriks informasi Fisher terbalik , dengan kesalahan spesifikasi, kita dapat menggunakan estimasi sandwich dari matriks kovarians ( ). Yang terakhir mengurangi ke kebalikan dari matriks informasi Fisher ketika model ditentukan dengan benar (karena $J^{-1}$ $J^{-1} K J^{-1}$ $J = K$ ). AFAICT, bukti Wilks tidak peduli dari mana perkiraan matriks kovarians berasal, asalkan kita memiliki matriks kovarians asimptotik yang tidak dapat dibalik dari normal multivariat untuk MLEs ( dalam makalah Wilks). $c^{-1}$

— ratsalad
sumber

Ketika model yang lebih besar benar tetapi submodelnya salah, distribusi asimptotik tidak lagi

χ^{2}

$\chi^2$ (dalam model linier dengan kesalahan Gaussian, misalnya, kita mendapatkan hal-hal seperti distribusi noncentral-F yang tepat sehingga distribusi asimptotik harus seperti nc-

χ^{2}

$\chi^2$ Saya menebak). Jadi mengapa kita mengharapkannya menjadi

χ^{2}

$\chi^2$ ketika model yang lebih besar dan yang lebih kecil sama-sama salah? Apa sebenarnya hipotesis nol di sini untuk memulai?

— pria

Dalam hipotesis nol yang ditentukan dengan benar, kedua model adalah "benar", tetapi yang bersarang memiliki parameter

tetap pada nilai yang benar. Dalam hipotesis nol yang salah spesifik, kedua model adalah "salah", tetapi yang bersarang memiliki parameter

tetap pada nilai pseudotrue. ("Nilai pseudotrue" menjadi nilai asimptotik dari parameter yang meminimalkan jarak Kullback-Liebler antara model yang salah ditentukan dan model sebenarnya). Jadi contoh Anda dari noncentral-F tidak relevan, karena itu adalah distribusi ketika hipotesis nol di sini salah.

m

$m$

m

$m$

— ratsalad

Maaf, saya seharusnya mengatakan bahwa hipotesis bersarang memiliki parameter

tetap pada nilai sebenarnya.

h - m

$h-m$

— ratsalad

Ini adalah pemahaman saya bahwa model nol yang salah ditentukan dapat salah ditentukan dalam banyak hal. Sebagai contoh: distribusi residu yang salah, data memiliki heteroskedastisitas, efek tidak aditif, dll. Namun, saya setuju bahwa jika setidaknya satu dari

parameter "yang diuji" ditetapkan pada nilai yang salah (misalnya nilai pseudotrue) , itu adalah salah satu contoh model nol yang tidak ditentukan dengan benar.

h - m

$h - m$

— rcorty

Jawaban:

RV Foutz dan RC Srivastava telah memeriksa masalah ini secara rinci. Makalah 1977 mereka "Kinerja uji rasio kemungkinan ketika model tidak benar" berisi pernyataan hasil distribusi dalam kasus kesalahan spesifikasi di samping sketsa bukti yang sangat singkat, sedangkan makalah mereka 1978 " Makalah asimtotik dari rasio kemungkinan ketika modelnya salah " berisi buktinya - tetapi yang terakhir diketikkan dengan tipe penulis lama (kedua makalah tersebut menggunakan notasi yang sama, sehingga Anda dapat menggabungkannya dalam membaca). Juga, untuk beberapa langkah pembuktian mereka merujuk pada sebuah makalah oleh KP Roy "Sebuah catatan tentang distribusi asimtotik rasio kemungkinan" dari tahun 1957 yang tampaknya tidak tersedia secara online, bahkan terjaga keamanannya.

Dalam hal kesalahan spesifikasi distribusi, jika MLE masih konsisten dan asimptotik normal (yang tidak selalu terjadi), statistik LR mengikuti secara asimptotik kombinasi linear chi-square independen (masing-masing satu derajat kebebasan)

- 2 \ln λ \overset{d}{\to} \sum_{i = 1}^{r} c_{i} χ_{i}^{2}

$-2\ln \lambda \xrightarrow{d} \sum_{i=1}^{r}c_i\mathcal \chi^2_i$

dimana . Kita dapat melihat "kesamaan": alih-alih satu chi-square dengan derajat kebebasan, kita memiliki chi-square masing-masing dengan satu derajat kebebasan. Tetapi "analogi" berhenti di situ, karena kombinasi linear chi-square tidak memiliki kepadatan bentuk tertutup. Setiap chi-square yang diskalakan adalah gamma, tetapi dengan parameter berbeda yang mengarah ke parameter skala berbeda untuk gamma -dan jumlah gammas tersebut bukan bentuk-tertutup, walaupun nilainya dapat dihitung. $r=h-m$ $h-m$ $h-m$ $c_i$

Untuk konstanta , kita memiliki , dan mereka adalah nilai eigen dari sebuah matriks ... matriks mana? Nah, menggunakan notasi penulis, atur menjadi Hessian dari log-likelihood dan menjadi produk luar dari gradien log-likelihood (dalam istilah harapan). Jadi adalah matriks varians-kovarians asimptotik dari MLE. $c_i$ $c_1 \geq c_2\geq ...c_r \geq0$ $\Lambda$ $C$ $V = \Lambda^{-1} C (\Lambda')^{-1}$

Kemudian mengatur menjadi atas blok diagonal . $M$ $r \times r$ $V$

Juga tulis dalam bentuk blok $\Lambda$

Λ = [\begin{matrix} Λ_{r \times r} & Λ_{2}^{'} \\ Λ_{2} & Λ_{3} \end{matrix}]

$\Lambda =\left [\begin {matrix} \Lambda_{r\times r} & \Lambda_2'\\ \Lambda_2 & \Lambda_3\\ \end{matrix}\right]$

dan atur ( adalah negatif dari Komplemen Schur dari ). $W = -\Lambda_{r\times r}+\Lambda_2'\Lambda_3^{-1}\Lambda_2$ $W$ $\Lambda$

Maka adalah nilai eigen dari matriks dievaluasi pada nilai sebenarnya dari parameter. $c_i$ $MW$

TAMBAHKAN
Menanggapi komentar OP yang sah dalam komentar (kadang-kadang, memang, pertanyaan menjadi batu loncatan untuk berbagi hasil yang lebih umum, dan diri mereka sendiri mungkin diabaikan dalam proses), di sini adalah bagaimana bukti Wilks berlangsung: Wilks mulai dengan gabungan distribusi MLE yang normal, dan hasil untuk memperoleh ekspresi fungsional dari Rasio Kemungkinan. Hingga dan termasuk persamaannya. , buktinya dapat bergerak maju bahkan jika kita berasumsi bahwa kita memiliki kesalahan spesifikasi distribusi: seperti yang dicatat OP, syarat-syarat matriks varians kovarians akan berbeda dalam skenario kesalahan spesifikasi, tetapi semua yang dilakukan Wilks adalah mengambil turunan, dan mengidentifikasi istilah yang dapat diabaikan secara asimptotik. Dan dia tiba di tempat. $[9]$ $[9]$ di mana kita melihat bahwa statistik rasio kemungkinan, jika spesifikasinya benar, hanyalah jumlah dari kuadrat standar variabel acak normal, dan mereka didistribusikan sebagai satu chi-square dengan derajat kebebasan : (notasi generik ) $h-m$ $h-m$

- 2 \ln λ = \sum_{i = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{σ_{i}})}^{2} \overset{d}{\to} χ_{h - m}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 \xrightarrow{d} \mathcal \chi^2_{h-m}$

Tetapi jika kita memiliki kesalahan spesifikasi, maka istilah yang digunakan untuk skala MLE terpusat dan diperbesar tidak lagi istilah yang akan membuat varians dari setiap elemen sama untuk persatuan, dan mengubah setiap istilah menjadi rv standar normal dan jumlahnya menjadi chi-square. Dan mereka tidak, karena istilah-istilah ini melibatkan nilai yangdiharapkandari turunan kedua dari kemungkinan log ... tetapi nilai yang diharapkan hanya dapat diambil sehubungan dengan distribusi yang sebenarnya, karena MLE adalah fungsi dari data dan data mengikuti distribusi sebenarnya, sedangkan turunan kedua dari log-likelihood dihitung berdasarkan asumsi kepadatan yang salah. $\sqrt n(\hat \theta -\theta)$

Jadi di bawah kesalahan spesifikasi kita memiliki sesuatu seperti dan yang terbaik yang bisa kita lakukan adalah memanipulasinya

- 2 \ln λ = \sum_{i = 1}^{h - m} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{a_{i}})}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{a_i}\right)^2$

- 2 \ln λ = \sum_{i = 1}^{h - m} \frac{σ_{i}^{2}}{a_{i}^{2}} {(\sqrt{n} \frac{{\hat{θ}}_{i} - θ_{i}}{σ_{i}})}^{2} = \sum_{i = 1}^{h - m} \frac{σ_{i}^{2}}{a_{i}^{2}} χ_{1}^{2}

$-2\ln \lambda = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\left(\sqrt n\frac{\hat \theta_i - \theta_i}{\sigma_i}\right)^2 = \sum_{i=1}^{h-m}\frac {\sigma_i^2}{a_i^2}\mathcal \chi^2_1$

yang merupakan jumlah dari skala chi-square rv, tidak lagi didistribusikan sebagai satu chi-square rv dengan derajat kebebasan . Referensi yang diberikan oleh OP memang merupakan paparan yang sangat jelas dari kasus yang lebih umum ini yang memasukkan hasil Wilks sebagai kasus khusus. $h-m$

— Alecos Papadopoulos
sumber

Jadi, ini hanyalah pernyataan ulang dari hasil standar ketika model tidak ditentukan. Hasil ini telah diturunkan dan diturunkan kembali berkali-kali. Derivasi paling jelas dan paling mencerahkan yang pernah saya lihat adalah dari Kent 1982 " Uji Kuat Rasio Kemungkinan Likelihood " (Biometrika 69:19). Namun, Anda tidak menjawab pertanyaan saya. Pertanyaan saya secara khusus tentang bukti Wilks 1938, dan mengapa gagal.

— ratsalad

$J^{-1}$ $J^{-1}$ $J^{-1} K J^{-1}$ $ij$ $J$ $c_{ij}$ $J^{-1}KJ^{-1} = J^{-1}$ $K=J$ $K=J$

— RMG
sumber