Inferensi Statistik Dalam Kesalahan Spesifikasi

Perlakuan klasik dari inferensi statistik bergantung pada asumsi bahwa statistik yang ditentukan secara tepat digunakan. Yaitu, distribusi yang menghasilkan data yang diamati adalah bagian dari model statistik : Namun, dalam kebanyakan situasi kita tidak dapat berasumsi bahwa ini benar. Saya ingin tahu apa yang terjadi dengan prosedur inferensi statistik jika kita menjatuhkan asumsi yang ditentukan dengan benar. $\mathbb{P}^*(Y)$ $y$ $\mathcal{M}$

P^{*} (Y) \in M = {P_{θ} (Y) : θ \in Θ}

$\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\}$

Saya telah menemukan beberapa pekerjaan oleh White 1982 tentang perkiraan ML di bawah salah spesifikasi. Di dalamnya diperdebatkan bahwa penaksir kemungkinan maksimum adalah penaksir yang konsisten untuk distribusi yang meminimalkan divergensi-KL dari semua distribusi dalam model statistik dan distribusi yang benar .

P_{θ_{1}} = \arg min_{P_{θ} \in M} K L (P^{*}, P_{θ})

$\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)$

P^{*}

$\mathbb{P}^*$

Apa yang terjadi pada penduga yang menetapkan keyakinan? Mari rekapitulasi penduga set kepercayaan diri. Misalkan $\delta:\Omega_Y \rightarrow 2^\Theta$ menjadi estimator yang ditetapkan, di mana $\Omega_Y$ adalah ruang sampel dan $2^\Theta$ kekuatan yang ditetapkan di ruang parameter $\Theta$ . Apa yang ingin kita ketahui adalah probabilitas dari peristiwa bahwa set yang dihasilkan oleh $\delta$ menyertakan distribusi sebenarnya $\mathbb{P}^*$ , yaitu

P^{*} (P^{*} \in {P_{θ} : θ \in δ (Y)}) := A .

$\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A.$

Namun, kami tentu saja tidak tahu distribusi yang sebenarnya . Asumsi yang ditentukan dengan benar memberitahu kita bahwa . Namun, kami masih belum tahu distribusi model itu. Tapi, adalah batas bawah untuk probabilitas . Persamaan adalah definisi klasik tingkat kepercayaan untuk penaksir keyakinan yang ditetapkan. $\mathbb{P}^*$ $\mathbb{P}^* \in \mathcal{M}$

inf_{θ \in Θ} P_{θ} (θ \in δ (Y)) := B

$\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=B$

A

$A$

B

$B$

Jika kita menjatuhkan asumsi yang ditentukan dengan benar, tidak selalu merupakan batas bawah untuk , istilah yang sebenarnya menarik bagi kita. Memang, jika kita mengasumsikan bahwa model salah dipilih, yang bisa dibilang kasus untuk situasi yang paling realistis, adalah 0, karena distribusi sebenarnya tidak terkandung dalam model statistik . $B$ $A$ $A$ $P^*$ $\mathcal{M}$

Dari perspektif lain orang bisa berpikir tentang apa yang terkait ketika model itu tidak ditentukan. Ini pertanyaan yang lebih spesifik. Apakah masih memiliki makna, jika modelnya tidak ditentukan secara spesifik. Jika tidak, mengapa kita repot-repot dengan statistik parametrik? $B$ $B$

Saya kira White 1982 mengandung beberapa hasil pada masalah ini. Sayangnya, kurangnya latar belakang matematika saya menghalangi saya untuk memahami banyak hal yang ditulis di sana.

— Julian Karls
sumber

Saya menemukan pertanyaan ini + jawab stats.stackexchange.com/questions/149773/… . Ini sangat mirip. Membaca buku-buku ini mungkin akan mengarah pada jawaban atas pertanyaan ini. Namun, saya masih berpikir bahwa ringkasan oleh seseorang yang sudah melakukan ini akan sangat membantu.

— Julian Karls

Sayang pertanyaan ini belum menghasilkan minat lebih - tautan oleh Julian memiliki beberapa bahan yang bagus, tapi saya tertarik untuk mendengar lebih banyak pemikiran tentang masalah ini.

— Florian Hartig

Biasanya yang dilakukan adalah distribusi statistik uji dihitung berdasarkan hipotesis nol dengan asumsi model statistiknya benar. Jika nilai p cukup rendah disimpulkan bahwa ini karena kebetulan atau nol adalah salah. Namun jika model salah-menentukan maka ini juga merupakan kesimpulan yang secara logis dapat ditarik. Hal yang sama berlaku untuk semua kesimpulan lain: fakta bahwa model tersebut tidak ditentukan memberikan kesimpulan alternatif. Ini adalah bagaimana saya memikirkannya berdasarkan setelah membaca karya Spanos.

— Toby

Intinya, semua model salah. Ini membantu untuk mengembangkan kesalahan spesifikasi secara kuantitatif. Untuk sebuah gambar, kesalahan spesifikasi adalah kesalahan registrasi. Misalnya, untuk menghitung kesalahan (misalnya, dari peluruhan radioaktif) untuk jumlah hitungan yang cukup, kesalahan tersebut didistribusikan Poisson. Dalam hal ini, kesalahan daftar rangkaian waktu adalah kesalahan sumbu y dari akar kuadrat dari gambar, dan noise ada dalam unit yang sama. Contoh di sini .

— Carl

Jawaban:

Misalkan menjadi data yang diobservasi yang dianggap sebagai realisasi dari serangkaian variabel acak iid dengan fungsi kerapatan probabilitas umum didefinisikan sehubungan dengan ukuran sigma-hingga . Kepadatan disebut kepadatan Data Generating Process (DGP). $y_1, \ldots, y_n$ $Y_1, \ldots, Y_n$ $p_e$ $\nu$ $p_e$

Dalam model probabilitas peneliti adalah kumpulan fungsi kepadatan probabilitas yang diindeks oleh vektor parameter . Asumsikan setiap kerapatan dalam adalah yang didefinisikan sehubungan dengan ukuran sigma-hingga yang umum (misalnya, masing-masing kerapatan bisa menjadi fungsi massa probabilitas dengan ruang sampel ). ${\cal M} \equiv \{ p(y ; \theta) : \theta \in \Theta \}$ $\theta$ ${\cal M}$ $\nu$ $S$

Penting untuk menjaga kepadatan yang sebenarnya menghasilkan data secara konseptual berbeda dari model probabilitas data. Dalam perawatan statistik klasik pemisahan yang cermat dari konsep-konsep ini diabaikan, tidak dibuat, atau diasumsikan sejak awal bahwa model probabilitas ditentukan dengan benar. $p_e$

Model yang ditentukan dengan benar berkenaan dengan didefinisikan sebagai model di mana hampir di mana-mana. Ketika salah ditentukan sehubungan dengan ini sesuai dengan kasus di mana model probabilitas tidak ditentukan dengan benar. ${\cal M}$ $p_e$ $p_e \in {\cal M}$ $\nu$ ${\cal M}$ $p_e$

Jika model probabilitas ditentukan dengan benar, maka ada di ruang parameter sedemikian rupa sehingga hampir di semua tempat. Vektor parameter seperti itu disebut "vektor parameter benar". Jika model probabilitas salah spesifikasi, maka vektor parameter sebenarnya tidak ada. $\theta^*$ $\Theta$ $p_e(y) = p(y ; \theta^*)$ $\nu$

Dalam kerangka model kesalahan spesifikasi White tujuannya adalah untuk menemukan estimasi parameter yang meminimalkan atas beberapa kompak ruang parameter . Hal ini diasumsikan bahwa minimizer unik yang ketat global, , dari nilai yang diharapkan dari pada terletak di pedalaman $\hat{\theta}_n$ $\hat{\ell}_n({\theta}) \equiv (1/n) \sum_{i=1}^n \log p(y_i ; { \theta})$ $\Theta$ $\theta^*$ $\hat{\ell}_n$ $\Theta$ $\Theta$ . Dalam kasus keberuntungan di mana model probabilitas ditentukan dengan benar, $\theta^*$ dapat ditafsirkan sebagai "nilai parameter sejati".

Dalam kasus khusus di mana model probabilitas ditentukan dengan benar, maka adalah akrab estimasi maksimum likelihood. Jika kita tidak tahu memiliki pengetahuan mutlak bahwa model probabilitas ditentukan dengan benar, maka disebut perkiraan kuasi-maksimum kemungkinan dan tujuannya adalah untuk memperkirakan . Jika kita beruntung dan model probabilitas ditentukan dengan benar, maka estimasi kemungkinan kuasi-maksimum berkurang sebagai kasus khusus untuk estimasi kemungkinan maksimum yang telah dikenal dan menjadi nilai parameter sebenarnya. $\hat{\theta}_n$ $\hat{\theta}_n$ $\theta^*$ $\theta^*$

Konsistensi dalam White (1982) kerangka kerja berkorespondensi untuk konvergensi ke $\theta^*$ tanpa memerlukan bahwa $\theta^*$ adalah tentu vektor parameter yang benar. Dalam kerangka kerja White, kami tidak akan pernah memperkirakan probabilitas dari peristiwa bahwa set yang dihasilkan oleh δ termasuk distribusi TRUE P *. Sebagai gantinya, kami akan selalu memperkirakan distribusi probabilitas P ** yang merupakan probabilitas dari peristiwa yang set yang dihasilkan oleh δ termasuk distribusi yang ditentukan oleh kepadatan $p(y ; \theta^*)$ .

Akhirnya, beberapa komentar tentang kesalahan spesifikasi model. Sangat mudah untuk menemukan contoh di mana model yang salah spesifikasi sangat berguna dan sangat prediktif. Sebagai contoh, pertimbangkan model regresi nonlinier (atau bahkan linier) dengan istilah kesalahan residual Gaussian yang variansenya sangat kecil namun kesalahan residual aktual di lingkungan bukanlah Gaussian.

Juga mudah untuk menemukan contoh di mana model yang ditentukan dengan benar tidak berguna dan tidak dapat diprediksi. Sebagai contoh, pertimbangkan model berjalan acak untuk memprediksi harga saham yang memprediksi harga penutupan besok adalah jumlah tertimbang dari harga penutupan hari ini dan beberapa kebisingan Gaussian dengan varian yang sangat besar.

Tujuan dari kerangka kesalahan spesifikasi model bukan untuk memastikan validitas model melainkan untuk memastikan keandalan. Artinya, pastikan bahwa kesalahan pengambilan sampel yang terkait dengan perkiraan parameter Anda, interval kepercayaan, tes hipotesis, dan sebagainya diperkirakan dengan benar terlepas dari adanya kesalahan spesifikasi model dalam jumlah kecil atau besar. Estimasi kemungkinan kuasi maksimum secara asimptotik normal berpusat di $\theta^*$ dengan estimator matriks kovarians yang bergantung pada turunan pertama dan kedua dari fungsi kemungkinan log-negatif. Dalam kasus khusus di mana Anda beruntung dan modelnya benar maka semua rumus dikurangi menjadi kerangka kerja statistik klasik yang sudah dikenal di mana tujuannya adalah untuk memperkirakan nilai parameter "benar".

— RMG
sumber

Pertama, izinkan saya mengatakan bahwa ini adalah pertanyaan yang sangat menarik; pujian kepada Julian untuk mempostingnya. Seperti yang saya lihat, masalah mendasar yang Anda hadapi dalam analisis semacam ini adalah bahwa setiap inferensi dari setiap subset dari adalah kesimpulan atas kelas terbatas dari ukuran probabilitas dalam model , jadi ketika Anda mulai bertanya tentang probabilitas untuk menyimpulkan yang sebenarnya. Model, di bawah model, ini merosot ke pertanyaan sepele tentang apakah ada spesifikasi yang salah untuk memulai. Putih mengatasi ini dengan melihat seberapa dekat model sampai ke ukuran probabilitas sebenarnya, menggunakan metrik jarak yang sesuai. Ini membawanya ke ukuran probabilitas , yang merupakan proksi terdekat untuk di $\Theta$ $\mathcal{M}$ $\mathbb{P}_{\theta_1}$ $\mathbb{P}^*$ . Metode melihat ini dapat diperluas untuk memberikan jumlah yang menarik terkait dengan pertanyaan Anda tentang kumpulan kepercayaan. $\mathcal{M}$ $\mathbb{P}_{\theta_1}$

Sebelum membahas hal ini, perlu ditunjukkan bahwa nilai-nilai dan secara matematis didefinisikan dengan baik dalam analisis Anda (yaitu, mereka ada), dan mereka masih memiliki makna; itu belum tentu makna yang sangat berguna. Nilai dalam analisis Anda didefinisikan dengan baik; itu adalah probabilitas sebenarnya bahwa set pengukuran probabilitas yang disimpulkan mencakup ukuran probabilitas sebenarnya. Anda benar bahwa menyiratkan , yang berarti bahwa jumlah ini sepele dalam hal kesalahan spesifikasi. Mengikuti petunjuk White, mungkin lebih menarik untuk melihat kuantitasnya: $A$ $B$ $A$ $\mathbb{P}^* \notin \mathcal{M}$ $A = 0$

A^{*} \equiv A^{*} (Y) \equiv P^{*} (P_{θ_{1}} \in {P_{θ} | θ \in δ (Y)}) .

$A^* \equiv A^*(Y) \equiv \mathbb{P}^* (\mathbb{P}_{\theta_1} \in \{P_\theta | \theta \in \delta(Y) \} ).$

$\mathbb{P}^*$ $\mathcal{M}$ $\mathbb{P}^* \notin \mathcal{M}$ $\mathbb{P}_{\theta_1} \in \mathcal{M}$

$\mathbb{P}_{\theta_1}$ $\delta$ $A^*$ $n \rightarrow \infty$ . Jika Anda dapat menetapkan hasil konvergensi (positif) batas bawah atau (positif), ini memberi Anda nilai dalam menjamin bahwa meskipun ada kesalahan spesifikasi, Anda masih memperkirakan proxy terdekat dengan tingkat probabilitas. Saya akan merekomendasikan agar Anda menjelajahi masalah-masalah itu, mengikuti jenis analisis yang dilakukan oleh White.

— Pasang kembali Monica
sumber