Misalkan menjadi data yang diobservasi yang dianggap sebagai realisasi dari serangkaian variabel acak iid dengan fungsi kerapatan probabilitas umum didefinisikan sehubungan dengan ukuran sigma-hingga . Kepadatan disebut kepadatan Data Generating Process (DGP).y1,…,ynY1,…,Ynpeνpe
Dalam model probabilitas peneliti
adalah kumpulan fungsi kepadatan probabilitas yang diindeks oleh vektor parameter
. Asumsikan setiap kerapatan dalam adalah yang didefinisikan sehubungan dengan ukuran sigma-hingga yang umum (misalnya, masing-masing kerapatan bisa menjadi fungsi massa probabilitas dengan ruang sampel ).M≡{p(y;θ):θ∈Θ}θMνS
Penting untuk menjaga kepadatan yang sebenarnya menghasilkan data secara konseptual berbeda dari model probabilitas data. Dalam perawatan statistik klasik pemisahan yang cermat dari konsep-konsep ini diabaikan, tidak dibuat, atau diasumsikan sejak awal bahwa model probabilitas ditentukan dengan benar.pe
Model yang ditentukan dengan benar berkenaan dengan didefinisikan sebagai model di mana hampir di mana-mana. Ketika
salah ditentukan sehubungan dengan ini sesuai dengan kasus di mana model probabilitas tidak ditentukan dengan benar.Mpepe∈M νMpe
Jika model probabilitas ditentukan dengan benar, maka ada di ruang parameter sedemikian rupa sehingga
hampir di semua tempat. Vektor parameter seperti itu disebut "vektor parameter benar". Jika model probabilitas salah spesifikasi, maka vektor parameter sebenarnya tidak ada.θ∗Θpe(y)=p(y;θ∗) ν
Dalam kerangka model kesalahan spesifikasi White tujuannya adalah untuk menemukan estimasi parameter θ n yang meminimalkan
ℓ n ( θ ) ≡ ( 1 / n ) Σ n i = 1 log p ( y i ; θ ) atas beberapa kompak ruang parameter Θ . Hal ini diasumsikan bahwa minimizer unik yang ketat global, θ * , dari nilai yang diharapkan dari ℓ n pada Θ terletak di pedalaman Θθ^nℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ)Θθ∗ℓ^nΘΘ. Dalam kasus keberuntungan di mana model probabilitas ditentukan dengan benar, θ∗ dapat ditafsirkan sebagai "nilai parameter sejati".
Dalam kasus khusus di mana model probabilitas ditentukan dengan benar, maka θ n adalah akrab estimasi maksimum likelihood. Jika kita tidak tahu memiliki pengetahuan mutlak bahwa model probabilitas ditentukan dengan benar, maka θ n disebut perkiraan kuasi-maksimum kemungkinan dan tujuannya adalah untuk memperkirakan θ * . Jika kita beruntung dan model probabilitas ditentukan dengan benar, maka estimasi kemungkinan kuasi-maksimum berkurang sebagai kasus khusus untuk estimasi kemungkinan maksimum yang telah dikenal dan
θ ∗ menjadi nilai parameter sebenarnya.θ^nθ^nθ∗θ∗
Konsistensi dalam White (1982) kerangka kerja berkorespondensi untuk konvergensi ke θ∗ tanpa memerlukan bahwa θ∗ adalah tentu vektor parameter yang benar. Dalam kerangka kerja White, kami tidak akan pernah memperkirakan probabilitas dari peristiwa bahwa set yang dihasilkan oleh δ termasuk distribusi TRUE P *. Sebagai gantinya, kami akan selalu memperkirakan distribusi probabilitas P ** yang merupakan probabilitas dari peristiwa yang set yang dihasilkan oleh δ termasuk distribusi yang ditentukan oleh kepadatan
p(y;θ∗) .
Akhirnya, beberapa komentar tentang kesalahan spesifikasi model. Sangat mudah untuk menemukan contoh di mana model yang salah spesifikasi sangat berguna dan sangat prediktif. Sebagai contoh, pertimbangkan model regresi nonlinier (atau bahkan linier) dengan istilah kesalahan residual Gaussian yang variansenya sangat kecil namun kesalahan residual aktual di lingkungan bukanlah Gaussian.
Juga mudah untuk menemukan contoh di mana model yang ditentukan dengan benar tidak berguna dan tidak dapat diprediksi. Sebagai contoh, pertimbangkan model berjalan acak untuk memprediksi harga saham yang memprediksi harga penutupan besok adalah jumlah tertimbang dari harga penutupan hari ini dan beberapa kebisingan Gaussian dengan varian yang sangat besar.
Tujuan dari kerangka kesalahan spesifikasi model bukan untuk memastikan validitas model melainkan untuk memastikan keandalan. Artinya, pastikan bahwa kesalahan pengambilan sampel yang terkait dengan perkiraan parameter Anda, interval kepercayaan, tes hipotesis, dan sebagainya diperkirakan dengan benar terlepas dari adanya kesalahan spesifikasi model dalam jumlah kecil atau besar. Estimasi kemungkinan kuasi maksimum secara asimptotik normal berpusat di θ∗ dengan estimator matriks kovarians yang bergantung pada turunan pertama dan kedua dari fungsi kemungkinan log-negatif. Dalam kasus khusus di mana Anda beruntung dan modelnya benar maka semua rumus dikurangi menjadi kerangka kerja statistik klasik yang sudah dikenal di mana tujuannya adalah untuk memperkirakan nilai parameter "benar".