Saya berpendapat bahwa setidaknya ketika membahas model linier (seperti model AR), dan AIC yang disesuaikan tidak jauh berbeda.R2
Pertimbangkan pertanyaan apakah harus dimasukkan dalam
y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ
Ini sama dengan membandingkan model
M 1X2
y= X1( n × K1)β1+ X2( n × K2)β2+ ϵ
di mana
E(u|X1,X2)=0. Kami mengatakan bahwa
M2adalah
model sebenarnyajika
β2≠0. Perhatikan bahwa
M1⊂M2. Model demikian
bersarang. Sebuah pemilihan model prosedur
MM.1M.2::y= X1β1+ uy= X1β1+ X2β2+ kamu ,
E( u | X1, X2) = 0M.2β2≠ 0M.1⊂ M.2M.ˆ adalah aturan yang bergantung pada data yang memilih yang paling masuk akal dari beberapa model.
M.ˆ
limn → ∞P( M.ˆ= M1|M.1)limn →∞P(M.ˆ= M2|M.2)==11
Pertimbangkan penyesuaian . Yaitu, pilih jika . Karena secara monoton menurun dalam , prosedur ini setara dengan meminimalkan . Pada gilirannya, ini sama dengan meminimalkan . Untuk cukup besar , yang terakhir dapat ditulis sebagai
manaM 1 ˉ R 2 1 > ˉ R 2 2 ˉ R 2 s 2 s 2 log ( s 2 ) nR2M.1R¯21>R¯22R¯2s2s2catatan( s2)n
catatan( s2)==≈≈catatan( σˆ2nn - K)catatan( σˆ2) + log( 1 + Kn - K)catatan( σˆ2) + Kn - Kcatatan( σˆ2) + Kn,
σˆ2adalah estimator ML dari varian kesalahan. Pemilihan model berdasarkan oleh karena itu asimptotik setara dengan memilih model dengan terkecil
. Prosedur ini tidak konsisten.
R¯2catatan( σˆ2) + K/ n
Proposisi :
limn → ∞P( R¯21> R¯22| M.1) <1
Bukti :
mana baris ke-2 mengikuti karena statistik adalah statistik LR dalam kasus regresi linier yang mengikuti asimtotik distribusi nol. QED
P( R¯21> R¯22| M.1)≈=≈=→<P( log( s21) < log( s22) | M.1)P( nlog( s21) < n log( s22) | M.1)P( n log( σˆ21) + K1< n log( σˆ22) + K1+ K2| M.1)P( n [ log( σˆ21) - log( σˆ22) ] < K2| M.1)P( χ2K2< K2)1 ,
χ2K2
Sekarang pertimbangkan kriteria Akaike,
Dengan demikian, AIC juga memperdagangkan pengurangan SSR yang tersirat oleh regressor tambahan terhadap "hukuman jangka" , "yang menunjuk ke arah yang berlawanan. Jadi, pilih jika
, kalau tidak pilih .
A IC= log( σˆ2) + 2 Kn
M1AIC1<AIC2M2
Dapat dilihat bahwa juga tidak konsisten dengan melanjutkan bukti di atas pada baris tiga dengan . disesuaikan dan dengan demikian memilih model "besar" dengan probabilitas positif, bahkan jika adalah model yang sebenarnya.AICP(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1)R2AICM2M1
Karena penalti untuk kompleksitas dalam AIC sedikit lebih besar daripada untuk disesuaikan , mungkin akan lebih rentan untuk melakukan overselect. Dan itu memiliki properti bagus lainnya (meminimalkan perbedaan KL ke model yang benar jika itu tidak dalam set model yang dipertimbangkan) yang tidak dibahas dalam posting saya.R2