Definisi AIC berbeda

12

Dari Wikipedia ada definisi Akaike Information Criterion (AIC) sebagai , di mana adalah jumlah parameter dan adalah log-kemungkinan model. $AIC = 2k -2 \log L$ $k$ $\log L$

Namun, Ekonometrik kami mencatat di universitas yang dihormati bahwa $AIC = \log (\hat{\sigma}^2) + \frac{2 \cdot k}{T}$ . Di sini $\hat{\sigma}^2$ adalah estimasi varians untuk kesalahan dalam model ARMA dan $T$ adalah jumlah pengamatan dalam dataset deret waktu.

Apakah definisi terakhir setara dengan yang pertama, tetapi hanya disetel untuk model ARMA? Atau adakah semacam konflik antara kedua definisi tersebut?

— pir
sumber

3

Sebagai catatan: kriteria singular, kriteria jamak. (Diedit sesuai.)

— Nick Cox

15

Formula yang Anda kutip dari catatan Anda tidak sepenuhnya AIC.

AIC adalah . $-2\log\mathcal{L}+2k$

Di sini saya akan memberikan garis besar perkiraan penurunan yang membuat cukup jelas apa yang terjadi.

Jika Anda memiliki model dengan kesalahan normal independen dengan varian konstan,

L \propto σ^{- n} e^{- \frac{1}{2 σ^{2}} \sum ε_{i}^{2}}

$\mathcal{L}\propto \sigma^{-n} \: e^{-\frac{1}{2\sigma^2}\sum \varepsilon_i^2}$

yang dapat diperkirakan dengan kemungkinan maksimum sebesar

\begin{array}{rcl} \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n {\hat{σ}}^{2} / {\hat{σ}}^{2}} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} e^{- \frac{1}{2} n} \\ \propto & ({\hat{σ}}^{2})^{- n / 2} \end{array}

$\begin{eqnarray} & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n\hat{\sigma}^2/\hat{\sigma}^2}\\ & \propto &(\hat{\sigma}^2)^{-n/2} e^{-\frac12 n}\\ & \propto &(\hat{\sigma}^2)^{-n/2} \end{eqnarray}$

(dengan asumsi estimasi adalah estimasi ML) $\sigma^2$

Jadi (hingga digeser oleh konstanta) $-2\log\mathcal{L} +2k = n\log{\hat{\sigma}^2} + 2k$

Sekarang dalam model ARMA, jika benar-benar besar dibandingkan dengan dan , maka kemungkinannya dapat diperkirakan dengan kerangka kerja Gaussian (misalnya Anda dapat menulis ARMA kira-kira sebagai AR yang lebih panjang dan syarat pada cukup istilah untuk menulis AR itu sebagai model regresi), demikian juga dengan sebagai ganti : $T$ $p$ $q$ $T$ $n$

$AIC \approx T\log{\hat{\sigma}^2} + 2k$

karenanya

$AIC/T \approx \log{\hat{\sigma}^2} + 2k/T$

Sekarang jika Anda hanya membandingkan AIC, pembagian yang melalui tidak penting sama sekali, karena itu tidak mengubah urutan nilai-nilai AIC. $T$

Namun, jika Anda menggunakan AIC untuk tujuan lain yang bergantung pada nilai aktual perbedaan dalam AIC (seperti melakukan inferensi multimodel seperti yang dijelaskan oleh Burnham dan Anderson), maka itu penting.

Sejumlah teks ekonometrik tampaknya menggunakan formulir AIC / T ini. Anehnya, beberapa buku tampaknya merujuk Hurvich dan Tsai 1989 atau Findley 1985 untuk bentuk itu, tetapi Hurvich & Tsai dan Findley tampaknya membahas bentuk asli (meskipun saya hanya memiliki indikasi tidak langsung tentang apa yang dilakukan Findley sekarang, jadi mungkin ada sesuatu di Findley di atasnya).

Penskalaan seperti itu dapat dilakukan karena berbagai alasan - misalnya, deret waktu, terutama deret waktu frekuensi tinggi, bisa sangat panjang dan AIC biasa memiliki kecenderungan untuk menjadi berat, terutama jika sangat kecil. (Ada beberapa alasan lain yang mungkin, tetapi karena saya benar-benar tidak tahu alasan ini dilakukan, saya tidak akan mulai membuat daftar semua alasan yang mungkin.) $\sigma^2$

Anda mungkin ingin melihat daftar Fakta dan kekeliruan AIC Rob Hyndman , - khususnya item 3 sampai 7. Beberapa poin tersebut mungkin membuat Anda setidaknya sedikit berhati-hati tentang terlalu mengandalkan pada perkiraan oleh kemungkinan Gaussian, tetapi mungkin ada justifikasi yang lebih baik daripada yang saya tawarkan di sini.

Saya tidak yakin ada alasan yang baik untuk menggunakan perkiraan ini untuk log-likelihood daripada AIC yang sebenarnya karena banyak paket seri waktu ini cenderung menghitung (/ memaksimalkan) log-likelihood aktual untuk model ARMA. Tampaknya ada sedikit alasan untuk tidak menggunakannya.

— Glen_b -Reinstate Monica
sumber

1

Cepat atau lambat, setiap diskusi tentang * IC berubah menjadi "Ini adalah kriteria yang harus Anda gunakan, kecuali bahwa itu sering memberikan jawaban yang salah dalam keadaan begini-begitu". Menjadi ironis, sama sekali tidak kritis terhadap jawaban yang biasanya bermanfaat. Ini seperti kehidupan nyata, di mana beberapa pepatah generik seperti "cinta semua orang" biasanya ditimpa sementara oleh saran lain jika seseorang mencoba memukul Anda atau merobek Anda.

— Nick Cox

1

@Nick Saya tidak terganggu oleh teks-teks yang menggunakan AIC / daripada AIC, tapi apa yang membuat saya khawatir adalah begitu banyak buku ekonometrik yang saya lihat sebut saja "AIC" tanpa komentar . Bagi saya itu hanya secara sembrono tidak bertanggung jawab. Siapa pun yang pertama kali melakukannya tetapi tidak mengatakannya telah disalin berulang kali.

n

$n$

— Glen_b -Reinstate Monica

2

Saya percaya ini didasarkan pada asumsi kesalahan normal. Dalam ekonometrik, Anda beroperasi menggunakan asimptotik, terutama dalam aplikasi deret waktu menggunakan AIC. Sebagai akibatnya, asumsi normal harus berlaku asimptotik untuk membenarkan skema pemilihan model (asimptotik) ini.

Ingat bahwa logaritma kemungkinan normal adalah , di mana kami menggunakan dan jika data Anda diambil dari X. Pada bagian selanjutnya kami mengabaikan istilah pertama, seperti sampel yang diamati tidak memengaruhinya. $ln(L) = -(T/2)ln(2\pi) -(T/2)ln(\sigma^2) - (1/2\sigma^2)\sum(x_i - \mu)$ $\mathbb{E}(X) = \mu$ $Var(X) = \sigma^2$ $x_1, ..., x_T$

Cukup gunakan rumus yang lebih umum (pertama) dan pasang untuk kemungkinan normal. Istilah pertama dapat diabaikan (itu adalah konstan terlepas dari pilihan regressor). Istilah kedua menjadi . Istilah ketiga menjadi , di mana kami telah menggunakan . Sekali lagi, tidak menggunakan koreksi sampel terbatas dibenarkan di sini karena estimator ini hanya valid asimptotik jika kesalahan tidak normal. Karena kita tidak tahu , kita harus memperkirakan suku ketiga sebagai = T. $L$ $Tln(\sigma^2)$ $(1/\sigma^2)(T\hat{\sigma}^2)$ $\hat{\sigma}^2 = T^{-1} \sum(x_i - \bar{x})$ $\sigma^2$ $(1/\sigma^2)(T\hat{\sigma}^2) = (1/\hat{\sigma}^2)(T\hat{\sigma}^2)$

Singkatnya, ini berarti kita mendapatkan kemungkinan normal bahwa . Tidak perlu dikatakan, minimisasi tidak terpengaruh dengan mengabaikan konstanta . Istilah ini sekarang hanya dibagi dengan , karena tidak mengubah masalah minimisasi untuk skala semua komponen aditif oleh . Ini menempatkan Anda pada hasil kedua, karena dan identik untuk tujuan minimalisasi. $AIC = 2k + Tln(\sigma^2) + 1$ $1$ $T$ $T$ $AIC$ $AIC/T$

— Jeremias K
sumber