Apakah ada situasi di mana BIC berguna dan AIC tidak?

Dalam entri Wikipedia untuk kriteria informasi Akaike , kita membaca di bawah Perbandingan dengan BIC (kriteria informasi Bayesian) yang

... AIC / AICc memiliki keunggulan teoritis dibandingkan BIC ... AIC / AICc berasal dari prinsip-prinsip informasi; BIC bukan ... BIC memiliki prioritas 1 / R (di mana R adalah jumlah model kandidat), yang "tidak masuk akal" ... AICc cenderung memiliki keunggulan praktis / kinerja dibandingkan BIC ... AIC secara asimptotik optimal ... BIC tidak optimal asymptotically ... tingkat di mana AIC bertemu ke optimal adalah ... yang terbaik.

Di bagian pembicaraan AIC , ada banyak komentar tentang presentasi bias perbandingan dengan bagian BIC. Seorang kontributor yang frustrasi memprotes bahwa seluruh artikel "berbunyi seperti iklan untuk rokok."

Dalam sumber lain, misalnya tesis ini lampiran jangka waktu klaim untuk AIC tampaknya lebih realistis. Dengan demikian, sebagai layanan kepada masyarakat, kami bertanya:

T: Apakah ada situasi di mana BIC berguna dan AIC tidak?

— Carl
sumber

Jawaban:

Menurut Wikipedia, AIC dapat ditulis sebagai berikut:

2 k - 2 \ln (L)

$2k - 2 \ln(\mathcal L)$ Karena BIC memungkinkan hukuman besar untuk model kompleks, ada situasi di mana AIC akan mengisyaratkan bahwa Anda harus memilih model yang terlalu kompleks, sementara BIC masih berguna. BIC dapat ditulis sebagai berikut:

- 2 \ln (L) + k \ln (n)

$-2 \ln(\mathcal L) + k \ln(n)$ Jadi perbedaannya adalah bahwa BIC menghukum untuk ukuran sampel. Jika Anda tidak ingin menghukum sampel di sana

Penjelasan cepat oleh Rob Hyndman dapat ditemukan di sini: Apakah ada alasan untuk lebih menyukai AIC atau BIC daripada yang lain? Dia menulis:

AIC adalah yang terbaik untuk prediksi karena sama asymptotnya dengan cross-validation.

BIC paling baik untuk penjelasan karena memungkinkan estimasi yang konsisten dari proses pembuatan data yang mendasarinya. **

Sunting: Salah satu contoh dapat ditemukan dalam analisis Time Series. Dalam model VAR, AIC (dan juga versi yang sudah diperbaiki, AICc) sering membutuhkan banyak waktu. Oleh karena itu orang harus melihat BIC ketika memilih jumlah lag dari VAR Modell. Untuk informasi lebih lanjut, Anda dapat membaca bab 9.2 dari Peramalan- Prinsip dan Praktik oleh Rob J. Hyndman dan George Athanasopoulos.

— Ferdi
sumber

Bisakah Anda menambahkan lebih banyak? Secara khusus, tidak dapatkah BIC digunakan untuk bertemu pada saat yang tepat sebelum diberikan post-hoc? Saya menghargai jawabannya, terima kasih. BTW, "terlalu" kompleks bukan "2". Anehnya, bukan konsep temporal "prediksi" yang tampaknya terbatas pada prediksi hanya dalam arti interpolasi nilai dari kisaran nilai-nilai yang ditahan yang hampir identik. Biasanya kata prediksi akan berlaku untuk ekstrapolasi di luar rentang rangkaian waktu yang diamati, yang bukan merupakan validasi silang atau AIC. Mungkin istilah "prediksi interpolasi" harus digunakan.

— Carl

Teks tebal adalah kutipan satu-satu dari Rob Hyndman, yang merupakan profesor statistik terkenal dari Australia. Saya pikir dengan "prediksi" yang ia maksudkan adalah "inferensi". Jadi AIC akan lebih berguna untuk statistik inferensial sedangkan BIC akan lebih berguna untuk statistik deskriptif.

— Ferdi

Ya, produktif juga. Namun, apa yang saya minta adalah salah satu contoh bagus dari apa yang AIC tidak bisa lakukan yang BIC dapat lakukan.

— Carl

@ Ferdi, tidak, pasti "prediksi" tidak berarti "kesimpulan" dalam posting blog itu. "Prediksi" adalah "prediksi", atau "perkiraan" di mana Anda tidak peduli apakah model Anda "benar" (dalam beberapa hal) asalkan prakiraannya baik. Setelah posting itu, tampaknya BIC adalah yang disukai untuk inferensi.

— Richard Hardy

Terimakasih atas balasan anda. Prediksi atau Prakiraan "menyimpulkan" dari data yang diamati pada "data yang tidak diamati".

— Ferdi

Tidaklah bermakna untuk bertanya apakah AIC lebih baik daripada BIC. Meskipun dua kriteria pemilihan model yang berbeda ini terlihat sangat mirip, mereka masing-masing dirancang untuk memecahkan masalah yang berbeda secara mendasar. Jadi, Anda harus memilih kriteria pemilihan model yang sesuai untuk masalah yang Anda miliki.

AIC adalah rumus perkiraan nilai yang diharapkan dari dua kali log negatif kemungkinan data uji menggunakan model probabilitas yang ditentukan dengan benar yang parameternya diperoleh dengan menyesuaikan model ke data pelatihan. Yaitu, AIC memperkirakan kesalahan validasi silang yang diharapkan menggunakan kesalahan log negatif. Itu adalah, $AIC \approx E\{-2 \log \prod_{i=1}^n p(x_i | \hat{\theta}_n)\}$ Dimana $x_1, \ldots, x_n$ adalah data uji, $\hat{\theta}_n$ diperkirakan menggunakan data pelatihan, dan $E\{ \}$ menunjukkan operator ekspektasi sehubungan dengan proses menghasilkan data iid yang menghasilkan data pelatihan dan tes.

BIC di sisi lain tidak dirancang untuk memperkirakan kesalahan validasi silang. BIC memperkirakan dua kali logaritma negatif dari kemungkinan data yang diamati diberikan model. Kemungkinan ini juga disebut kemungkinan marjinal yang dihitung dengan mengintegrasikan fungsi kemungkinan yang ditimbang oleh suatu parameter sebelum $p(\theta)$ lebih dari ruang parameter. Itu adalah, $BIC \approx -2 \log \int [\prod_{i=1}^n p( x_i | \theta) ] p(\theta)d\theta$ .

— RMG
sumber

Beberapa pendukung AIC versus BIC begitu terpikat pada pendapat mereka sehingga mereka mengingatkan saya pada Demokrat versus Partai Republik di AS. Pertanyaan yang diajukan adalah yang praktis karena kamp-kamp bersenjata ini sering meninjau artikel jurnal ilmiah, dan memang pertanyaan yang lebih relevan adalah apakah kemungkinan maksimum tepat sama sekali dalam situasi di mana ia cenderung diterapkan.

— Carl

BTW (+1) untuk berkontribusi dalam diskusi. Ingin melihat lebih lanjut tentang apakah AIC atau BIC berlaku untuk kapan mereka cenderung digunakan, tetapi itu, diakui, merupakan pertanyaan terpisah.

— Carl