Bagaimana cara membandingkan model berdasarkan AIC?

Kami memiliki dua model yang menggunakan metode yang sama untuk menghitung kemungkinan log dan AIC untuk satu lebih rendah dari yang lain. Namun, yang dengan AIC lebih rendah jauh lebih sulit untuk ditafsirkan.

Kami mengalami masalah dalam memutuskan apakah layak untuk memperkenalkan kesulitan dan kami menilai ini menggunakan perbedaan persentase dalam AIC. Kami menemukan bahwa perbedaan antara kedua AIC hanya 0,7%, dengan model yang lebih rumit memiliki AIC 0,7% lebih rendah.

Apakah perbedaan persentase yang rendah antara keduanya merupakan alasan yang baik untuk menghindari penggunaan model dengan AIC yang lebih rendah?
Apakah persentase perbedaan menjelaskan bahwa 0,7% lebih banyak informasi hilang dalam model yang kurang rumit?
Bisakah kedua model memiliki hasil yang sangat berbeda?

model-selection aic

— Ali Turab Lotia
sumber

Duplikat yang memungkinkan dari Apa yang merusak kompatibilitas model sehubungan dengan AIC?

— Arun Jose

@ArunJose, sepertinya itu bukan duplikat. Pertanyaan di sini sangat berbeda.

— Richard Hardy

Tidak. Pertanyaan ini bukan tentang perbandingan model. Kita sudah tahu modelnya sebanding. Pertanyaan ini berkaitan dengan apa yang dianggap sebagai perbedaan yang signifikan dalam AIC dan pertukaran antara kompleksitas vs kesesuaian model.

— Ali Turab Lotia

Seseorang tidak membandingkan nilai absolut dari dua AIC (yang bisa seperti tetapi juga ), tetapi mempertimbangkan perbedaannya : mana adalah AIC dari -th model, dan adalah AIC terendah yang diperoleh di antara set model yang diperiksa (yaitu, model yang disukai). Aturan praktis, diuraikan misalnya dalam Burnham & Anderson 2004 , adalah: $\sim 100$ $\sim 1000000$

Δ_{i} = A I C_{i} - A I C_{m i n},

$\Delta_i=AIC_i-AIC_{\rm min},$

A I C_{i}

$AIC_i$

i

$i$

A I C_{m i n}

$AIC_{\rm min}$

jika , maka ada dukungan yang substansial untuk model ke- (atau bukti yang menentangnya hanya layak disebutkan), dan proposisi bahwa itu adalah deskripsi yang tepat sangat mungkin; $\Delta_i<2$ $i$
jika , maka ada dukungan kuat untuk model ke- ; $2<\Delta_i<4$ $i$
jika , maka ada sangat sedikit dukungan untuk model ke- ; $4<\Delta_i<7$ $i$
model dengan pada dasarnya tidak memiliki dukungan. $\Delta_i>10$

Sekarang, mengenai 0,7% yang disebutkan dalam pertanyaan, pertimbangkan dua situasi:

$AIC_1=AIC_{\rm min}=100$ dan lebih besar sebesar 0,7%: . Kemudian sehingga tidak ada perbedaan substansial antara model. $AIC_2$ $AIC_2=100.7$ $\Delta_2=0.7<2$
$AIC_1=AIC_{\rm min}=100000$ dan lebih besar sebesar 0,7%: . Kemudian sehingga tidak ada dukungan untuk model 2-nd. $AIC_2$ $AIC_2=100700$ $\Delta_2=700\gg 10$

Oleh karena itu, mengatakan bahwa perbedaan antara AIC adalah 0,7% tidak memberikan informasi apa pun .

Nilai AIC berisi konstanta penskalaan yang berasal dari log-likelihood , dan karenanya bebas dari konstanta tersebut. Orang mungkin menganggap transformasi pengubahan ukuran yang memaksa model terbaik untuk memiliki . $\mathcal{L}$ $\Delta_i$ $\Delta_i = AIC_i − AIC_{\rm min}$ $AIC_{\rm min} := 0$

Formulasi AIC menghukum penggunaan jumlah parameter yang berlebihan, sehingga mencegah overfitting. Ini lebih suka model dengan parameter lebih sedikit, selama yang lain tidak memberikan kesesuaian yang jauh lebih baik. AIC mencoba memilih model (di antara yang diperiksa) yang paling memadai menggambarkan kenyataan (dalam bentuk data yang sedang diperiksa). Ini berarti bahwa sebenarnya model yang merupakan deskripsi nyata dari data tidak pernah dipertimbangkan. Perhatikan bahwa AIC memberi Anda informasi model mana yang menggambarkan data lebih baik, itu tidak memberikan interpretasi apa pun .

Secara pribadi , saya akan mengatakan bahwa jika Anda memiliki model sederhana dan rumit yang memiliki AIC jauh lebih rendah, maka model sederhana tidak cukup baik. Jika model yang lebih kompleks benar-benar jauh lebih rumit tetapi tidak besar (mungkin , mungkin - tergantung pada situasi tertentu) Saya akan tetap menggunakan model yang lebih sederhana jika benar-benar lebih mudah untuk bekerja dengan . $\Delta_i$ $\Delta_i<2$ $\Delta_i<5$

Selanjutnya, Anda dapat menganggap probabilitas untuk model ke- via $i$

p_{i} = \exp (\frac{- Δ_{i}}{2}),

$p_i=\exp\left(\frac{-\Delta_i}{2}\right),$

yang memberikan probabilitas relatif (dibandingkan dengan ) bahwa model ke- meminimalkan AIC. Misalnya, sesuai dengan (cukup tinggi), dan sesuai dengan (cukup rendah). Kasus pertama berarti bahwa ada kemungkinan 47% bahwa model ke- mungkin sebenarnya merupakan deskripsi yang lebih baik daripada model yang menghasilkan , dan dalam kasus kedua probabilitas ini hanya 0,05%. $AIC_{\rm min}$ $i$ $\Delta_i=1.5$ $p_i=0.47$ $\Delta_i=15$ $p_i=0.0005$ $i$ $AIC_{\rm min}$

Akhirnya, mengenai formula untuk AIC:

A I C = 2 k - 2 L,

$AIC=2k-2\mathcal{L},$

Penting untuk dicatat bahwa ketika dua model dengan yang sama dipertimbangkan, hanya bergantung pada jumlah parameter karena istilah . Oleh karena itu, ketika , peningkatan relatif adalah karena peningkatan kecocokan yang sebenarnya, bukan karena meningkatkan jumlah parameter saja. $\mathcal{L}$ $\Delta_i$ $2k$ $\frac{\Delta_i}{2\Delta k} < 1$

TL; DR

Itu alasan yang buruk; gunakan perbedaan antara nilai absolut AIC.
Persentasenya tidak mengatakan apa-apa.
Tidak mungkin menjawab pertanyaan ini karena tidak ada informasi tentang model, data, dan apa arti hasil yang berbeda .

— corey979
sumber

Ini adalah penjelasan paling jelas yang pernah saya lihat tentang masalah misterius ini. Saya mencari artikel yang Anda referensikan (hlm. 270-272) dan penjelasan Anda di sini adalah representasi yang sederhana dan jelas tetapi sangat akurat dari apa yang dijelaskan oleh artikel tersebut.

— Tripartio

Bisakah Anda membantu dengan pertanyaan lanjutan ini? stats.stackexchange.com/questions/349883/…

— Tripartio