Seseorang tidak membandingkan nilai absolut dari dua AIC (yang bisa seperti tetapi juga ), tetapi mempertimbangkan perbedaannya :
mana adalah AIC dari -th model, dan adalah AIC terendah yang diperoleh di antara set model yang diperiksa (yaitu, model yang disukai). Aturan praktis, diuraikan misalnya dalam Burnham & Anderson 2004 , adalah:∼ 1000000 Δ i = A I C i - A I C m i n , A I C i I A I C m i n∼ 100∼ 1000000
Δsaya= A ICsaya- A ICm i n,
A ICsayasayaA ICm i n
- jika , maka ada dukungan yang substansial untuk model ke- (atau bukti yang menentangnya hanya layak disebutkan), dan proposisi bahwa itu adalah deskripsi yang tepat sangat mungkin;iΔsaya< 2saya
- jika , maka ada dukungan kuat untuk model ke- ;i2 < Δsaya< 4saya
- jika , maka ada sangat sedikit dukungan untuk model ke- ;i4 < Δsaya< 7saya
- model dengan pada dasarnya tidak memiliki dukungan.Δsaya> 10
Sekarang, mengenai 0,7% yang disebutkan dalam pertanyaan, pertimbangkan dua situasi:
- A I C 2 A IAIC1=AICmin=100 dan lebih besar sebesar 0,7%: . Kemudian sehingga tidak ada perbedaan substansial antara model.AIC2AIC2=100.7Δ2=0.7<2
- A I C 2 A I C 2 = 100700AIC1=AICmin=100000 dan lebih besar sebesar 0,7%: . Kemudian sehingga tidak ada dukungan untuk model 2-nd.AIC2AIC2=100700Δ2=700≫10
Oleh karena itu, mengatakan bahwa perbedaan antara AIC adalah 0,7% tidak memberikan informasi apa pun .
Nilai AIC berisi konstanta penskalaan yang berasal dari log-likelihood
, dan karenanya bebas dari konstanta tersebut. Orang mungkin menganggap transformasi pengubahan ukuran yang memaksa model terbaik untuk memiliki .Δ i Δ i = A I C i - A I C m i n A I CLΔiΔi=AICi−AICminAICmin:=0
Formulasi AIC menghukum penggunaan jumlah parameter yang berlebihan, sehingga mencegah overfitting. Ini lebih suka model dengan parameter lebih sedikit, selama yang lain tidak memberikan kesesuaian yang jauh lebih baik. AIC mencoba memilih model (di antara yang diperiksa) yang paling memadai menggambarkan kenyataan (dalam bentuk data yang sedang diperiksa). Ini berarti bahwa sebenarnya model yang merupakan deskripsi nyata dari data tidak pernah dipertimbangkan. Perhatikan bahwa AIC memberi Anda informasi model mana yang menggambarkan data lebih baik, itu tidak memberikan interpretasi apa pun .
Secara pribadi , saya akan mengatakan bahwa jika Anda memiliki model sederhana dan rumit yang memiliki AIC jauh lebih rendah, maka model sederhana tidak cukup baik. Jika model yang lebih kompleks benar-benar jauh lebih rumit tetapi tidak besar (mungkin , mungkin - tergantung pada situasi tertentu) Saya akan tetap menggunakan model yang lebih sederhana jika benar-benar lebih mudah untuk bekerja dengan .ΔiΔi<2Δi<5
Selanjutnya, Anda dapat menganggap probabilitas untuk model ke- viai
pi=exp(−Δi2),
yang memberikan probabilitas relatif (dibandingkan dengan ) bahwa model ke- meminimalkan AIC. Misalnya, sesuai dengan (cukup tinggi), dan sesuai dengan (cukup rendah). Kasus pertama berarti bahwa ada kemungkinan 47% bahwa model ke- mungkin sebenarnya merupakan deskripsi yang lebih baik daripada model yang menghasilkan , dan dalam kasus kedua probabilitas ini hanya 0,05%. i Δ i = 1.5 p i = 0.47 Δ i = 15 p i = 0.0005 i A I C m i nAICminiΔi=1.5pi=0.47Δi=15pi=0.0005iAICmin
Akhirnya, mengenai formula untuk AIC:
AIC=2k−2L,
Penting untuk dicatat bahwa ketika dua model dengan yang sama dipertimbangkan, hanya bergantung pada jumlah parameter karena istilah . Oleh karena itu, ketika , peningkatan relatif adalah karena peningkatan kecocokan yang sebenarnya, bukan karena meningkatkan jumlah parameter saja.Δ i 2 k Δ iLΔi2kΔi2Δk<1
TL; DR
- Itu alasan yang buruk; gunakan perbedaan antara nilai absolut AIC.
- Persentasenya tidak mengatakan apa-apa.
- Tidak mungkin menjawab pertanyaan ini karena tidak ada informasi tentang model, data, dan apa arti hasil yang berbeda .