Sayangnya ini akan menjadi jawaban yang agak tidak memuaskan ...
Pertama-tama biasanya untuk perhitungan AIC Anda akan menggunakan estimasi Kemungkinan maksimum σ2yang akan bias. Jadi itu akan berkurang menjadiσ2=RSSn dan akhirnya perhitungan yang Anda lakukan akan dikurangi menjadi 1+2dn. Kedua, saya akan merujuk Anda ke artikel Wikipedia tentang AIC khususnya di bagian kasus penyetaraan . Seperti yang Anda lihat di sana jelas bahwa sebagian besar derivasi menghilangkan konstantaC. Konstanta ini tidak relevan untuk tujuan perbandingan model sehingga dihilangkan. Agak umum untuk melihat derivasi kontradiktif AIC karena masalah itu. Misalnya Analisis Statistik Multivariat Terapan Johnson & Wichern , edisi ke-6 memberikan AIC sebagai:nlog(RSSN)+2d(Bab 7.6), yang jelas tidak menyamakan definisi James et al. Anda menggunakan. Buku tidak salah per se . Hanya orang yang menggunakan konstanta berbeda. Dalam kasus James et al. buku sepertinya mereka tidak menyinggung poin ini. Dalam buku-buku lain misalnya. Ravishanker dan Dey's A First Course dalam Linear Model Theory ini bahkan lebih mendalam ketika penulis menulis:
A IC( p )= - 2 l ( y; X,β^M.L.,σ^2M.L.) + 2 p= - Ncatatan(σ^2M.L.) / 2 - N/ 2+2p( 7.5.10 )
yang menariknya juga tidak bisa secara bersamaan benar. Seperti yang ditulis oleh Burnham & Anderson (1998) Bab 2.2 : " Dalam estimasi kasus kuadrat terkecil (LS) dengan kesalahan yang terdistribusi normal, dan selain dari konstanta aditif yang berubah-ubah, AIC dapat dinyatakan sebagai fungsi sederhana dari jumlah kuadrat kuadrat yang tersisa. . "; B&A menyarankan varian AIC yang sama yang digunakan J&W. Yang mengacaukan Anda adalah konstanta tertentu (dan fakta bahwa Anda tidak menggunakan estimasi ML untuk residu.) Melihat Pengenalan Pola M. Bishop dan Pembelajaran Mesin (2006) Saya menemukan definisi yang bahkan lebih kontradiktif sebagai:
A IC= l ( D |wM.L.) - M( 1.73 )
yang lucu karena tidak hanya menghilangkan pengali dari kertas asli tetapi juga pergi ke depan untuk meruntuhkan tanda-tanda sehingga dapat menggunakan seleksi berbasis AIC sebagai masalah maksimalisasi ...
Saya akan merekomendasikan tetap dengan definisi kuno - 2 log( L ) + 2 pjika Anda ingin melakukan derivasi teoritis. Ini yang dinyatakan Akaike di koran aslinya. Semua formula antara lainnya cenderung berantakan dan / atau membuat beberapa asumsi implisit. Jika ada penghiburan, Anda "tidak melakukan kesalahan".