Anda tidak dapat membandingkan kedua model karena mereka tidak memodelkan variabel yang sama (karena Anda mengenali diri Anda dengan benar). Namun demikian, AIC harus bekerja ketika membandingkan model bersarang dan tidak bersarang.
Hanya pengingat sebelum kita melanjutkan: kemungkinan log Gaussian diberikan oleh
log( L ( θ ) ) = - | D |2log( 2 π) - 12log( | K| )- 12(x−μ)TK−1(x−μ),
K menjadi struktur kovarians model Anda,jumlah poin dalam set data Anda, respons rata-rata dan variabel dependen Anda.μ x|D|μx
Lebih khusus AIC dihitung sama dengan , di mana adalah jumlah efek tetap dalam model Anda dan fungsi kemungkinan Anda [1]. Secara praktis membandingkan trade-off antara varians ( ) dan bias ( ) dalam asumsi pemodelan Anda. Dengan demikian dalam kasus Anda akan membandingkan dua struktur kemungkinan log yang berbeda ketika datang ke istilah bias. Itu karena ketika Anda menghitung kemungkinan log Anda secara praktis Anda melihat dua istilah: istilah yang cocok, dilambangkan dengan , dan istilah hukuman kompleksitas, dilambangkan dengank L 2 k 2 log ( L ) - 12k−2log(L)kL2k2log(L)-1−12(x−μ)TK−1(x−μ)−12log(|K| ). Karena itu Anda melihat bahwa istilah fit Anda benar-benar berbeda antara kedua model; dalam kasus pertama Anda membandingkan residu dari data mentah dan dalam kasus lain residu dari data yang dicatat.
Selain Wikipedia, AIC juga didefinisikan untuk menyamakan: [3]; bentuk ini membuatnya semakin jelas mengapa model yang berbeda dengan variabel dependen yang berbeda tidak dapat dibandingkan. RSS adalah dua kasus yang tidak ada bandingannya.|D|log(RSS|D|)+2k
Kertas asli Akaike [4] sebenarnya cukup sulit untuk dipahami (saya pikir). Ini didasarkan pada perbedaan KL (perbedaan antara dua distribusi secara kasar) dan berupaya membuktikan bagaimana Anda dapat memperkirakan distribusi sebenarnya yang tidak diketahui dari data Anda dan membandingkannya dengan distribusi data yang diasumsikan oleh model Anda. Itu sebabnya "skor AIC yang lebih kecil lebih baik" ; Anda lebih dekat dengan perkiraan sebenarnya distribusi data Anda.
Jadi untuk menyatukan semuanya hal-hal yang perlu diingat ketika menggunakan AIC adalah tiga [2,5]:
Anda tidak dapat menggunakannya untuk membandingkan model set data yang berbeda.
Anda harus menggunakan variabel respons yang sama untuk semua model kandidat.
Anda harus memiliki , karena jika tidak, Anda tidak mendapatkan konsistensi asimptotik yang baik.|D|>>k
Maaf untuk menyampaikan kabar buruk kepada Anda tetapi menggunakan AIC untuk menunjukkan Anda memilih satu variabel dependen daripada variabel lain bukanlah hal yang baik secara statistik untuk dilakukan. Periksa distribusi residu Anda di kedua model, jika case data yang tercatat memiliki residu terdistribusi normal dan case data mentah tidak, Anda memiliki semua justifikasi yang mungkin Anda butuhkan. Anda mungkin juga ingin memeriksa apakah data mentah Anda sesuai dengan lognormal, itu mungkin cukup pembenaran juga.
Untuk asumsi matematika yang ketat, permainan ini adalah KL divergence dan teori informasi ...
Ah, dan beberapa referensi:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Kriteria Informasi Akaike, Shuhua Hu, (Presentasi hal.17-18)
- Analisis Statistik Multivariat Terapan, Johnson & Wichern, Ed ke-6. (hal. 386-387)
- Pandangan baru pada identifikasi model statistik, H. Akaike, Transaksi IEEE pada Kontrol Otomatis 19 (6): 716-723 (1974)
- Tutorial Pemilihan Model # 1: Kriteria Informasi Akaike, D. Schmidt dan E. Makalic, (Presentasi hal.39)