Pertanyaan oleh manusia gua ini populer, tetapi tidak ada jawaban selama berbulan-bulan sampai saya yang kontroversial . Bisa jadi jawaban aktual di bawah ini tidak, dalam dirinya sendiri, kontroversial, hanya bahwa pertanyaan-pertanyaan itu adalah pertanyaan "dimuat", karena bidang tersebut tampaknya (bagi saya, setidaknya) diisi oleh para pembantu dari AIC dan BIC yang lebih suka menggunakan OLS daripada metode masing-masing. Silakan lihat semua asumsi yang tercantum, dan pembatasan yang dilakukan pada tipe data dan metode analisis, dan berikan komentar; perbaiki ini, berkontribusi. Sejauh ini, beberapa orang yang sangat pintar telah berkontribusi, sehingga kemajuan yang lambat sedang dibuat. Saya mengakui kontribusi oleh Richard Hardy dan GeoMatt22, kata-kata baik dari Antoni Parellada, dan upaya berani oleh Cagdas Ozgenc dan Ben Ogorek untuk menghubungkan perbedaan KL dengan perbedaan yang sebenarnya.
Sebelum kita mulai, mari kita tinjau apa itu AIC, dan satu sumber untuk ini adalah Prasyarat untuk perbandingan model AIC dan yang lain dari Rob J Hyndman . Secara khusus, AIC dihitung sama dengan
2k−2log(L(θ)),
di mana adalah jumlah parameter dalam model dan fungsi kemungkinan. AIC membandingkan trade-off antara varians ( ) dan bias ( ) dari asumsi pemodelan. Dari Fakta dan kekeliruan AIC , poin 3 "AIC tidak menganggap residu adalah Gaussian. Hanya saja kemungkinan Gaussian paling sering digunakan. Tetapi jika Anda ingin menggunakan distribusi lain, silakan." AIC adalah kemungkinan hukuman, yang mana kemungkinan yang Anda pilih untuk digunakan. Misalnya, untuk menyelesaikan AIC untuk residu terdistribusi Student-t, kita bisa menggunakan solusi kemungkinan-maksimum untuk Student's-t . ItukL(θ)2k2log(L(θ))log-likelihood yang biasanya diterapkan untuk AIC berasal dari Gaussian log-likelihood dan diberikan oleh
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
K menjadi struktur kovarians model,ukuran sampel; jumlah pengamatan dalam dataset, respon rata-rata dan variabel dependen. Perhatikan bahwa, secara tegas, tidak perlu bagi AIC untuk mengoreksi ukuran sampel, karena AIC tidak digunakan untuk membandingkan dataset, hanya model yang menggunakan dataset yang sama. Dengan demikian, kita tidak perlu menyelidiki apakah koreksi ukuran sampel dilakukan dengan benar atau tidak, tetapi kita harus khawatir tentang ini jika kita dapat menggeneralisasi AIC agar berguna di antara kumpulan data. Demikian pula, banyak yang dibuat tentang untuk memastikan efisiensi asimptotik. Pandangan minimalis mungkin menganggap AIC hanya sebagai "indeks," membuat|D|μxK>>|D|>2K>|D|relevan dantidak relevan. Namun, beberapa perhatian telah diberikan untuk ini dalam bentuk pengajuan AIC yang diubah untuk tidak jauh lebih besar daridisebut AIC lihat paragraf kedua jawaban untuk Q2 di bawah ini. Proliferasi "tindakan" ini hanya memperkuat anggapan bahwa AIC adalah indeks. Namun, kehati-hatian disarankan ketika menggunakan kata "i" karena beberapa advokat AIC menyamakan penggunaan kata "indeks" dengan kesukaan yang sama seperti yang dilampirkan untuk merujuk pada ontogeni mereka sebagai di luar nikah.K>>|D|K|D|c
T1: Tapi pertanyaannya adalah: mengapa kita harus peduli dengan pertukaran kesederhanaan kesesuaian kebugaran ini?
Jawab dalam dua bagian. Pertama, pertanyaan spesifik. Anda seharusnya hanya peduli karena itulah yang didefinisikan. Jika Anda lebih suka tidak ada alasan untuk tidak mendefinisikan CIC; kriteria informasi manusia gua, itu tidak akan menjadi AIC, tetapi CIC akan menghasilkan jawaban yang sama seperti AIC, itu tidak mempengaruhi tradeoff antara good-of-fit dan menempatkan kesederhanaan. Konstanta apa pun yang dapat digunakan sebagai pengganda AIC, termasuk satu kali, harus dipilih dan dipatuhi, karena tidak ada standar referensi untuk menegakkan skala absolut. Namun, mengikuti definisi standar tidak sewenang-wenang dalam arti bahwa ada ruang untuk satu dan hanya satu definisi, atau "konvensi," untuk kuantitas, seperti AIC, yang didefinisikan hanya pada skala relatif. Lihat juga asumsi AIC # 3, di bawah ini.
Jawaban kedua untuk pertanyaan ini berkaitan dengan spesifik tradeoff AIC antara good-of-fit dan menempatkan kesederhanaan terlepas dari bagaimana pengganda konstannya akan dipilih. Artinya, apa yang sebenarnya mempengaruhi "tradeoff"? Salah satu hal yang mempengaruhi ini, adalah tingkat kebebasan menyesuaikan kembali untuk jumlah parameter dalam model, ini menyebabkan mendefinisikan AIC "baru" yang disebut AIC sebagai berikut:c
AICc=AIC+2k(k+1)n−k−1=2knn−k−1−2ln(L),
di mana adalah ukuran sampel. Karena bobot sekarang sedikit berbeda ketika membandingkan model yang memiliki jumlah parameter yang berbeda, AIC memilih model berbeda dari AIC itu sendiri, dan identik dengan AIC ketika kedua model berbeda tetapi memiliki jumlah parameter yang sama. Metode lain juga akan memilih model yang berbeda, misalnya, "BIC [sic, kriteria informasi Bayesian ] umumnya menghukum parameter bebas lebih kuat daripada kriteria informasi Akaike, meskipun itu tergantung ..." ANOVA juga akan menghukum parameter supernumerary menggunakan probabilitas parsial dari ketidaktergantungan nilai parameter secara berbeda, dan dalam beberapa keadaan akan lebih baik daripada penggunaan AICnc. Secara umum, setiap metode penilaian kesesuaian model akan memiliki kelebihan dan kekurangan. Saran saya adalah untuk menguji kinerja metode pemilihan model apa pun untuk penerapannya pada metodologi regresi data lebih keras daripada menguji model itu sendiri. Ada alasan untuk ragu? Yup, kehati-hatian harus diambil ketika membangun atau memilih uji model apa pun untuk memilih metode yang sesuai secara metodologi. AIC berguna untuk subset evaluasi model, untuk itu lihat Q3, selanjutnya. Misalnya, mengekstraksi informasi dengan model A mungkin paling baik dilakukan dengan metode regresi 1, dan untuk model B dengan metode regresi 2, di mana model B dan metode 2 kadang-kadang menghasilkan jawaban non-fisik, dan di mana tidak ada metode regresi MLR,
Q3 Bagaimana hubungannya dengan teori informasi :
Asumsi MLR # 1. AIC didasarkan pada asumsi penerapan kemungkinan maksimum (MLR) untuk masalah regresi. Hanya ada satu keadaan di mana regresi kuadrat biasa dan regresi kemungkinan maksimum telah ditunjukkan kepada saya sebagai sama. Itu akan terjadi ketika residu dari regresi linier biasa kuadrat (OLS) normal didistribusikan, dan MLR memiliki fungsi kerugian Gaussian. Dalam kasus lain dari regresi linier OLS, untuk regresi OLS nonlinear, dan fungsi kerugian non-Gaussian, MLR dan OLS mungkin berbeda. Ada banyak target regresi lain selain OLS atau MLR atau bahkan goodness of fit dan seringkali jawaban yang baik tidak ada hubungannya dengan salah satu, misalnya, untuk sebagian besar masalah terbalik. Ada banyak upaya yang dikutip (misalnya, 1100 kali) untuk menggunakan generalisasi AIC untuk kemungkinan semu sehingga ketergantungan pada regresi kemungkinan maksimum berkurang untuk mengakui fungsi kerugian yang lebih umum . Selain itu, MLR untuk Student's-t, meskipun tidak dalam bentuk tertutup, sangat konvergen . Karena distribusi residu Student-t lebih umum dan lebih umum daripada, serta inklusif dari, kondisi Gaussian, saya tidak melihat alasan khusus untuk menggunakan asumsi Gaussian untuk AIC.
Asumsi MLR # 2. MLR adalah upaya untuk mengukur kebaikan yang sesuai. Kadang-kadang diterapkan ketika tidak tepat. Misalnya, untuk data rentang yang dipangkas, ketika model yang digunakan tidak dipangkas. Good-of-fit semuanya baik dan bagus jika kita memiliki cakupan informasi yang lengkap. Dalam rangkaian waktu, kita biasanya tidak memiliki informasi yang cukup cepat untuk memahami sepenuhnya peristiwa fisik apa yang terjadi pada awalnya atau model kita mungkin tidak cukup lengkap untuk memeriksa data yang sangat awal. Yang lebih meresahkan lagi adalah sering kali seseorang tidak dapat menguji kualitasnya pada saat-saat yang sangat terlambat, karena kurangnya data. Dengan demikian, good-of-fit hanya dapat memodelkan 30% dari area yang sesuai di bawah kurva, dan dalam hal ini, kami menilai model yang diekstrapolasi berdasarkan di mana data berada, dan kami tidak memeriksa apa artinya. Untuk memperkirakan, kita perlu melihat tidak hanya pada kebaikan dari 'jumlah' tetapi juga turunan dari jumlah-jumlah yang gagal yang kita tidak memiliki "kebaikan" dari ekstrapolasi. Dengan demikian, teknik fit seperti B-splines dapat digunakan karena mereka dapat dengan lebih mudah memprediksi data apa yang digunakan ketika turunannya cocok, atau sebagai alternatif inversi perawatan masalah, misalnya, perlakuan integral yang ditempatkan pada seluruh rentang model, seperti propagasi kesalahan adaptif Tikhonov regularisasi.
Masalah rumit lainnya, data dapat memberi tahu kita apa yang harus kita lakukan dengannya. Apa yang kita butuhkan untuk kebaikan (jika perlu), adalah memiliki residu yang berjarak dalam arti bahwa standar deviasi adalah jarak. Artinya, good-of-fit tidak akan masuk akal jika residu yang dua kali lebih lama dari standar deviasi tunggal juga tidak memiliki panjang dua standar deviasi. Pemilihan transformasi data harus diselidiki sebelum menerapkan pemilihan model / metode regresi. Jika data memiliki kesalahan tipe proporsional, biasanya mengambil logaritma sebelum memilih regresi tidak tepat, karena kemudian mengubah standar deviasi menjadi jarak. Atau, kita dapat mengubah norma yang akan diminimalkan untuk mengakomodasi data proporsional yang sesuai. Hal yang sama berlaku untuk struktur kesalahan Poisson, kita bisa mengambil akar kuadrat dari data untuk menormalkan kesalahan, atau mengubah norma kita untuk pemasangan. Ada masalah yang jauh lebih rumit atau bahkan tidak dapat dipecahkan jika kita tidak dapat mengubah norma untuk pemasangan, misalnya, Poisson menghitung statistik dari peluruhan nuklir ketika peluruhan radionuklida memperkenalkan hubungan berbasis waktu eksponensial antara data penghitungan dan massa aktual yang akan memiliki telah memunculkan hitungan-hitungan itu jika tidak ada pembusukan. Mengapa? Jika kita meluruskan kembali tingkat perhitungan, kita tidak lagi memiliki statistik Poisson, dan residu (atau kesalahan) dari akar kuadrat dari jumlah yang dikoreksi tidak lagi jarak. Jika kemudian kita ingin melakukan uji good-of-fit data peluruhan terkoreksi (misalnya, AIC), kita harus melakukannya dengan cara yang tidak diketahui oleh diri saya yang rendah hati. Buka pertanyaan kepada pembaca, jika kami bersikeras menggunakan MLR, dapatkah kita mengubah normanya menjadi tipe kesalahan data (diinginkan), atau haruskah kita selalu mengubah data agar penggunaan MLR (tidak berguna)? Catatan, AIC tidak membandingkan metode regresi untuk model tunggal, ini membandingkan model yang berbeda untuk metode regresi yang sama.
Asumsi AIC # 1. Tampaknya MLR tidak terbatas pada residu normal, misalnya, lihat pertanyaan ini tentang MLR dan Student's-t . Selanjutnya, mari kita asumsikan bahwa MLR sesuai dengan masalah kita sehingga kita melacak penggunaannya untuk membandingkan nilai-nilai AIC dalam teori. Berikutnya kita berasumsi bahwa memiliki 1) informasi yang lengkap, 2) jenis yang sama distribusi residual (misalnya, baik normal, baik Student's- t ) selama minimal 2 model. Artinya, kita mengalami kecelakaan bahwa dua model sekarang harus memiliki jenis distribusi residu. Bisakah itu terjadi? Ya, mungkin, tetapi tentu saja tidak selalu.
Asumsi AIC # 2. AIC menghubungkan logaritma negatif kuantitas (jumlah parameter dalam model dibagi dengan perbedaan Kullback-Leibler ). Apakah asumsi ini perlu? Dalam fungsi kerugian umum kertas "perbedaan" yang berbeda digunakan. Ini membawa kita pada pertanyaan apakah ukuran lain itu lebih umum daripada divergensi KL, mengapa kita tidak menggunakannya untuk AIC juga?
Informasi yang tidak cocok untuk AIC dari divergensi Kullback-Leibler adalah "Meskipun ... sering diintuisi sebagai cara untuk mengukur jarak antara distribusi probabilitas, perbedaan Kullback-Leibler bukanlah metrik yang benar." Kita akan melihat mengapa segera.
Argumen KL sampai pada titik di mana perbedaan antara dua hal model (P) dan data (Q) adalah
DKL(P∥Q)=∫Xlog(dPdQ)dPdQdQ,
yang kami kenali sebagai entropi dari '' P 'relatif terhadap' 'Q' '.
Asumsi AIC # 3. Sebagian besar rumus yang melibatkan divergensi Kullback-Leibler berlaku terlepas dari dasar logaritma. Pengganda konstan mungkin memiliki makna lebih jika AIC menghubungkan lebih dari satu data pada saat bersamaan. Seperti berdiri ketika membandingkan metode, jika maka setiap kali bilangan positif yang masih akan menjadi . Karena arbitrer, menetapkan konstanta ke nilai tertentu sebagai masalah definisi juga tidak tepat.AICdata,model1<AICdata,model2<
Asumsi AIC # 4. Itu berarti AIC mengukur entropi Shannon atau informasi diri . "Apa yang perlu kita ketahui adalah" Apakah entropi yang kita butuhkan untuk metrik informasi? "
Untuk memahami apa "informasi diri" itu, kita harus menormalkan informasi dalam konteks fisik, siapa pun akan melakukannya. Ya, saya ingin ukuran informasi memiliki properti yang bersifat fisik. Jadi apa yang akan terlihat dalam konteks yang lebih umum?
Persamaan energi bebas Gibbs (ΔG=ΔH–TΔS) menghubungkan perubahan energi dengan perubahan entalpi dikurangi suhu absolut kali perubahan entropi. Suhu adalah contoh dari jenis konten informasi yang berhasil dinormalisasi, karena jika satu bata panas dan dingin ditempatkan saling bersentuhan di lingkungan yang tertutup secara termal, maka panas akan mengalir di antara keduanya. Sekarang, jika kita melompat pada ini tanpa berpikir terlalu keras, kita mengatakan bahwa panas adalah informasinya. Tetapi apakah itu informasi relatif yang memprediksi perilaku suatu sistem. Informasi mengalir sampai kesetimbangan tercapai, tetapi keseimbangan apa? Suhu, itulah yang, bukan panas seperti dalam kecepatan partikel dari massa partikel tertentu, saya tidak berbicara tentang suhu molekul, saya berbicara tentang suhu kotor dari dua batu bata yang mungkin memiliki massa yang berbeda, terbuat dari bahan yang berbeda, memiliki kepadatan yang berbeda dll, dan tidak ada yang harus saya ketahui, yang perlu saya ketahui adalah bahwa suhu kotor adalah yang setimbang. Jadi jika satu bata lebih panas, maka ia memiliki lebih banyak konten informasi relatif, dan ketika lebih dingin, lebih sedikit.
Sekarang, jika saya diberitahu bahwa satu bata memiliki lebih banyak entropi daripada yang lainnya, lalu apa? Itu, dengan sendirinya, tidak akan memprediksi apakah akan mendapatkan atau kehilangan entropi ketika ditempatkan di kontak dengan batu bata lain. Jadi, apakah entropi saja ukuran informasi yang berguna? Ya, tetapi hanya jika kita membandingkan batu bata yang sama dengan dirinya sendiri maka istilah "informasi diri."
Dari situlah batasan terakhir: Untuk menggunakan divergence KL semua bata harus identik. Dengan demikian, apa yang membuat AIC indeks atipikal adalah bahwa itu tidak portabel antara set data (misalnya, batu bata yang berbeda), yang bukan properti yang sangat diinginkan yang mungkin ditangani dengan menormalkan konten informasi. Apakah KL divergensi linier? Mungkin ya mungkin tidak. Namun, itu tidak masalah, kita tidak perlu mengasumsikan linieritas untuk menggunakan AIC, dan, misalnya, entropi itu sendiri saya tidak berpikir terkait secara linear dengan suhu. Dengan kata lain, kita tidak perlu metrik linier untuk menggunakan perhitungan entropi.
Salah satu sumber informasi yang baik tentang AIC ada dalam tesis ini . Di sisi pesimistis ini mengatakan, "Dalam dirinya sendiri, nilai AIC untuk kumpulan data yang diberikan tidak memiliki arti." Di sisi optimis ini mengatakan, bahwa model yang memiliki hasil dekat dapat dibedakan dengan perataan untuk membangun interval kepercayaan, dan banyak lagi.