Bagaimana cara mendeteksi ketika model regresi terlalu pas?

Ketika Anda yang melakukan pekerjaan itu, menyadari apa yang Anda lakukan, Anda mengembangkan perasaan ketika Anda memiliki model yang terlalu pas. Untuk satu hal, Anda dapat melacak tren atau kemunduran di Adjusted R Square model. Anda juga dapat melacak penurunan yang serupa pada nilai p dari koefisien regresi dari variabel utama.

Tetapi, ketika Anda baru saja membaca studi orang lain dan Anda tidak memiliki wawasan mengenai proses pengembangan model internal mereka sendiri bagaimana Anda dapat dengan jelas mendeteksi apakah suatu model terlalu cocok atau tidak.

regression multivariate-analysis overfitting

— Sympa
sumber

Hanya dengan melemparkan beberapa ide pada subjek, jika penelitian ini mengungkapkan statistik regresi standar, Anda bisa fokus pada statistik t dan nilai p dari koefisien. Jika RSquare dari model tinggi; tetapi, satu atau lebih variabel memiliki stat <2,0; ini bisa menjadi bendera merah. Juga, jika tanda koefisien pada beberapa variabel menentang logika itu mungkin bendera merah lain. Jika penelitian tidak mengungkapkan periode bertahan untuk model, itu mungkin merupakan tanda bahaya lain. Semoga Anda memiliki ide lain yang lebih baik.

— Sympa

Salah satu caranya adalah dengan melihat bagaimana kinerja model pada data lain (tetapi serupa).

— Shane

Jawaban:

Validasi silang dan regularisasi adalah teknik yang cukup umum untuk mencegah overfitting. Untuk pengambilan cepat, saya akan merekomendasikan slide tutorial Andrew Moore tentang penggunaan cross-validation ( mirror ) - memberikan perhatian khusus pada peringatan. Untuk lebih detail, baca bab 3 dan 7 dari EOSL , yang membahas topik dan hal-hal terkait secara mendalam.

— ars
sumber

Wow, terima kasih tutorial Andrew Moore tentang validasi silang adalah kelas dunia.

— Sympa

Ketika saya memasang model sendiri, saya biasanya menggunakan kriteria informasi selama proses pemasangan, seperti AIC atau BIC , atau sebagai alternatif tes rasio- kemungkinan untuk model yang sesuai berdasarkan kemungkinan maksimum atau uji-F untuk model yang cocok berdasarkan pada kuadrat terkecil.

Semuanya secara konseptual serupa karena mereka menghukum parameter tambahan. Mereka menetapkan ambang "kekuatan penjelas tambahan" untuk setiap parameter baru yang ditambahkan ke model. Mereka semua adalah bentuk regularisasi .

Untuk model orang lain, saya melihat bagian metode untuk melihat apakah teknik tersebut digunakan dan juga menggunakan aturan praktis, seperti jumlah pengamatan per parameter - jika ada sekitar 5 (atau lebih sedikit) pengamatan per parameter saya mulai bertanya-tanya.

Selalu ingat bahwa suatu variabel tidak perlu "signifikan" dalam suatu model menjadi penting. Saya mungkin perancu dan harus dimasukkan atas dasar itu jika tujuan Anda adalah memperkirakan pengaruh variabel-variabel lain.

— Thylacoleo
sumber

Terima kasih atas tautan ke tes AIC dan BIC. Apakah mereka menambahkan banyak nilai vs Adjusted R Square yang melakukan hal serupa dengan menghukum model untuk menambahkan variabel?

— Sympa

@ Gaeten, Adjusted R-squared akan meningkat ketika uji-F dari model sebelum vs setelah signifikan, sehingga mereka setara, kecuali biasanya menghitung R-squared yang disesuaikan tidak mengembalikan nilai-p.

— Thylacoleo

@ Gaeten - AIC & BIC lebih umum dari F-tes dan disesuaikan R-squared yang biasanya terbatas pada model yang sesuai dengan kuadrat terkecil. AIC & BIC dapat digunakan untuk model apa pun, di mana kemungkinan dapat dihitung dan derajat kebebasan dapat diketahui (atau diperkirakan).

— Thylacoleo

Menguji satu set variabel bukan bentuk regularisasi (susut). Dan pengujian memberikan satu godaan untuk menghapus variabel, yang tidak ada hubungannya dengan mengurangi overfitting.

— Frank Harrell

@FrankHarrell Bisakah Anda menguraikan komentar lama Anda ini? Sepertinya saya bahwa menghapus variabel akan mengurangi overfitting, semua hal lain dianggap sama, karena derajat kebebasan yang tersedia untuk berpakaian berkurang. Saya yakin saya kehilangan nuansa di sini.

— Lepidopterist

Saya akan menyarankan bahwa ini adalah masalah dengan bagaimana hasilnya dilaporkan. Bukan untuk "mengalahkan drum Bayesian" tetapi mendekati ketidakpastian model dari perspektif Bayesian sebagai masalah inferensi akan sangat membantu di sini. Dan itu tidak harus menjadi perubahan besar juga. Jika laporan itu hanya berisi kemungkinan bahwa model itu benar, ini akan sangat membantu. Ini adalah jumlah yang mudah untuk diperkirakan menggunakan BIC. Hubungi BIC untuk model mth . Maka probabilitas bahwa model m adalah model "benar", mengingat bahwa model cocok (dan bahwa salah satu model itu benar) diberikan oleh: $BIC_{m}$ $M$

P (model m is true | one of the M models is true) \approx \frac{w_{m} \exp (- \frac{1}{2} B I C_{m})}{\sum_{j = 1}^{M} w_{j} \exp (- \frac{1}{2} B I C_{j})}

$P(\text{model m is true}|\text{one of the M models is true})\approx\frac{w_{m}\exp\left(-\frac{1}{2}BIC_{m}\right)}{\sum_{j=1}^{M}w_{j}\exp\left(-\frac{1}{2}BIC_{j}\right)}$

= \frac{1}{1 + \sum_{j \neq m}^{M} \frac{w_{j}}{w_{m}} \exp (- \frac{1}{2} (B I C_{j} - B I C_{m}))}

$=\frac{1}{1+\sum_{j\neq m}^{M}\frac{w_{j}}{w_{m}}\exp\left(-\frac{1}{2}(BIC_{j}-BIC_{m})\right)}$

$w_{j}$ $w_{j}=1$

$BIC_{final}<BIC_{j}$ $p$ $d$

M \geq 1 + p + (p - 1) + \dots + (p - d + 1) = 1 + \frac{p (p - 1) - (p - d) (p - d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(p-d+1)=1+\frac{p(p-1)-(p-d)(p-d-1)}{2}$

M \geq 1 + p + (p - 1) + \dots + (d + 1) = 1 + \frac{p (p - 1) - d (d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(d+1)=1+\frac{p(p-1)-d(d-1)}{2}$

$M$ $BIC_{j}$ $\lambda$ $BIC_{m}=BIC_{j}-\lambda$ , maka probabilitas menjadi:

\frac{1}{1 + (M - 1) \exp (- \frac{λ}{2})}

$\frac{1}{1+(M-1)\exp\left(-\frac{\lambda}{2}\right)}$

Jadi apa artinya ini kecuali itu $\lambda$ besar atau $M$ kecil, probabilitasnya juga kecil. Dari perspektif "over-fitting", ini akan terjadi ketika BIC untuk model yang lebih besar tidak jauh lebih besar dari BIC untuk model yang lebih kecil - istilah yang tidak dapat diabaikan muncul dalam penyebut. Memasukkan formula seleksi mundur untuk $M$ kita mendapatkan:

\frac{1}{1 + \frac{hal (hal - 1) - d (d - 1)}{2} \exp (- \frac{λ}{2})}

$\frac{1}{1+\frac{p(p-1)-d(d-1)}{2}\exp\left(-\frac{\lambda}{2}\right)}$

Sekarang anggaplah kita membalikkan masalahnya. mengatakan $p=50$ dan seleksi mundur memberi $d=20$ variables, what would $\lambda$ have to be to make the probability of the model greater than some value $P_{0}$ ? we have

λ > - 2 l o g (\frac{2 (1 - P_{0})}{P_{0} [p (p - 1) - d (d - 1)]})

$\lambda > -2 log\left(\frac{2(1-P_{0})}{P_{0}[p(p-1)-d(d-1)]}\right)$

Setting $P_{0}=0.9$ we get $\lambda > 18.28$ - so BIC of the winning model has to win by a lot for the model to be certain.

— probabilityislogic
sumber

+1, this is really clever. Is this published somewhere? Is there an 'official' reference for this?

— gung - Reinstate Monica

@gung - why thank you. Unfortunately, this was a "back of the envelope" answer. I'm sure there's problems with it, if you were to investigate in more detail.

— probabilityislogic