Jadi saya menjawab pertanyaan tentang overfitting yang Anda referensi dan saya menonton video dan membaca posting blog. Radford Neal tidak mengatakan bahwa model Bayesian tidak cocok. Mari kita ingat bahwa overfitting adalah fenomena noise yang diperlakukan sebagai sinyal dan dimasukkan ke dalam estimasi parameter. Itu bukan satu-satunya sumber kesalahan pemilihan model. Namun diskusi Neal lebih luas dengan menjelajah ke gagasan tentang ukuran sampel kecil ia memberanikan diri dalam diskusi overfitting.
Izinkan saya merevisi sebagian posting saya sebelumnya bahwa model Bayesian dapat mengenakan semua model pakaian Bayesian, tetapi melakukannya dengan cara yang meningkatkan prediksi. Sekali lagi, kembali ke definisi sinyal yang membingungkan dengan noise, ketidakpastian dalam metode Bayesian, distribusi posterior, adalah kuantifikasi ketidakpastian itu untuk apa sinyal dan apa itu noise. Dengan melakukan itu, metode Bayesian menyita kebisingan ke dalam perkiraan sinyal karena seluruh posterior digunakan dalam inferensi dan prediksi. Overfitting dan sumber kesalahan klasifikasi model lain adalah jenis masalah yang berbeda dalam metode Bayesian.
Untuk menyederhanakan, mari kita mengadopsi struktur pembicaraan Ma dan fokus pada regresi linier dan menghindari diskusi pembelajaran yang mendalam karena, sebagaimana ia tunjukkan, metode alternatif yang ia sebutkan hanyalah komposisi fungsi dan ada hubungan langsung antara logika linear. regresi dan pembelajaran yang mendalam.
y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2
m1…8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
n1,
Untuk memberikan contoh dunia nyata, saya menguji 78 model kebangkrutan. Dari 78 model, probabilitas posterior gabungan 76 dari mereka adalah sekitar seperseribu dari satu persen. Dua model lainnya masing-masing sekitar 54 persen dan 46 persen. Untungnya, mereka juga tidak berbagi variabel apa pun. Itu memungkinkan saya untuk memilih kedua model dan mengabaikan yang lain 76. Ketika saya memiliki semua poin data untuk keduanya, saya rata-rata prediksi mereka berdasarkan probabilitas posterior kedua model, menggunakan hanya satu model ketika saya kehilangan titik data yang menghalangi lain. Walaupun saya memiliki set pelatihan dan set validasi, itu bukan karena alasan yang sama dengan Frequentist. Selain itu, pada akhir setiap hari selama dua siklus bisnis, saya memperbarui posisi saya dengan data setiap hari. Itu berarti bahwa model saya pada akhir set validasi bukan model pada akhir set pelatihan. Model Bayesian tidak berhenti belajar sementara model Frequentist melakukannya.
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
ni2
Model adalah parameter dalam pemikiran Bayesian dan karena itu acak, atau jika Anda lebih suka, tidak pasti. Ketidakpastian itu tidak berakhir selama proses validasi. Itu terus diperbarui.
Karena perbedaan antara metode Bayesian dan Frequentist, ada jenis kasus lain yang juga harus dipertimbangkan. Yang pertama berasal dari inferensi parameter, yang kedua dari prediksi formal. Mereka bukan hal yang sama dalam metode Bayesian. Metode Bayesian secara formal memisahkan inferensi dan pengambilan keputusan. Mereka juga memisahkan estimasi dan prediksi parameter.
σ2^<k
kn2n1
n1n1n2n2
n1Pr(x~=k|X)x~Xθ? Meskipun sistem prediksi Frequentist memang ada, kebanyakan orang hanya memperlakukan estimasi titik sebagai parameter sebenarnya dan menghitung residu. Metode Bayesian akan skor setiap prediksi terhadap kepadatan yang diprediksi bukan hanya satu titik. Prediksi ini tidak tergantung pada parameter yang berbeda dari metode titik yang digunakan dalam solusi Frequentist.
n1+n2>n1
Jika tidak ada informasi material sebelumnya dan jika kepadatan prediktif Frequentist digunakan daripada perkiraan titik, maka untuk sampel tetap, hasil dari metode Bayesian dan Frequentist akan identik jika model tunggal dipilih. Jika ada informasi sebelumnya, maka metode Bayesian akan cenderung menghasilkan prediksi yang lebih akurat. Perbedaan ini bisa sangat besar dalam praktiknya. Selanjutnya, jika ada model rata-rata, maka sangat mungkin bahwa metode Bayesian akan lebih kuat. Jika Anda menggunakan pemilihan model dan membekukan prediksi Bayesian, maka tidak ada perbedaan untuk menggunakan model Frequentist menggunakan prediksi Frequentist.
Saya menggunakan set tes dan validasi karena data saya tidak dapat ditukar. Akibatnya, saya harus menyelesaikan dua masalah. Yang pertama mirip dengan burn-in dalam metode MCMC. Saya membutuhkan seperangkat perkiraan parameter yang baik untuk memulai urutan pengujian saya, dan jadi saya menggunakan lima puluh tahun data sebelumnya untuk mendapatkan kepadatan sebelumnya yang baik untuk memulai tes validasi saya. Masalah kedua adalah bahwa saya memerlukan beberapa bentuk periode standar untuk menguji sehingga tes tidak akan dipertanyakan. Saya menggunakan dua siklus bisnis sebelumnya seperti tanggal oleh NBER.