Saya juga tergoda oleh kedua bootstraping dan teorema Bayes, tetapi saya tidak bisa memahami pembenaran dari bootstrap sampai saya melihatnya dari perspektif Bayesian. Kemudian - seperti yang saya jelaskan di bawah ini - distribusi bootstrap dapat dilihat sebagai distribusi posterior Bayesian, yang membuat alasan (a?) Di balik bootstrap terlihat jelas, dan juga memiliki keuntungan mengklarifikasi asumsi yang dibuat. Ada lebih banyak detail dari argumen di bawah ini, dan asumsi yang dibuat, di https://arxiv.org/abs/1803.06214 (halaman 22-26).
Sebagai contoh, yang diatur pada spreadsheet di http://woodm.myweb.port.ac.uk/SL/resample.xlsx (klik pada tab bootstrap di bagian bawah layar), misalkan kita punya sampel dari 9 pengukuran dengan rata-rata 60. Ketika saya menggunakan spreadsheet untuk menghasilkan 1000 sampel dengan penggantian dari sampel ini dan membulatkan rata-rata ke angka genap terdekat, 82 dari rata-rata ini adalah 54. Gagasan tentang bootstrap adalah bahwa kami menggunakan sampel sebagai populasi "pura-pura" untuk melihat bagaimana variabel berarti sampel 9 kemungkinan, jadi ini menunjukkan bahwa probabilitas sampel rata-rata menjadi 6 di bawah rata-rata populasi (dalam hal ini populasi berpura-pura berdasarkan sampel dengan rata-rata 60) adalah 8,2%. Dan kita bisa sampai pada kesimpulan yang sama tentang bar lain dalam histogram resampling.
Sekarang mari kita bayangkan bahwa kebenarannya adalah bahwa rata-rata populasi sebenarnya adalah 66. Jika demikian perkiraan kami tentang probabilitas sampel rata-rata menjadi 60 (yaitu Data) adalah 8,2% (menggunakan kesimpulan dalam paragraf di atas mengingat bahwa 60 adalah 6 di bawah rata-rata populasi yang dihipotesiskan dari 66). Mari menulis ini sebagai
P (Data yang diberikan Mean = 66) = 8,2%
dan probabilitas ini sesuai dengan nilai x 54 pada distribusi resampling. Argumen yang sama berlaku untuk setiap kemungkinan populasi dari 0, 2, 4 ... 100. Dalam setiap kasus probabilitas berasal dari distribusi sampel ulang - tetapi distribusi ini tercermin tentang rata-rata 60.
Sekarang mari kita terapkan teorema Bayes. Pengukuran tersebut hanya dapat mengambil nilai antara 0 dan 100, sehingga pembulatan ke bilangan genap terdekat kemungkinan untuk rata-rata populasi adalah 0, 2, 4, 6, .... 100. Jika kita mengasumsikan bahwa distribusi sebelumnya adalah datar, masing-masing memiliki probabilitas sebelumnya 2% (hingga 1 dp), dan teorema Bayes memberi tahu kita bahwa
P (PopMean = 66 Data yang diberikan) = 8,2% * 2% / P (Data)
dimana
P (Data) = P (PopMean = 0 Data yang diberikan) * 2% + P (PopMean = 2 Data yang diberikan) * 2% + ... + P (PopMean = 100 Data yang diberikan) * 2%
Kita sekarang dapat membatalkan 2% dan ingat bahwa jumlah probabilitas harus 1 karena probabilitas hanyalah dari distribusi resampling. Yang meninggalkan kita dengan kesimpulan itu
P (PopMean = 66) = 8.2%
Mengingat bahwa 8,2% adalah probabilitas dari distribusi resampling yang sesuai dengan 54 (bukan 66), distribusi posterior hanyalah distribusi resampling yang tercermin tentang mean sampel (60). Lebih lanjut, jika distribusi sampel ulang simetris dalam arti bahwa asimetri adalah acak - seperti dalam kasus ini dan banyak kasus lainnya, kita dapat menganggap distribusi sampel sebagai identik dengan distribusi probabilitas posterior.
Argumen ini membuat berbagai asumsi, yang utama adalah bahwa distribusi sebelumnya seragam. Ini dijabarkan lebih rinci dalam artikel yang dikutip di atas.