1) Mengapa kerusakan yang dilakukan dengan memperkenalkan bias kurang dibandingkan dengan gain dalam varian?
Tidak harus, hanya biasanya begitu. Apakah tradeoff itu layak, itu tergantung pada fungsi kerugiannya. Tetapi hal-hal yang kita pedulikan dalam kehidupan nyata seringkali mirip dengan kesalahan kuadrat (mis. Kita lebih peduli pada satu kesalahan besar daripada sekitar dua kesalahan setengah dari ukuran).
Sebagai contoh tandingan - bayangkan bahwa untuk penerimaan di perguruan tinggi kami mengecilkan skor SAT orang sedikit terhadap SAT rata-rata untuk demografis mereka (namun didefinisikan). Jika dilakukan dengan benar, ini akan mengurangi varians dan rata-rata kesalahan kuadrat dari perkiraan (semacam) kemampuan orang saat memperkenalkan bias. Kebanyakan orang akan berpendapat bahwa pertukaran semacam itu tidak dapat diterima.
2) Mengapa selalu berhasil?
3) Apa yang sangat menarik dari 0 (asal)? Jelas kita bisa menyusut di mana saja kita suka (yaitu penaksir Stein), tetapi apakah itu akan bekerja sebaik asalnya?
Saya pikir ini karena kita biasanya mengecilkan koefisien atau perkiraan efek. Ada alasan untuk meyakini bahwa sebagian besar efeknya tidak besar (lihat mis. Andrew Gelman mengambil ). Satu cara untuk mengatakannya adalah bahwa dunia di mana segala sesuatu memengaruhi segalanya dengan efek yang kuat adalah dunia yang keras dan tidak dapat diprediksi. Karena dunia kita cukup dapat diprediksi untuk membiarkan kita berumur panjang dan membangun peradaban semi-stabil, maka akibatnya kebanyakan efeknya tidak besar.
Karena sebagian besar efek tidak besar, berguna untuk secara salah menyusutkan beberapa yang sangat besar sementara juga dengan benar menyusutkan banyak efek yang dapat diabaikan.
Saya percaya ini hanya properti dari dunia kami dan Anda mungkin bisa membangun dunia yang konsisten sendiri di mana penyusutan tidak praktis (kemungkinan besar dengan membuat kesalahan rata-rata sebagai fungsi kerugian yang tidak praktis). Itu tidak terjadi pada dunia yang kita tinggali.
Di sisi lain, ketika kita menganggap penyusutan sebagai distribusi sebelumnya dalam analisis Bayesian, ada beberapa kasus di mana penyusutan ke 0 secara aktif berbahaya dalam praktik.
Salah satu contoh adalah skala panjang dalam Proses Gaussian (di mana 0 bermasalah) rekomendasi dalam manual Stan adalah untuk menggunakan sebelum yang menempatkan bobot diabaikan mendekati nol yaitu efektif "menyusut" nilai-nilai kecil jauh dari nol. Demikian pula, prior prior untuk dispersi dalam distribusi binomial negatif secara efektif menyusut dari nol. Yang terakhir tetapi tidak kalah pentingnya, setiap kali distribusi normal diparameterisasi dengan presisi (seperti pada INLA), akan berguna untuk menggunakan invers-gamma atau distribusi sebelumnya lainnya yang menyusut dari nol.
4) Mengapa berbagai skema pengkodean universal lebih memilih jumlah bit yang lebih sedikit di sekitar titik asal? Apakah hipotesis ini lebih mungkin?
Sekarang ini adalah jalan keluar dari kedalaman saya, tetapi Wikipedia mengatakan bahwa dalam skema pengkodean universal kita mengharapkan ( menurut definisi ) untuk semua positif sehingga properti ini tampaknya merupakan konsekuensi sederhana dari definisi tersebut dan tidak terkait penyusutan (atau apakah saya melewatkan sesuatu?)P( i ) ≥ P( I + 1 )saya