Mengapa susut benar-benar berfungsi, apa yang istimewa dari 0?

Sudah ada posting di situs ini yang membicarakan masalah yang sama: Mengapa penyusutan berfungsi?

Tetapi, meskipun jawabannya populer, saya tidak percaya inti dari pertanyaan itu benar-benar ditanggapi. Cukup jelas bahwa memperkenalkan beberapa bias dalam estimasi membawa pengurangan varians dan dapat meningkatkan kualitas estimasi. Namun:

1) Mengapa kerusakan yang dilakukan dengan memperkenalkan bias kurang dibandingkan dengan gain dalam varian?

2) Mengapa selalu berhasil? Misalnya dalam kasus Ridge Regression: theorem keberadaan

3) Apa yang sangat menarik dari 0 (asal)? Jelas kita bisa menyusut di mana saja kita suka (yaitu penaksir Stein ), tetapi apakah itu akan bekerja sebaik asalnya?

4) Mengapa berbagai skema pengkodean universal lebih memilih jumlah bit yang lebih sedikit di sekitar titik asal? Apakah hipotesis ini hanya lebih mungkin?

Jawaban dengan referensi untuk teorema yang terbukti atau hasil yang ditetapkan diharapkan.

regularization ridge-regression shrinkage

— Cagdas Ozgenc
sumber

@ KarolisKoncevičius, terima kasih telah memperbaiki tautan! Biarkan saya perhatikan, bahwa pengeditan bahasa Anda mungkin tidak terlalu membantu, kecuali untuk yang terakhir. Yang lain tampaknya menambahkan beberapa teks yang berlebihan dan dengan demikian membuat tulisan sedikit kurang dapat dibaca.

— Richard Hardy

3) "apa yang begitu menarik tentang asalnya?" bagaimana Anda memahami pernyataan ini? jika Anda memiliki faktor grup (misalnya negara) dan faktor individual (misalnya kota), maka penyusutan akan menempatkan rata-rata ke tingkat negara, dan kemudian hanya penyimpangan tingkat kota dengan data yang cukup yang memiliki koefisien) - yaitu model Anda didorong ke tingkat grup rata-rata (negara) (dengan mendorong koefisien tingkat kota ke nol) ... dan juga untuk tingkat yang lebih banyak dalam hierarki (dan banyak hierarki)

— seanv507

Jawaban:

1) Mengapa kerusakan yang dilakukan dengan memperkenalkan bias kurang dibandingkan dengan gain dalam varian?

Tidak harus, hanya biasanya begitu. Apakah tradeoff itu layak, itu tergantung pada fungsi kerugiannya. Tetapi hal-hal yang kita pedulikan dalam kehidupan nyata seringkali mirip dengan kesalahan kuadrat (mis. Kita lebih peduli pada satu kesalahan besar daripada sekitar dua kesalahan setengah dari ukuran).

Sebagai contoh tandingan - bayangkan bahwa untuk penerimaan di perguruan tinggi kami mengecilkan skor SAT orang sedikit terhadap SAT rata-rata untuk demografis mereka (namun didefinisikan). Jika dilakukan dengan benar, ini akan mengurangi varians dan rata-rata kesalahan kuadrat dari perkiraan (semacam) kemampuan orang saat memperkenalkan bias. Kebanyakan orang akan berpendapat bahwa pertukaran semacam itu tidak dapat diterima.

2) Mengapa selalu berhasil?

3) Apa yang sangat menarik dari 0 (asal)? Jelas kita bisa menyusut di mana saja kita suka (yaitu penaksir Stein), tetapi apakah itu akan bekerja sebaik asalnya?

Saya pikir ini karena kita biasanya mengecilkan koefisien atau perkiraan efek. Ada alasan untuk meyakini bahwa sebagian besar efeknya tidak besar (lihat mis. Andrew Gelman mengambil ). Satu cara untuk mengatakannya adalah bahwa dunia di mana segala sesuatu memengaruhi segalanya dengan efek yang kuat adalah dunia yang keras dan tidak dapat diprediksi. Karena dunia kita cukup dapat diprediksi untuk membiarkan kita berumur panjang dan membangun peradaban semi-stabil, maka akibatnya kebanyakan efeknya tidak besar.

Karena sebagian besar efek tidak besar, berguna untuk secara salah menyusutkan beberapa yang sangat besar sementara juga dengan benar menyusutkan banyak efek yang dapat diabaikan.

Saya percaya ini hanya properti dari dunia kami dan Anda mungkin bisa membangun dunia yang konsisten sendiri di mana penyusutan tidak praktis (kemungkinan besar dengan membuat kesalahan rata-rata sebagai fungsi kerugian yang tidak praktis). Itu tidak terjadi pada dunia yang kita tinggali.

Di sisi lain, ketika kita menganggap penyusutan sebagai distribusi sebelumnya dalam analisis Bayesian, ada beberapa kasus di mana penyusutan ke 0 secara aktif berbahaya dalam praktik.

Salah satu contoh adalah skala panjang dalam Proses Gaussian (di mana 0 bermasalah) rekomendasi dalam manual Stan adalah untuk menggunakan sebelum yang menempatkan bobot diabaikan mendekati nol yaitu efektif "menyusut" nilai-nilai kecil jauh dari nol. Demikian pula, prior prior untuk dispersi dalam distribusi binomial negatif secara efektif menyusut dari nol. Yang terakhir tetapi tidak kalah pentingnya, setiap kali distribusi normal diparameterisasi dengan presisi (seperti pada INLA), akan berguna untuk menggunakan invers-gamma atau distribusi sebelumnya lainnya yang menyusut dari nol.

4) Mengapa berbagai skema pengkodean universal lebih memilih jumlah bit yang lebih sedikit di sekitar titik asal? Apakah hipotesis ini lebih mungkin?

Sekarang ini adalah jalan keluar dari kedalaman saya, tetapi Wikipedia mengatakan bahwa dalam skema pengkodean universal kita mengharapkan ( menurut definisi ) untuk semua positif sehingga properti ini tampaknya merupakan konsekuensi sederhana dari definisi tersebut dan tidak terkait penyusutan (atau apakah saya melewatkan sesuatu?) $P(i) ≥ P(i + 1)$ $i$

— Martin Modrák
sumber

Jawaban untuk 1) sebenarnya bagus!

— David

Jelas Andrew Gelman memiliki model standar dalam pikiran di mana kami mengalikan koefisien dengan input. Ini tidak selalu harus demikian. Bagaimana jika kita koefisien berbanding terbalik dengan model? Maka 0 akan meledakkan sesuatu.

— Cagdas Ozgenc

@CowboyTrader Ya dan ada kasus penggunaan dunia nyata di mana 0 bermasalah dan kami menyusut (ditambahkan ke jawabannya). Jadi saya percaya itu sedikit mendukung titik bahwa penyusutan menuju nol hanyalah heuristik yang sering bekerja (dalam praktek), tetapi bukan kebenaran matematika yang mendasar.

— Martin Modrák

Maaf atas reaksi awal saya. Jawaban Anda semakin bermakna. Perhatikan bahwa susut bekerja di bawah fungsi kerugian lainnya, tidak hanya di bawah kerugian kuadrat. Masalah sebenarnya yang saya kejar adalah mengapa itu selalu berhasil? Untuk parameter rata-rata / lokasi 0 tampaknya merupakan angka ajaib.

— Cagdas Ozgenc

@CowboyTrader Saya mungkin kehilangan sesuatu, tetapi setidaknya dalam kasus penaksir Stein, peningkatan karena penyusutan adalah fungsi jarak antara nilai-nilai sebenarnya dan titik yang Anda susutkan, jadi 0 bukan angka ajaib. Lebih lanjut, jika relatif besar terhadap nilai-nilai yang diamati, estimator Stein akan memindahkan estimasi tersebut dari nol. Jadi saya tidak yakin pola umum yang Anda bicarakan benar-benar ada untuk mean / lokasi. Atau ada contoh lain yang selalu menunjukkan penyusutan mendekati nol?

σ

$\sigma$

— Martin Modrák

Punggung, laso, dan jaring elastis mirip dengan metode Bayesian dengan priorasinya berpusat pada nol - lihat, misalnya, Pembelajaran Statistik dengan Sparsity oleh Hastie, Tibshirani dan Wainwright, bagian 2.9 Lq Penalties and Bayes Estimates: "Ada juga pandangan Bayesian dari penduga ini. ... Ini berarti bahwa estimasi laso adalah penaksir Bayesian MAP (aposteriori maksimum) menggunakan Laplacian prior. "

Salah satu cara untuk menjawab pertanyaan Anda ( what's so special about zero?) adalah bahwa efek yang kami perkirakan rata-rata nol, dan mereka cenderung kecil (mis. Prior kami harus berpusat di sekitar nol). Perkiraan menyusut mendekati nol kemudian optimal dalam arti Bayesian, dan laso dan ridge dan jaring elastis dapat dipikirkan melalui lensa itu.

— Adrian
sumber

Menyusut menjadi nol bukanlah hal yang istimewa (kecuali persamaannya lebih sederhana karena Anda hanya mengalikan hasilnya dengan faktor tertentu). Anda bisa menyusut ke titik lain juga. Semakin jauh titik tersebut dari nilai sebenarnya, semakin kurang baik kinerja penyusutan (tetapi untuk titik mana pun ada sejumlah penyusutan yang akan memberikan peningkatan kinerja ... setidaknya untuk variabel terdistribusi gaussian). Jadi ketika hasilnya biasanya jauh dari nol maka menyusut ke nol hanya akan memberikan sedikit peningkatan.

— Sextus Empiricus

@ MartijnWeterings Jelas menempatkan prioritas pada kebenaran itu sendiri akan ideal (bulls-eye). Tetapi mengapa menyusut ke 0 masih memberikan beberapa perbaikan? Itulah yang saya cari.

— Cagdas Ozgenc

@CowboyTrader Menyusut ke nilai apa pun memberikan peningkatan. Itu sebabnya ia bekerja untuk 0 juga.

— Sextus Empiricus

@ MartijnWeterings Ya, tetapi batasan dari teori belajar hampir selalu didasarkan pada asalnya. Mereka menempatkan bola / polyhedron / dll berpusat di tempat asalnya. Apakah ini hanya bukti kenyamanan? Penyandiaksaraan hipotesis MDL mengkodekan bilangan bulat dengan memberikan 0 panjang kode terpendek? Apakah ini suatu kebetulan?

— Cagdas Ozgenc

Jadi katakan Anda melakukan regresi ridge dalam hal semua variabel sebenarnya benar-benar bagian dari model (yang tidak umum dalam praktiknya) maka itu tidak akan bekerja dengan baik. Mungkin inilah yang dimaksud Adrian dengan "efeknya nol rata-rata, dan cenderung kecil" (Saya tidak tahu kasus yang memang benar. Tetapi ada banyak kasus dalam pembelajaran mesin di mana kami memberi makan banyak parameter, dan di mana banyak yang mungkin tidak diperlukan, maka sebagian besar efeknya nol atau kecil.)

— Sextus Empiricus