Perhatikan tiga fenomena berikut.
Paradoks Stein: diberikan beberapa data dari distribusi normal multivariat dalam , rata-rata sampel bukan penaksir yang sangat baik dari rata-rata sebenarnya. Seseorang dapat memperoleh estimasi dengan kesalahan kuadrat rata-rata yang lebih rendah jika seseorang mengecilkan semua koordinat sampel rata-rata menuju nol [atau menuju rata-rata mereka, atau benar-benar menuju nilai apa pun, jika saya mengerti dengan benar].
NB: biasanya paradoks Stein dirumuskan dengan mempertimbangkan hanya satu titik data tunggal dari ; tolong perbaiki saya jika ini penting dan formulasi saya di atas tidak benar.
Regresi Ridge: diberikan beberapa variabel dependen dan beberapa variabel independen , regresi standar cenderung sesuai dengan data dan mengarah pada kinerja out-of-sampel yang buruk. Seseorang sering dapat mengurangi overfitting dengan mengecilkan ke nol: .
Efek acak dalam model bertingkat / campuran: diberi beberapa variabel dependen (misalnya tinggi siswa) yang tergantung pada beberapa prediktor kategori (misalnya id sekolah dan jenis kelamin siswa), orang sering disarankan untuk memperlakukan beberapa prediktor sebagai 'acak', yaitu menganggap bahwa tinggi rata-rata siswa di setiap sekolah berasal dari beberapa distribusi normal yang mendasarinya. Ini menghasilkan menyusut estimasi tinggi rata-rata per sekolah terhadap rata-rata global.
Saya merasa bahwa semua ini adalah berbagai aspek dari fenomena "penyusutan" yang sama, tetapi saya tidak yakin dan tentu saja tidak memiliki intuisi yang baik tentang hal itu. Jadi pertanyaan utama saya adalah: apakah memang ada kesamaan yang mendalam antara ketiga hal ini, atau apakah itu hanya kemiripan yang dangkal? Apa tema umum di sini? Apa intuisi yang benar tentang itu?
Selain itu, berikut adalah beberapa potongan puzzle yang tidak cocok untuk saya:
Dalam regresi ridge, tidak menyusut secara seragam; penyusutan ridge sebenarnya terkait dengan dekomposisi nilai singular , dengan arah varians rendah semakin menyusut (lihat misalnya Elemen Pembelajaran Statistik 3.4.1). Tetapi estimator James-Stein hanya mengambil mean sampel dan mengalikannya dengan satu faktor penskalaan. Bagaimana itu cocok?
Pembaruan: lihat Penaksir James-Stein dengan varians yang tidak sama dan misalnya di sini mengenai varian koefisien .
Sampel rata-rata optimal dalam dimensi di bawah 3. Apakah itu berarti bahwa ketika hanya ada satu atau dua prediktor dalam model regresi, regresi ridge akan selalu lebih buruk daripada kuadrat terkecil biasa? Sebenarnya, kalau dipikir-pikir, saya tidak bisa membayangkan situasi di 1D (yaitu sederhana, regresi non-multiple) di mana penyusutan ridge akan bermanfaat ...
Pembaruan: Tidak. Lihat Di bawah kondisi apa regresi ridge dapat memberikan peningkatan dibandingkan regresi kuadrat terkecil biasa?
Di sisi lain, mean sampel selalu suboptimal dalam dimensi di atas 3. Apakah itu berarti bahwa dengan lebih dari 3 prediktor, regresi ridge selalu lebih baik daripada OLS, bahkan jika semua prediktor tidak berkorelasi (ortogonal)? Biasanya regresi ridge dimotivasi oleh multikolinieritas dan kebutuhan untuk "menstabilkan" istilah.
Perbarui: Ya! Lihat utas yang sama seperti di atas.
Sering ada beberapa diskusi panas tentang apakah berbagai faktor dalam ANOVA harus dimasukkan sebagai efek tetap atau acak. Bukankah kita, dengan logika yang sama, selalu memperlakukan faktor sebagai acak jika memiliki lebih dari dua level (atau jika ada lebih dari dua faktor? Sekarang saya bingung)?
Memperbarui: ?
Pembaruan: Saya mendapat beberapa jawaban yang bagus, tetapi tidak ada yang memberikan gambaran besar, jadi saya akan membiarkan pertanyaan "terbuka". Saya bisa berjanji untuk memberikan hadiah setidaknya 100 poin untuk jawaban baru yang akan melampaui yang sudah ada. Saya kebanyakan mencari pandangan pemersatu yang bisa menjelaskan bagaimana fenomena umum susut memanifestasikan dirinya dalam berbagai konteks ini dan menunjukkan perbedaan utama di antara mereka.