Seperti yang dikatakan Karl Broman dalam jawabannya, pendekatan Bayesian mungkin akan jauh lebih baik daripada menggunakan interval kepercayaan.
Masalah dengan Interval Keyakinan
Mengapa menggunakan interval kepercayaan tidak bekerja terlalu baik? Salah satu alasannya adalah jika Anda tidak memiliki banyak peringkat untuk suatu item, maka interval kepercayaan Anda akan menjadi sangat luas, sehingga batas bawah interval kepercayaan akan menjadi kecil. Dengan demikian, item tanpa banyak peringkat akan berakhir di bagian bawah daftar Anda.
Namun, secara intuitif, Anda mungkin ingin item tanpa banyak peringkat berada di dekat item rata-rata, jadi Anda ingin menggoyangkan perkiraan taksiran Anda terhadap nilai rata-rata atas semua item (yaitu, Anda ingin mendorong peringkat perkiraan Anda ke arah sebelumnya ) . Inilah yang dilakukan oleh pendekatan Bayesian.
Pendekatan Bayesian I: Distribusi Normal atas Peringkat
Salah satu cara untuk memindahkan nilai estimasi ke prior adalah, seperti dalam jawaban Karl, untuk menggunakan estimasi bentuk :w∗R+(1−w)∗C
- adalah rerata dari peringkat untuk item.R
- adalah nilai rata-rata dari semua item (atau apa pun yang sebelumnya Anda ingin mengecilkan peringkat Anda).C
- Perhatikan bahwa rumus hanya kombinasi tertimbang dan C .RC
- adalah bobot yang ditetapkan untukR, di manavadalah jumlah ulasan untuk bir danmadalah semacam parameter "ambang" konstan.w=vv+mRvm
- Perhatikan bahwa ketika sangat besar, yaitu, ketika kami memiliki banyak peringkat untuk item saat ini, maka w sangat dekat dengan 1, sehingga perkiraan peringkat kami sangat dekat dengan R dan kami tidak terlalu memperhatikan C sebelumnya . Namun ketika v kecil, w sangat dekat dengan 0, sehingga peringkat yang diperkirakan menempatkan banyak bobot pada C sebelumnya .vwRCvwC
Estimasi ini, pada kenyataannya, dapat diberikan interpretasi Bayesian sebagai estimasi posterior dari nilai rata-rata item ketika peringkat individu berasal dari distribusi normal yang berpusat di sekitar rata-rata itu.
Namun, dengan asumsi bahwa peringkat berasal dari distribusi normal memiliki dua masalah:
- Distribusi normal kontinu , tetapi peringkatnya terpisah .
- Peringkat untuk suatu item tidak harus mengikuti bentuk Gaussian yang unimodal. Misalnya, mungkin item Anda sangat polarisasi, sehingga orang cenderung memberikannya peringkat yang sangat tinggi atau memberikannya peringkat yang sangat rendah.
Pendekatan Bayesian II: Distribusi Multinomial atas Peringkat
Jadi alih-alih mengasumsikan distribusi normal untuk peringkat, mari kita asumsikan distribusi multinomial . Yaitu, mengingat beberapa item tertentu, ada probabilitas bahwa pengguna acak akan memberikan 1 bintang, probabilitas p 2 bahwa pengguna acak akan memberikan 2 bintang, dan seterusnya.p1p2
Tentu saja, kami tidak tahu apa probabilitas ini. Karena kami mendapatkan semakin banyak peringkat untuk item ini, kami dapat menebak bahwa mendekati n 1p1 , di manan1adalah jumlah pengguna yang memberinya 1 bintang dannadalah jumlah total pengguna yang memberi nilai item, tetapi ketika kami pertama kali memulai, kami tidak memiliki apa-apa. Jadi kami menempatkanDirichlet sebelumDir(α1,…,αk)pada probabilitas ini.n1nn1n Dir(α1,…,αk)
αiiα1=2α2=1αi
αiαiiαi
Kemudian, begitu peringkat aktual masuk, cukup tambahkan jumlah mereka ke jumlah virtual Dirichlet Anda sebelumnya. Kapan pun Anda ingin memperkirakan peringkat item Anda, cukup ambil mean dari semua peringkat item (baik peringkat virtual dan peringkat aktualnya).