Saya mencoba menyusun paket data mining untuk situs StackExchange dan khususnya, saya terjebak dalam mencoba menentukan pertanyaan "paling menarik". Saya ingin menggunakan skor pertanyaan, tetapi menghapus bias karena jumlah pandangan, tapi saya tidak tahu bagaimana cara mendekati ini dengan ketat.
Di dunia ideal, saya dapat mengurutkan pertanyaan dengan menghitung , di mana adalah total suara dan adalah jumlah tampilan. Lagipula itu akan mengukur persentase orang yang menjawab pertanyaan itu, dikurangi persentase orang yang menjawab pertanyaan itu. vn
Sayangnya, pola pemungutan suara jauh lebih rumit. Suara cenderung "dataran tinggi" ke tingkat tertentu dan ini memiliki efek meremehkan pertanyaan yang sangat populer secara drastis. Dalam praktiknya, sebuah pertanyaan dengan 1 tampilan dan 1 upvote tentu akan skor dan diurutkan lebih tinggi daripada pertanyaan lain dengan 10.000 tampilan, tetapi kurang dari 10.000 suara.
Saat ini saya menggunakan sebagai rumus empiris, tetapi saya ingin lebih tepat. Bagaimana saya bisa mendekati masalah ini dengan ketelitian matematika?
Untuk mengatasi beberapa komentar, saya akan mencoba untuk menyajikan kembali masalah dengan cara yang lebih baik:
Katakanlah saya punya pertanyaan dengan orang Total dan pandangan. Saya ingin dapat memperkirakan jumlah suara total yang paling mungkin terjadi ketika pandangan mencapai .n 0 v 1 n 1
Dengan cara ini saya cukup memilih nilai nominal untuk dan memesan semua pertanyaan sesuai dengan total diharapkan .v 1
Saya telah membuat dua pertanyaan pada datadump SO untuk menunjukkan efek yang saya bicarakan:
Tampilan Rata-Rata berdasarkan Skor
Hasil:
Skor Rata-Rata berdasarkan Tampilan (ember 100 tampilan)
Hasil:
Kedua formula tersebut dibandingkan
Hasil, tidak yakin apakah lurus lebih baik: ( berwarna biru, berwarna merah) v