Bobot sistem penilaian untuk menyukai item yang dinilai tinggi oleh lebih banyak orang daripada item yang dinilai tinggi oleh lebih sedikit orang?

Terima kasih sebelumnya karena membawa saya, saya bukan ahli statistik apa pun dan tidak tahu bagaimana menggambarkan apa yang saya bayangkan, jadi Google tidak membantu saya di sini ...

Saya menyertakan sistem peringkat dalam aplikasi web yang sedang saya kerjakan. Setiap pengguna dapat menilai setiap item tepat sekali.

Saya membayangkan skala dengan 4 nilai: "sangat tidak suka", "tidak suka", "suka", dan "sangat suka", dan saya telah merencanakan untuk menetapkan nilai-nilai ini masing-masing -5, -2, +2, dan +5 .

Sekarang, jika setiap item memiliki jumlah peringkat yang sama, maka saya akan cukup nyaman dengan sistem penilaian ini karena dengan jelas membedakan item yang paling disukai dan paling tidak disukai. Namun, item tidak akan memiliki jumlah peringkat yang sama, dan perbedaan antara jumlah suara pada foto yang berbeda mungkin cukup dramatis.

Dalam hal itu, membandingkan skor kumulatif pada dua item berarti bahwa item lama dengan banyak peringkat biasa-biasa saja akan memiliki skor yang jauh lebih tinggi daripada item baru yang luar biasa dengan suara lebih sedikit.

Jadi, hal jelas pertama yang saya pikirkan tentang kita untuk mengambil rata-rata ... tetapi sekarang jika suatu item hanya memiliki satu peringkat "+5" itu memiliki rata-rata yang lebih baik daripada item yang memiliki skor 99 "+5" peringkat dan peringkat 1 "+2". Secara intuitif itu bukan representasi akurat dari popularitas suatu barang.

Saya membayangkan masalah ini biasa terjadi dan kalian tidak perlu saya menceritakannya dengan lebih banyak contoh, jadi saya akan berhenti pada titik ini dan menguraikan komentar jika diperlukan.

Pertanyaan saya adalah:

Apa jenis masalah yang disebut, dan adakah istilah untuk teknik yang digunakan untuk menyelesaikannya? Saya ingin tahu ini sehingga saya bisa membacanya.
Jika Anda mengetahui ada sumber daya ramah awam tentang masalah ini, saya akan sangat menghargai tautan.
Akhirnya, saya menghargai saran lain tentang cara mengumpulkan dan menganalisis data jenis ini secara efektif.

scales rating

— Andrew
sumber

Jawaban:

Salah satu cara Anda dapat memerangi ini adalah dengan menggunakan proporsi di setiap kategori, yang tidak mengharuskan Anda untuk memasukkan angka di setiap kategori (Anda dapat membiarkannya 80% dinilai sebagai "sangat suka"). Namun proporsi memang menderita dari sejumlah kecil masalah peringkat . Ini terlihat dalam contoh Anda, Foto dengan peringkat 1 +5 akan mendapatkan skor rata-rata (dan proporsi) yang lebih tinggi daripada foto dengan peringkat 99 +5 dan 1 +2. Ini tidak cocok dengan intuisi saya (dan saya curiga kebanyakan orang).

Salah satu cara untuk mengatasi masalah ukuran sampel kecil ini adalah dengan menggunakan teknik Bayesian yang dikenal sebagai " aturan suksesi Laplace " (mencari istilah ini mungkin berguna). Ini hanya melibatkan menambahkan 1 "observasi" untuk setiap kategori sebelum menghitung probabilitas. Jika Anda ingin mengambil rata-rata untuk nilai numerik, saya akan menyarankan rata-rata tertimbang di mana bobot adalah probabilitas yang dihitung oleh aturan suksesi.

Untuk bentuk matematika, misalkan menunjukkan jumlah respons "sangat tidak suka", "tidak suka", "suka", dan "sangat suka" (dalam dua contoh, dan ). Anda kemudian menghitung probabilitas (atau berat) untuk sangat suka sebagai $n_{sd},n_{d},n_{l},n_{sl}$ $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$

P r ("Sangat Suka") = \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

Untuk dua contoh yang Anda berikan, mereka memberikan probabilitas "sangat suka" sebagai dan yang saya pikir setuju lebih dekat dengan "akal sehat". Menghapus konstanta yang ditambahkan memberi dan yang membuat hasil pertama tampak lebih tinggi dari yang seharusnya (setidaknya bagi saya toh). $\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ $\frac{1}{1}$ $\frac{99}{100}$

Skor masing-masing hanya diberikan oleh rata-rata tertimbang, yang telah saya tulis di bawah ini sebagai:

S c Hai r e = \begin{matrix} 5 \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} + 2 \frac{n_{l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \\ - 2 \frac{n_{d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} - 5 \frac{n_{s d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

Atau lebih tepatnya sebagai

S c Hai r e = \frac{5 n_{s l} + 2 n_{l} - 2 n_{d} - 5 n_{s d}}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

Yang memberikan skor dalam dua contoh dan . Saya pikir ini menunjukkan perbedaan yang tepat antara kedua kasus. $\frac{5}{5}=1$ $\frac{497}{104}\sim 4.8$

Ini mungkin agak "mathsy" jadi beri tahu saya jika Anda perlu penjelasan lebih lanjut.

— probabilityislogic
sumber

Itu agak "matematika" bagi saya, dan pada awalnya saya tidak mengerti rumusnya, tetapi saya membacanya dengan cermat sekitar tiga kali dan itu diklik! Ini persis apa yang saya cari, dan penjelasan Anda sangat jelas, bahkan untuk seseorang yang bukan ahli matematika atau ahli statistik sama sekali. Terima kasih banyak!

— Andrew

Jawaban non-teknis yang sangat bagus, dan pendekatan yang tidak akan saya pikirkan sendiri. Saya hanya akan menambahkan bahwa dimungkinkan untuk menambahkan sejumlah 'pengamatan' palsu ke setiap kategori, bukan 1, termasuk angka yang bukan bilangan bulat. Ini memberi Anda fleksibilitas untuk memutuskan seberapa banyak Anda ingin 'menyusut' ke arah nol skor item dengan sedikit suara. Dan jika Anda menginginkan deskripsi yang terdengar teknis dari metode ini, Anda bisa mengatakan Anda sedang melakukan analisis data Bayesian dari distribusi multinomial menggunakan Dirichlet simetris sebelumnya.

— onestop

Meskipun mereka mungkin tampak seperti pengamatan "palsu", mereka memiliki makna yang terdefinisi dengan baik ketika itu +1 (berbeda dengan +2 atau lebih tinggi, yang benar-benar angka "palsu", atau angka dari pengumpulan data sebelumnya). Ini pada dasarnya menggambarkan keadaan pengetahuan bahwa itu adalah mungkin untuk setiap kategori untuk dipilih untuk, sebelum ke mengamati data apapun. Inilah yang dilakukan flat sebelumnya pada simpleks (N-1).

— probabilityislogic

Satu lagi pengamatan, untuk orang-orang masa depan yang menemukan posting ini: Dalam menerapkan ini dalam model saya, saya mengambil skor akhir dan mengalikannya dengan 20, yang memberikan kisaran -100 hingga 100 dari skor terburuk ke skor terbaik (meskipun saya kira secara teknis mereka adalah batasan yang tidak bisa Anda capai, tetapi Anda mendapatkan idenya). Ini membuat output untuk pengguna di aplikasi saya sangat intuitif!

— Andrew

@probabilityislogic: pasti ada parameter yang benar-benar positif untuk Dirichlet sebelum menjelaskan bahwa semua probabilitas benar-benar antara 0 dan 1? Dan argumen ini menyarankan pengaturannya ke 2 / m, di mana m adalah jumlah kategori, bukan 1: en.wikipedia.org/wiki/…

— onestop

Saya akan mengambil pendekatan grafis. Sumbu x bisa menjadi peringkat rata-rata dan y bisa menjadi jumlah peringkat. Saya biasa melakukan ini dengan statistik olahraga untuk membandingkan kontribusi fenom muda dengan bintang veteran. Semakin dekat titik ke sudut kanan atas, semakin dekat ke ideal. Tentu saja, memutuskan item "terbaik" masih akan menjadi keputusan subyektif, tetapi ini akan memberikan beberapa struktur.

Jika Anda ingin memplot peringkat rata-rata terhadap variabel lain, maka Anda bisa mengatur jumlah peringkat sebagai variabel ketiga menggunakan ukuran gelembung, dalam plot gelembung - misalnya, dalam XL atau SAS.

— rolando2
sumber