Apakah "peringkat rata-rata" Amazon menyesatkan?


49

Jika saya mengerti benar, peringkat buku pada skala 1-5 adalah skor Likert. Artinya, angka 3 bagi saya belum tentu menjadi angka 3 untuk orang lain. Ini adalah IMO skala ordinal. Seseorang seharusnya tidak benar-benar skala ordinal tetapi pasti dapat mengambil mode, median dan persentil.

Jadi, bolehkah membengkokkan aturan karena sebagian besar penduduk memahami cara daripada statistik di atas? Meskipun komunitas riset sangat menghardik mengambil rata-rata data berdasarkan skala Likert, apakah boleh melakukan ini dengan massa (secara praktis berbicara)? Apakah mengambil rata-rata dalam kasus ini bahkan menyesatkan untuk memulai?

Tampaknya tidak mungkin bahwa perusahaan seperti Amazon akan mencari-cari statistik dasar, tetapi jika tidak maka apa yang saya lewatkan di sini? Bisakah kita mengklaim bahwa skala ordinal adalah perkiraan yang mudah untuk ordinal untuk membenarkan mengambil mean? Atas dasar apa?


3
Jika angka 3 untuk Anda tidak sama dengan angka 3 untuk orang lain, maka Anda bahkan tidak memiliki skala: Anda memiliki koleksi pengukuran yang tak tertandingi dan ada sedikit artinya yang dapat Anda lakukan untuk meringkasnya. Apa yang membuat skala ordinal adalah bahwa (a) nilai dapat dibandingkan, sehingga 3 dan 3 Anda berarti hal yang sama, tetapi (b) perbedaan nilai numerik tidak berarti selain dari tanda-tanda mereka, sehingga (katakanlah) dua 3, a 4 dan 2, atau 5 dan 1 dapat dimasukkan dalam urutan apa pun, meskipun secara numerik setiap pasangan peringkat memiliki rata-rata dan median yang sama.
whuber

1
@whuber - tetapi bukankah benar bahwa 2 orang mungkin tidak memiliki pendapat yang sama pada skala 1-9 tentang angka-angkanya? 6 untuk saya mungkin memang bukan 6 untuk orang lain kecuali mereka memiliki skala yang sudah ditentukan sebelumnya?
PhD

1
Saya membaca satu ulasan baru-baru ini di amazon yang mengatakan "Produk brilian tidak dapat kesalahan itu. Saya tidak akan pernah memberikan apa pun 5 bintang, jadi telah memberikan 4". Jika ini tidak condongkan maksudnya maka saya tidak tahu itu benar
Matt Wilko

2
@Wilko Anda berbicara tentang perbedaan pendapat, bukan perbedaan skala. Bahkan ketika suatu skala dikalibrasi dengan sangat hati-hati, seperti dalam (katakanlah) penilaian untuk senam atau skating angka atau skala internasional untuk menilai kesulitan jeram di sungai, dan bahkan ketika para ahli dilatih untuk menggunakan skala itu, masih akan ada variasi. Itu biasanya tidak ditafsirkan sebagai bukti bahwa skalanya subyektif: itu ditafsirkan sebagai variasi di antara para hakim.
whuber

1
Maaf, ini sebenarnya bukan jawaban, tapi sayangnya saya tidak dapat menemukan "komentar" -fungsi. Baru-baru ini, saya mulai menulis tesis master saya tentang elemen kunci ulasan pelanggan. Mempertimbangkan keadaan berikut ini, saya juga mulai meragukan pentingnya sistem peringkat bintang 5 Amazon. - Jumlah ulasan yang tidak bisa dipercaya - Pengaruh bias peringkat dan J-Curves ( buildingreputation.com/writings/2009
derPio

Jawaban:


42

Manfaat menggunakan mean untuk meringkas kecenderungan sentral dari peringkat 5 poin

Seperti @gung sebutkan, saya pikir sering ada alasan yang sangat baik untuk mengambil rata-rata item lima poin sebagai indeks kecenderungan sentral. Saya sudah menguraikan alasan-alasan ini di sini .

Mengutip:

  1. rata-rata mudah dihitung
  2. Maksudnya adalah intuitif dan dipahami dengan baik
  3. Mean adalah angka tunggal
  4. Indeks lain sering menghasilkan urutan urutan objek yang serupa

Mengapa rata-rata baik untuk Amazon

Pikirkan tentang tujuan Amazon dalam melaporkan rata-rata. Mereka mungkin bertujuan

  • memberikan peringkat yang intuitif dan mudah dipahami untuk suatu item
  • memastikan penerimaan pengguna terhadap sistem peringkat
  • memastikan bahwa orang-orang memahami arti peringkat sehingga mereka dapat menggunakannya dengan tepat untuk menginformasikan keputusan pembelian

Amazon menyediakan semacam rata-rata bulat, jumlah frekuensi untuk setiap opsi peringkat, dan ukuran sampel (yaitu, jumlah peringkat). Informasi ini mungkin cukup bagi kebanyakan orang untuk menghargai sentimen umum mengenai item tersebut dan kepercayaan pada peringkat seperti itu (yaitu, 4,5 dengan 20 peringkat lebih cenderung akurat daripada 4,5 dengan 2 peringkat; item dengan 10 5 peringkat-bintang, dan satu peringkat bintang-1 tanpa komentar mungkin masih merupakan barang bagus).

Anda bahkan dapat melihat nilai tengah sebagai pilihan demokratis. Banyak pemilihan diputuskan berdasarkan kandidat mana yang mendapatkan nilai rata-rata tertinggi dalam skala dua poin. Demikian pula, jika Anda mengambil argumen bahwa setiap orang yang mengirimkan ulasan mendapat suara, maka Anda dapat melihat mean sebagai bentuk yang menimbang suara setiap orang secara setara.

Apakah perbedaan dalam penggunaan skala benar-benar masalah?

Ada berbagai macam peringkat bias yang dikenal dalam literatur psikologis (untuk ulasan, lihat Saal et al 1980), seperti bias kecenderungan pusat, bias keringanan hukuman, bias ketat. Juga, beberapa penilai akan lebih sewenang-wenang dan beberapa akan lebih dapat diandalkan. Beberapa bahkan mungkin secara sistematis berbohong memberikan ulasan positif palsu atau negatif palsu. Ini akan membuat berbagai bentuk kesalahan ketika mencoba menghitung nilai rata-rata sebenarnya untuk suatu item.

Namun, jika Anda mengambil sampel acak dari populasi, bias semacam itu akan dibatalkan, dan dengan ukuran sampel yang cukup dari penilai, Anda masih akan mendapatkan nilai sebenarnya.

Tentu saja, Anda tidak mendapatkan sampel acak di Amazon, dan ada risiko bahwa serangkaian penilai yang Anda dapatkan untuk suatu item secara sistematis bias menjadi lebih lunak atau ketat dan sebagainya. Yang mengatakan, saya pikir pengguna Amazon akan menghargai bahwa peringkat yang dikirimkan pengguna berasal dari sampel yang tidak sempurna. Saya juga berpikir bahwa sangat mungkin bahwa dengan ukuran sampel yang masuk akal bahwa dalam banyak kasus, sebagian besar perbedaan bias respons akan mulai menghilang.

Kemungkinan ada kemajuan di luar rata-rata

Dalam hal meningkatkan akurasi peringkat, saya tidak akan menantang konsep umum rata-rata, tetapi saya pikir ada cara lain untuk memperkirakan peringkat rata-rata populasi sebenarnya untuk suatu barang (yaitu, nilai rata-rata yang akan diperoleh adalah sampel representatif besar yang diminta untuk menilai item).

  • Penilai berat badan didasarkan pada kepercayaan mereka
  • Gunakan sistem peringkat Bayesian yang memperkirakan peringkat rata-rata sebagai jumlah tertimbang dari peringkat rata-rata untuk semua item dan rata-rata dari item tertentu, dan meningkatkan bobot untuk item tertentu saat jumlah peringkat meningkat
  • Sesuaikan informasi penilai berdasarkan kecenderungan peringkat umum di semua item (mis. Angka 5 dari seseorang yang biasanya memberi nilai 3 akan bernilai lebih dari seseorang yang biasanya memberikan nilai 4).

Jadi, jika akurasi dalam peringkat adalah tujuan utama Amazon, saya pikir itu harus berusaha untuk meningkatkan jumlah peringkat per item dan mengadopsi beberapa strategi di atas. Pendekatan semacam itu mungkin sangat relevan ketika menciptakan peringkat "terbaik". Namun, untuk peringkat sederhana pada halaman, mungkin berarti sampel lebih baik memenuhi tujuan kesederhanaan dan transparansi.

Referensi

  • Saal, FE, Downey, RG & Lahey, MA (1980). Peringkat peringkat: Menilai kualitas psikometrik data peringkat .. Buletin Psikologis, 88, 413.

1
+1. Saya pikir ini melampaui / memperluas jawaban Anda sebelumnya dengan cara yang sangat bagus. Saya terutama menyukai bagian 'mengapa artinya bagus untuk Amazon', yang merinci lebih jelas apa yang saya coba dapatkan dalam kalimat terakhir saya. 'Berbagai penggunaan skala' juga cukup berwawasan luas; Saya akan menghargai mengutip review literatur itu, jika Anda tahu yang bagus. Saya perhatikan, bahwa bagian terakhir agak tegang dengan yang kedua.
gung - Reinstate Monica

2
Terima kasih. Saya menambahkan referensi ke literatur bias peringkat, dan menambahkan sesuatu di bagian akhir yang mencoba untuk mendamaikan kedua perspektif.
Jeromy Anglim

2
+1 @JeromyAnglim - perspektif menyeluruh yang menyoroti berbagai aspek masalah. Pujian!
PhD

+1, jawaban yang bagus. Meskipun saya menemukan satu kalimat yang sedikit menyesatkan. Ketika Anda berkata, "Namun, jika Anda mengambil sampel acak dari populasi, bias semacam itu akan dibatalkan, dan dengan ukuran sampel yang cukup dari penilai, Anda masih akan mendapatkan rata-rata yang sebenarnya." - Saya tidak berpikir itu berlaku untuk semua bias bahkan jika Anda memiliki sampel acak dari populasi.
Michael Bishop

1
@MichaelBishop Terima kasih, saya setuju bahasa saya agak ceroboh di sana. Saya kira itu tergantung pada apa yang dimaksud dengan "maksud sebenarnya". Saya bisa melihat bagaimana jika Anda memiliki penipu dalam populasi ini bisa membuat bias populasi yang tidak disesuaikan jauh dari hipotesa "true mean". Saya berpikir lebih banyak bahwa bias sistematis individu yang berlaku untuk semua item akan dibatalkan untuk memungkinkan pemesanan peringkat yang tidak memihak atas item berdasarkan rata-rata yang dihasilkan.
Jeromy Anglim

15

Untuk menjadi agak teknis di sini, peringkat itu sebenarnya bukan skala Likert ; mereka hanya peringkat ordinal. Sekarang, setelah mengatakan itu, poin Anda pada dasarnya benar. Namun, saya sering berpikir terlalu banyak dibuat dari masalah ini. Satu hal yang perlu diperhatikan adalah bahwa biasanya dipahami bahwa rata-rata sejumlah item ordinal dapat kira-kira interval, dan dengan demikian, ketika ada banyak peringkat mean menjadi representasi yang lebih masuk akal. Saya telah menemukan jawaban ini oleh @JeromyAnglim sebagai sangat baik (benar-benar, pertanyaan dan semua jawaban yang ada di sana layak dibaca). Untuk perawatan yang lebih teoretis, lihat di sini. Pada catatan yang berbeda, saya suka Amazon, tetapi saya tidak melihat alasan untuk mengharapkan kecanggihan statistik dari mereka, terutama dalam hal desain situs dasar - intinya adalah kegunaan oleh konsumen, bukan untuk mengesankan profesor statistik.


2
Amazon telah menjadi salah satu pemimpin dalam industri teknologi (internet) dalam desain eksperimental untuk iklan online dan penggunaan situs web. Anda dapat yakin bahwa mereka benar-benar berada cukup canggih dalam pendekatan statistik mereka. :-) Poin Anda bagus. Untuk mengambil langkah kecil lebih jauh, dapat Anda bayangkan jika Amazon melakukan sesuatu yang "lebih canggih" dan seseorang memeriksanya dengan menggunakan rata-rata sederhana, menemukan bahwa beberapa item berperingkat "lebih tinggi" dari rata-rata dan yang lain "lebih rendah", menaikkan ribut dan meninggalkan Amazon untuk mencoba menjelaskan "bias tersembunyi" mereka mengenai produk?
kardinal

1
Layanan lain, misalnya, Netflix, menghindari masalah ini dengan hanya menyediakan data "ringkasan". :)
kardinal

@ kardinal, itu sangat menarik, saya tidak tahu tentang Amazon.
gung - Reinstate Monica

15

Setiap orang memiliki pendapat yang bagus tentang ini. Saya tidak berpikir saya bisa menambahkan lebih banyak. Namun, saya akan memposting ini :


7
Saya kira komiknya menyoroti bahwa beberapa orang adalah hakim yang buruk untuk kualitas suatu barang, dan dengan rata-rata atas banyak orang seperti itu, Anda mendapatkan rata-rata yang buruk. Secara umum kebijaksanaan orang banyak menunjukkan bahwa rata-rata berkinerja cukup baik di mana setidaknya sebagian orang memiliki pengetahuan. Peringkat bobot oleh kepercayaan dapat juga menjadi salah satu strategi untuk mengatasi masalah.
Jeromy Anglim

1
Opsi lainnya menggunakan rekomendasi gaya Netflix, dengan membandingkan peringkat Anda dengan peringkat pengguna lain, dan kemudian meratakan peringkat yang ditawarkan oleh pengguna dengan pilihan yang sama seperti Anda.
rahul

1
@ Rahul Itu poin yang bagus. Dalam jawaban saya, kadang-kadang saya berasumsi bahwa peringkat sebagian besar benar skor + kesalahan, bahkan jika ada struktur untuk kesalahan. Tetapi ketika datang ke domain di mana preferensi pribadi adalah bagian dari definisi kualitas, ini tidak selalu masuk akal.
Jeromy Anglim

Saya suka itu, dan itulah sebabnya (sebagai konsumen) saya mencoba membaca ulasan dan tidak hanya melihat jumlah bintang. Tapi saya pikir ironis bahwa dalam hal ini, metode median, mode, dan persentil yang lebih "canggih" semuanya memberikan hasil yang lebih buruk daripada rata-rata ;-)
Darren Cook

3

Dalam pengalaman saya, rata-rata data skala-peringkat seringkali paling erat berkorelasi dengan tingkat metrik dunia nyata yang kami coba kaitkan dengan skala peringkat. Kami telah menemukan banyak hubungan linier, dan karena itu rata-rata adalah salah satu cara yang lebih baik untuk merangkum data. Karena itu, seperti yang ditunjukkan Jeromy, sebagian besar cara menganalisis kecenderungan sentral dari skala peringkat akan memberikan hasil yang serupa (peringkat pesanan, dll) sebagian besar waktu.

Juga, saya curiga Amazon mungkin tidak terlalu mementingkan validitas ilmiah. Tujuan Amazon, pada akhirnya, adalah membuat orang untuk berbelanja lebih banyak di Amazon.com, dan cara ulasan membantu mencapainya yang mungkin tidak akan berbeda dengan ringkasan satu angka apa pun yang digunakan. Produk yang baik akan dihargai, produk yang sangat buruk dihukum, dan pembeli yang gelisah akan memiliki kesempatan untuk meninjau pro dan kontra secara lebih rinci.


2

Peringkat Amazon menyesatkan karena perusahaan yang menggunakan sistem ini. Ketika pelanggan ditawari potongan harga dan barang dagangan gratis sebagai imbalan untuk ulasan bintang 5, "statistik" dari apa jumlah peringkat atau artinya menjadi diperdebatkan.


1
Apakah Anda memiliki data tentang seberapa sering hal-hal seperti itu terjadi?
Michael Bishop

1

Anda membuat poin yang bagus. Mengambil rata-rata bilangan ordinal agak menyesatkan. Setiap ringkasan dari beberapa peringkat akan menderita dari fakta bahwa 3 subyektif saya mungkin benar-benar sama dengan 4. Jadi, menggabungkan skor individu yang berbeda mungkin merupakan masalah terbesar. Menafsirkan rata-rata dari 3 dan 4 sebagai 3,5 tidak hampir sama mengerikannya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.