Beberapa jawaban bagus masih menyisakan ruang untuk lebih banyak komentar.
Pertama, tidak ada yang keberatan dengan gagasan bahwa median dimaksudkan untuk menghilangkan outlier, tetapi saya akan memenuhi syarat. Makna yang dimaksudkan jelas, tetapi mudah untuk data nyata menjadi lebih rumit. Paling-paling, median dimaksudkan untuk mengurangi atau mengabaikan outlier, tetapi bahkan itu tidak dijamin. Misalnya, dengan peringkat 1 1 1 5 5 5 median dan berarti setuju pada 3, jadi semua mungkin tampak baik. Tetapi 5 tambahan akan memberi tip median ke 5 dan 1 tambahan akan memberi tip median ke 1. Rata-rata akan bergerak sekitar 0,286 dalam setiap kasus. Oleh karena itu rata-rata di sini lebih tahan daripada median. Contohnya dapat dianggap tidak biasa, tetapi tidak keterlaluan. Intinya tidak asli, secara alami. Satu tempat dibuat adalah di Mosteller, F. dan Tukey, JW 1977. Analisis dan Regresi Data. Reading, MA: Addison-Wesley, hlm.34-35.
Kedua, cara-cara yang telah dipangkas telah disebutkan dan gagasan itu layak mendapat dorongan yang lebih besar. Berarti dan median tidak perlu menjadi alternatif nyata sehingga analis harus memilih (memilih) satu atau yang lain. Anda dapat mempertimbangkan semua cara yang mungkin dipangkas berdasarkan pemangkasan sejumlah nilai tertentu di setiap ekor . Tabel tersebut menunjukkan sebagai # jumlah nilai yang termasuk dalam perhitungan rata-rata:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
Gambaran utama di sini adalah bahwa Anda dapat memilih tingkat diskonto Anda (abaikan begitu banyak nilai di setiap ekor sebagai tersangka) sebagai semacam asuransi terhadap risiko tidak aktif karena nilai-nilai ekstrem. Apa yang saya lihat adalah gradien yang cukup mulus antara mean dan median, yang diharapkan di sini karena nilai yang mungkin 1, 2, 3, 4, 5 semuanya ada dalam data. Lompatan besar dalam urutan diharapkan dengan pencilan yang terisolasi.
Tidak ada kewajiban dengan cara yang dipangkas untuk memotong angka yang sama di setiap ekor, tapi saya tidak akan memperluas itu.
Ketiga, contohnya adalah ulasan Amazon. Konteks selalu relevan dalam memandu bagaimana Anda ingin data dirangkum . Dalam hal ulasan Amazon, jawaban terbaik adalah membaca ulasan! Karena nilai tinggi dan rendah dapat sama dengan alasan palsu (secara implisit: penulis buku ini adalah teman saya) dan / atau tidak relevan dengan keputusan Anda (secara eksplisit: penjual kembali memperlakukan saya dengan buruk), tidak ada bagi saya hal yang jelas implikasi untuk bagaimana meringkas data seperti itu, dan memang dengan menunjukkan kepada Anda distribusi Amazon secara maksimal informatif.
Keempat, dan yang paling dasar tetapi juga yang paling mendasar, siapa yang membuat Anda memilih? Kadang-kadang mean dan median keduanya harus dilaporkan (dan, seperti yang dikatakan, grafik distribusi juga).