Dalam pekerjaan saya, ketika individu merujuk pada nilai "rata-rata" dari suatu kumpulan data, mereka biasanya merujuk pada rata-rata aritmatika (yaitu "rata-rata", atau "nilai yang diharapkan"). Jika saya memberikan rata- rata geometris , orang-orang akan cenderung berpikir saya sinis atau tidak bermanfaat, karena definisi "rata-rata" sudah diketahui sebelumnya.
Saya mencoba menentukan apakah ada beberapa definisi "median" dari kumpulan data. Misalnya, salah satu definisi yang diberikan oleh seorang kolega untuk menemukan median dari kumpulan data dengan sejumlah elemen adalah:
Algoritma 'A'
- Bagilah jumlah elemen menjadi dua, bulatkan ke bawah.
- Nilai itu adalah indeks median.
- yaitu Untuk set berikut, mediannya adalah
5
. [4, 5, 6, 7]
Ini tampaknya masuk akal, meskipun aspek pembulatan ke bawah tampaknya agak sewenang-wenang.
Algoritma 'B'
Dalam kasus apa pun, kolega lain telah mengusulkan algoritme terpisah, yang ada dalam buku teks statistik miliknya (perlu mendapatkan nama dan penulis):
- Membagi jumlah elemen dengan 2, dan menyimpan salinan bilangan bulat bulat-ke atas dan ke bawah. Beri nama mereka
n_lo
dann_hi
. - Ambil rata-rata aritmatika elemen di
n_lo
dann_hi
. - yaitu Untuk set berikut, mediannya adalah
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Ini tampaknya salah, karena nilai median, 5.5
dalam hal ini, sebenarnya tidak dalam kumpulan data asli. Ketika kami bertukar algoritma 'A' untuk 'B' dalam beberapa kode uji, itu rusak parah (seperti yang kami harapkan).
Pertanyaan
Apakah ada "nama" formal untuk kedua pendekatan ini dalam menghitung median dari kumpulan data? yaitu "median lebih rendah dari dua" versus "median rata-rata-elemen-dan-buat-data baru"?