Mengapa fakta bahwa 1 median lebih rendah dari median lain, berarti bahwa sebagian besar di grup 1 kurang dari kebanyakan di grup 2?

9

Saya percaya bahwa plot kotak di bawah ini dapat diartikan sebagai "kebanyakan pria lebih cepat daripada kebanyakan wanita" (dalam dataset ini), terutama karena waktu rata-rata pria lebih rendah daripada waktu rata-rata wanita. Tapi tentu saja EDX pada R dan statistik kuis mengatakan kepada saya bahwa tidak benar. Tolong bantu saya memahami mengapa intuisi saya salah.

Inilah pertanyaannya:

Mari kita pertimbangkan sampel acak dari finishers dari New York City Marathon pada tahun 2002. Dataset ini dapat ditemukan dalam paket UsingR. Muat pustaka dan kemudian muat dataset nym.2002.
library(dplyr)
data(nym.2002, package="UsingR")
Gunakan plot kotak dan histogram untuk membandingkan waktu penyelesaian pria dan wanita. Manakah dari berikut ini yang paling menggambarkan perbedaannya?

Laki-laki dan perempuan memiliki distribusi yang sama.

Sebagian besar pria lebih cepat daripada kebanyakan wanita.

Pria dan wanita memiliki distribusi miring kanan yang sama dengan yang pertama, 20 menit bergeser ke kiri.

Kedua distribusi biasanya didistribusikan dengan perbedaan rata-rata sekitar 30 menit.

Berikut adalah waktu maraton NYC untuk pria dan wanita, seperti kuantil, histogram, dan plot kotak:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

— jinten
sumber

Untuk secara visual memeriksa distribusi yang sama, histogram Anda harus menggunakan domain x dan tempat sampah yang sama, sedangkan sumbu y harus menunjukkan frekuensi relatif. Ukuran band bin akan mendapat keuntungan dari granularity yang lebih tinggi, misalnya 25 atau 50 menit. Selain itu, di kedua boxplots dan histogram, gambarkan median (sudah dalam boxplot), mean dan mode.

— g3o2

Lihatlah pertanyaan dari judul: pertimbangkan distribusi seragam pada dan . Median yang terakhir lebih besar tetapi diberikan realisasi acak dari masing-masing, probabilitas yang kedua lebih besar sama dengan yang lebih kecil ( ). Jadi jika Anda mendefinisikan "sebagian besar lebih besar" oleh "diberikan dua sampel acak X dan Y, satu dari masing-masing, " hubungan antara median X dan Y tidak banyak bicara tentang hal itu.

{0, 3}

$\{0,3\}$

{2}

$\{2\}$

0.5

$0.5$

P (X > Y) > 0.5

$P(X>Y)>0.5$

— AlexR

7

Saya pikir alasan Anda ditandai sebagai salah bukan karena jawaban yang Anda berikan pada pertanyaan multichoice salah, melainkan bahwa opsi 3 "Pria dan wanita memiliki distribusi condong ke kanan yang sama dengan yang sebelumnya, 20 menit bergeser ke kiri" akan menjadi pilihan yang lebih baik karena lebih informatif berdasarkan informasi yang diberikan.

— Robert Jones
sumber

Saya setuju dengan penjelasan ini. Juga, "paling cepat daripada kebanyakan" sangat ambigu. Terlepas dari jawaban yang diberikan oleh @glen_b, saya akan mengharapkan lebih banyak pemisahan dalam plot kotak untuk bahasa semacam ini. Seperti "semua 75% pria lebih cepat daripada 75% wanita", yang saya pikir akan menerjemahkan ke persentil ke-75 kali pria lebih rendah daripada persentil ke-25 kali wanita. Tapi bahasanya ambigu.

— Sal Mangiafico

1

Juga, ini sampai pada prinsip mengambil tes pilihan ganda: Selalu pilih jawaban terbaik .

— Sal Mangiafico

Ini masuk akal; bukan karena pilihan lain SALAH, tetapi bahwa pilihan yang benar ("Pria dan wanita memiliki distribusi miring yang sama dengan yang pertama, 20 menit bergeser ke kiri.") lebih benar. Namun, saya tidak melihat pergeseran 20 menit dalam histogram; sepertinya lebih seperti 50 menit giliran saya. Karena saya memiliki dua peluang, saya mendapatkan pertanyaan yang benar, FWIW :-).

— jintan

@cumin: Saya tidak yakin itu benar. "Sebagian besar pria lebih cepat daripada kebanyakan wanita" tidak jelas apa arti "kebanyakan" - Saya tidak percaya saya pernah melihat definisi yang ketat, dan secara intuitif biasanya lebih dari 50% (mungkin 70% +?) . Jika mereka mengatakan "mayoritas" maka mungkin akan lebih jelas.

— user541686

9

Inilah contoh tandingan terkecil yang bisa saya temukan:

A ( [1, 4, 10])dan B ( [0, 6, 9]) memiliki rata-rata yang sama ( 5)
B memiliki median yang lebih besar ( 6) daripada A ( 4)
Ada probabilitas 5/9 bahwa elemen A acak lebih besar dari elemen B acak .

Berikut contoh lain dengan 4 elemen:

— Eric Duminil
sumber

7

$P(M_i<F_j)>\frac12$ $i,j$ $M_i$ $i$

Tentu saja interpretasi lain dari frase itu mungkin (itulah ambiguitas, dan semua kemungkinan lainnya mungkin konsisten dengan alasan Anda).

[Kami juga memiliki masalah apakah kita berbicara tentang sampel atau populasi ... "kebanyakan pria [...] kebanyakan wanita" tampaknya merupakan pernyataan populasi (tentang populasi waktu potensial) tetapi kami hanya mengamati waktu bahwa kita tampaknya memperlakukan sebagai sampel, jadi kita harus berhati-hati dengan seberapa luas kita membuat klaim.]

$P(M_i<F_j)>\frac12$ $\widetilde{M}<\widetilde{F}$

[Saya tidak mengatakan Anda salah dalam berpikir bahwa proporsi pasangan MF acak di mana pria lebih cepat daripada wanita lebih dari 1/2 - Anda hampir pasti benar. Saya hanya mengatakan Anda tidak bisa mengatakannya dengan membandingkan median. Anda juga tidak dapat mengatakannya dengan melihat proporsi pada setiap sampel di atas atau di bawah median sampel lainnya. Anda harus membuat perbandingan yang berbeda.]

$\frac12$

Contoh:

Kumpulan data A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Kumpulan data B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Perangkat data C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Data ada di sini , tetapi digunakan untuk tujuan yang berbeda di sana - untuk ingatan saya, saya membuat ini sendiri)

Perhatikan bahwa proporsi A <B adalah 2/3, proporsi A <C adalah 5/9 dan proporsi B <C adalah 2/3. A vs B dan B vs C keduanya signifikan pada level 5% tetapi kita dapat mencapai tingkat signifikansi apa pun hanya dengan menambahkan salinan sampel yang cukup. Kita bahkan dapat menghindari ikatan, dengan menduplikasi sampel tetapi menambahkan jitter yang cukup kecil (cukup kecil dari celah terkecil di antara titik-titik)

Median sampel menuju ke arah lain: median (A)> median (B)> median (C)

Sekali lagi kita dapat mencapai signifikansi untuk beberapa perbandingan median - dengan tingkat signifikansi apa pun - dengan mengulangi sampel.

Untuk mengaitkannya dengan masalah saat ini, bayangkan A adalah "waktu wanita" dan B adalah "waktu pria". Maka waktu rata-rata pria lebih cepat, tetapi pria yang dipilih secara acak akan 2/3 waktunya lebih lambat daripada wanita yang dipilih secara acak.

Dengan mengambil isyarat kami dari sampel A dan C kami dapat menghasilkan set data yang lebih besar (dalam R) sebagai berikut:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

Median F akan menjadi sekitar 16,25 sedangkan median M akan menjadi sekitar 11,25 tetapi proporsi kasus di mana F <M akan menjadi 5/9.

$n$ $\frac13$

$P(F<\text{med}(M))=\frac23$ $P(M>\text{med}(F))=\frac23$ $\text{med}(M)<\text{med}(F)$

— Glen_b -Reinstate Monica
sumber

Saya bisa melihat bagaimana caranya bisa berlawanan arah, tapi saya akui intuisi saya di sini cocok dengan OP. Saya tidak melihat bagaimana median dapat (selain dari masalah kesalahan pengambilan sampel).

— gung - Reinstate Monica

@ung aku menyertakan contoh. Saya suka menusuk intuisi awal saya dengan cara ini - dengan menemukan contoh tandingan kepada mereka. Jika saya menemukan lebih banyak (saya yakin saya punya tempat lain) saya akan mencoba menyebutkannya.

— Glen_b -Reinstate Monica

Boxplot dalam pertanyaan awal menunjukkan bahwa sekitar 60-65% (berdasarkan bola mata) laki-laki memiliki waktu kurang dari waktu rata-rata untuk perempuan (yaitu kurang dari waktu untuk 50% perempuan). Itu adalah bagian yang ingin saya jelaskan.

— jintan

P (A_{i} < C_{j})

$P(A_i<C_j)$

i

$i$

j

$j$

3

Saya akan menafsirkan ungkapan "kebanyakan pria lebih cepat daripada kebanyakan wanita" sebagai "setidaknya 50% pria lebih cepat dari setidaknya 50% wanita". Dengan kata lain: memberi seorang pria X, masuk akal untuk bertanya apakah X lebih cepat dari 50% wanita. Bagi saya, klaim itu kemudian mengatakan bahwa setidaknya 50% pria memiliki properti ini. Ini (saya pikir) BENAR jika median pria lebih cepat daripada wanita median, karena 50% pria akan lebih cepat daripada pria median, yang lebih cepat dari wanita median, yang lebih cepat dari 50% wanita. (Tetapi perhatikan bahwa ini hanya mencakup 25% dari pasangan wanita-pria, yang menurut saya menjelaskan teladan Anda yang hebat.)

— mathmandan

3

Gambar-gambar berikut diambil dari posting blog ini , yang menggambarkan aplikasi praktis penting dari ide-ide ini.

Standardisasi menyediakan perangkat yang kuat untuk membandingkan 2 distribusi. 3 angka berikut membandingkan ketinggian anak laki-laki dan perempuan berusia 130 bulan dari National Child Measurement Program (NCMP) Inggris. (Ini adalah usia modal dalam kumpulan data ini; Saya memilihnya hanya untuk mendapatkan data terbanyak, dan oleh karena itu plot yang paling halus, dalam kohort kelompok umur tunggal.)

Gambar 1: Ketinggian anak laki-laki dan perempuan berusia 130 bulan, dari National Child Measurement Programme (NCMP) Inggris

Gambar 2: Persentil tinggi badan untuk anak laki-laki dan perempuan berusia 130 bulan. Sumber: Bahasa Inggris NCMP

Gambar 3: Distribusi ketinggian anak perempuan berusia 130 bulan relatif terhadap anak laki-laki pada usia yang sama.

Pada angka-angka terakhir ini, perbandingan tinggi badan telah distandarisasi menurut ketinggian anak laki-laki. Dengan demikian, membaca sepanjang garis abu-abu putus-putusan pada Gambar 3, Anda dapat membuat pernyataan seperti:

Tinggi rata-rata (yaitu, persentil ke-50) untuk anak laki-laki adalah hanya sekitar persentil ke-45 untuk anak perempuan. Dengan demikian, 100% - 45% = 55% anak perempuan lebih tinggi daripada anak laki-laki rata-rata.
Tinggi kuartil teratas (persentil ke-75) untuk anak perempuan mencapai kuintil teratas (persentil ke-80) untuk anak laki-laki. Jadi, di antara anak-anak berusia 130 mos, seorang gadis yang lebih tinggi dari 3 dari 4 anak perempuan juga lebih tinggi dari 4 dari 5 anak laki-laki.

Satu hal yang mungkin membingungkan dalam plot ini memang patut disebutkan. Meskipun garis 45 ° anak laki-laki 'lebih tinggi' di plot daripada kurva magenta anak perempuan, namun pengamatan ini sesuai dengan fakta yang diketahui bahwa pada usia ini (ini adalah siswa kelas 6), anak perempuan biasanya lebih tinggi daripada anak laki-laki. . Perhatikan bahwa ketinggian ini tercermin dengan baik pada kenyataan bahwa kurva magenta bergeser ke kanan relatif terhadap garis biru.

$(0,0)$ $(1,1)$

Pertanyaan awal Anda sekarang dapat disusun kembali dalam bentuk geometris, sebagai pertanyaan tentang apakah Anda dapat menggambar kurva magenta pada Gambar 3 untuk mencapai secara bersamaan (a) hubungan yang dipostulasikan antara median dan (b) hubungan yang agak sulit dipahami yang @Glen_b dijelaskan (benar, saya percaya) dalam jawabannya. Saya bertanya-tanya apakah diskontinuitas distribusi (titik massa dalam kepadatan) dapat memungkinkan kasus 'patologis' disediakan. Saya menduga bahwa kasus patologis semacam itu akan menjadi 'pengecualian yang membuktikan aturan'.

$x$ $x$ memiliki properti ini. Pada akun ini, jawaban untuk pertanyaan kuis adalah ya .

Di sisi lain, jika maksud sebenarnya dari 'sebagian besar' adalah "> 50%", orang mungkin mengharapkan ungkapan yang lebih tepat "mayoritas" telah digunakan. Jika seseorang mengatakan kepada saya sesuatu "mungkin" akan terjadi, saya akan berpikir probabilitas subjektif sebesar 60% atau lebih sedang disinggung. Demikian juga, "sebagian besar" bagi saya berarti sesuatu yang sedikit lebih seperti 70-80%. Jelas, dari plot di atas, jika 'sebagian besar' dianggap sebagai kriteria yang lebih ketat dari 52,5%, maka Anda tidak dapat mengatakan "kebanyakan anak perempuan [memiliki properti yang mereka] lebih tinggi daripada kebanyakan anak laki-laki." Saya bertanya-tanya apakah bagian dari alasan untuk pertanyaan kuis adalah untuk merangsang pemeriksaan kata-kata karena berkaitan dengan gagasan numerik. (Jika menurut Anda ini sedikit konyol, pertimbangkan grafik ini, menunjukkan bagaimana orang cenderung menafsirkan kata-kata dan frase probabilistik yang berbeda.) Mungkin maksudnya juga adalah untuk menggarisbawahi poin bahwa banyak variasi hadir dalam distribusi dunia nyata, dan bahwa satu statistik (median, rata-rata, apa yang dimiliki- Anda) jarang akan mendukung pernyataan luas dan luas.

— David C. Norris
sumber