Mean Sama, Varians Berbeda

Misalkan Anda memiliki delapan pelari berlomba; distribusi waktu masing-masing berjalan adalah Normal dan masing-masing memiliki rata-rata detik, katakanlah. Standar deviasi pelari satu adalah yang terkecil, dua yang terkecil terkecil, ketiga terkecil, dll, dan delapan terbesar. Dua pertanyaan membingungkan saya: (1) Berapa probabilitas yang pertama mengalahkan yang terakhir, dan (2) siapa yang paling mungkin memenangkan lomba? $11$

Jawaban saya masing-masing dan . Karena mereka memiliki rata-rata yang sama, probabilitas bahwa hanya , bukan? Bagaimana saya bisa mendemonstrasikan bagian kedua dengan seksama, dan dapatkah probabilitas pasti untuk menang dihitung? Terima kasih sebelumnya. $1/2$ $8$ $\bar x_1-\bar x_8\lt 0$ $1/2$

— George Tedder
sumber

@Silverfish Dalam membandingkan pertama (dimodelkan sebagai variabel acak ) hingga yang terakhir ( , diasumsikan independen dari ), kita hanya perlu mempertimbangkan . Ini memiliki distribusi kontinu simetris dengan rata-rata nol. Kesempatan yang ketukan pertama lalu adalah kesempatan yang , yang (dengan simetri dan kontinuitas) sama dengan

seperti yang diklaim. Meskipun yang terakhir memiliki peluang lebih besar untuk memenangkan perlombaan, tidak ada paradoks: sebagian besar waktu ketika ketukan pertama terakhir, orang lain benar-benar akan memenangkan perlombaan.

X_{1}

$X_1$

X_{n}

$X_n$

X_{1}

$X_1$

Z = X_{1} - X_{n}

$Z=X_1-X_n$

Z < 0

$Z\lt 0$

1 / 2

$1/2$

— whuber

@whuber Terima kasih, saya berhasil memutarbalikkan apa yang saya maksud - akan dihapus untuk mencegah kebingungan. Sosok 1/2 benar, tapi jawaban untuk membandingkan rerata kali mereka

adalah tidak benar dan tampaknya mengundang kebingungan dengan mean populasi. Ketika Anda menulis, itu harus menjadi perbedaan di

\bar{x_{i}}

$\bar{x_i}$

X_{i}

$X_i$

— Silverfish

@Silver Ini menyoroti bahaya dengan asumsi kita selalu tahu apa arti notasi seseorang, hanya karena itu terlihat akrab. Saya mengupas masalah itu (dengan garis besar muncul pada "

" dan "

") karena makna yang dimaksudkan cukup jelas dan menyiratkan bahwa tak satu pun dari mereka yang bisa mewakili makna dari apa pun: dalam konteks ini mereka harus berdiri untuk variabel acak sendiri (yang saya tulis

dan

x_{1}

$x_1$

x_{8}

$x_8$

X_{1}

$X_1$

X_{n}

$X_n$

— whuber

Meskipun probabilitas pasti tidak dapat dihitung (kecuali dalam keadaan khusus dengan ), ini dapat dihitung secara cepat dengan akurasi tinggi. Terlepas dari keterbatasan ini, dapat dibuktikan dengan ketat bahwa pelari dengan standar deviasi terbesar memiliki peluang terbesar untuk menang. Angka tersebut menggambarkan situasi dan menunjukkan mengapa hasil ini jelas secara intuitif: $n \le 2$

Angka

Kerapatan probabilitas untuk kali lima pelari ditampilkan. Semua kontinu dan simetris tentang rata-rata umum . (Kerapatan Beta berskala digunakan untuk memastikan semua waktu adalah positif.) Satu kerapatan, digambar dengan warna biru gelap, memiliki penyebaran yang jauh lebih besar. Bagian yang terlihat di ekor kirinya mewakili waktu yang biasanya tidak ada pelari lain yang cocok. Karena ekor kiri itu, dengan area yang relatif luas, mewakili probabilitas yang cukup besar, pelari dengan kepadatan ini memiliki peluang terbesar untuk memenangkan perlombaan. (Mereka juga memiliki peluang terbesar untuk datang terakhir!) $\mu$

Hasil ini terbukti lebih dari sekadar distribusi normal: metode yang disajikan di sini berlaku sama baiknya untuk distribusi yang simetris dan kontinu. (Ini akan menarik bagi siapa saja yang keberatan untuk menggunakan distribusi Normal untuk memodelkan waktu berjalan.) Ketika asumsi ini dilanggar, mungkin saja pelari dengan deviasi standar terbesar mungkin tidak memiliki peluang terbesar untuk menang (saya meninggalkan konstruksi sampel tandingan ke pembaca yang tertarik), tetapi kita masih dapat membuktikan dengan asumsi yang lebih ringan bahwa pelari dengan SD terbaik akan memiliki peluang terbaik untuk menang asalkan SD cukup besar.

Gambar tersebut juga menunjukkan bahwa hasil yang sama dapat diperoleh dengan mempertimbangkan analog satu sisi dari standar deviasi (yang disebut "semivarian"), yang mengukur dispersi distribusi ke satu sisi saja. Pelari dengan dispersi luar biasa ke kiri (menuju waktu yang lebih baik) harus memiliki peluang lebih besar untuk menang, terlepas dari apa yang terjadi di sisa distribusi. Pertimbangan ini membantu kami menghargai bagaimana properti menjadi yang terbaik (dalam kelompok) berbeda dari properti lainnya seperti rata-rata.

Misalkan menjadi variabel acak yang mewakili waktu pelari. Pertanyaannya mengasumsikan mereka independen dan terdistribusi secara normal dengan rata-rata umum . (Meskipun ini secara harfiah merupakan model yang tidak mungkin, karena ia memiliki probabilitas positif untuk waktu negatif, itu masih bisa menjadi perkiraan yang masuk akal untuk kenyataan asalkan standar deviasi secara substansial lebih kecil dari .) $X_1, \ldots, X_n$ $\mu$ $\mu$

Untuk melaksanakan argumen berikut, pertahankan anggapan independensi tetapi anggap distribusi diberikan oleh dan bahwa undang-undang distribusi ini dapat berupa apa saja. Untuk kenyamanan, anggap juga distribusi kontinu dengan kepadatan . Kemudian, sesuai kebutuhan, kami dapat menerapkan asumsi tambahan asalkan itu termasuk kasus distribusi normal. $X_i$ $F_i$ $F_n$ $f_n$

Untuk setiap dan sangat kecil , peluang bahwa pelari terakhir memiliki waktu dalam interval dan merupakan pelari tercepat diperoleh dengan mengalikan semua probabilitas yang relevan (karena semua waktu independen): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

Mengintegrasikan semua kemungkinan yang saling eksklusif ini menghasilkan

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Untuk distribusi normal, integral ini tidak dapat dievaluasi dalam bentuk tertutup ketika : perlu evaluasi numerik. $n\gt 2$

Angka

Gambar ini memplot integand untuk masing-masing dari lima pelari yang memiliki standar deviasi dalam rasio 1: 2: 3: 4: 5. Semakin besar SD, semakin banyak fungsinya digeser ke kiri - dan semakin besar wilayahnya. Daerahnya sekitar 8: 14: 21: 26: 31%. Secara khusus, pelari dengan SD terbesar memiliki peluang menang 31%.

Meskipun formulir tertutup tidak dapat ditemukan, kami masih dapat menarik kesimpulan yang kuat dan membuktikan bahwa pelari dengan SD terbesar kemungkinan besar akan menang. Kita perlu mempelajari apa yang terjadi sebagai standar deviasi dari salah satu distribusi, mengatakan , perubahan. Ketika variabel acak diubah kembali dengan sekitar rata-rata, SD-nya dikalikan dengan dan akan berubah menjadi $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Membuat perubahan variabel dalam integral memberikan ekspresi untuk peluang runner menang, sebagai fungsi dari : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Anggaplah sekarang bahwa median dari semua distribusi adalah sama dan bahwa semua distribusi simetris dan kontinu, dengan kepadatan . (Ini tentu saja merupakan kasus di bawah kondisi pertanyaan, karena median Normal adalah rata-rata.) Dengan perubahan variabel sederhana (lokasi) kita dapat mengasumsikan median umum ini adalah ; simetri berarti dan $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ untuk semua . Hubungan ini memungkinkan kita untuk menggabungkan integral atas dengan integral atas untuk diberikan $1 - F_j(-y) = F_j(y)$ $y$ $(-\infty, 0]$ $(0,\infty)$

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

Fungsi dapat dibedakan. Turunannya, diperoleh dengan membedakan integand, adalah jumlah integral di mana setiap istilah berbentuk $\phi$

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

untuk . $i=1, 2, \ldots, n-1$

Asumsi yang kami buat tentang distribusi dirancang untuk memastikan bahwa untuk . Dengan demikian, karena , setiap istilah dalam produk kiri melebihi istilah yang sesuai dalam produk yang tepat, menyiratkan perbedaan produk adalah tidak negatif. Faktor-faktor lain jelas tidak negatif karena kepadatan tidak boleh negatif dan $F_j(x) \ge 1-F_j(x)$ $x\ge 0$ $x=y\sigma\ge 0$ $y f_n(y) f_i(y\sigma)$ . Kita dapat menyimpulkan bahwa untuk , membuktikan bahwapeluang bahwa pemain menang meningkat dengan deviasi standar . $y\ge 0$ $\phi^\prime(\sigma) \ge 0$ $\sigma \ge 0$ $n$ $X_n$

Ini cukup untuk membuktikan bahwa pelari akan menang asalkan standar deviasi cukup besar. Ini tidak cukup memuaskan, karena SD besar dapat menghasilkan model yang secara fisik tidak realistis (di mana waktu menang negatif memiliki peluang yang cukup besar). Tetapi anggaplah semua distribusi memiliki bentuk yang identik terlepas dari standar deviasi mereka . Dalam hal ini, ketika mereka semua memiliki SD yang sama, adalah independen dan terdistribusi secara identik: tidak ada yang dapat memiliki peluang menang lebih besar atau lebih kecil daripada siapa pun, sehingga semua peluang sama (untuk ). Mulailah dengan mengatur semua distribusi ke runner $n$ $X_n$ $X_i$ $1/n$ $n$ . Sekarang secara bertahap kurangi SD semua pelari lainnya, satu per satu. Ketika ini terjadi, peluang bahwa menang tidak dapat berkurang, sementara peluang semua pelari lainnya mengalami penurunan. Akibatnya, memiliki peluang terbesar untuk menang, QED . $n$ $n$

— whuber
sumber

@Phonon Benar. (Tapi tolong jangan bingung distribusi dengan perkiraan yang berasal dari sampel. Distribusi adalah model matematika, bukan satu set data.) Meningkatkan SD dengan faktor

, katakanlah, secara seragam meregangkan sumbu horizontal. Karena (oleh Hukum Total Probabilitas) fungsi kerapatan akan mencakup area satuan, regangan itu harus dikompensasi oleh regangan sumbu vertikal sebesar

, dengan demikian menjaga semua area. Dengan demikian, SD yang lebih kecil sesuai dengan puncak yang lebih tinggi dan SD yang lebih besar dengan puncak yang lebih pendek.

λ

$\lambda$

1 / λ

$1/\lambda$

— whuber

Terima kasih banyak atas balasan Anda, sangat masuk akal. Jadi pengetahuan tentang nilai-nilai puncak sendiri dalam pengertian ini agak penting.

— Telepon