Saya bertanya tentang mengapa ada perbedaan antara rata-rata maksimum 100 undian dari distribusi normal acak dan persentil ke-98 dari distribusi normal. Jawaban yang saya terima dari Rob Hyndman sebagian besar dapat diterima, tetapi terlalu teknis untuk menerima tanpa revisi. Saya bertanya-tanya apakah mungkin untuk memberikan jawaban yang menjelaskan dalam bahasa sederhana yang dimengerti secara intuisi mengapa kedua nilai ini tidak sama.
Pada akhirnya, jawaban saya mungkin tidak memuaskan; tetapi secara konseptual, alasan max (rnorm (100)) cenderung lebih tinggi daripada qnorm (0,98) adalah, singkatnya, karena rata-rata skor tertinggi 100 acak yang didistribusikan secara normal kadang-kadang akan melebihi nilai yang diharapkan. Namun distorsi ini tidak simetris, karena ketika skor rendah ditarik, mereka tidak mungkin menjadi yang tertinggi dari 100 skor. Setiap undian independen adalah peluang baru untuk melampaui nilai yang diharapkan, atau diabaikan karena nilai yang diperoleh tidak maksimal dari 100 nilai yang ditarik. Untuk demonstrasi visual membandingkan histogram maksimum 20 nilai dengan histogram maksimum 100 nilai, perbedaan kemiringan, terutama di bagian ekor, sangat mencolok.
Saya sampai pada jawaban ini secara tidak langsung ketika sedang mengerjakan masalah / pertanyaan terkait yang telah saya tanyakan di komentar. Secara khusus, jika saya menemukan bahwa nilai tes seseorang berada di peringkat dalam persentil ke-95, saya akan berharap bahwa rata-rata jika saya menempatkan mereka di ruangan dengan 99 peserta tes yang rata-rata peringkat mereka menjadi 95. Ini ternyata menjadi kurang lebih kasing (kode R) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Sebagai perpanjangan dari logika itu, saya juga berharap bahwa jika saya mengambil 100 orang di sebuah ruangan dan memilih orang dengan skor tertinggi ke-95, kemudian mengambil 99 orang lain dan meminta mereka mengambil tes yang sama, bahwa rata - rata orang yang dipilih akan peringkat 95 di grup baru. Tapi ini tidak terjadi (kode R) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Apa yang membuat kasus pertama berbeda dari kasus kedua adalah bahwa dalam kasus pertama skor individu menempatkan mereka pada persentil ke-95. Dalam kasus kedua skor mereka mungkin berubah menjadi sedikit lebih tinggi atau lebih rendah daripada persentil ke-95 yang sebenarnya. Karena mereka tidak mungkin peringkat lebih tinggi dari 100, kelompok-kelompok yang menghasilkan skor peringkat 95 yang sebenarnya pada persentil ke-99 atau lebih tinggi tidak dapat mengimbangi (dalam hal peringkat rata-rata) kasus-kasus di mana skor peringkat 95 jauh lebih rendah daripada yang ke-90 yang sebenarnya. persentil. Jika Anda melihat histogram untuk dua vektor peringkat yang disediakan dalam jawaban ini, mudah untuk melihat bahwa ada batasan kisaran di ujung atas yang merupakan konsekuensi dari proses ini yang telah saya jelaskan.