Mengapa kesalahan standar proporsi, untuk n yang diberikan, terbesar untuk 0,5?

10

Kesalahan standar proporsi akan menjadi yang terbesar untuk N yang diberikan ketika proporsi yang dimaksud adalah 0,5, dan semakin kecil semakin jauh proporsinya dari 0,5. Saya bisa melihat mengapa ini terjadi ketika saya melihat persamaan untuk kesalahan standar proporsi, tapi saya tidak bisa menjelaskan ini lebih jauh.

Apakah ada penjelasan di luar sifat matematika dari rumus? Jika demikian, mengapa ada lebih sedikit ketidakpastian di sekitar proporsi yang diperkirakan (untuk N yang diberikan) saat mereka mendekati 0 atau 1?

standard-error proportion intuition

— edstatsuser
sumber

8

Latar Belakang dan Terminologi

Untuk memperjelas apa yang sedang kita diskusikan, mari kita buat beberapa konsep dan terminologi. Model yang bagus untuk proporsi adalah guci biner: berisi guci berwarna perak ("sukses") atau fuchsia ("gagal"). Proporsi bola perak di dalam guci adalah (tapi ini bukan "proporsi" yang akan kita bicarakan). $p$

Guci ini menyediakan cara untuk memodelkan Pengadilan Bernoulli . Untuk mendapatkan satu realisasi, campur bola dengan seksama dan tarik keluar secara buta, amati warnanya. Untuk mendapatkan realisasi tambahan, pertama-tama ganti kembali kotak dengan mengembalikan bola yang ditarik, kemudian ulangi prosedur beberapa kali yang telah ditentukan. Urutan realisasi dapat diringkas dengan hitungan keberhasilan nya, . Ini adalah variabel acak yang propertinya sepenuhnya ditentukan oleh dan . Distribusi disebut distribusi Binomial . Proporsi (percobaan, atau "sampel") adalah rasio $n$ $X$ $n$ $p$ $X$ $(n,p)$ $X/n$ .

Angka-angka ini adalah barplot dari distribusi probabilitas untuk berbagai proporsi binomial . Yang paling penting adalah pola yang konsisten, terlepas dari , di mana distribusinya menjadi lebih sempit (dan bar semakin tinggi) seiring bergerak dari ke bawah. $X/n$ $n$ $p$ $1/2$

Standar deviasi adalah standar kesalahan proporsi yang disebutkan dalam pertanyaan. Untuk setiap diberikan , jumlah ini hanya dapat bergantung pada . Sebut saja . Dengan mengalihkan peran bola - sebut yang perak "kegagalan" dan yang fuchsia "sukses" - mudah untuk melihat bahwa . Jadi situasi di mana --yaitu, 1/2 - harus menjadi istimewa. Pertanyaannya menyangkut bagaimana bervariasi ketika bergerak menjauh dari ke nilai yang lebih ekstrim, seperti $X/n$ $n$ $p$ $\operatorname{se}(p)$ $\operatorname{se}(p) = \operatorname{se}(1-p)$ $p=1-p$ $p=1/2$ $\operatorname{se}(p)$ $p$ $1/2$ $0$ .

Pengetahuan vs Pemahaman

Karena setiap orang telah diperlihatkan angka-angka seperti ini di awal pendidikan mereka, semua orang "tahu" lebar plot - yang diukur dengan harus berkurang ketika bergerak menjauh dari . Tetapi pengetahuan itu benar-benar hanya pengalaman, sedangkan pertanyaannya mencari pemahaman yang lebih dalam. Pemahaman semacam itu tersedia dari analisis yang cermat terhadap distribusi Binomial, seperti yang dilakukan Abraham de Moivre sekitar 300 tahun yang lalu. (Mereka serupa dengan mereka yang saya presentasikan dalam diskusi tentang Teorema Limit Sentral ). Namun, saya pikir bahwa beberapa pertimbangan yang relatif sederhana mungkin cukup untuk menyatakan bahwa lebar harus terluas dekat . $\operatorname{se}(p)$ $p$ $1/2$ $p=1/2$

Analisis Intuitif Sederhana

Jelas bahwa kita harus mengharapkan proporsi keberhasilan dalam percobaan mendekati . Kesalahan standar menyangkut seberapa jauh dari ekspektasi itu kita bisa beranggapan bahwa hasil aktual akan terletak. Seandainya, tanpa kehilangan keumuman, bahwa adalah antara dan , apa yang diperlukan untuk meningkatkan dari ? Biasanya, sekitar dari bola yang ditarik dalam percobaan adalah perak dan (karenanya) sekitar adalah fuchsia. Untuk mendapatkan lebih banyak bola perak, beberapa dari mereka $p$ $X/n$ $p$ $0$ $1/2$ $X/n$ $p$ $pn$ $(1-p)n$ $p n$ Hasil fuchsia harus berbeda. Seberapa besar kemungkinan bahwa kesempatan itu dapat beroperasi dengan cara ini? Jawaban yang jelas adalah bahwa ketika kecil, itu tidak pernah sangat mungkin bahwa kita akan menggambar bola perak. Dengan demikian, peluang kami untuk menggambar bola perak dan bukan yang fuchsia selalu rendah. Kami cukup mungkin berharap bahwa dengan keberuntungan murni, proporsi dari hasil fuchsia bisa berbeda, tetapi tampaknya tidak mungkin bahwa banyak lebih dari itu akan berubah. Dengan demikian, masuk akal bahwa tidak akan berbeda jauh lebih banyak dari . Secara ekuivalen, tidak akan berbeda jauh lebih banyak dari . $p$ $p$ $X$ $p\times (1-p)n$ $X/n$ $p(1-p)n/n = p(1-p)$

The kesudahan

Dengan demikian kombinasi ajaib muncul. $p(1-p)$ Ini hampir menjawab pertanyaan: kuantitas ini memuncak pada dan berkurang menjadi nol pada atau . Ini memberikan pembenaran intuitif namun kuantitatif untuk pernyataan bahwa "satu ekstrem lebih membatasi daripada yang lain" atau upaya lain semacam itu untuk menggambarkan apa yang kita ketahui. $p=1/2$ $p=0$ $p=1$

Namun, tidak cukup nilai yang benar: itu hanya menunjukkan jalan, mengatakan kepada kita apa kuantitas harus peduli untuk memperkirakan penyebaran . Kami telah mengabaikan fakta bahwa keberuntungan juga cenderung untuk bertindak terhadap kami: seperti halnya beberapa bola fuchsia bisa jadi perak, beberapa bola perak bisa juga fuchsia. Menghitung semua kemungkinan secara ketat bisa menjadi rumit, tetapi hasilnya adalah bahwa alih-alih menggunakan sebagai batas yang masuk akal tentang seberapa banyak dapat menyimpang dari ekspektasinya , untuk menjelaskan semua hasil yang mungkin kita miliki dengan benar untuk mengambil akar kuadrat $p(1-p)$ $X$ $p(1-p)n$ $X$ $pn$ $\sqrt{p(1-p)n}$ . (Untuk penjelasan yang lebih cermat tentang alasannya, silakan kunjungi ( https://stats.stackexchange.com/a/3904 ). Membagi dengan , kita belajar bahwa variasi acak dari proporsi itu sendiri harus berada di urutan yang merupakan kesalahan standar . $n$ $X/n$ $\sqrt{p(1-p)n}/n = \sqrt{\frac{p(1-p)}{n}},$ $X/n$

— whuber
sumber

3

Pertimbangkan fungsi p (1-p) untuk 0 <= p <= 1. Dengan menggunakan kalkulus Anda dapat melihat bahwa pada p = 1/2 itu adalah 1/4 yang merupakan nilai maksimum. Jika Anda dapat melihat bahwa ini untuk binomial yang terkait dengan standar deviasi estimasi proporsi yang sqrt (p (1-p) / n) maka p = 1/2 adalah maksimum. Ketika p = 1 atau 0 kesalahan standar adalah 0 karena Anda akan selalu mendapatkan semua 1s atau semua 0s masing-masing. Jadi ketika Anda mendekati 0 atau 1 argumen kontinuitas mengatakan bahwa standard error mendekati 0 ketika p mendekati 0 atau 1. Faktanya itu menurun secara monoton ketika p mendekati 0 atau 1. Untuk besar n estimasi proporsi harus mendekati aktual proporsi.

— Michael R. Chernick
sumber

3

OP telah berkomentar bahwa "Saya bisa melihat mengapa ini terjadi ketika saya melihat persamaan untuk kesalahan standar proporsi." Oleh karena itu saya percaya mereka meminta bukan untuk analisis rumus , tetapi untuk pemahaman yang lebih dalam mengapa rumus - apa pun itu - benar-benar harus dimaksimalkan pada .

p (1 - p)

$p(1-p)$

p = 1 / 2

$p=1/2$

— whuber

1

@whuber saya menjawab seperti yang saya lakukan karena saya melihat bahwa formula adalah dasar untuk memahami mengapa varians terbesar pada p = 1/2 dan sangat kecil ketika p mendekati 0 atau 1. Mungkin yang terbaik adalah mengatakan bahwa ada tidak ada penjelasan sama sekali tanpa rumus.

— Michael R. Chernick

1

The distribusi binomial cenderung kasar simetris (untuk besar itu adalah mendekati normal ). $n$

Karena rasio harus antara 0 dan 1, ketidakpastian akan dibatasi oleh batas-batas ini. Kecuali jika rasio rata-rata tepat di tengah, salah satu batas ini akan lebih membatasi daripada yang lain.

Untuk kurva lonceng unimodal simetris yang berpusat pada agar sesuai dengan interval unit, setengah lebarnya harus kurang dari . $p$ $\min[\,p\,,1-p\,]$

— GeoMatt22
sumber

Ya - tetapi ikatan lainnya tidak akan terlalu membatasi! Mengapa kedua efek tidak dibatalkan?

— whuber

@whuber saya berdebat dari simetri (yaitu dalam kasus "besar " sederhana , kurva lonceng simetris harus masuk ke dalam interval, sehingga setengah-lebar dibatasi oleh sisi yang lebih ketat, )

n

$n$

min [p, 1 - p]

$\min[p,1-p]$

— GeoMatt22