Varians proporsi sampel menurun dengan n tetapi jumlah bertambah dengan n - mengapa?


9

Saya memiliki blok intuitif dengan ini. Untuk masalah binomial, standar deviasi hitungan adalahnhal(1-hal). Sebaliknya, standar deviasi proporsi sampel menurun dengan meningkatnyan dan hal(1-hal)n. Saya dapat melakukan pembagian dengann tapi saya tidak punya perasaan mengapa standar deviasi bergerak berlawanan arah.


1
Dua hal: (a) proporsi = 1n.menghitung dan B) sd(cX)=c.sd(X). Jelasc=1n di sini, dan 1nn=1n.
Glen_b -Reinstate Monica

1
Ya, ini masalahnya - saya bisa melihat matematika dan melakukan pembagian dengan n tapi itu aspek intuitif yang aneh. Jika ditanya bagaimana cara mendapatkan perkiraan yang lebih tepat untuk suatu parameter, saya katakan mengambil sampel yang lebih besar. Ini memberi saya perkiraan yang lebih baik untuk proporsi (OK) tetapi spread yang lebih luas untuk jumlah dan semakin banyak jumlah yang saya tambahkan, semakin lemah kesimpulan yang bisa saya tarik.
user39707

Saat Anda menghitung, berapa jumlah populasi yang Anda hitung untuk standar deviasi / interval?
Glen_b -Reinstate Monica

Sebuah contoh (Helsinki Heart Study) dari sebuah buku (Moore & Mccabe) adalah saat saya berhenti. Probabilitas (serangan jantung) = 0,04 & n = 2000. SD untuk jumlah yang diharapkan dari serangan jantung adalah 8,76. Baik. Ada 84 serangan jantung pada kelompok plasebo dan 56 pada kelompok yang diobati. Z = 3.19 & tidak mungkin secara kebetulan. Jika ada 10.000 dalam persidangan, SD (hitungan) akan ~ 20 dan perbedaan dalam 2 kelompok tidak lagi signifikan Tapi bagaimana bisa lebih banyak data memberi saya lebih sedikit diskriminasi?
user39707

1
Apakah kedua kelompok itu berukuran sama? Apakah jumlah serangan jantung tetap sama ketika sampel meningkat.?
Dimitriy V. Masterov

Jawaban:


7

Sangat kasar, bayangkan kita sedang melempar koin yang adil . Keberhasilan didefinisikan sebagai kepala. Jika kita melempar koin sekali saja(n=1), Anda akan menghitung 1 sukses atau 0keberhasilan. Keduanya memiliki kemungkinan positif yang sama untuk terjadi(1/2). Sekarang bayangkan kita melempar koin10 waktu (n=10). Sekarang Anda masih bisa mendapatkannya0 dan 1 Keberhasilan (meskipun keduanya kurang mungkin), tetapi Anda juga bisa mendapatkan 2 melalui 10(yang lebih mungkin). Jika varians mengukur seberapa jauh serangkaian angka tersebar, Anda dapat melihatnya10 melemparkan penyebaran lebih luas daripada dengan 1undian atau uji coba. Ini menjelaskan mengapa varians dari jumlah keberhasilan meningkatn.

Dengan proporsi (jumlah keberhasilan dibagi dengan jumlah lemparan), Anda mencoba memperkirakan nilai sebenarnya dari hal. Ketika Anda mendapatkan lebih banyak informasi dengan lebih banyak cobaan, ketidakpastian Anda tentanghalturun, dan varians yang menyusut. Dengan satu lemparan yang muncul di kepala, Anda tidak tahu banyak (hanya ituhal0). Dengan10 melemparkan bahwa semua berubah menjadi kepala, Anda cukup yakin itu hal dekat satu.


Saya kembali ke buku teks dan sepertinya saya masih belum mengerti, saya rasa. Komentar yang saya buat di atas tentang studi Helsinki Heart meringkas di mana tampaknya sedikit paradoks bagi saya sekarang
user39707

2

Mari kita mulai dengan mengasumsikan standar deviasi distribusi binomial benar (benar). Ini adalah standar deviasi dari distribusi jumlah keberhasilann uji coba diberikan probabilitas keberhasilan yang konstan hal. Sebut jumlah keberhasilan,X.

Begitu VSebuahr(X)=nhal(1-hal), itulah yang Anda miliki (standar deviasi kuadrat).

Karena proporsi adalah jumlah keberhasilan dibandingkan jumlah percobaan, kami memiliki:

VSebuahr(Xn)=VSebuahr(X)n2=nhal(1-hal)n2=hal(1-hal)n.

Dan dengan demikian deviasi standar tentu saja hal(1-hal)n.

Dalam satu kasus Anda melihat jumlah, yang lain Anda melihat jumlah dibagi dengan ukuran sampel.

Secara intuitif, Anda dapat membayangkan jumlah jumlah keberhasilan jauh lebih tinggi (X=0,1,2,...,n) daripada proporsi (0hal1). Sebagain meningkat, X dapat mengambil banyak nilai integer yang berbeda (dan lebih besar) dan memiliki lebih banyak variabilitas; hal, di sisi lain, dibatasi antara 0 dan 1. Jadi X memiliki lebih banyak variabilitas.


bagaimana kamu mendapatkan VSebuahr(Xn)=VSebuahr(X)n2? Mengapa penyebutnya?n2?
user490895

VSebuahr(X)=E(X2)-[E(X)]2 begitu VSebuahr(cX)=E(c2X2)-[cE(X)]2 =c2E(X2)-c2E(X)2 =c2(E(X2)-[E(X)]2) =c2VSebuahr(X). Sini,c=1/n. Saya melakukan salah ketik pada persamaan ketiga jawaban yang akan saya perbaiki sekarang.
Underminer

0

Baik! Aku akan membuatnya sangat mudah.

Saat menggunakan std dan varians BIASANYA Anda melihat ke belakang, mencoba melihat apa yang terjadi dan kemudian memproyeksikan masa depan. saat Anda melihat ke belakang, semakin banyak percobaan biasanya membantu mendapatkan LEBIH BANYAK info. Semakin banyak cobaan membantu mempersempit apa yang terjadi. dan Anda sekarang memutar lebih baik di sekitar rata-rata. Std dan var hanya berputar di sekitar mean sehingga Anda semakin dekat dan lebih dekat dengan apa yang akan terjadi.

Binomial berbeda! kita sudah tahu apa yang terjadi, kita tahu kemungkinannya. jadi melihat ke belakang tidak berguna karena, yah, kita sudah tahu probabilitasnya. Semakin banyak percobaan tidak membantu kita memahami lebih baik dan lebih baik bagaimana hal-hal berputar di sekitar rata-rata, itu hanya memberi kita distribusi yang lebih luas dan lebih luas. meningkatkan uji coba benar-benar hanya memberi lebih banyak ruang untuk perbedaan.

Bayangkan dua skenario: satu yang Anda ingin tahu seberapa tinggi setiap orang di sebuah ruangan. lebih banyak pengukuran = lebih dekat dengan apa tinggi rata-rata sebenarnya di dalam ruangan, Anda berterima kasih atas setiap pengukuran baru.

kedua Anda punya koin. Anda sudah tahu apa rata-rata. 50/50 yang saya maksud pada saat itu Anda selesai. jadi mari kita berpura-pura mulai membalik, yah setiap flip baru hanya lebih banyak ruang untuk kesalahan. Anda membalik 10 kali dan Anda mendapatkan semua 10 kepala, Anda berkata kepada teman Anda, apa-apaan! di mana kemungkinan itu, itu sangat bodoh! baik jika Anda hanya membaliknya sekali Anda hanya akan memiliki satu kesempatan untuk beberapa outlier gila. lebih banyak flips tidak benar-benar memberi Anda lebih banyak info mereka hanya memberi lebih banyak ruang untuk hasil gila.

0 matematika dan 0 rumus, semoga bisa membantu.


0

Jika Anda mencari intuisi tentang hasil ini, tanyakan pada diri sendiri yang mana dari hal-hal berikut yang lebih bervariasi:

  • ... proporsi perempuan dalam rumah tangga, atau proporsi perempuan di seluruh negara?

  • ... jumlah perempuan dalam satu rumah tangga, atau jumlah perempuan di seluruh negara?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.