Kesalahan standar sampel standar deviasi proporsi

Baru-baru ini saya mulai membaca Gelman and Hill, "Analisis Data Menggunakan Regresi dan Model Bertingkat / Hirarki" dan pertanyaannya didasarkan pada:

Sampel berisi 6 pengamatan pada proporsi: $p_{1}, p_{2}, \dots, p_{6}$

Setiap memiliki mean dan varians , di mana adalah jumlah pengamatan yang digunakan untuk menghitung proporsi . $p_{i}$ $\pi_{i}$ $\frac{\pi_{i}(1-\pi_{i})}{n_i}$ $n_{i}$ $p_{i}$

Statistik uji adalah sampel standar deviasi dari proporsi ini. $T_{i} =$

Buku itu mengatakan bahwa nilai yang diharapkan dari varians sampel dari keenam proporsi, , adalah . Saya mengerti semua ini. $p_{1}, p_{2}, \dots, p_{6}$ $(1/6)\sum_{i=1}^{6} \pi_{i}(1-\pi_{i})/n_{i}$

Yang ingin saya ketahui adalah distribusi dan ? Akan sangat menghargai jika seseorang dapat memberi tahu saya apa itu, atau membimbing saya ke buku atau artikel yang berisi informasi ini. $T_{i}$

Terima kasih banyak.

distributions binomial standard-deviation

— Curious2learn
sumber

Saya tidak punya buku untuk diperiksa, tetapi pernyataan tentang nilai yang diharapkan dari varian sampel menurut saya aneh. Tentunya itu harus bergantung pada variabilitas juga.

π_{i}

$\pi_i$

— Aniko

Statistik uji adalah nilai pencarian untuk distribusi seperti t Student, distribusi normal, distribusi-F, dll. Lihat di buku dan temukan nama distribusi untuk statistik itu. Perbedaannya juga harus terkait dengan itu.

— Carl

Tidak ada yang mau tahu distribusi justru karena itu sangat jahat. Itu karena proporsinya sendiri diskrit - dapat mengambil nilai - dan oleh karena itu (tidak boleh ada subskrip di atasnya) juga diskrit: tetapi nilai yang mungkin, yang jumlahnya banyak, tidak termasuk dalam rangkaian interval yang berjarak sama. Variansnya tidak terlalu sulit untuk dikerjakan karena ini adalah fungsi dari empat momen pertama dari masing-masing dan itu relatif mudah untuk ditulis.

T_{i}

$T_i$

p_{i}

$p_i$

0 / n_{i}, 1 / n_{i}, \dots, n_{i} / n_{i}

$0/n_i, 1/n_i, \ldots, n_i/n_i$

T

$T$

p_{i}

$p_i$

— whuber

@Carl benar, dan sementara bukan jawaban langsung untuk pertanyaan OP layak dipertimbangkan. Namun, terkadang distribusi yang tepat dapat diturunkan untuk statistik uji, dan ini dapat memberikan sifat sampel kecil yang lebih baik dari tes yang sesuai. Saya tidak berharap ini adalah kasus seperti itu.

— AdamO

Distribusi tepat untuk proporsi adalah , dan proporsi dapat mengambil nilai . Distribusi yang dihasilkan dari standar deviasi sampel adalah distribusi diskrit yang rumit. Membiarkan , dapat ditulis dalam bentuk yang paling sepele seperti: $p_i \text{ ~ Bin}(n_i, \pi_i)/n_i$ $p_i = 0, \frac{1}{n_i}, \frac{2}{n_i}, ..., \frac{n_i-1}{n_i}, 1$ $T$ $\boldsymbol{p} \equiv (p_1, p_2, ..., p_6)$

F_{T} (t) \equiv P (T ⩽ t) = \sum_{p \in P (t)} \prod_{i = 1}^{6} Bin (n_{i} p_{i} | n_{i}, π_{i}),

$F_T(t) \equiv \mathbb{P}(T \leqslant t) = \sum_{\boldsymbol{p \in \mathcal{P}(t)}} \prod_{i=1}^6 \text{Bin}( n_i p_i|n_i, \pi_i),$

di mana adalah himpunan semua vektor proporsi yang mengarah ke varians sampel yang tidak lebih besar dari . Sebenarnya tidak ada cara untuk menyederhanakan ini dalam kasus umum. Mendapatkan probabilitas yang tepat dari distribusi ini akan mengharuskan Anda untuk menghitung vektor proporsi yang menghasilkan varians sampel dalam rentang minat, dan kemudian menjumlahkan produk binomial pada rentang yang disebutkan. Ini akan menjadi latihan perhitungan yang berat bahkan untuk nilai . $\mathcal{P}(t) \equiv \{ \boldsymbol{p}| T \leqslant t \}$ $t$ $n_1, ..., n_6$

Sekarang, jelas distribusi di atas bukanlah bentuk yang sangat membantu. Yang benar-benar memberitahu Anda adalah bahwa Anda perlu menyebutkan hasil yang menarik dan kemudian menjumlahkan probabilitas mereka. Itulah mengapa tidak biasa untuk menghitung probabilitas yang tepat dalam kasus ini, dan jauh lebih mudah untuk menarik bentuk asimtotik untuk distribusi varians sampel.

— Ben - Pasang kembali Monica
sumber