Bagaimana cara kerja kesalahan standar?

17

Saya telah melihat ke dalam cara kerja kesalahan standar baru-baru ini, dan saya mendapati diri saya tidak dapat memahami cara kerjanya. Pemahaman saya tentang kesalahan standar adalah bahwa itu adalah standar deviasi dari distribusi mean sampel. Pertanyaan saya adalah:

• bagaimana kita tahu kesalahan standar adalah standar deviasi dari sampel berarti ketika kita biasanya mengambil hanya satu sampel?

• mengapa persamaan untuk menghitung kesalahan standar tidak mencerminkan persamaan standar deviasi untuk sampel tunggal?

standard-error

— luciano
sumber

Ketika Anda mengatakan "sampel tunggal", maksud Anda satu set sampel atau benar-benar ukuran sampel 1?

— Erik

1

Ini dijelaskan untuk masalah yang sederhana namun menarik (respons ternary) dalam bahasa sederhana, non-statistik di stats.stackexchange.com/a/18609 .

— Whuber

13

Ya, kesalahan standar mean (SEM) adalah standar deviasi (SD) dari mean. (Kesalahan standar adalah cara lain untuk mengatakan SD dari distribusi pengambilan sampel. Dalam hal ini, distribusi pengambilan sampel adalah sarana untuk sampel dengan ukuran tetap, katakan N.) Ada hubungan matematis antara SEM dan populasi SD: SEM = populasi SD / akar kuadrat dari N. Hubungan matematis ini sangat membantu, karena kita hampir tidak pernah memiliki estimasi langsung dari SEM tetapi kami memang memiliki estimasi populasi SD (yaitu SD dari sampel kami). Mengenai pertanyaan kedua Anda, jika Anda mengumpulkan beberapa sampel ukuran N dan menghitung rata-rata untuk setiap sampel, Anda dapat memperkirakan SEM hanya dengan menghitung SD cara. Jadi rumus untuk SEM memang mencerminkan rumus untuk SD dari sampel tunggal.

— Joel W.
sumber

13

Misalkan independen dan terdistribusi secara identik. Ini adalah situasi yang saya yakin Anda maksudkan. Biarkan rata-rata umum mereka menjadi dan varians umum mereka adalah . $X_1, X_2, \ldots, X_n$ $\mu$ $\sigma^2$

Sekarang mean sampel adalah . Linearitas harapan menunjukkan bahwa rata-rata juga . Asumsi kemandirian menyiratkan varian adalah jumlah dari varians dari ketentuan-ketentuannya. Setiap istilah memiliki varians (karena varian dari konstanta kali variabel acak adalah konstanta kuadrat dikalikan varians dari variabel acak). Kami memiliki $X_b=\sum_i X_i/n$ $X_b$ $\mu$ $X_b$ $X_i/n$ $\sigma^2/n^2$ $n$ variabel terdistribusi secara identik untuk dijumlahkan, sehingga setiap istilah memiliki varian yang sama. Sebagai hasilnya, kita mendapatkan untuk varians dari mean sampel. $n \sigma^2/n^2 = \sigma^2/n$

Biasanya kita tidak tahu sehingga kita harus memperkirakannya dari data. Tergantung pada pengaturannya, ada berbagai cara untuk melakukan ini. Dua estimasi tujuan umum yang paling umum dari adalah varians sampel $\sigma^2$ $\sigma^2$ dan kelipatan kecilnya, $s^2 = \frac{1}{n}\sum_i(X_i-X_b)^2$ (yang merupakan penaksir tidak bias dari). Menggunakan salah satu dari ini di tempatpada paragraf sebelumnya dan mengambil akar kuadrat memberikan kesalahan standar dalam bentuk $s_u^2 = \frac{n}{n-1}s^2$ $\sigma^2$ $\sigma^2$ atau $s/\sqrt{n}$ . $s_u/\sqrt{n}$

— Michael R. Chernick
sumber

1

Ini sangat bagus. Apakah Anda memiliki saran untuk buku atau bacaan untuk mengembangkan keterampilan berpikir yang serupa. Terima kasih.

— q126t

Jawaban elegan!

— Jinhua Wang

7

+1 untuk kedua @ JoelW. & @MichaelChernick. Saya ingin menambahkan detail ke jawaban @ JoelW. Dia mencatat bahwa "kita hampir tidak pernah memiliki perkiraan langsung dari SEM", yang pada dasarnya benar, tetapi ada baiknya secara eksplisit mengakui peringatan untuk pernyataan itu. Khususnya, ketika sebuah studi membandingkan beberapa kelompok / perawatan (misalnya, plasebo vs obat standar vs obat baru), sebuah ANOVA biasanya digunakan untuk melihat apakah semuanya sama. Hipotesis nol adalah bahwa masing-masing kelompok telah diambil dari populasi yang sama, dan dengan demikian, ketiganya berarti estimasi rata-rata populasi. Yaitu, hipotesis nol dalam ANOVA standar mengasumsikan bahwa Anda memang memiliki perkiraan langsung dari SEM. Pertimbangkan persamaan untuk varian dari distribusi sampling mean: di mana adalah varians populasi, danadalah jumlah kelompok. Meskipun kami biasanya tidak melakukan perhitungan dengan cara ini, kamihanyabisamenggunakan rumus standar untuk memasukkan nilai estimasi, dan dengan perombakan aljabar minimal, bentukstatistikseperti:

σ_{\bar{x}}^{2} = \frac{σ_{p o p}^{2}}{n_{j}},

$\sigma^2_{\bar x}=\frac{\sigma^2_{pop}}{n_j},$

σ_{p o p}^{2}

$\sigma^2_{pop}$

n_{j}

$n_j$

F

$F$

Dalam hal ini, kita benar-benar akan menggunakan rumus standar (hanya diterapkan di atas rata-rata grup), yaitu:

F = \frac{n_{j} \times s_{\bar{x}}^{2}}{s_{pooled within group}^{2}}

$F=\frac{n_j\times s^2_{\bar x}}{s^2_{\text{pooled within group}}}$

dengan

menjadi rata-rata dari kelompok berarti.

s_{\bar{x}}^{2} = \frac{\sum_{j = 1}^{n_{j}} ({\bar{x}}_{j} - {\bar{x}}_{.})^{2}}{n_{j} - 1},

$s^2_{\bar x}=\frac{\sum_{j=1}^{n_j}(\bar x_j-\bar x_.)^2}{n_j-1},$

x_{.}

$x_.$

Dalam hal itu kami biasanya percaya bahwa hipotesis nol itu tidak benar, poin @ JoelW benar, tetapi saya bekerja melalui titik ini, karena saya pikir kejelasan yang diberikannya sangat membantu untuk memahami masalah ini.

— gung - Reinstate Monica
sumber

2

Saya pikir komentar Anda pada dasarnya sama dengan yang ini, yang ditulis dengan notasi matematika yang lebih sedikit: stats.stackexchange.com/questions/32206/…

— Joel W.