Mengapa varians sampel berubah jika pengamatan digandakan?

25

Varians dikatakan ukuran penyebaran. Jadi, saya berpikir bahwa varians 3,5sama dengan varians 3,3,5,5karena jumlahnya tersebar merata. Tapi ini tidak terjadi, varians dari 3,5adalah 2sedangkan varian 3,3,5,5adalah 1 1/3.

Ini membingungkan saya, mengingat penjelasan bahwa varians seharusnya menjadi ukuran penyebaran.

Jadi, dalam konteks itu, apa arti dari ukuran penyebaran ?

variance

— René Nyffenegger
sumber

32

Jika Anda mendefinisikan varians sebagai $s^2_{n}=$ $\,\text{MSE}\,$ $=\frac1n \sum_{i=1}^n (x_i-\bar{x})^2$ - mirip dengan varians populasi tetapi dengan mean sampel untuk $\mu$ , maka kedua sampel Anda akan memiliki varians yang sama.

Jadi perbedaannya adalah murni karena koreksi Bessel dalam formula biasa untuk varian sampel ( $s^2_{n-1}=\frac{n}{n-1}\cdot \text{MSE}=\frac{n}{n-1}\cdot \frac1n \sum_{i=1}^n (x_i-\bar{x})^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$ , yang menyesuaikan fakta bahwa rata-ratasampellebih dekat dengan data daripada rata-rata populasi, untuk membuatnya tidak bias (mengambil nilai yang tepat "pada rata-rata ").

Efeknya secara bertahap hilang dengan meningkatnya ukuran sampel, seperti $\frac{n-1}{n}$ pergi ke 1 sebagai $n\to\infty$ .

Tidak ada alasan khusus Anda harus menggunakan estimator yang tidak bias untuk varians, by the way - $s^2_n$ adalah estimator yang benar-benar valid, dan dalam beberapa kasus bisa dibilang memiliki keunggulan dibandingkan bentuk yang lebih umum (tidak memihak tidak selalu sebesar itu berurusan).

Varians itu sendiri tidak secara langsung mengukur penyebaran. Jika saya menggandakan semua nilai dalam set data saya, saya berpendapat mereka dua kali lipat "menyebar". Tetapi varians meningkat dengan faktor 4. Jadi, biasanya, dikatakan bahwa standar deviasi, daripada varians adalah ukuran penyebaran.

Tentu saja, masalah yang sama terjadi dengan standar deviasi (biasa $s_{n-1}$ versi) seperti dengan varians - ketika Anda meringkuk poin perubahan standar deviasi, untuk alasan yang sama seperti yang terjadi dengan varians.

Dalam sampel kecil koreksi Bessel membuat standar deviasi agak kurang intuitif sebagai ukuran penyebaran karena efek itu (menduplikasi sampel mengubah nilai). Tetapi banyak ukuran penyebaran mempertahankan nilai yang sama ketika menduplikasi sampel; Saya akan menyebutkan beberapa -

$s_n$ (tentu saja)
deviasi mean (absolut) dari mean
penyimpangan median (absolut) dari median
kisaran interkuartil (setidaknya untuk beberapa definisi kuartil sampel)

— Glen_b -Reinstate Monica
sumber

3

"Tidak ada alasan khusus Anda harus menggunakan penaksir tidak bias" - memang Anda tidak harus memperkirakan apa pun. Varian dari {3, 5}itu sendiri adalah 1, per rumus pertama. Seperti yang Anda tunjukkan, si penanya telah mencoba memperkirakan varians dari populasi yang darinya dianggap sebagai sampel, tetapi siapa yang tahu apakah itu benar atau tidak.

— Steve Jessop

1

$V\,X = E\,V\,X + V\,E\,X$

Rumus varians sampel biasa mengkompensasi itu, dan varians skala rata-rata sampel berbanding terbalik dengan ukuran sampel.

Sebagai contoh ekstrem, mengambil sampel tunggal akan selalu menunjukkan varians sampel 0, jelas tidak menunjukkan varian 0 untuk distribusi yang mendasarinya.

$2/1$ $4/3$ $2/3$ $1$ $4$

— pengguna80227
sumber

2

Dengan menggabungkan estimator dengan statistik , jawaban ini membingungkan, alih-alih menjelaskan, pertanyaannya. Silakan baca jawaban asli Glen_b di utas ini. Argumen dalam dua paragraf pertama adalah misterius karena tampaknya tidak relevan dengan pertanyaan itu.

— whuber