Menghitung ukuran sampel yang dibutuhkan, ketepatan estimasi varians?

17

Latar Belakang

Saya memiliki variabel dengan distribusi yang tidak diketahui.

Saya memiliki 500 sampel, tetapi saya ingin menunjukkan ketepatan yang dapat saya gunakan untuk menghitung varians, misalnya untuk menyatakan bahwa ukuran sampel 500 sudah cukup. Saya juga tertarik untuk mengetahui ukuran sampel minimum yang akan diperlukan untuk memperkirakan varians dengan ketepatan . $X\%$

Pertanyaan

Bagaimana saya bisa menghitung

ketepatan estimasi varians saya yang diberikan ukuran sampel $n=500$ ? dari ? $n=N$
Bagaimana saya bisa menghitung jumlah sampel minimum yang diperlukan untuk memperkirakan varians dengan ketepatan ? $X$

Contoh

Gambar 1 estimasi kepadatan parameter berdasarkan 500 sampel.

masukkan deskripsi gambar di sini

Gambar 2 Berikut adalah sebidang ukuran sampel pada sumbu x vs estimasi varians pada sumbu y yang telah saya hitung menggunakan sub-sampel dari sampel 500. Idenya adalah bahwa perkiraan akan konvergen ke varians yang benar dengan meningkatnya n .

Namun, estimasi tersebut tidak valid independen karena sampel yang digunakan untuk memperkirakan varians untuk $n \in [10,125,250,500]$ tidak independen satu sama lain atau sampel yang digunakan untuk menghitung varians pada $n\in [20,40,80]$

masukkan deskripsi gambar di sini

— Abe
sumber

Perlu diketahui bahwa jika komponen dari distribusi Anda yang tidak dikenal adalah distribusi Cauchy, varians tidak terdefinisi.

— Mike Anderson

@ Mike Atau memang jumlah tak terbatas dari distribusi lainnya.

— Glen_b -Reinstate Monica

10

Untuk variabel acak iid $X_1, \dotsc, X_n$ , penaksir tidak bias untuk varians (yang dengan penyebut ) memiliki varian: $s^2$ $n-1$

V a r (s^{2}) = σ^{4} (\frac{2}{n - 1} + \frac{κ}{n})

$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$

di mana $\kappa$ adalah kelebihan kurtosis dari distribusi (referensi: Wikipedia ). Jadi sekarang Anda perlu memperkirakan kurtosis distribusi Anda juga. Anda dapat menggunakan jumlah yang kadang-kadang digambarkan sebagai (juga dari Wikipedia ): $\gamma_2$

γ_{2} = \frac{μ_{4}}{σ_{4}} - 3

$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$

Saya akan berasumsi bahwa jika Anda menggunakan $s$ sebagai perkiraan untuk $\sigma$ dan $\gamma_2$ sebagai perkiraan untuk $\kappa$ , bahwa Anda mendapatkan perkiraan yang wajar untuk , walaupun saya tidak melihat jaminan bahwa itu tidak bias. Lihat apakah cocok dengan varians di antara himpunan bagian dari 500 poin data Anda secara wajar, dan jika tidak khawatir tentang hal itu lagi :) $\mathrm{Var}(s^2)$

— Erik P.
sumber

apakah Anda memiliki referensi buku teks untuk penaksir varians yang tidak bias? Saya tidak tahu harus ke mana dari Wikipedia untuk lebih banyak konteks.

— Abe

Saya tidak memiliki teks standar Beras dengan saya di sini, jadi saya tidak dapat memeriksa nomor halaman untuk Anda, tetapi saya yakin itu ada di sana. Wikipedia menyarankan itu juga harus disebutkan dalam: Montgomery, DC dan Runger, GC: Statistik terapan dan probabilitas untuk insinyur , halaman 201. John Wiley & Sons New York, 1994.

— Erik P.

terima kasih atas bantuan Anda dengan ini. Jawaban ini sangat berguna dan informatif untuk mengukur ketidakpastian varians - Saya telah menerapkan persamaan sekitar 10 kali pada hari terakhir. menghitung

mudah dengan perpustakaan:

k a p p a

$kappa$ momentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)

— Abe

ada kemungkinan Anda menemukan nomor halaman dari teks Rice? Saya tidak dapat menemukannya di Casella dan Berger. Referensi utama akan lebih baik jika Anda mengetahuinya. Halaman wikipedia sangat tidak direferensikan.

— Abe

Hmmm ... sepertinya Rice juga tidak punya formula. Saya akan mengawasi untuk itu, tetapi pada titik ini saya tidak punya referensi sama sekali.

— Erik P.

15

Belajar varians itu sulit.

Dibutuhkan (mungkin secara mengejutkan) sejumlah besar sampel untuk memperkirakan varians dengan baik dalam banyak kasus. Di bawah ini, saya akan menunjukkan pengembangan untuk kasus "kanonik" dari sampel normal iid.

Misalkan , adalah variabel bebas . Kami mencari interval kepercayaan untuk varians sehingga lebar interval adalah , yaitu, lebar adalah dari estimasi titik. Sebagai contoh, jika $Y_i$ $i=1,\ldots,n$ $\mathcal{N}(\mu, \sigma^2)$ $100(1-\alpha)\%$ $\rho s^2$ $100\rho \%$ $\rho = 1/2$ , maka lebar dari CI adalah setengah nilai estimasi titik, misalnya, jika , maka CI akan menjadi seperti $s^2 = 10$ , memiliki lebar 5. Perhatikan asimetri di sekitar estimasi titik, juga. ( $(8,\,13)$ $s^2$ adalah penaksir tidak bias untuk varians.)

Interval kepercayaan "(lebih tepatnya," a ") untuk adalah $s^2$ dimana

\frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} \leq σ^{2} \leq \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}},

$\frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>,$

adalah

quantile dari distribusi chi-square dengan

derajat kebebasan. (Ini muncul dari fakta bahwa

χ_{(n - 1)}^{2 β}

$\chi_{(n-1)}^{2\;\beta}$

β

$\beta$

n - 1

$n-1$

(n - 1) s^{2} / σ^{2}

$(n-1)s^2/\sigma^2$ adalah kuantitas yang sangat penting dalam pengaturan Gaussian.)

Kami ingin meminimalkan lebar sehingga jadi kita dibiarkan menyelesaikan untuk sehingga

L (n) = \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{(n - 1) s^{2}}{χ_{(n - 1)}^{2 (1 - α / 2)}} < ρ s^{2},

$L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>,$

n

$n$

(n - 1) (\frac{1}{χ_{(n - 1)}^{2 (α / 2)}} - \frac{1}{χ_{(n - 1)}^{2 (1 - α / 2)}}) < ρ .

$(n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho .$

Untuk kasus interval kepercayaan 99%, kita mendapatkan untuk dan untuk . Kasus terakhir ini menghasilkan interval yang ( masih! ) 10% lebih besar dari estimasi titik varians. $n = 65$ $\rho = 1$ $n = 5321$ $\rho = 0.1$

Jika tingkat kepercayaan yang Anda pilih kurang dari 99%, maka interval lebar yang sama akan diperoleh untuk nilai lebih rendah . Tapi, mungkin masih lebih besar dari yang Anda duga. $n$ $n$

Plot ukuran sampel versus lebar proporsional menunjukkan sesuatu yang terlihat linier asimtotik pada skala log-log; dengan kata lain, hubungan seperti hukum kekuasaan. Kita dapat memperkirakan kekuatan hubungan kuasa-hukum ini (secara kasar) sebagai $n$ $\rho$

\hat{α} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{- \log 10}{\log \frac{5231}{65}} \approx - 0.525,

$\hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 ,$

yang sayangnya sangat lambat!

Ini adalah semacam "kanonik" kasus untuk memberi Anda merasakan bagaimana cara menghitung. Berdasarkan plot Anda, data Anda tidak terlihat sangat normal; khususnya, ada apa yang tampak sebagai kemiringan yang nyata.

Tapi, ini harus memberi Anda gambaran kasar tentang apa yang diharapkan. Perhatikan bahwa untuk menjawab pertanyaan kedua di atas, Anda perlu memperbaiki beberapa tingkat kepercayaan terlebih dahulu, yang telah saya tetapkan untuk 99% dalam pengembangan di atas untuk tujuan demonstrasi.

— kardinal
sumber

ini jawaban yang sangat bagus untuk pertanyaan saya. Namun, meskipun saya mengikuti perhitungan yang Anda buat untuk

, tidak terlalu jelas bagi saya jika satuan untuk

adalah persen dalam larutan

untuk

; apakah ini berarti "

kurang dari

" atau "

kurang dari

dari

?

n | ρ

$n|\rho$

r h o

$rho$

n = 65

$n=65$

ρ < 1

$\rho<1$

ρ

$\rho$

1 \times s^{2}

$1\times s^2$

ρ

$\rho$

1 %

$1\%$

s^{2}

$s^2$

— Abe

@Abe, diperbarui dan mudah-mudahan diperjelas dalam prosesnya. Ada satu kesalahan ketik yang sangat buruk di versi sebelumnya. Maaf soal itu.

— kardinal

jawaban yang sangat bagus, tetapi saya memilih yang dari @Erik karena lebih berlaku untuk masalah saya (karena parameter saya tidak terdistribusi secara normal).

— Abe

@Abe: Tidak masalah. Untuk itulah tanda centang ada. Jawaban saya dimaksudkan sebagai ilustrasi, lebih dari segalanya. Dari apa yang saya tahu, itu tidak tetap muncul untuk menjadi satu-satunya yang alamat kedua dari pertanyaan Anda, dan akan (asimtotik) memperbaiki bahkan dalam skenario yang Erik garis. (+1 kepadanya lebih dari setahun yang lalu.) :)

— kardinal

Anda benar dan saya senang bahwa sekarang saya telah meninjau kembali jawaban Anda. Saya akhirnya menggunakan perhitungan umum oleh @Erik, tetapi sekarang saya melihat nilai dalam solusi umum. Plus, menyajikan CI daripada SD akan memecahkan masalah dengan pemirsa saya sedang bingung ketika melihat statistik dalam bentuk

, tidak memahami apa varians varians adalah. Jadi

harus membuatnya lebih jelas, dan konsisten dengan ringkasan statistik lainnya. Dan akan membantu untuk menunjukkan asimetri.

s (s_{s})

$s(s_{s})$

s [l c l, u c l]

$s[lcl,ucl]$

— Abe

1

Saya akan fokus pada SD daripada varians, karena pada skala yang lebih mudah ditafsirkan.

Orang-orang kadang-kadang melihat interval kepercayaan untuk SD atau varian, tetapi fokusnya umumnya pada sarana.

$s^2/\sigma^2$ $\sigma^2$ $\sigma$ $\sigma^2$

— Karl
sumber

(Balasan ini datang ke sini setelah pertanyaan rangkap, dibingkai agak berbeda, digabung.)

— whuber

1

Solusi berikut ini diberikan oleh Greenwood dan Sandomire dalam makalah JASA 1950.

$X_1,\dots,X_n$ $\mathrm{N}(\mu,\sigma^2)$ $\sigma$

S = \sqrt{\sum_{i = 1}^{n} \frac{(X_{i} - \bar{X})^{2}}{n - 1}},

$S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}},$

S

$S$

σ

$\sigma$

0 < u < 1

$0<u<1$

Pr {S < (1 - u) \cdot σ} = a and Pr {S > (1 + u) \cdot σ} = b,

$\Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b,$

γ = 1 - a - b

$\gamma=1-a-b$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} < (n - 1) (1 - u)^{2}} = a

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a$

Pr {\frac{(n - 1) S^{2}}{σ^{2}} > (n - 1) (1 + u)^{2}} = b .

$\Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b.$ Since the pivotal quantity

(n - 1) S^{2} / σ^{2}

$(n-1)S^2/\sigma^2$ has

χ_{n - 1}^{2}

$\chi^2_{n-1}$ distribution, adding the two probabilities, we find

γ = F_{χ_{(n - 1)}^{2}} ((n - 1) (1 + u)^{2}) - F_{χ_{(n - 1)}^{2}} ((n - 1) (1 - u)^{2}),

$\gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2),$

and the necessary sample size is found solving the former equation in $n$ for given $\gamma$ and $u$ .

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for $u=10\%$ and $\gamma=95\%$ .

Sample size n = 193

— Zen
sumber