Bagaimana cara menghitung varians yang dikumpulkan dari dua kelompok atau lebih yang diberikan varians kelompok yang diketahui, sarana, dan ukuran sampel?

Katakanlah ada elemen $m+n$ dibagi menjadi dua kelompok ( $m$ dan $n$ ). $\sigma_m^2$ dari grup pertama adalah dan varians dari grup kedua adalah $\sigma^2_n$ . Elemen-elemen itu sendiri dianggap tidak diketahui tetapi saya tahu cara $\mu_m$ dan $\mu_n$ .

Apakah ada cara untuk menghitung varians gabungan $\sigma^2_{(m+n)}$ ?

Varians tidak harus tidak bias sehingga penyebutnya adalah $(m+n)$ dan tidak $(m+n-1)$ .

variance pooling

— pengguna1809989
sumber

Ketika Anda mengatakan Anda tahu cara dan varian dari kelompok-kelompok ini, apakah mereka parameter atau nilai sampel? Jika itu adalah sampel rata-rata / varians, Anda tidak boleh menggunakan

μ

$\mu$ dan

σ

$\sigma$ ...

— Jonathan Christensen

Saya hanya menggunakan simbol sebagai representasi. Kalau tidak, akan sulit untuk menjelaskan masalah saya.

— user1809989

Untuk nilai sampel, kami biasanya menggunakan huruf Latin (misalnya

m

$m$ dan

s

$s$ ). Huruf Yunani biasanya disediakan untuk parameter. Menggunakan simbol "benar" (diharapkan) akan membantu Anda berkomunikasi lebih jelas.

— Jonathan Christensen

Jangan khawatir, saya akan ikuti itu mulai sekarang! Cheers

— user1809989

@ Jonathan Karena ini bukan pertanyaan tentang sampel atau estimasi, satu sah dapat mengambil pandangan bahwa dan adalah benar varians mean dan distribusi empiris dari batch data, sehingga membenarkan penggunaan konvensional Yunani huruf daripada huruf latin untuk merujuk mereka.

μ

$\mu$

σ^{2}

$\sigma^2$

— whuber

Jawaban:

Gunakan definisi rata-rata

μ_{1 : n} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

$\mu_{1:n} = \frac{1}{n}\sum_{i=1}^n x_i$

dan varians sampel

σ_{1 : n}^{2} = \frac{1}{n} \sum_{i = 1}^{n} {(x_{i} - μ_{1 : n})}^{2} = \frac{n - 1}{n} (\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - μ_{1 : n})}^{2})

$\sigma_{1:n}^2 = \frac{1}{n}\sum_{i=1}^n \left(x_i - \mu_{1:n}\right)^2 = \frac{n-1}{n}\left(\frac{1}{n-1}\sum_{i=1}^n \left(x_i - \mu_{1:n}\right)^2\right)$

(istilah terakhir dalam tanda kurung adalah penaksir varians tidak bias yang sering dihitung secara default dalam perangkat lunak statistik) untuk menemukan jumlah kuadrat dari semua data . Mari kita memesan indeks sehingga menunjuk elemen-elemen dari kelompok pertama dan menunjuk elemen-elemen dari kelompok kedua. Pecahkan jumlah kuadrat itu dengan kelompok dan ungkapkan kembali kedua bagian dalam hal varians dan rata-rata subset dari data: $x_i$ $i$ $i=1,\ldots,n$ $i=n+1,\ldots,n+m$

\begin{aligned} (m + n) (σ_{1 : m + n}^{2} + μ_{1 : m + n}^{2}) & = \sum_{i = 1}^{1 : n + m} x_{i}^{2} \\ = \sum_{i = 1}^{n} x_{i}^{2} + \sum_{i = n + 1}^{n + m} x_{i}^{2} \\ = n (σ_{1 : n}^{2} + μ_{1 : n}^{2}) + m (σ_{1 + n : m + n}^{2} + μ_{1 + n : m + n}^{2}) . \end{aligned}

$\eqalign{ (m+n)(\sigma^2_{1:m+n} + \mu_{1:m+n}^2) &= \sum_{i=1}^{1:n+m} x_i^2 \\ &= \sum_{i=1}^n x_i^2 + \sum_{i=n+1}^{n+m} x_i^2 \\ &= n(\sigma^2_{1:n} + \mu_{1:n}^2) + m(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2). }$

Mengatasi hal ini secara aljabar untuk dalam hal jumlah hasil (dikenal) lainnya $\sigma^2_{m+n}$

σ_{1 : m + n}^{2} = \frac{n (σ_{1 : n}^{2} + μ_{1 : n}^{2}) + m (σ_{1 + n : m + n}^{2} + μ_{1 + n : m + n}^{2})}{m + n} - μ_{1 : m + n}^{2} .

$\sigma^2_{1:m+n} = \frac{n(\sigma^2_{1:n} + \mu_{1:n}^2) + m(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2)}{m+n} - \mu^2_{1:m+n}.$

Tentu saja, dengan menggunakan pendekatan yang sama, dapat diekspresikan dalam hal kelompok berarti juga. $\mu_{1:m+n} = (n\mu_{1:n} + m\mu_{1+n:m+n})/(m+n)$

Kontributor anonim menunjukkan bahwa ketika mean sampel sama (sehingga ), solusi untuk adalah rata-rata tertimbang dari varians sampel grup. $\mu_{1:n}=\mu_{1+n:m+n}=\mu_{1:m+n}$ $\sigma^2_{m+n}$

— whuber
sumber

Tag "pekerjaan rumah" tidak berarti pertanyaannya dasar atau bodoh: itu digunakan untuk pertanyaan belajar mandiri yang bahkan dapat mencakup pertanyaan tingkat penelitian. Ini membedakan pertanyaan rutin, lebih atau kurang bebas konteks (dari jenis yang biasanya rahmat forum matematika) dari pertanyaan terapan spesifik.

— whuber

Saya tidak dapat memahami bagian pertama Anda: Dalam khususnya saya mendapatkan yang membutuhkan Apakah saya kehilangan sesuatu? Bisakah Anda jelaskan ini?

n (σ^{2} + μ^{2}) = \sum (x - μ)^{2} + n μ^{2} \overset{?}{=} \sum x^{2}

$n(\sigma^2+\mu^2) = \sum (x - \mu)^2 + n\mu^2 \stackrel{?}{=} \sum x^2$

\sum [(x - μ)^{2} + μ^{2}] = \sum [x^{2} - 2 x μ]

$\sum [(x-\mu)^2+\mu^2] = \sum [x^2-2x\mu]$

μ = 0

$\mu = 0$

— DarioP

@Dario

\sum (x - μ)^{2} + n μ^{2} = (\sum x^{2} - 2 μ \sum x + n μ^{2}) + n μ^{2} = \sum x^{2} - 2 n μ^{2} + 2 n μ^{2} = \sum x^{2} .

$\sum(x-\mu)^2+n\mu^2=(\sum x^2 - 2\mu\sum x + n \mu^2)+n\mu^2 = \sum x^2 - 2n\mu^2 + 2n\mu^2 = \sum x^2.$

— whuber

Oh ya, saya melakukan kesalahan tanda bodoh pada derivasi saya, sekarang jelas, terima kasih !!

— DarioP

Saya kira ini dapat diperluas ke jumlah sampel yang sewenang-wenang selama Anda memiliki mean dan varians untuk masing-masing. Menghitung dikumpulkan (bias) deviasi standar di R hanya sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)di mana n, udan rhosama-panjang vektor. Misalnya n=c(10, 14, 9)untuk tiga sampel.

— Jonas Lindeløv

Saya akan menggunakan notasi standar untuk mean sampel dan varians sampel dalam jawaban ini, daripada notasi yang digunakan dalam pertanyaan. Menggunakan notasi standar, rumus lain untuk varians sampel gabungan dari dua kelompok dapat ditemukan di O'Neill (2014) (Hasil 1):

\begin{aligned} s_{pooled}^{2} & = \frac{1}{n_{1} + n_{2} - 1} [(n_{1} - 1) s_{1}^{2} + (n_{2} - 1) s_{2}^{2} + \frac{n_{1} n_{2}}{n_{1} + n_{2}} ({\bar{x}}_{1} - {\bar{x}}_{2})^{2}] . \end{aligned}

$\begin{equation} \begin{aligned} s_\text{pooled}^2 &= \frac{1}{n_1+n_2-1} \Bigg[ (n_1-1) s_1^2 + (n_2-1) s_2^2 + \frac{n_1 n_2}{n_1+n_2} (\bar{x}_1 - \bar{x}_2)^2 \Bigg]. \\[10pt] \end{aligned} \end{equation}$

Rumus ini bekerja langsung dengan mean sampel yang mendasari dan varians sampel dari dua subkelompok, dan tidak memerlukan perhitungan antara rata-rata sampel yang dikumpulkan. (Bukti hasil dalam kertas tertaut.)

— Pasang kembali Monica
sumber

-3

Ya, mengingat rerata, jumlah sampel, dan varians atau standar deviasi dari masing-masing dua atau lebih kelompok sampel, Anda dapat dengan tepat menghitung varians atau standar deviasi dari kelompok gabungan.

Halaman web ini menjelaskan cara melakukannya, dan mengapa itu bekerja; itu juga termasuk kode sumber di Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html

BTW, bertentangan dengan jawaban yang diberikan di atas,

\begin{aligned} n (σ^{2} + μ^{2}) \neq \sum_{i = 1}^{n} x_{i}^{2} \end{aligned}

$\eqalign{ n(\sigma^2 + \mu^2) \space\space \ne \space\space \sum_{i=1}^n x_i^2 }$

Lihat sendiri, misalnya, dalam R:

> x = rnorm (10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> berarti (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> jumlah (x ** 2)
[1] 319.3486
> 10 * (rata-rata (x) ** 2 + sd (x) ** 2)
[1] 323.3787

— Dave Burton
sumber

itu karena Anda lupa faktor n-1, mis. coba dengan n * (rata-rata (x) ** 2 + sd (x) ** 2 / (n) * (n-1))

— user603

user603, apa yang kamu bicarakan?

— Dave Burton

Rsd(c(-1,1))1.4142141sqrt(9/10)*sd(x)sd(x)

σ

$\sigma$

μ

$\mu$ n <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)