Mengapa standar deviasi didefinisikan sebagai sqrt dari varians dan bukan sebagai sqrt dari jumlah kuadrat atas N?

Hari ini saya mengajar kelas pengantar statistik dan seorang siswa mendatangi saya dengan sebuah pertanyaan, yang saya ulangi di sini sebagai: "Mengapa standar deviasi didefinisikan sebagai sqrt of variance dan bukan sebagai sqrt dari jumlah kuadrat atas N?"

Kami mendefinisikan varians populasi: $\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2}$

Dan standar deviasi: . $\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}}$

Interpretasi kami dapat memberikan ke adalah memberikan deviasi rata-rata unit dalam populasi dari mean populasi . $\sigma$ $X$

Namun, dalam definisi sd kita membagi sqrt dari jumlah kuadrat melalui . Pertanyaan yang diajukan siswa adalah mengapa kita tidak membagi squme dari sume of squares dengan sebagai gantinya. Jadi kita sampai pada formula yang bersaing:Siswa berpendapat bahwa rumus ini lebih mirip deviasi "rata-rata" dari rata-rata daripada ketika membagi melalui seperti dalam . $\sqrt{N}$ $N$

σ_{n e w} = \frac{1}{N} \sqrt{\sum (x_{i} - μ)^{2}} .

$\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.$

\sqrt{N}

$\sqrt{N}$

σ

$\sigma$

Saya pikir pertanyaan ini tidak bodoh. Saya ingin memberikan jawaban kepada siswa yang lebih jauh daripada mengatakan bahwa sd didefinisikan sebagai sqrt dari varians yang merupakan deviaton kuadrat rata-rata. Dengan kata lain, mengapa siswa harus menggunakan formula yang benar dan tidak mengikuti idenya?

Pertanyaan ini berkaitan dengan utas yang lebih lama dan jawaban yang diberikan di sini . Jawaban ada tiga arah:

$\sigma$ adalah deviasi root-mean-squared (RMS), bukan deviasi "khas" dari mean (yaitu, $\sigma_{new}$ ). Dengan demikian, didefinisikan secara berbeda.
Ini memiliki sifat matematika yang bagus.
Selanjutnya, sqrt akan mengembalikan "unit" ke skala aslinya. Namun, ini juga akan menjadi kasus untuk , yang membaginya dengan sebagai gantinya. $\sigma_{new}$ $N$

Kedua poin 1 dan 2 adalah argumen yang mendukung sd sebagai RMS, tapi saya tidak melihat argumen yang menentang penggunaan . Apa argumen yang baik untuk meyakinkan siswa tingkat pengantar tentang penggunaan jarak RMS rata-rata dari mean? $\sigma_{new}$ $\sigma$

— Tomka
sumber

Saya pikir pertanyaan "Mengapa standar deviasi didefinisikan sebagai ..." sulit untuk dijawab. Definisi hanyalah konvensi pelabelan yang sewenang-wenang. Mereka tidak harus sesuai dengan alasannya .

— ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Mungkinkah apa yang ada di dalam kurung entah bagaimana hilang dalam pertanyaan?

— ttnphns

Tetapi sd melayani serangkaian tujuan; harus ada motivasi yang lebih baik daripada yang didefinisikan seperti itu. Itu akan berguna, terutama dalam pengajaran sarjana. Saya bisa membayangkan motivasi dalam arti ketidaksetaraan Chebyshev (min. Proporsi kasus dalam bidang +/- faktor konstan sd).

— tomka

Tidak dapat menjawab karena Q Anda ditahan, tetapi coba ini: Bayangkan Anda mengamati nilai 1 dan 3 dalam proporsi yang kira-kira sama (lempar koin,

). "Jarak khas" pengamatan dari mean harus kira-kira seperti 1. Dengan

Anda

H = 3

$H=3$

T = 1

$T=1$

formula, pertimbangkan apa yang terjadi pada ukuran jarak khas ini untuk

sangat, sangat besar. Dalam setiap kasus

akan mendekati 1, sehingga jumlah kuadratnya akan mendekati

. Pembilang akan dekat dengan

\sqrt{S S E} / n

$\sqrt{SSE}/n$

n

$n$

| x_{i} - \bar{x} |

$|x_i-\bar{x}|$

n

$n$

sehingga rumus Anda akan semakin kecil dan semakin kecil seiringmeningkatnya

, meskipun jarak tipikal dari rata-rata tidak berubah.

\sqrt{n}

$\sqrt{n}$

n

$n$

— Glen_b -Reinstate Monica

@whuber saya membuat pembaruan lain dan berharap poin yang saya buat lebih jelas sekarang. Catatan Saya meminta nasihat mengajar di sini selain mengajukan pertanyaan tentang dana statistik. Saya tidak menyarankan formula alternatif, tetapi memberikan contoh dari situasi kelas dari pertanyaan yang bagus oleh seorang siswa yang saya tidak punya jawaban langsung. Jika Anda setuju, saya mohon untuk melepaskan pertanyaan dari tunggu sekarang.

— tomka

Jawaban:

Setidaknya ada tiga masalah dasar yang dapat dijelaskan kepada pemula:

SD "baru" bahkan tidak didefinisikan untuk populasi tak terbatas. (Seseorang dapat menyatakannya selalu sama dengan nol dalam kasus seperti itu, tetapi itu tidak akan membuatnya lebih berguna.)
SD baru tidak berperilaku seperti rata-rata harus dilakukan di bawah pengambilan sampel acak.
Meskipun SD baru dapat digunakan dengan semua ketelitian matematika untuk menilai penyimpangan dari rata-rata (dalam sampel dan populasi terbatas), interpretasinya tidak perlu rumit.

1. Penerapan SD baru terbatas

Poin (1) dapat dibawa pulang, bahkan kepada mereka yang tidak berpengalaman dalam integrasi, dengan menunjukkan bahwa karena varians jelas merupakan rata-rata aritmatika (penyimpangan kuadrat), ia memiliki ekstensi yang berguna untuk model populasi "tak terbatas" di mana intuisi tentang keberadaan aritmatika berarti masih berlaku. Oleh karena itu akar kuadratnya - SD biasa - juga didefinisikan dengan baik dalam kasus-kasus seperti itu, dan sama berguna dalam perannya sebagai varian (non-linear reekspresi) varians. Namun, SD membagi baru yang rata dengan sewenang-wenang besar , membuat generalisasi yang bermasalah di luar populasi terbatas dan sampel terbatas: apa yang harus $\sqrt{N}$ dianggap sama dalam kasus-kasus seperti itu? $1/\sqrt{N}$

2. SD baru bukan rata-rata

Statistik apa pun yang layak untuk nama "rata-rata" harus memiliki properti yang menyatu dengan nilai populasi karena ukuran sampel acak dari populasi meningkat. Setiap kelipatan tetap dari SD akan memiliki properti ini, karena pengganda akan berlaku baik untuk menghitung SD sampel dan populasi SD. (Meskipun tidak secara langsung bertentangan dengan argumen yang ditawarkan oleh Alecos Papadopoulos, pengamatan ini menunjukkan bahwa argumen hanya bersinggungan dengan masalah nyata.) Namun, SD "baru", sama dengan kali yang biasa, jelas konvergen kedalam semua keadaan sebagai ukuran sampeltumbuh besar. Oleh karena itu,meskipun untuk setiap ukuran sampel tetapSD baru (sesuai ditafsirkan) adalah ukuran variasi yang cukup memadai di sekitar rata-rata,itu tidak dapat dibenarkan dianggap sebagaiukuranuniversal yangberlaku, dengan interpretasi yang sama, untuk semua ukuran sampel, juga tidak bisa itu benar disebut "rata-rata" dalam arti yang bermanfaat. $1/\sqrt{N}$ $0$ $N$ $N$

3. SD baru rumit untuk ditafsirkan dan digunakan

Pertimbangkan untuk mengambil sampel ukuran (katakanlah) . SD baru dalam kasus ini adalah $N=4$ kali SD biasa. Oleh karena itu ia menikmati interpretasi yang sebanding, seperti analog dari aturan 68-95-99 (sekitar 68% dari data harus berada dalamduaSD baru dari rata-rata, 95% dari mereka dalamempatSD baru dari rata-rata,dll; dan versi ketidaksetaraan klasik seperti Chebychev akan berlaku (tidak lebih daridata dapat terletak lebih dariSD baru dari rata-rata mereka), dan Teorema Limit Sentral dapat secara analog disajikan kembali dalam hal SD baru (satu dibagi dengan $1/\sqrt{N}=1/2$ $1/k^2$ $2k$ kali SD baru untuk membakukan variabel). Dengan demikian, dalam pengertian yang spesifik dan terbatas ini,tidak ada yang salah dengan proposal siswa. Namun, kesulitannya adalah bahwa semua pernyataan ini mengandung - cukup eksplisit - faktor $\sqrt{N}$ . Meskipun tidak ada masalah matematika yang melekat dengan ini, itu tentu mempersulit pernyataan dan interpretasi dari hukum statistik yang paling mendasar. $\sqrt{N}=2$

Perlu dicatat bahwa Gauss dan yang lainnya pada awalnya parameter parameter distribusi Gaussian oleh , efektif menggunakan $\sqrt{2}\sigma$ kali SD untuk mengukur penyebaran variabel acak Normal. Penggunaan historis ini menunjukkan kepatutan dan efektivitas penggunaankelipatantetapSD lainnya sebagai gantinya. $\sqrt{2}$

— whuber
sumber

Terima kasih - satu pertanyaan kembali (berkaitan dengan poin Anda 2): apakah

tidak konvergen ke

karena

tumbuh besar, sedangkan

\frac{1}{\sqrt{N}}

$\frac{1}{\sqrt{N}}$

0

$0$

N

$N$

jelas?

\frac{1}{N}

$\frac{1}{N}$

— tomka

Kami membandingkan SD sampel dengan

kali SD sampel ("SD baru"). Ketika

tumbuh besar, SD sampel mendekati (biasanya)konstantanolsama dengan populasi SD. Oleh karena itu

1 / \sqrt{N}

$1/\sqrt{N}$

N

$N$

kali SD sampel menyatu menjadi nol.

1 / \sqrt{N}

$1/\sqrt{N}$

— whuber

Ini adalah bahan standar - baca buku teks ketat apa pun dalam statistik matematika (yang, agar adil, tidak dapat diakses oleh kebanyakan pemula). Namun, hasil yang penting untuk jawaban saya mengikuti dari pernyataan yang lebih lemah dan jelas secara intuitif. Perbaiki angka

dan biarkan

menjadi populasi SD. Pertimbangkan kemungkinan bahwa sampel SD akan terletak di antara

dan

. Cukuplah bahwa kesempatan ini menjadi nol karena ukuran sampel

meningkat. Ini saja menunjukkan bahwa

A > 1

$A \gt 1$

σ

$\sigma$

σ / A

$\sigma/A$

A σ

$A\sigma$

N

$N$

kali sampel SD konvergen ke

hampir pasti, menunjukkan poin (2) dalam jawabannya.

1 / \sqrt{N}

$1/\sqrt{N}$

0

$0$

— whuber

+1, plus itu bukan skala-invarian dll, (suatu kondisi yang diperlukan untuk sesaat dari formulir ini)

— Nikos M.

@ Nikos Terima kasih, tetapi apa yang bukan skala invarian? Keduanya

dan

berubah ketika data disusun kembali.

S D / \sqrt{N}

$SD/\sqrt{N}$

S D

$SD$

— whuber

Asumsikan bahwa sampel Anda hanya berisi dua realisasi. Saya kira ukuran dispersi intuitif akan menjadi rata-rata deviasi absolut (AAD)

A A D = \frac{1}{2} (| x_{1} - \bar{x} | + | x_{2} - \bar{x} |) = . . . = \frac{| x_{1} - x_{2} |}{2}

$AAD = \frac 12 (|x_1-\bar x| + |x_2-\bar x|) = ...= \frac {|x_1-x_2|}{2}$

Jadi kita ingin ukuran dispersi lain pada level unit pengukuran yang sama "dekat" dengan yang di atas.

Varians sampel didefinisikan sebagai

σ^{2} = \frac{1}{2} [(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2}] = \frac{1}{2} [{(\frac{x_{1} - x_{2}}{2})}^{2} + {(\frac{x_{2} - x_{1}}{2})}^{2}]

$\sigma^2=\frac{1}{2}[(x_1-\bar x)^2 + (x_2-\bar x)^2] = \frac 12 \left[\left(\frac {x_1-x_2}{2}\right)^2 + \left(\frac {x_2-x_1}{2}\right)^2\right]$

= \frac{1}{2} [\frac{(x_{1} - x_{2})^{2}}{4} + \frac{(x_{1} - x_{2})^{2}}{4}] = \frac{1}{2} \frac{(x_{1} - x_{2})^{2}}{2}

$=\frac 12 \left[\frac {(x_1-x_2)^2}{4} + \frac {(x_1-x_2)^2}{4}\right]=\frac 12 \frac {(x_1-x_2)^2}{2}$

= \frac{1}{2} \cdot \frac{| x_{1} - x_{2} |^{2}}{2}

$=\frac 12\cdot \frac {|x_1-x_2|^2}{2}$

Untuk kembali ke unit pengukuran asli, jika kita melakukan apa yang diminta / disarankan oleh siswa, kita akan mendapatkan ukurannya, sebut saja $q$

q \equiv \frac{1}{2} \cdot \sqrt{\frac{| x_{1} - x_{2} |^{2}}{2}} = \frac{1}{2} \frac{| x_{1} - x_{2} |}{\sqrt{2}} = \frac{1}{\sqrt{2}} A A D < A A D

$q \equiv \frac 12\cdot \sqrt {\frac {|x_1-x_2|^2}{2}} = \frac 12 \frac {|x_1-x_2|}{\sqrt 2} = \frac 1{\sqrt 2} AAD < AAD$

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

S D \equiv \sqrt{σ^{2}} = \frac{| x_{1} - x_{2} |}{2} = A A D

$SD \equiv \sqrt {\sigma^2} = \frac {|x_1-x_2|}{2} =AAD$

Since we want to "stay as close as possible" to the intuitive measure, we should use $SD$ .

ADDENDUM
Let's consider now a sample of size $n$ We have

n \cdot A A D = \sum_{i = 1}^{n} | x_{i} - \bar{x} |

$n\cdot AAD = \sum_{i=1}^n |x_i-\bar x|$

and

n \cdot Var (X) = \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2}

$n \cdot \text{Var}(X) = \sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n |x_i-\bar x|^2$

we can write the right-hand side of the variance expression as

\sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2} = {(\sum_{i = 1}^{n} | x_{i} - \bar{x} |)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$\sum_{i=1}^n |x_i-\bar x|^2 = \left(\sum_{i=1}^n |x_i-\bar x|\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

= {(n \cdot A A D)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$= \left (n\cdot AAD\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

Then the dispersion measure $q_n$ will be

q_{n} \equiv \frac{1}{n} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$q_n \equiv \frac 1n \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[A A D^{2} - \frac{1}{n^{2}} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[AAD^2 - \frac 1{n^2} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Now think informally: note that $\sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$ contains $n^2-n$ terms, and so divided by $n^2$ will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in $AAD^2$ : this is a primitive way to "sense" why $q_n$ will tend to zero as $n$ grows large. On the other hand the Standard Deviation as defined would be

S D \equiv \frac{1}{\sqrt{n}} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$SD \equiv \frac 1{\sqrt n} \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[n \cdot A A D^{2} - \frac{1}{n} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[n\cdot AAD^2 - \frac 1{n} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Continuing are informal thinking, the first term gives us $n$ "terms in the 2nd power", while the second term gives us $n-1$ "terms in the second power" . So we will be left eventually with one such term, as $n$ grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any $n$ , as well as for the case when $n\rightarrow \infty$ .

— Alecos Papadopoulos
sumber

Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).

— whuber

@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!

— Alecos Papadopoulos