Mengapa kuadrat perbedaan daripada mengambil nilai absolut dalam standar deviasi?

408

Dalam definisi deviasi standar, mengapa kita harus kuadratkan perbedaan dari nilai rata-rata untuk mendapatkan nilai rata-rata (E) dan mengambil akar kuadrat kembali di akhir? Tidak bisakah kita hanya mengambil nilai absolut dari perbedaan sebagai gantinya dan mendapatkan nilai yang diharapkan (rata-rata) dari mereka, dan bukankah itu juga menunjukkan variasi data? Angka tersebut akan berbeda dari metode kuadrat (metode nilai absolut akan lebih kecil), tetapi harus tetap menunjukkan penyebaran data. Adakah yang tahu mengapa kita menggunakan pendekatan kuadrat ini sebagai standar?

Definisi standar deviasi:

$\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}.$

Tidak bisakah kita mengambil nilai absolut saja dan masih menjadi ukuran yang baik?

$\sigma = E\left[|X - \mu|\right]$

standard-deviation definition

— c4il
sumber

25

Di satu sisi, pengukuran yang Anda usulkan secara luas digunakan dalam kasus kesalahan (kualitas model) analisis - maka itu disebut MAE, "berarti kesalahan absolut".

8

Dalam menerima jawaban, tampaknya penting bagi saya untuk memperhatikan apakah jawabannya melingkar. Distribusi normal didasarkan pada pengukuran varians ini dari segi error kuadrat, tetapi itu tidak dengan sendirinya merupakan pembenaran untuk menggunakan (XM) ^ 2 lebih | XM |.

— russellpierce

2

Apakah menurut Anda istilah standar berarti ini adalah THE standard hari ini? Bukankah itu seperti bertanya mengapa komponen utama adalah "utama" dan bukan yang kedua?

— robin girard

51

Setiap jawaban yang ditawarkan sejauh ini berbentuk lingkaran. Mereka fokus pada kemudahan perhitungan matematis (yang bagus tetapi tidak berarti fundamental) atau pada sifat-sifat distribusi dan OLS Gaussian (Normal). Sekitar 1800 Gauss dimulai dengan kuadrat dan varian terkecil dan dari yang diturunkan distribusi Normal - ada sirkularitas. Alasan yang benar-benar mendasar yang belum dipanggil dalam jawaban apa pun adalah peran unik yang dimainkan oleh varians dalam Teorema Limit Pusat . Lain adalah pentingnya dalam teori keputusan meminimalkan kerugian kuadratik.

— whuber

2

Taleb membuat kasus di Edge.org untuk pensiun standar deviasi dan menggunakan deviasi absolut berarti.

— Alex Holcombe

188

Jika tujuan dari standar deviasi adalah untuk meringkas penyebaran set data simetris (yaitu secara umum seberapa jauh masing-masing datum dari rata-rata), maka kita memerlukan metode yang baik untuk menentukan bagaimana mengukur penyebaran itu.

Manfaat mengkuadratkan meliputi:

Mengkuadratkan selalu memberikan nilai positif, sehingga jumlahnya tidak akan menjadi nol.
Squaring menekankan perbedaan yang lebih besar — fitur yang ternyata baik dan buruk (pikirkan efek yang dimiliki pencilan).

Namun mengkuadratkan memiliki masalah sebagai ukuran penyebaran dan itu adalah bahwa semua unit kuadrat, sedangkan kita mungkin lebih suka spread berada di unit yang sama dengan data asli (pikirkan pound kuadrat, dolar kuadrat, atau apel kuadrat) . Karenanya akar kuadrat memungkinkan kita untuk kembali ke unit asli.

Saya kira Anda bisa mengatakan bahwa perbedaan absolut memberikan bobot yang sama pada penyebaran data sedangkan kuadrat menekankan ekstrem. Namun secara teknis, seperti yang telah ditunjukkan oleh orang lain, kuadrat membuat aljabar lebih mudah untuk dikerjakan dan menawarkan properti yang tidak dimiliki metode absolut (misalnya, variansnya sama dengan nilai yang diharapkan dari kuadrat distribusi dikurangi kuadrat dari rata-rata distribusi)

Penting untuk dicatat bahwa tidak ada alasan Anda tidak dapat mengambil perbedaan absolut jika itu adalah preferensi Anda tentang bagaimana Anda ingin melihat 'spread' (semacam bagaimana beberapa orang melihat 5% sebagai ambang ajaib untuk nilai-, padahal sebenarnya itu tergantung situasi). Memang, sebenarnya ada beberapa metode yang bersaing untuk mengukur penyebaran. $p$

Pandangan saya adalah menggunakan nilai kuadrat karena saya suka memikirkan bagaimana hubungannya dengan Teorema Statistik Pythagoras: ... ini juga membantu saya mengingat bahwa ketika bekerja dengan variabel acak independen , varians tambahkan, standar deviasi tidak. Tapi itu hanya preferensi subyektif pribadi saya yang sebagian besar hanya saya gunakan sebagai bantuan memori, merasa bebas untuk mengabaikan paragraf ini. $c = \sqrt{a^2 + b^2}$

Analisis yang lebih mendalam dapat dibaca di sini .

— Tony Breyal
sumber

72

"Mengkuadratkan selalu memberikan nilai positif, jadi jumlahnya tidak akan nol." dan begitu juga nilai absolut.

— robin girard

32

@robin girard: Itu benar, maka mengapa saya mendahului poin itu dengan "Manfaat dari kuadrat termasuk". Saya tidak menyiratkan apa pun tentang nilai absolut dalam pernyataan itu. Saya mengambil poin Anda, saya akan mempertimbangkan menghapus / ulang kata-kata itu jika orang lain merasa tidak jelas.

— Tony Breyal

15

Sebagian besar bidang statistik yang kuat adalah upaya untuk menangani sensitivitas berlebihan untuk pencilan bahwa itu adalah konsekuensi dari memilih varians sebagai ukuran penyebaran data (skala teknis atau dispersi). en.wikipedia.org/wiki/Robust_statistics

— Thylacoleo

5

Artikel yang ditautkan dalam jawabannya adalah tuhan yang dikirim.

— traggatmot

1

Saya pikir paragraf tentang Pythagoras sangat tepat. Anda dapat menganggap kesalahan sebagai vektor dalam

dimensi, dengan

menjadi jumlah sampel. Ukuran di setiap dimensi adalah perbedaan dari rata-rata untuk sampel itu.

Panjang vektor itu (Pythagoras) adalah akar dari kuadrat penjumlahan, yaitu standar deviasi.

n

$n$

n

$n$

[(x_{1} - μ), (x_{2} - μ), (x_{3} - μ), . . .]

$[(x_1-\mu), (x_2-\mu), (x_3-\mu), ...]$

— Arne Brasseur

138

Perbedaan kuadrat memiliki sifat matematika yang lebih bagus; itu terus dapat dibedakan (bagus bila Anda ingin menguranginya), ini adalah statistik yang cukup untuk distribusi Gaussian, dan itu (versi) norma L2 yang berguna untuk membuktikan konvergensi dan sebagainya.

Deviasi absolut rata-rata (notasi nilai absolut yang Anda sarankan) juga digunakan sebagai ukuran dispersi, tetapi itu tidak "berperilaku baik" seperti kesalahan kuadrat.

— Kaya
sumber

2

mengatakan "itu dapat dibedakan secara terus-menerus (bagus ketika Anda ingin menguranginya)" apakah maksud Anda bahwa nilai absolutnya sulit untuk dioptimalkan?

— robin girard

29

@robin: sementara fungsi nilai absolut kontinu di mana-mana, turunan pertamanya tidak (pada x = 0). Ini membuat optimasi analitik lebih sulit.

— Vince

12

Ya, tetapi menemukan nomor aktual yang Anda inginkan, bukan hanya deskriptor, lebih mudah dalam hilangnya kesalahan kuadrat. Pertimbangkan kasus 1 dimensi; Anda dapat mengekspresikan minimizer dari kesalahan kuadrat dengan rata-rata: O (n) operasi dan formulir tertutup. Anda bisa mengekspresikan nilai minimizer kesalahan absolut oleh median, tetapi tidak ada solusi bentuk tertutup yang memberi tahu Anda apa nilai mediannya; memerlukan semacam untuk menemukan, yang merupakan sesuatu seperti O (n log n). Solusi kuadrat terkecil cenderung menjadi operasi tipe plug-and-chug yang sederhana, solusi bernilai absolut biasanya membutuhkan lebih banyak pekerjaan untuk ditemukan.

— Kaya

5

@ Rich: Baik varians dan median dapat ditemukan dalam waktu linier, dan tentu saja tidak lebih cepat. Median tidak perlu disortir.

— Neil G

3

@JeromeBaum: en.wikipedia.org/wiki/Median_of_medians

— Neil G

84

Salah satu cara Anda dapat memikirkan ini adalah bahwa standar deviasi mirip dengan "jarak dari rata-rata".

Bandingkan ini dengan jarak dalam ruang euclidean - ini memberi Anda jarak sebenarnya, di mana apa yang Anda sarankan (yang, btw, adalah deviasi absolut ) lebih seperti perhitungan jarak manhattan .

— Reed Copsey
sumber

17

Analogi yang bagus tentang ruang euclidean!

— c4il

2

Kecuali bahwa dalam satu dimensi norma

dan

adalah hal yang sama, bukan?

l_{1}

$l_1$

l_{2}

$l_2$

— nucky101

5

@ naught101: Ini bukan satu dimensi, melainkan

dimensi di mana

adalah jumlah sampel. Deviasi standar dan deviasi absolut adalah masing-masing (skala)

dan

jarak, antara dua titik

dan

mana

adalah rata-rata .

n

$n$

n

$n$

l_{2}

$l_2$

l_{1}

$l_1$

(x_{1}, x_{2}, \dots, x_{n})

$(x_1, x_2, \dots, x_n)$

(μ, μ, \dots, μ)

$(\mu, \mu, \dots, \mu)$

μ

$\mu$

— ShreevatsaR

1

Ini harus dimodifikasi sebagai jarak minimum dari rata-rata. Ini pada dasarnya adalah persamaan Pythagoras.

— John

56

The Alasan bahwa kita menghitung standar deviasi bukan kesalahan mutlak adalah bahwa kita mengasumsikan kesalahan untuk didistribusikan secara normal . Itu bagian dari model.

Misalkan Anda mengukur panjang yang sangat kecil dengan penggaris, maka standar deviasi adalah metrik kesalahan yang buruk karena Anda tahu Anda tidak akan pernah sengaja mengukur panjang negatif. Metrik yang lebih baik akan menjadi salah satu yang membantu menyesuaikan distribusi Gamma ke pengukuran Anda:

$\log(E(x)) - E(\log(x))$

Seperti standar deviasi, ini juga non-negatif dan dapat dibedakan, tetapi statistik kesalahan yang lebih baik untuk masalah ini.

— Neil G
sumber

3

Saya suka jawaban Anda. SD tidak selalu merupakan statistik terbaik.

— RockScience

2

Contoh-contoh bagus ketika deviasi standar bukan cara terbaik untuk memikirkan ukuran fluktuasi.

— Hbar

Bukankah seharusnya Anda memiliki tanda berlawanan pada kuantitas untuk menghasilkan ukuran yang positif - menggunakan cembung

bukannya cekung

?

- l o g x

$-log x$

\log x

$\log x$

— AS

@ TIDAK, itu selalu positif. Ini nol ketika semua sampel

sama, dan jika tidak mengukur besarnya variasi.

x

$x$

— Neil G

Anda salah.

untuk cekung

.

E (g (X)) \leq g (E (X))

$E(g(X))\le g(E(X))$

g

$g$

— AS

25

Jawaban yang paling memuaskan saya adalah bahwa ia jatuh secara alami dari generalisasi sampel ke ruang euclidean n-dimensi. Memang bisa diperdebatkan apakah itu sesuatu yang harus dilakukan, tetapi bagaimanapun juga:

Asumsikan pengukuran masing-masing merupakan sumbu dalam . Maka data Anda menentukan titik di ruang itu. Sekarang Anda mungkin memperhatikan bahwa semua data sangat mirip satu sama lain, sehingga Anda dapat merepresentasikannya dengan parameter lokasi tunggal yang dibatasi untuk berada pada garis yang ditentukan oleh . Memproyeksikan datapoint Anda ke baris ini membuat Anda , dan jarak dari titik proyeksi ke datapoint sebenarnya $n$ $X_i$ $\mathbb R^n$ $x_i$ $\bf x$ $\mu$ $X_i=\mu$ $\hat\mu=\bar x$ $\hat\mu\bf 1$ . $\sqrt{\frac{n-1} n}\hat\sigma=\|\bf x-\hat\mu\bf 1\|$

Pendekatan ini juga membuat Anda interpretasi geometris untuk . $\hat\rho=\cos \angle(\vec{\bf\tilde x},\vec{\bf\tilde y})$

— sesqu
sumber

7

Ini benar dan menarik. Namun, pada akhirnya tampaknya hanya mengulangi pertanyaan tanpa benar-benar menjawabnya: yaitu, mengapa kita harus menggunakan jarak Euclidean (L2)?

— whuber

20

@sesqu Standar deviasi tidak menjadi hal yang biasa sampai Gauss pada 1809 menurunkan deviasi eponymous-nya menggunakan kesalahan kuadrat, daripada kesalahan absolut, sebagai titik awal. Namun, apa yang mendorong mereka dari atas (saya percaya) adalah teori regresi Galton (di mana Anda mengisyaratkan) dan kemampuan ANOVA untuk menguraikan jumlah kuadrat - yang merupakan pernyataan ulang dari Teorema Pythagoras, suatu hubungan yang hanya dinikmati oleh Norma L2. Dengan demikian, SD menjadi ukuran omnibus alami dari penyebaran yang dianjurkan dalam "Metode Statistik untuk Pekerja Penelitian" Fisher 1925 dan di sinilah kita, 85 tahun kemudian.

— whuber

13

(+1) Melanjutkan di nada @ whuber, saya berani bertaruh bahwa memiliki Siswa menerbitkan sebuah makalah pada tahun 1908 berjudul, "Kemungkinan Kesalahan Mean - Hei, Guys, Lihat MAE itu di Penyebut!" maka statistik akan memiliki wajah yang sama sekali berbeda sekarang. Tentu saja, dia tidak menerbitkan makalah seperti itu, dan tentu saja dia tidak bisa, karena MAE tidak membanggakan semua properti bagus yang dimiliki S ^ 2. Salah satunya (terkait dengan Siswa) adalah kemandirian dari rata-rata (dalam kasus normal), yang tentu saja merupakan pernyataan kembali ortogonalitas, yang membawa kita kembali ke L2 dan produk dalam.

3

Jawaban ini menggugah pikiran dan saya pikir cara saya melihatnya. Dalam 1-D sulit untuk memahami mengapa mengkuadratkan perbedaan dipandang lebih baik. Tetapi dalam beberapa dimensi (atau bahkan hanya 2) orang dapat dengan mudah melihat bahwa jarak Euclidean (kuadrat) lebih disukai daripada jarak Manhattan (jumlah nilai absolut perbedaan).

— thecity2

1

@whuber Bisakah Anda jelaskan apa arti "garis yang didefinisikan oleh Xᵢ = μ"? Apakah itu garis yang melewati titik asal dan titik (μ, μ, ..., μ)? Juga, di mana saya bisa membaca lebih lanjut tentang ini?

— Arch Stanton

18

Mengkuadratkan perbedaan dari rata-rata memiliki beberapa alasan.

Varians didefinisikan sebagai momen ke-2 dari penyimpangan (RV di sini adalah ) dan dengan demikian kuadrat sebagai momen hanyalah harapan dari kekuatan yang lebih tinggi dari variabel acak. $(x-\mu)$
Memiliki kuadrat yang berlawanan dengan fungsi nilai absolut memberikan fungsi kontinu dan dapat dibedakan bagus (nilai absolut tidak dapat dibedakan pada 0) - yang menjadikannya pilihan alami, terutama dalam konteks estimasi dan analisis regresi.
Formulasi kuadrat juga secara alami keluar dari parameter Distribusi Normal.

— Ayam Kung Pao
sumber

17

Namun alasan lain (selain yang bagus di atas) datang dari Fisher sendiri, yang menunjukkan bahwa standar deviasi lebih "efisien" daripada deviasi absolut. Di sini, efisien berkaitan dengan berapa banyak statistik akan berfluktuasi nilainya pada sampel yang berbeda dari suatu populasi. Jika populasi Anda terdistribusi secara normal, deviasi standar dari berbagai sampel dari populasi itu, rata-rata, cenderung memberi Anda nilai yang sangat mirip satu sama lain, sedangkan deviasi absolut akan memberi Anda angka yang menyebar sedikit lebih banyak. Sekarang, jelas ini dalam keadaan ideal, tetapi alasan ini meyakinkan banyak orang (bersama dengan matematika menjadi lebih bersih), sehingga kebanyakan orang bekerja dengan standar deviasi.

— Eric Suh
sumber

6

Argumen Anda tergantung pada data yang didistribusikan secara normal. Jika kita mengasumsikan populasi memiliki distribusi "eksponensial ganda", maka deviasi absolut lebih efisien (pada kenyataannya itu adalah statistik yang cukup untuk skala)

— probabilityislogic

7

Ya, seperti yang saya nyatakan, "jika populasi Anda terdistribusi secara normal."

— Eric Suh

Selain mengasumsikan distribusi normal bukti Fisher mengasumsikan pengukuran bebas kesalahan. Dengan kesalahan kecil seperti 1%, situasinya terbalik dan deviasi absolut rata-rata lebih efisien daripada deviasi standar

— juanrga

14

Asal tahu saja, ada pertanyaan Math Overflow pada topik yang sama.

Mengapa-itu-begitu-keren-ke-kuadrat-dalam-hal-menemukan-standar-deviasi

Pesan take away adalah bahwa menggunakan akar kuadrat dari varians mengarah ke matematika yang lebih mudah. Respons serupa diberikan oleh Rich dan Reed di atas.

— Robby McKilliam
sumber

3

'Matematika lebih mudah' bukan persyaratan penting ketika kami ingin agar rumus dan nilai kami lebih mencerminkan set data yang diberikan. Komputer melakukan semua kerja keras.

— Dan W

Mendefinisikan pi sebagai 3,14 membuat matematika lebih mudah, tetapi itu tidak membuatnya benar.

— James

13

$\newcommand{\var}{\operatorname{var}}$ Varian adalah aditif: untuk variabel acak independen , $X_1,\ldots,X_n$

var (X_{1} + \dots + X_{n}) = var (X_{1}) + \dots + var (X_{n}) .

$\var(X_1+\cdots+X_n)=\var(X_1)+\cdots+\var(X_n).$

Perhatikan apa yang memungkinkan ini: Katakanlah saya melempar koin yang adil 900 kali. Berapa probabilitas bahwa jumlah kepala yang saya dapatkan adalah antara 440 dan 455 inklusif? Cukup temukan jumlah kepala yang diharapkan ( ), dan varians dari jumlah kepala ( ), kemudian temukan probabilitas dengan distribusi normal (atau Gaussian) dengan harapan dan standar deviasi adalah antara dan . Abraham de Moivre melakukan ini dengan melempar koin pada abad ke-18, dengan demikian pertama-tama menunjukkan bahwa kurva berbentuk lonceng bernilai sesuatu. $450$ $225=15^2$ $450$ $15$ $439.5$ $455.5$

— Michael Hardy
sumber

Apakah penyimpangan absolut berarti tidak aditif dengan cara yang sama seperti varians?

— russellpierce

6

Tidak, mereka bukan.

— Michael Hardy

10

Saya pikir kontras antara menggunakan deviasi absolut dan deviasi kuadrat menjadi lebih jelas setelah Anda bergerak melampaui variabel tunggal dan berpikir tentang regresi linier. Ada diskusi yang bagus di http://en.wikipedia.org/wiki/Least_absolute_deviations , khususnya bagian "Membandingkan Kuadrat Terkecil dengan Penyimpangan Mutlak Paling Tidak", yang menghubungkan ke beberapa latihan siswa dengan seperangkat applet yang rapi di http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Untuk meringkas, paling tidak penyimpangan absolut lebih kuat untuk outlier daripada kuadrat terkecil biasa, tetapi bisa tidak stabil (perubahan kecil bahkan satu datum tunggal dapat memberikan perubahan besar dalam garis pas) dan tidak selalu memiliki solusi yang unik - mungkin ada berbagai macam garis yang dipasang. Juga, setidaknya penyimpangan absolut memerlukan metode berulang, sedangkan kuadrat terkecil biasa memiliki solusi bentuk tertutup sederhana, meskipun itu bukan masalah besar sekarang seperti pada zaman Gauss dan Legendre, tentu saja.

— onestop
sumber

argumen "solusi unik" cukup lemah, itu berarti ada lebih dari satu nilai yang didukung oleh data. Selain itu, hukuman dari koefisien, seperti L2, akan menyelesaikan masalah keunikan, dan masalah stabilitas pada tingkat tertentu.

— probabilityislogic

10

Ada banyak alasan; mungkin yang utama adalah ia berfungsi dengan baik sebagai parameter dari distribusi normal.

4

Saya setuju. Deviasi standar adalah cara yang tepat untuk mengukur dispersi jika Anda mengasumsikan distribusi normal. Dan banyak distribusi dan data nyata kira-kira normal.

— Łukasz Lew

2

Saya tidak berpikir Anda harus mengatakan "parameter alami": parameter alami dari distribusi normal adalah rata-rata dan rata-rata waktu presisi. ( en.wikipedia.org/wiki/Natural_parameter )

— Neil G

1

@NeilG Poin bagus; Saya sedang berpikir tentang makna "kasual" di sini. Saya akan memikirkan kata yang lebih baik.

8

Dalam banyak hal, penggunaan standar deviasi untuk meringkas dispersi melompat ke kesimpulan. Anda dapat mengatakan bahwa SD secara implisit mengasumsikan distribusi simetris karena perlakuannya yang sama terhadap jarak di bawah rata-rata seperti jarak di atas rata-rata. SD sangat sulit untuk diartikan ke non-ahli statistik. Orang dapat berargumen bahwa perbedaan rata-rata Gini memiliki aplikasi yang lebih luas dan secara signifikan lebih dapat ditafsirkan. Tidak diperlukan seseorang untuk menyatakan pilihan mereka tentang ukuran kecenderungan sentral seperti penggunaan SD untuk mean. Perbedaan rata-rata Gini adalah perbedaan absolut rata-rata antara dua pengamatan yang berbeda. Selain kuat dan mudah diinterpretasikan, kebetulan menjadi 0,98 seefisien SD jika distribusinya sebenarnya Gaussian.

— Frank Harrell
sumber

2

Hanya untuk menambahkan saran @ Frank pada Gini, ada makalah yang bagus di sini: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Ini membahas berbagai ukuran penyebaran dan juga memberikan perspektif sejarah yang informatif.

— Thomas Speidel

1

Saya suka ide-ide ini juga, tetapi ada definisi paralel yang kurang dikenal tentang varians (dan dengan demikian SD) yang tidak menjadikan referensi sebagai parameter lokasi. Variansnya adalah setengah dari rata-rata kuadrat atas semua perbedaan berpasangan di antara nilai-nilai, sama seperti perbedaan rata-rata Gini didasarkan pada nilai absolut dari semua perbedaan berpasangan.

— Nick Cox

7

Memperkirakan deviasi standar suatu distribusi perlu memilih jarak.
Salah satu dari jarak berikut ini dapat digunakan:

d_{n} ((X)_{i = 1, \dots, I}, μ) = {(\sum | X - μ |^{n})}^{1 / n}

$d_n((X)_{i=1,\ldots,I},\mu)=\left(\sum | X-\mu|^n\right)^{1/n}$

Kami biasanya menggunakan jarak euclidean alami ( ), yang digunakan semua orang dalam kehidupan sehari-hari. Jarak yang Anda usulkan adalah jarak dengan . Keduanya adalah kandidat yang baik tetapi mereka berbeda. $n=2$ $n=1$

Orang bisa memutuskan untuk menggunakan juga. $n=3$

Saya tidak yakin Anda akan menyukai jawaban saya, maksud saya bertentangan dengan orang lain adalah tidak menunjukkan bahwa lebih baik. Saya pikir jika Anda ingin memperkirakan standar deviasi suatu distribusi, Anda dapat menggunakan jarak yang berbeda. $n=2$

— RockScience
sumber

6

Itu tergantung pada apa yang Anda bicarakan ketika Anda mengatakan "penyebaran data". Bagi saya ini bisa berarti dua hal:

Lebar distribusi sampling
Keakuratan estimasi yang diberikan

Untuk poin 1) tidak ada alasan khusus untuk menggunakan standar deviasi sebagai ukuran penyebaran, kecuali ketika Anda memiliki distribusi sampling normal. Ukuran adalah ukuran yang lebih tepat untuk distribusi Laplace Sampling . Dugaan saya adalah bahwa standar deviasi digunakan di sini karena intuisi yang dibawa dari poin 2). Mungkin juga karena keberhasilan pemodelan kuadrat terkecil pada umumnya, yang standar deviasinya adalah ukuran yang tepat. Mungkin juga karena menghitung umumnya lebih mudah daripada menghitung $E(|X-\mu|)$ $E(X^2)$ untuk sebagian besar distribusi. $E(|X|)$

Sekarang, untuk poin 2) ada alasan yang sangat baik untuk menggunakan varians / standar deviasi sebagai ukuran penyebaran, dalam satu kasus tertentu, tetapi sangat umum. Anda dapat melihatnya di pendekatan Laplace ke posterior. Dengan Data dan informasi sebelumnya , tulis posterior untuk parameter sebagai: $D$ $I$ $\theta$

p (θ ∣ D I) = \frac{\exp (h (θ))}{\int \exp (h (t)) d t} h (θ) \equiv \log [p (θ ∣ I) p (D ∣ θ I)]

$p(\theta\mid DI)=\frac{\exp\left(h(\theta)\right)}{\int \exp\left(h(t)\right)\,dt}\;\;\;\;\;\;h(\theta)\equiv\log[p(\theta\mid I)p(D\mid\theta I)]$

$t$ $\theta$ $\theta_\max$

h (θ) \approx h (θ_{max}) + (θ_{max} - θ) h^{'} (θ_{max}) + \frac{1}{2} (θ_{max} - θ)^{2} h^{″} (θ_{max})

$h(\theta)\approx h(\theta_\max)+(\theta_\max-\theta)h'(\theta_\max)+\frac{1}{2}(\theta_\max-\theta)^{2}h''(\theta_\max)$

$\theta_\max$ $h'(\theta_\max)=0$

h (θ) \approx h (θ_{max}) + \frac{1}{2} (θ_{max} - θ)^{2} h^{″} (θ_{max})

$h(\theta)\approx h(\theta_\max)+\frac{1}{2}(\theta_\max-\theta)^{2}h''(\theta_\max)$

Jika kita mencolokkan perkiraan ini, kita dapat:

p (θ ∣ D I) \approx \frac{\exp (h (θ_{max}) + \frac{1}{2} (θ_{max} - θ)^{2} h^{″} (θ_{max}))}{\int \exp (h (θ_{max}) + \frac{1}{2} (θ_{max} - t)^{2} h^{″} (θ_{max})) d t}

$p(\theta\mid DI)\approx\frac{\exp\left(h(\theta_\max)+\frac{1}{2}(\theta_\max-\theta)^{2}h''(\theta_\max)\right)}{\int \exp\left(h(\theta_\max)+\frac{1}{2}(\theta_\max-t)^{2}h''(\theta_\max)\right)\,dt}$

= \frac{\exp (\frac{1}{2} (θ_{max} - θ)^{2} h^{″} (θ_{max}))}{\int \exp (\frac{1}{2} (θ_{max} - t)^{2} h^{″} (θ_{max})) d t}

$=\frac{\exp\left(\frac{1}{2}(\theta_\max-\theta)^{2}h''(\theta_\max)\right)}{\int \exp\left(\frac{1}{2}(\theta_\max-t)^{2}h''(\theta_\max)\right)\,dt}$

$E(\theta\mid DI)\approx\theta_\max$

V (θ ∣ D I) \approx {[- h^{″} (θ_{max})]}^{- 1}

$V(\theta\mid DI)\approx \left[-h''(\theta_\max)\right]^{-1}$

$-h''(\theta_\max)$ $\theta$ $h''(\theta)_{jk}=\frac{\partial h(\theta)}{\partial \theta_j \, \partial \theta_k}$

$p(\theta\mid I)=1$ $\theta$ $\theta_\max$

p (θ_{max} ∣ θ) \approx N (θ, {[- h^{″} (θ_{max})]}^{- 1})

$p(\theta_\max\mid\theta)\approx N\left(\theta,\left[-h''(\theta_\max)\right]^{-1}\right)$ (lihat apakah Anda bisa menebak paradigma mana yang saya sukai: P). Jadi, dalam estimasi parameter, standar deviasi adalah ukuran teoritis penting dari penyebaran.

— probabilityislogic
sumber

6

"Mengapa kuadratkan perbedaannya" alih-alih "mengambil nilai absolut"? Untuk menjawab dengan sangat tepat, ada literatur yang memberikan alasan itu diadopsi dan kasus mengapa sebagian besar alasan itu tidak berlaku. "Tidak bisakah kita mengambil nilai absolut ...?". Saya menyadari literatur di mana jawabannya adalah ya itu dilakukan dan melakukannya dianggap menguntungkan.

Penulis Gorard menyatakan, pertama, menggunakan kotak sebelumnya diadopsi untuk alasan kesederhanaan perhitungan tetapi alasan-alasan asli tidak lagi berlaku. Gorard menyatakan, kedua, bahwa OLS diadopsi karena Fisher menemukan bahwa hasil dalam sampel analisis yang menggunakan OLS memiliki penyimpangan yang lebih kecil daripada yang menggunakan perbedaan absolut (secara kasar dinyatakan). Dengan demikian, tampaknya OLS mungkin memiliki manfaat dalam beberapa kondisi ideal; Namun, Gorard melanjutkan untuk mencatat bahwa ada beberapa konsensus (dan dia mengklaim Fisher setuju) bahwa di bawah kondisi dunia nyata (pengukuran pengamatan yang tidak sempurna, distribusi tidak seragam, studi populasi tanpa kesimpulan dari sampel), menggunakan kotak lebih buruk daripada perbedaan absolut.

Gorard menanggapi pertanyaan Anda, "Tidak bisakah kita mengambil nilai absolut dari perbedaan dan mendapatkan nilai yang diharapkan (rata-rata) dari mereka?" adalah ya. Keuntungan lain adalah bahwa menggunakan perbedaan menghasilkan ukuran (ukuran kesalahan dan variasi) yang terkait dengan cara kita mengalami ide-ide itu dalam kehidupan. Gorard berkata bayangkan orang-orang yang membagi tagihan restoran secara merata dan beberapa orang mungkin secara intuitif memperhatikan bahwa metode itu tidak adil. Tidak ada yang akan memperbaiki kesalahan; perbedaan adalah intinya.

Akhirnya, dengan menggunakan perbedaan absolut, ia mencatat, memperlakukan setiap pengamatan secara sama, sedangkan sebaliknya mengkuadratkan perbedaan tersebut memberikan pengamatan yang diprediksi memiliki bobot lebih buruk daripada pengamatan yang diprediksi dengan baik, yang seperti memungkinkan pengamatan tertentu untuk dimasukkan dalam penelitian beberapa kali. Singkatnya, dorongan umumnya adalah bahwa saat ini tidak banyak alasan menang untuk menggunakan kotak dan bahwa sebaliknya menggunakan perbedaan absolut memiliki keuntungan.

Referensi:

Gorard, S. (2005). Meninjau kembali perdebatan 90 tahun: keuntungan dari penyimpangan rata-rata , British Journal of Educational Studies, 53 , 4, hal. 417-430.
Gorard, S. (2013). Kemungkinan keuntungan dari ukuran 'efek' deviasi absolut rata-rata , Social Research Update , 65: 1.

— Jen
sumber

1

Terima kasih @Jen, ini mengingatkan saya pada sejarah keyboard QWERTY. Hei, kenapa perlu waktu lama untuk mengetik QWERTY?

— toto_tico

5

Karena kuadrat dapat memungkinkan penggunaan banyak operasi atau fungsi matematika lainnya lebih mudah daripada nilai absolut.

Contoh: kuadrat dapat diintegrasikan, dibedakan, dapat digunakan dalam fungsi trigonometri, logaritmik dan lainnya, dengan mudah.

— pengguna369
sumber

2

Saya ingin tahu apakah ada kemewahan yang memenuhi diri sendiri di sini. Kami mendapatkan

— probabilityislogic

5

Saat menambahkan variabel acak, variansnya menambahkan, untuk semua distribusi. Varians (dan karenanya deviasi standar) adalah ukuran yang berguna untuk hampir semua distribusi, dan sama sekali tidak terbatas pada distribusi gaussian (alias "normal"). Itu nikmat menggunakannya sebagai ukuran kesalahan kami. Kurangnya keunikan adalah masalah serius dengan perbedaan absolut, karena sering ada jumlah tak terbatas dari "ukuran" yang sama, namun jelas "satu di tengah" paling disukai secara realistis. Juga, bahkan dengan komputer saat ini, efisiensi komputasi juga penting. Saya bekerja dengan set data yang besar, dan waktu CPU sangat penting. Namun, tidak ada ukuran absolut "terbaik" tunggal residu, seperti yang ditunjukkan oleh beberapa jawaban sebelumnya. Keadaan yang berbeda terkadang membutuhkan tindakan yang berbeda.

— Eric L. Michelsen
sumber

2

Saya tetap tidak yakin bahwa varian sangat berguna untuk distribusi asimetris.

— Frank Harrell

Bagaimana dengan sepasang "semi-varians", satu ke atas, satu ke bawah?

— kjetil b halvorsen

3

Secara alami Anda dapat mendeskripsikan dispersi distribusi dengan cara apa pun yang bermakna (deviasi absolut, kuantil, dll.).

Satu fakta yang menyenangkan adalah bahwa varians adalah momen sentral kedua, dan setiap distribusi secara unik dijelaskan oleh momen-momennya jika ada. Fakta bagus lainnya adalah bahwa varians jauh lebih mudah ditelusur secara matematis daripada metrik yang sebanding. Fakta lain adalah bahwa varians adalah salah satu dari dua parameter dari distribusi normal untuk parametrization biasa, dan distribusi normal hanya memiliki 2 momen pusat bukan nol yang merupakan dua parameter yang sangat. Bahkan untuk distribusi yang tidak normal dapat membantu untuk berpikir dalam kerangka kerja yang normal.

Seperti yang saya lihat, alasan standar deviasi ada seperti itu adalah bahwa dalam aplikasi akar kuadrat dari varians secara teratur muncul (seperti untuk menstandarisasi varian acak), yang mengharuskan nama untuk itu.

1

Jika saya ingat dengan benar, bukankah distribusi normal log tidak secara unik ditentukan oleh momennya.

— probabilityislogic

1

@probabilityislogic, memang, itu benar, lihat en.wikipedia.org/wiki/Log-normal_distribution di bagian "Fungsi Karakteristik dan Fungsi Menghasilkan Saat".

— kjetil b halvorsen

1

Pendekatan yang berbeda dan mungkin lebih intuitif adalah ketika Anda berpikir tentang regresi linier vs regresi median.

$\mathbb{E}(y|x) = x\beta$ $\beta = \arg \min_b \mathbb{E} (y - x b)^2$

$(y|x) = x\beta$ $\beta = \arg \min_b \mathbb{E} |y - x b|$

Dengan kata lain, apakah akan menggunakan kesalahan absolut atau kuadrat tergantung pada apakah Anda ingin memodelkan nilai yang diharapkan atau nilai median.

$y$ $x$ $y$

Koenker dan Hallock memiliki artikel bagus tentang regresi kuantil, di mana median regresi adalah kasus khusus: http://master272.com/finance/QR/QRJEP.pdf .

— Superpronker
sumber

0

Dugaan saya adalah ini: Kebanyakan populasi (distribusi) cenderung berkumpul di sekitar rata-rata. Semakin jauh nilainya dari mean, semakin langka nilainya. Untuk mengekspresikan secara memadai bagaimana "out of line" suatu nilai, perlu untuk memperhitungkan jarak dari mean dan (biasanya berbicara) tentang terjadinya. Mengkuadratkan perbedaan dari rata-rata melakukan ini, dibandingkan dengan nilai-nilai yang memiliki penyimpangan lebih kecil. Setelah semua varians dirata-rata, maka boleh saja untuk mengambil akar kuadrat, yang mengembalikan unit ke dimensi aslinya.

— Samuel Berry
sumber

2

Ini tidak menjelaskan mengapa Anda tidak bisa begitu saja mengambil absolut dari perbedaannya. Itu tampaknya secara konsep lebih sederhana untuk sebagian besar statistik 101 siswa, & itu akan "memperhitungkan jarak dari rata-rata dan (biasanya berbicara) kelangkaan kejadian".

— gung

Saya pikir nilai absolut dari perbedaan hanya akan mengekspresikan perbedaan dari rata-rata dan tidak akan memperhitungkan fakta bahwa perbedaan besar adalah dua kali lipat mengganggu distribusi normal.

— Samuel Berry

2

Mengapa "dua kali lipat gangguan" penting dan tidak, katakanlah, "tiga kali lipat gangguan" atau "empat kali lipat mengganggu"? Sepertinya jawaban ini hanya menggantikan pertanyaan awal dengan pertanyaan yang setara.

— whuber

0

Kuadrat memperkuat penyimpangan yang lebih besar.

Jika sampel Anda memiliki nilai yang berada di seluruh bagan, maka untuk membawa 68,2% dalam deviasi standar pertama, deviasi standar Anda harus sedikit lebih lebar. Jika data Anda cenderung semua jatuh di sekitar rata-rata maka σ bisa lebih ketat.

Ada yang bilang itu untuk menyederhanakan perhitungan. Menggunakan akar kuadrat positif dari bujur sangkar akan memecahkannya sehingga argumen itu tidak mengambang.

$|x| = \sqrt{x^{2}}$

Jadi jika kesederhanaan aljabar adalah tujuannya maka itu akan terlihat seperti ini:

$\sigma = \text{E}\left[\sqrt{(x-\mu)^{2}}\right]$ $\text{E}\left[|x-\mu|\right]$

Jelas mengkuadratkan ini juga memiliki efek memperkuat kesalahan outlying (doh!).

— Preston Thayne
sumber

Berdasarkan flag yang baru saja saya proses, saya curiga downvoter tidak sepenuhnya mengerti bagaimana jawaban ini menjawab pertanyaan. Saya yakin saya melihat hubungannya (tetapi Anda mungkin dapat mempertimbangkan untuk melakukan beberapa penyuntingan untuk membantu pembaca lain menghargai poin Anda dengan lebih baik). Namun, paragraf pertama Anda menganggap saya sebagai argumen melingkar: nilai 68,2% berasal dari properti deviasi standar, jadi bagaimana memohon angka itu membantu membenarkan menggunakan SD alih-alih beberapa lainnya

L^{p}

$L^p$

— whuber

Paragraf pertama adalah alasan downvote saya.

— Alexis

3

@ Preston Thayne: Karena standar deviasi bukan nilai yang diharapkan sqrt((x-mu)^2), rumus Anda menyesatkan. Selain itu, hanya karena kuadrat memiliki efek memperkuat penyimpangan yang lebih besar tidak berarti bahwa ini adalah alasan untuk lebih memilih varians daripada MAD . Jika ada, itu adalah properti netral karena seringkali kami menginginkan sesuatu yang lebih kuat seperti MAD . Terakhir, fakta bahwa varians lebih mudah ditelusur secara matematis daripada MAD adalah masalah yang jauh lebih dalam secara matematis maka Anda telah menyampaikan dalam posting ini.

— Steve S

0

Mengapa kuadrat perbedaan daripada mengambil nilai absolut dalam standar deviasi?

Kami menguadratkan perbedaan x dari mean karena jarak Euclidean, sebanding dengan akar kuadrat dari derajat kebebasan (jumlah x, dalam ukuran populasi), adalah ukuran terbaik dispersi.

Menghitung jarak

Berapa jarak dari titik 0 ke titik 5?

$5-0 = 5$ ,
$|0-5| = 5$ , dan
$\sqrt{5^2} = 5$

Ok, itu sepele karena itu satu dimensi.

Bagaimana dengan jarak untuk titik di titik 0, 0 ke titik 3, 4?

Jika kita hanya bisa pergi dalam 1 dimensi pada satu waktu (seperti di blok kota) maka kita hanya menambahkan angka. (Ini kadang-kadang dikenal sebagai jarak Manhattan).

Tetapi bagaimana dengan pergi dalam dua dimensi sekaligus? Kemudian (oleh teorema Pythagoras yang kita semua pelajari di sekolah menengah), kita kuadratkan jarak di setiap dimensi, jumlah kuadrat, dan kemudian ambil akar kuadrat untuk menemukan jarak dari titik asal ke titik.

\sqrt{3^{2} + 4^{2}} = \sqrt{25} = 5

$\sqrt{3^2 + 4^2} = \sqrt{25} = 5$

Bagaimana jarak dari titik di 0, 0, 0 ke titik 1, 2, 2?

Ini hanya

\sqrt{1^{2} + 2^{2} + 2^{2}} = \sqrt{9} = 3

$\sqrt{1^2+2^2 + 2^2} = \sqrt9 = 3$

karena jarak untuk dua x pertama membentuk kaki untuk menghitung total jarak dengan x akhir.

\sqrt{{\sqrt{x_{1}^{2} + x_{2}^{2}}}^{2} + x_{3}^{2}} = \sqrt{x_{1}^{2} + x_{2}^{2} + x_{3}^{2}}

$\sqrt{\sqrt{x_1^2 + x_2^2}^2 + x_3^2} = \sqrt{x_1^2 + x_2^2 + x_3^2}$

Kita dapat terus memperluas aturan mengkuadratkan jarak masing-masing dimensi, ini menggeneralisasi apa yang kita sebut sebagai jarak Euclidean, untuk pengukuran ortogonal dalam ruang hyperdimensional, seperti:

d saya s t Sebuah n c e = \sqrt{\sum_{saya = 1}^{n} x_{saya}^{2}}

$distance = \sqrt{ \sum_{i=1}^n{x_i^2} }$

dan jumlah kuadrat ortogonal adalah jarak kuadrat:

d saya s t Sebuah n c e^{2} = \sum_{saya = 1}^{n} x_{saya}^{2}

$distance^2 = \sum_{i=1}^n{x_i^2}$

Apa yang membuat pengukuran orthogonal (atau pada sudut kanan) dari yang lain? Syaratnya adalah bahwa tidak ada hubungan antara dua pengukuran. Kami akan mencari pengukuran ini menjadi independen dan didistribusikan secara individual , ( iid ).

Perbedaan

Sekarang ingat rumus untuk varians populasi (dari mana kita akan mendapatkan standar deviasi):

σ^{2} = \frac{\sum_{saya = 1}^{n} (x_{saya} - μ)^{2}}{n}

$\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}$

Jika kami telah memusatkan data pada 0 dengan mengurangi rata-rata, kami memiliki:

σ^{2} = \frac{\sum_{saya = 1}^{n} (x_{saya})^{2}}{n}

$\sigma^2 = \frac{\displaystyle\sum_{i=1}^{n}(x_i)^2} {n}$

Jadi kita melihat varians hanya jarak kuadrat dibagi dengan jumlah derajat kebebasan (jumlah dimensi di mana variabel bebas bervariasi). Ini juga merupakan kontribusi rata-rata untuk $distance^2$ per pengukuran. "Mean squared variance" juga akan menjadi istilah yang tepat.

Standar deviasi

Kemudian kita memiliki standar deviasi, yang hanya merupakan akar kuadrat dari varians:

σ = \sqrt{\frac{\sum_{saya = 1}^{n} (x_{saya} - μ)^{2}}{n}}

$\sigma = \sqrt{\frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}}$

Yang setara, jarak , dibagi dengan akar kuadrat dari derajat kebebasan:

σ = \frac{\sqrt{\sum_{saya = 1}^{n} (x_{saya})^{2}}}{\sqrt{n}}

$\sigma = \frac{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i)^2}} {\sqrt{n}}$

Berarti Penyimpangan Absolut

Mean Absolute Deviation (MAD), adalah ukuran dispersi yang menggunakan jarak Manhattan, atau jumlah nilai absolut dari perbedaan dari rata-rata.

M. SEBUAH D = \frac{\sum_{saya = 1}^{n} | x_{saya} - μ |}{n}

$MAD = \frac{\displaystyle\sum_{i=1}^{n}|x_i - \mu|} {n}$

Sekali lagi, dengan asumsi data terpusat (berarti dikurangi) kita memiliki jarak Manhattan dibagi dengan jumlah pengukuran:

M. SEBUAH D = \frac{\sum_{saya = 1}^{n} | x_{saya} |}{n}

$MAD = \frac{\displaystyle\sum_{i=1}^{n}|x_i|} {n}$

Diskusi

Penyimpangan absolut rata-rata adalah sekitar 0,8 kali ( sebenarnya $\sqrt{2/\pi}$ ) ukuran deviasi standar untuk dataset yang terdistribusi normal.
Terlepas dari distribusi, deviasi absolut rata-rata kurang dari atau sama dengan deviasi standar. MAD mengecilkan dispersi set data dengan nilai ekstrim, relatif terhadap standar deviasi.
Mean Absolute Deviation lebih kuat untuk outlier (yaitu outlier tidak memiliki pengaruh yang sama besar pada statistik seperti pada deviasi standar.
Secara geometris, jika pengukuran tidak ortogonal satu sama lain (iid) - misalnya, jika mereka berkorelasi positif, berarti deviasi absolut akan menjadi statistik deskriptif yang lebih baik daripada deviasi standar, yang bergantung pada jarak Euclidean (walaupun ini biasanya dianggap baik-baik saja) ).

Tabel ini mencerminkan informasi di atas dengan cara yang lebih ringkas:

\begin{array}{lll} M. SEBUAH D & σ \\ s saya z e & \leq σ & \geq M. SEBUAH D \\ s saya z e, \sim N & .8 \times σ & 1.25 \times M. SEBUAH D \\ Hai kamu t l saya e r s & r Hai b kamu s t & saya n f l kamu e n c e d \\ n Hai t saya . saya . d . & r Hai b kamu s t & Hai k \end{array}

$\begin{array}{lll} & MAD & \sigma \\ \hline size & \le \sigma & \ge MAD \\ size, \sim N & .8 \times \sigma & 1.25 \times MAD \\ outliers & robust & influenced \\ not\ i.i.d. & robust & ok \end{array}$

Komentar:

Apakah Anda memiliki referensi untuk "berarti deviasi absolut sekitar 0,8 kali ukuran standar deviasi untuk dataset yang terdistribusi normal"? Simulasi yang saya jalankan menunjukkan ini salah.

Berikut 10 simulasi satu juta sampel dari distribusi normal standar:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Kesimpulan

Kami lebih suka perbedaan kuadrat ketika menghitung ukuran dispersi karena kami dapat mengeksploitasi jarak Euclidean, yang memberi kami statistik diskriptif yang lebih baik dari dispersi. Ketika ada nilai-nilai yang relatif lebih ekstrim, jarak Euclidean menjelaskan hal itu dalam statistik, sedangkan jarak Manhattan memberikan masing-masing bobot pengukuran yang sama.

— Aaron Hall
sumber