Mengapa kuadrat perbedaan daripada mengambil nilai absolut dalam standar deviasi?
Kami menguadratkan perbedaan x dari mean karena jarak Euclidean, sebanding dengan akar kuadrat dari derajat kebebasan (jumlah x, dalam ukuran populasi), adalah ukuran terbaik dispersi.
Menghitung jarak
Berapa jarak dari titik 0 ke titik 5?
- 5 - 0 = 5,
- | 0-5 | =5, dan
- 52--√= 5
Ok, itu sepele karena itu satu dimensi.
Bagaimana dengan jarak untuk titik di titik 0, 0 ke titik 3, 4?
Jika kita hanya bisa pergi dalam 1 dimensi pada satu waktu (seperti di blok kota) maka kita hanya menambahkan angka. (Ini kadang-kadang dikenal sebagai jarak Manhattan).
Tetapi bagaimana dengan pergi dalam dua dimensi sekaligus? Kemudian (oleh teorema Pythagoras yang kita semua pelajari di sekolah menengah), kita kuadratkan jarak di setiap dimensi, jumlah kuadrat, dan kemudian ambil akar kuadrat untuk menemukan jarak dari titik asal ke titik.
32+ 42------√= 25--√= 5
Bagaimana jarak dari titik di 0, 0, 0 ke titik 1, 2, 2?
Ini hanya
12+ 22+ 22----------√= 9-√= 3
karena jarak untuk dua x pertama membentuk kaki untuk menghitung total jarak dengan x akhir.
x21+ x22------√2+ x23-------------√= x21+ x22+ x23----------√
Kita dapat terus memperluas aturan mengkuadratkan jarak masing-masing dimensi, ini menggeneralisasi apa yang kita sebut sebagai jarak Euclidean, untuk pengukuran ortogonal dalam ruang hyperdimensional, seperti:
di s t a n c e = Σi = 1nx2saya-----√
dan jumlah kuadrat ortogonal adalah jarak kuadrat:
di s t a n c e2= ∑i = 1nx2saya
Apa yang membuat pengukuran orthogonal (atau pada sudut kanan) dari yang lain? Syaratnya adalah bahwa tidak ada hubungan antara dua pengukuran. Kami akan mencari pengukuran ini menjadi independen dan didistribusikan secara individual , ( iid ).
Perbedaan
Sekarang ingat rumus untuk varians populasi (dari mana kita akan mendapatkan standar deviasi):
σ2= ∑i = 1n( xsaya- μ )2n
Jika kami telah memusatkan data pada 0 dengan mengurangi rata-rata, kami memiliki:
σ2= ∑i = 1n( xsaya)2n
Jadi kita melihat varians hanya jarak kuadrat dibagi dengan jumlah derajat kebebasan (jumlah dimensi di mana variabel bebas bervariasi). Ini juga merupakan kontribusi rata-rata untukdi s t a n c e2per pengukuran. "Mean squared variance" juga akan menjadi istilah yang tepat.
Standar deviasi
Kemudian kita memiliki standar deviasi, yang hanya merupakan akar kuadrat dari varians:
σ= ∑i = 1n( xsaya- μ )2n-----------⎷
Yang setara, jarak , dibagi dengan akar kuadrat dari derajat kebebasan:
σ= ∑i = 1n( xsaya)2-------√n--√
Berarti Penyimpangan Absolut
Mean Absolute Deviation (MAD), adalah ukuran dispersi yang menggunakan jarak Manhattan, atau jumlah nilai absolut dari perbedaan dari rata-rata.
M.A D = ¢i = 1n| xsaya- μ |n
Sekali lagi, dengan asumsi data terpusat (berarti dikurangi) kita memiliki jarak Manhattan dibagi dengan jumlah pengukuran:
M.A D = ¢i = 1n| xsaya|n
Diskusi
- Penyimpangan absolut rata-rata adalah sekitar 0,8 kali ( sebenarnya2 / π---√) ukuran deviasi standar untuk dataset yang terdistribusi normal.
- Terlepas dari distribusi, deviasi absolut rata-rata kurang dari atau sama dengan deviasi standar. MAD mengecilkan dispersi set data dengan nilai ekstrim, relatif terhadap standar deviasi.
- Mean Absolute Deviation lebih kuat untuk outlier (yaitu outlier tidak memiliki pengaruh yang sama besar pada statistik seperti pada deviasi standar.
- Secara geometris, jika pengukuran tidak ortogonal satu sama lain (iid) - misalnya, jika mereka berkorelasi positif, berarti deviasi absolut akan menjadi statistik deskriptif yang lebih baik daripada deviasi standar, yang bergantung pada jarak Euclidean (walaupun ini biasanya dianggap baik-baik saja) ).
Tabel ini mencerminkan informasi di atas dengan cara yang lebih ringkas:
s i zes i ze , ∼ No u t l i e r sn o t i . i . d .M.A D≤ σ.8 × σr o b u s tr o b u s tσ≥ MA D1,25 × MA Di n fl u e n c e do k
Komentar:
Apakah Anda memiliki referensi untuk "berarti deviasi absolut sekitar 0,8 kali ukuran standar deviasi untuk dataset yang terdistribusi normal"? Simulasi yang saya jalankan menunjukkan ini salah.
Berikut 10 simulasi satu juta sampel dari distribusi normal standar:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Kesimpulan
Kami lebih suka perbedaan kuadrat ketika menghitung ukuran dispersi karena kami dapat mengeksploitasi jarak Euclidean, yang memberi kami statistik diskriptif yang lebih baik dari dispersi. Ketika ada nilai-nilai yang relatif lebih ekstrim, jarak Euclidean menjelaskan hal itu dalam statistik, sedangkan jarak Manhattan memberikan masing-masing bobot pengukuran yang sama.