Intuisi saya adalah bahwa standar deviasi adalah: ukuran penyebaran data.
Anda memiliki poin yang baik apakah itu lebar, atau ketat tergantung pada apa yang mendasari asumsi kami adalah untuk distribusi data.
Peringatan: Ukuran penyebaran sangat membantu ketika distribusi data Anda simetris di sekitar rata-rata dan memiliki varians yang relatif dekat dengan distribusi Normal. (Ini berarti kira-kira Normal.)
Dalam kasus di mana data mendekati Normal, deviasi standar memiliki interpretasi kanonik:
- Wilayah: Sampel rata-rata +/- 1 standar deviasi, berisi sekitar 68% dari data
- Wilayah: Sampel rata-rata +/- 2 standar deviasi, berisi sekitar 95% dari data
- Wilayah: Sampel rata-rata +/- 3 standar deviasi, berisi sekitar 99% dari data
(lihat grafik pertama di Wiki )
Ini berarti bahwa jika kita tahu rata-rata populasi adalah 5 dan standar deviasi adalah 2,83 dan kami berasumsi distribusinya mendekati Normal, saya akan memberi tahu Anda bahwa saya cukup yakin bahwa jika kita melakukan banyak pengamatan, hanya 5% yang akan lebih kecil dari 0,4 = 5 - 2 * 2,3 atau lebih besar dari 9,6 = 5 + 2 * 2.3.
Perhatikan apa dampak deviasi standar terhadap interval kepercayaan kita? (Semakin banyak spread, semakin banyak ketidakpastian)
Lebih jauh lagi, dalam kasus umum di mana data bahkan tidak mendekati normal, tetapi masih simetris, Anda tahu bahwa ada beberapa yang:α
- Wilayah: Contoh rata-rata +/- deviasi standar , mengandung kira-kira 95% dari dataα
Anda dapat mempelajari dari sub-sampel, atau mengasumsikan dan ini memberi Anda aturan praktis yang baik untuk menghitung di kepala Anda apa pengamatan yang akan datang, atau pengamatan baru mana yang dapat dianggap sebagai pencilan. (Ingatlah peringatannya!)α = 2αα=2
Saya tidak mengerti bagaimana Anda seharusnya menafsirkannya. Apakah 2,83 berarti nilai-nilai tersebar sangat luas atau mereka semua berkerumun di sekitar rata-rata ...
Saya kira setiap pertanyaan yang menanyakan "lebar atau ketat", juga harus mengandung: "dalam kaitannya dengan apa?". Salah satu saran mungkin menggunakan distribusi yang terkenal sebagai referensi. Bergantung pada konteksnya, mungkin berguna untuk memikirkan: "Apakah jauh lebih lebar, atau lebih rapat daripada Normal / Poisson?".
EDIT: Berdasarkan petunjuk yang berguna dalam komentar, satu lagi aspek tentang standar deviasi sebagai pengukur jarak.
Namun intuisi lain tentang kegunaan dari standar deviasi adalah bahwa itu adalah ukuran jarak antara data sampel dan rerata :x 1 , … , x N ˉ xsNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
Sebagai perbandingan, mean squared error (MSE), salah satu ukuran kesalahan paling populer dalam statistik, didefinisikan sebagai:
MSE=1n∑ni=1(Yi^−Yi)2
Pertanyaan yang bisa diajukan mengapa fungsi jarak di atas? Mengapa kuadrat jarak, dan bukan jarak absolut misalnya? Dan mengapa kita mengambil akar kuadrat?
Memiliki jarak kuadratik, atau kesalahan, fungsi memiliki keuntungan yang bisa kita bedakan dan mudah meminimalkannya. Sejauh menyangkut akar kuadrat, ia menambah interpretabilitas karena mengubah kesalahan kembali ke skala data yang kami amati.