Apa itu standar deviasi, bagaimana cara menghitungnya dan apa gunanya dalam statistik?
Apa itu standar deviasi, bagaimana cara menghitungnya dan apa gunanya dalam statistik?
Jawaban:
Simpangan baku adalah angka yang mewakili "sebaran" atau "dispersi" dari sekumpulan data. Ada langkah-langkah lain untuk menyebar, seperti rentang dan varian.
Berikut adalah beberapa contoh kumpulan data, dan standar deviasinya:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Set data di atas memiliki rata-rata yang sama.
Deviasi berarti "jarak dari rata-rata".
"Standar" di sini berarti "standar", yang berarti standar deviasi dan rata-rata berada dalam unit yang sama, tidak seperti varians.
Misalnya, jika tinggi rata-rata adalah 2 meter , standar deviasi mungkin 0,3 meter , sedangkan variansnya adalah 0,09 meter persegi .
Sangat mudah untuk mengetahui bahwa setidaknya 75% dari titik data selalu berada dalam 2 standar deviasi dari rata-rata (atau sekitar 95% jika distribusinya adalah Normal).
Misalnya, jika rata-rata adalah 100, dan standar deviasi adalah 15, maka setidaknya 75% dari nilai adalah antara 70 dan 130.
Jika distribusi normal, maka 95% dari nilai adalah antara 70 dan 130.
Secara umum, nilai tes IQ terdistribusi normal dan memiliki rata-rata 100. Seseorang yang "sangat cerah" adalah dua standar deviasi di atas rata-rata, yang berarti skor tes IQ 130.
Kutipan dari Wikipedia .
Ini menunjukkan berapa banyak variasi yang ada dari "rata-rata" (rata-rata, atau nilai yang diharapkan / dianggarkan). Deviasi standar yang rendah menunjukkan bahwa titik data cenderung sangat dekat dengan rata-rata, sedangkan deviasi standar yang tinggi menunjukkan bahwa data tersebar di berbagai nilai.
Saat menggambarkan variabel, kami biasanya merangkumnya menggunakan dua ukuran: ukuran pusat dan ukuran penyebaran. Ukuran-ukuran umum dari pusat meliputi rata-rata, median dan mode. Ukuran spread yang umum termasuk varians dan rentang interkuartil.
Varians (diwakili oleh sigma huruf kecil Yunani naik ke kekuatan dua) umumnya digunakan ketika rata-rata dilaporkan. Varians adalah rata-rata deviasi kuadrat dari variabel. Penyimpangan dihitung dengan mengurangi rata-rata dari setiap pengamatan. Ini kuadrat karena penjumlahannya akan menjadi nol dan kuadrat menghilangkan masalah ini sambil mempertahankan ukuran relatif dari penyimpangan. Masalah dengan menggunakan variasi sebagai ukuran penyebaran adalah bahwa itu dalam satuan kuadrat. Misalnya jika variabel yang kami minati adalah tinggi diukur dalam inci maka varians akan dilaporkan dalam kuadrat-inci yang tidak masuk akal. Deviasi standar (diwakili oleh sigma huruf kecil Yunani) adalah akar kuadrat dari varian dan mengembalikan ukuran penyebaran ke unit asli.
Ketika menggunakan deviasi standar, kita harus berhati-hati terhadap outlier karena mereka akan condongkan deviasi standar (dan rata-rata) karena mereka bukan ukuran penyebaran yang tahan. Contoh sederhana akan menggambarkan properti ini. Rata-rata skor pukulan kriket mengerikan saya dari 13, 14, 16, 23, 26, 28, 33, 39, dan 61 adalah 28,11. Jika kami menganggap 61 sebagai pencilan dan menghapusnya, nilai tengahnya adalah 24.
Inilah cara saya akan menjawab pertanyaan ini menggunakan diagram.
Katakanlah kita menimbang 30 kucing dan menghitung berat rata-rata. Kemudian kami menghasilkan sebaran plot, dengan bobot pada sumbu y dan identitas kucing pada sumbu x. Berat rata-rata dapat ditarik sebagai garis horizontal. Kita kemudian dapat menggambar dalam garis vertikal yang menghubungkan setiap titik data ke garis rata-rata - ini adalah penyimpangan dari setiap titik data dari rata-rata, dan kami menyebutnya residual. Sekarang, residu ini dapat berguna karena mereka dapat memberi tahu kita sesuatu tentang penyebaran data: jika ada banyak residu besar, maka massa kucing sangat bervariasi. Sebaliknya, jika residu utamanya kecil, maka kucing dikelompokkan cukup dekat di sekitar berat rata-rata. Jadi jika kita dapat memiliki beberapa metrik yang memberi tahu kita rata - ratapanjang sisa dalam kumpulan data ini, ini akan menjadi cara yang berguna untuk menunjukkan berapa banyak penyebaran yang ada dalam data. Deviasi standar adalah, secara efektif, panjang residu rata-rata.
Saya akan melanjutkan dari ini dengan memberikan perhitungan untuk sd, menjelaskan mengapa kita kuadrat dan kemudian kuadrat akar (saya suka penjelasan singkat dan manis Vaibhav). Lalu saya akan menyebutkan masalah outlier, seperti yang dilakukan Graham dalam paragraf terakhirnya.
Jika informasi yang diperlukan adalah distribusi data tentang rata-rata, standar deviasi berguna.
Jumlah perbedaan dari setiap nilai dari rata-rata adalah nol (jelas, karena nilai tersebar secara merata di sekitar rata-rata), maka kami mengkuadratkan setiap perbedaan untuk mengubah nilai negatif menjadi positif, menjumlahkannya di seluruh populasi, dan mengambilnya akar pangkat dua. Nilai ini kemudian dibagi dengan jumlah sampel (atau, ukuran populasi). Ini memberikan standar deviasi.
Deviasi standar adalah akar kuadrat dari momen sentral kedua dari suatu distribusi. Momen sentral adalah perbedaan yang diharapkan dari nilai distribusi yang diharapkan. Momen sentral pertama biasanya 0, jadi kami mendefinisikan momen sentral kedua sebagai nilai yang diharapkan dari jarak kuadrat dari variabel acak dari nilai yang diharapkan.
Untuk menempatkannya pada skala yang lebih sesuai dengan pengamatan asli, kita mengambil akar kuadrat dari momen sentral kedua itu dan menyebutnya deviasi standar.
Simpangan baku adalah properti suatu populasi. Ini mengukur seberapa banyak "dispersi" rata-rata yang ada pada populasi itu. Apakah semua terobsesi berkerumun di sekitar rata-rata, atau tersebar luas?
Untuk memperkirakan standar deviasi suatu populasi, kita sering menghitung standar deviasi "sampel" dari populasi itu. Untuk melakukan ini, Anda mengambil pengamatan dari populasi itu, menghitung rata-rata dari pengamatan itu, dan kemudian menghitung akar kuadrat dari rata-rata penyimpangan kuadrat dari "mean sampel" itu.
Untuk mendapatkan penaksir yang tidak bias dari varians, Anda tidak benar-benar menghitung deviasi kuadrat rata-rata dari mean sampel, tetapi sebaliknya, Anda membaginya dengan (N-1) dengan N adalah jumlah pengamatan dalam sampel Anda. Perhatikan bahwa "standar deviasi sampel" ini bukan penaksir yang tidak bias dari standar deviasi, tetapi kuadrat dari "standar deviasi sampel" adalah penaksir yang tidak bias dari varian populasi.
Cara terbaik yang saya mengerti deviasi standar adalah memikirkan seorang penata rambut! (Anda perlu mengumpulkan data dari penata rambut dan meningkatkan kecepatan memotong rambutnya agar contoh ini berhasil.)
Diperlukan rata-rata 30 menit bagi penata rambut untuk memotong rambut orang.
Misalkan Anda melakukan perhitungan (sebagian besar paket perangkat lunak akan melakukan ini untuk Anda) dan Anda menemukan bahwa standar deviasi adalah 5 menit. Artinya adalah sebagai berikut:
Bagaimana saya tahu ini? Anda perlu melihat kurva normal, di mana 68% jatuh dalam 1 standar deviasi dan 96% berada dalam 2 standar deviasi dari rata-rata (dalam hal ini 30 menit). Jadi, Anda menambah atau mengurangi standar deviasi dari mean.
Jika konsistensi diinginkan, seperti dalam kasus ini, maka semakin kecil standar deviasi, semakin baik. Dalam hal ini, penata rambut menghabiskan waktu maksimum sekitar 40 menit dengan klien mana pun. Anda perlu memotong rambut dengan cepat untuk menjalankan salon yang sukses!