Hari ini saya mengajar kelas pengantar statistik dan seorang siswa mendatangi saya dengan sebuah pertanyaan, yang saya ulangi di sini sebagai: "Mengapa standar deviasi didefinisikan sebagai sqrt of variance dan bukan sebagai sqrt dari jumlah kuadrat atas N?"
Kami mendefinisikan varians populasi:
Dan standar deviasi: .
Interpretasi kami dapat memberikan ke adalah memberikan deviasi rata-rata unit dalam populasi dari mean populasi .
Namun, dalam definisi sd kita membagi sqrt dari jumlah kuadrat melalui . Pertanyaan yang diajukan siswa adalah mengapa kita tidak membagi squme dari sume of squares dengan sebagai gantinya. Jadi kita sampai pada formula yang bersaing:Siswa berpendapat bahwa rumus ini lebih mirip deviasi "rata-rata" dari rata-rata daripada ketika membagi melalui seperti dalam .
Saya pikir pertanyaan ini tidak bodoh. Saya ingin memberikan jawaban kepada siswa yang lebih jauh daripada mengatakan bahwa sd didefinisikan sebagai sqrt dari varians yang merupakan deviaton kuadrat rata-rata. Dengan kata lain, mengapa siswa harus menggunakan formula yang benar dan tidak mengikuti idenya?
Pertanyaan ini berkaitan dengan utas yang lebih lama dan jawaban yang diberikan di sini . Jawaban ada tiga arah:
- adalah deviasi root-mean-squared (RMS), bukan deviasi "khas" dari mean (yaitu, ). Dengan demikian, didefinisikan secara berbeda.
- Ini memiliki sifat matematika yang bagus.
- Selanjutnya, sqrt akan mengembalikan "unit" ke skala aslinya. Namun, ini juga akan menjadi kasus untuk , yang membaginya dengan N sebagai gantinya.
Kedua poin 1 dan 2 adalah argumen yang mendukung sd sebagai RMS, tapi saya tidak melihat argumen yang menentang penggunaan . Apa argumen yang baik untuk meyakinkan siswa tingkat pengantar tentang penggunaan jarak RMS rata-rata σ dari mean?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Mungkinkah apa yang ada di dalam kurung entah bagaimana hilang dalam pertanyaan?