Alasan yang paling jelas adalah bahwa seringkali tidak ada urutan waktu dalam nilai. Jadi, jika Anda mengacaukan data, tidak ada perbedaan dalam informasi yang disampaikan oleh data. Jika kami mengikuti metode Anda, maka setiap kali Anda mencampuradukkan data, Anda mendapatkan varians sampel yang berbeda.
Jawaban yang lebih teoretis adalah bahwa varians sampel memperkirakan varians sebenarnya dari variabel acak. Varians sebenarnya dari variabel acak adalah
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Di sini mewakili ekspektasi atau "nilai rata-rata". Jadi definisi varians adalah jarak kuadrat rata-rata antara variabel dari nilai rata-rata. Ketika Anda melihat definisi ini, tidak ada "urutan waktu" di sini karena tidak ada data. Ini hanyalah atribut dari variabel acak.E
Ketika Anda mengumpulkan data id dari distribusi ini, Anda memiliki realisasi . Cara terbaik untuk memperkirakan ekspektasi adalah dengan mengambil rata-rata sampel. Kuncinya di sini adalah bahwa kita mendapatkan data id, dan dengan demikian tidak ada pemesanan ke data. Sampel x 1 , x 2 , ... , x n sama dengan sampel x 2 , x 5 , x 1 , x n . .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
EDIT
Varians sampel mengukur jenis dispersi tertentu untuk sampel, yang mengukur jarak rata-rata dari rata-rata. Ada jenis dispersi lain seperti rentang data, dan rentang Inter-Kuantil.
Bahkan jika Anda mengurutkan nilai-nilai Anda dalam urutan menaik, itu tidak mengubah karakteristik sampel. Sampel (data) yang Anda dapatkan adalah realisasi dari suatu variabel. Menghitung varians sampel mirip dengan memahami berapa banyak dispersi dalam variabel. Jadi misalnya, jika Anda mengambil sampel 20 orang, dan menghitung tinggi badan mereka, maka itu adalah 20 "realisasi" dari variabel acak tinggi orang. Sekarang varians sampel seharusnya mengukur variabilitas dalam ketinggian individu secara umum. Jika Anda memesan data
100 , 110 , 123 , 124 , ... ,X=
100,110,123,124,…,
itu tidak mengubah informasi dalam sampel.
Mari kita lihat satu contoh lagi. katakanlah Anda memiliki 100 observasi dari variabel acak memerintahkan cara ini Kemudian jarak rata-rata berikutnya adalah 1 unit, jadi dengan metode Anda varians akan 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
Cara untuk menafsirkan "varians" atau "dispersi" adalah memahami kisaran nilai apa yang mungkin untuk data. Dalam hal ini Anda akan mendapatkan kisaran 0,99 unit, yang tentu saja tidak mewakili variasi dengan baik.
Jika alih-alih mengambil rata-rata Anda hanya menjumlahkan perbedaan berikutnya, maka varians Anda akan menjadi 99. Tentu saja itu tidak mewakili variabilitas dalam sampel, karena 99 memberi Anda rentang data, bukan rasa variabilitas.