Belajar varians itu sulit.
Dibutuhkan (mungkin secara mengejutkan) sejumlah besar sampel untuk memperkirakan varians dengan baik dalam banyak kasus. Di bawah ini, saya akan menunjukkan pengembangan untuk kasus "kanonik" dari sampel normal iid.
Misalkan , i = 1 , … , n adalah variabel bebas N ( μ , σ 2 ) . Kami mencari 100 ( 1 - α ) % interval kepercayaan untuk varians sehingga lebar interval adalah ρ s 2 , yaitu, lebar adalah 100 ρ % dari estimasi titik. Sebagai contoh, jika ρ = 1 / 2Yii=1,…,nN(μ,σ2)100(1−α)%ρs2100ρ%ρ=1/2 , maka lebar dari CI adalah setengah nilai estimasi titik, misalnya, jika , maka CI akan menjadi seperti ( 8 ,s2=10 , memiliki lebar 5. Perhatikan asimetri di sekitar estimasi titik, juga. ( s 2(8,13)s2 adalah penaksir tidak bias untuk varians.)
Interval kepercayaan "(lebih tepatnya," a ") untuk adalah
( n - 1 ) s 2s2
dimana χ
(n−1)s2χ2(1−α/2)(n−1)≤σ2≤(n−1)s2χ2(α/2)(n−1),
adalah
βquantile dari distribusi chi-square dengan
n-1derajat kebebasan. (Ini muncul dari fakta bahwa
(n-1)s2/σ2χ2β(n−1)βn−1(n−1)s2/σ2 adalah kuantitas yang sangat penting dalam pengaturan Gaussian.)
Kami ingin meminimalkan lebar sehingga
jadi kita dibiarkan menyelesaikan untuk n sehingga
( n - 1 ) ( 1
L(n)=(n−1)s2χ2(α/2)(n−1)−(n−1)s2χ2(1−α/2)(n−1)<ρs2,
n(n−1)⎛⎝⎜1χ2(α/2)(n−1)−1χ2(1−α/2)(n−1)⎞⎠⎟<ρ.
Untuk kasus interval kepercayaan 99%, kita mendapatkan untuk ρ = 1 dan n = 5321 untuk ρ = 0,1 . Kasus terakhir ini menghasilkan interval yang ( masih! ) 10% lebih besar dari estimasi titik varians.n=65ρ=1n=5321ρ=0.1
Jika tingkat kepercayaan yang Anda pilih kurang dari 99%, maka interval lebar yang sama akan diperoleh untuk nilai lebih rendah . Tapi, n mungkin masih lebih besar dari yang Anda duga.nn
Plot ukuran sampel versus lebar proporsional ρ menunjukkan sesuatu yang terlihat linier asimtotik pada skala log-log; dengan kata lain, hubungan seperti hukum kekuasaan. Kita dapat memperkirakan kekuatan hubungan kuasa-hukum ini (secara kasar) sebagainρ
α^≈log0.1−log1log5321−log65=−log10log523165≈−0.525,
yang sayangnya sangat lambat!
Ini adalah semacam "kanonik" kasus untuk memberi Anda merasakan bagaimana cara menghitung. Berdasarkan plot Anda, data Anda tidak terlihat sangat normal; khususnya, ada apa yang tampak sebagai kemiringan yang nyata.
Tapi, ini harus memberi Anda gambaran kasar tentang apa yang diharapkan. Perhatikan bahwa untuk menjawab pertanyaan kedua di atas, Anda perlu memperbaiki beberapa tingkat kepercayaan terlebih dahulu, yang telah saya tetapkan untuk 99% dalam pengembangan di atas untuk tujuan demonstrasi.