Di kelas saya, saya menggunakan satu situasi "sederhana" yang mungkin dapat membantu Anda bertanya-tanya dan mungkin mengembangkan firasat untuk apa derajat kebebasan mungkin berarti.
Ini semacam pendekatan "Forrest Gump" pada subjek, tetapi patut dicoba.
Pertimbangkan Anda memiliki 10 pengamatan independen yang datang langsung dari populasi normal yang rata-rata μ dan variansX1,X2,…,X10∼N(μ,σ2)μ tidak diketahui.σ2
Pengamatan Anda membawa kepada Anda secara kolektif informasi baik tentang dan σ 2 . Setelah semua, pengamatan Anda cenderung tersebar di sekitar satu nilai pusat, yang seharusnya dekat dengan nilai aktual dan tidak diketahui μ dan, juga, jika μ sangat tinggi atau sangat rendah, maka Anda dapat berharap untuk melihat pengamatan Anda berkumpul di sekitar nilai yang sangat tinggi atau sangat rendah. Satu "pengganti" yang baik untuk μ (tanpa adanya pengetahuan tentang nilai aktualnya) adalah ˉ X , rata-rata pengamatan Anda. μσ2μμμX¯
Juga, jika pengamatan Anda sangat dekat satu sama lain, itu adalah indikasi bahwa Anda dapat berharap bahwa harus kecil dan, juga, jika σ 2 sangat besar, maka Anda dapat berharap untuk melihat nilai yang sangat berbeda untuk X 1 hingga X 10 . σ2σ2X1X10
Jika Anda bertaruh upah minggu Anda yang merupakan nilai aktual dan σ 2 , Anda harus memilih sepasang nilai di mana Anda akan bertaruh dengan uang Anda. Mari kita tidak memikirkan sesuatu yang dramatis seperti kehilangan gaji Anda kecuali Anda menebak μ dengan benar sampai posisi desimal ke-200. Nggak. Mari kita pikirkan semacam sistem pemberian hadiah yang semakin dekat Anda menebak μ danμσ2μμσ2 hadiah semakin Anda mendapatkan imbalan.
Dalam hal tertentu, lebih baik, lebih banyak informasi, dan menebak lebih sopan untuk nilai 's bisa ˉ X . Dalam hal ini, Anda memperkirakan bahwa μ harus ada beberapa nilai sekitar ˉ X . Demikian pula, satu "pengganti" yang baik untuk σ 2 (tidak diperlukan untuk saat ini) adalah S 2 , varians sampel Anda, yang membuat perkiraan yang baik untuk σμX¯μX¯σ2S2σ .
Jika Anda percaya bahwa pengganti itu adalah nilai aktual dan σ 2 , Anda mungkin salah, karena sangat kecil kemungkinannya bahwa Anda sangat beruntung sehingga pengamatan Anda mengoordinasikan diri untuk memberi Anda hadiah ˉ X yang sama. ke μ dan S 2 sama dengan σ 2μσ2X¯μS2σ2 . Nah, mungkin itu tidak terjadi.
Tetapi Anda bisa berada pada tingkat kesalahan yang berbeda, bervariasi dari yang sedikit salah hingga yang benar-benar, sangat, sangat salah (alias, "Sampai jumpa, gaji; sampai jumpa minggu depan!").
X¯μS2=2S2=20,000,000σ2σ2X¯ untuk variasi.
μσ2μσ2 .
Bagaimana Anda bisa melihatnya?
μσ .
Dan di sini adalah alur cerita yang menjengkelkan dari kisah lysergic ini: Dia memberi tahu Anda setelah itu Anda memasang taruhan Anda. Mungkin untuk mencerahkan Anda, mungkin untuk mempersiapkan Anda, mungkin untuk mengejek Anda. Bagaimana kamu bisa tahu?
μσ2X¯S2μσ2
μX¯(X¯−μ)
Xi∼N(μ,σ2)X¯∼N(μ,σ2/10)(X¯−μ)∼N(0,σ2/10)
X¯−μσ/10−−√∼N(0,1)
μσ2 .
μ(Xi−μ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi
(Xi−μ)/σ∼N(0,1)μσ2 .
μσ2 ?".
[Aku lebih suka berpikir kalau kamu memikirkan yang terakhir.]
Ya ada!
μXiσ
(Xi−μ)2σ2=(Xi−μσ)2∼χ2
Z2Z∼N(0,1)μσ2 , tetapi menyampaikan informasi tentang variabilitas yang harus Anda hadapi.
(X¯−μ)2σ2/10=(X¯−μσ/10−−√)2=(N(0,1))2∼χ2
∑i=110(Xi−μ)2σ2/10=∑i=110(Xi−μσ/10−−√)2=∑i=110(N(0,1))2=∑i=110χ2.
X1,…,X10). Masing-masing dari distribusi Chi-kuadrat tunggal adalah satu kontribusi terhadap jumlah variabilitas acak yang harus Anda hadapi, dengan jumlah kontribusi yang kira-kira sama dengan jumlah.
Nilai kontribusi masing-masing tidak secara matematis sama dengan sembilan lainnya, tetapi semuanya memiliki perilaku yang diharapkan dalam distribusi yang sama. Dalam arti itu, mereka entah bagaimana simetris.
Masing-masing dari Chi-square adalah satu kontribusi terhadap jumlah murni, variabilitas acak yang harus Anda harapkan dalam jumlah itu.
Jika Anda memiliki 100 pengamatan, jumlah di atas akan diharapkan menjadi lebih besar hanya karena memiliki lebih banyak sumber kontibusi .
Masing-masing "sumber kontribusi" dengan perilaku yang sama dapat disebut tingkat kebebasan .
Sekarang ambil satu atau dua langkah mundur, baca kembali paragraf sebelumnya jika diperlukan untuk mengakomodasi kedatangan tiba-tiba Anda untuk tingkat kebebasan .
μσ2 .
Masalahnya adalah, Anda mulai mengandalkan perilaku dari 10 sumber variabilitas yang setara itu. Jika Anda memiliki 100 pengamatan, Anda akan memiliki 100 sumber independen yang sama-sama berperilaku fluktuasi acak ke jumlah itu.
Jumlah 10 Chi-kuadrat disebut distribusi Chi-kuadrat denganχ210χ21
μσ2
μσ2
Hal-hal mulai menjadi aneh (Hahahaha; hanya sekarang!) Ketika Anda memberontak melawan Tuhan dan mencoba dan rukun sendirian, tanpa mengharapkan Dia untuk melindungi Anda.
X¯S2μσ2 . Anda bisa menemukan jalan menuju taruhan yang lebih aman.
X¯S2μσ2
∑i=110(Xi−X¯)2S2/10=∑i=110(Xi−X¯S/10−−√)2,
μ(Xi−μ)>0∑10i=1(Xi−μ)>0∑10i=1(Xi−X¯)=0∑10i=1Xi−10X¯=10X¯−10X¯=0
∑10i=1(Xi−X¯)2≤∑10i=1(Xi−μ)2
Xi−X¯S/10−−√
(Xi−X¯)2S2/10
∑i=110(Xi−X¯)2S2/10
X¯−μS/10−−√
tidak memiliki distribusi normal standar.
"Apakah itu semua sia-sia?"
∑i=110(Xi−X¯)2σ2=∑i=110[Xi−μ+μ−X¯]2σ2=∑i=110[(Xi−μ)−(X¯−μ)]2σ2=∑i=110(Xi−μ)2−2(Xi−μ)(X¯−μ)+(X¯−μ)2σ2=∑i=110(Xi−μ)2−(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−∑i=110(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−10(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−(X¯−μ)2σ2/10
or, equivalently,
∑i=110(Xi−μ)2σ2=∑i=110(Xi−X¯)2σ2+(X¯−μ)2σ2/10.
Now we get back to those known faces.
The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).
We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.
This is already a good news, since now we have its distribution.
Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).
Well,
S2=110−1∑i=110(Xi−X¯)2,
so
∑i=110(Xi−X¯)2σ2=∑10i=1(Xi−X¯)2σ2=(10−1)S2σ2∼χ2(10−1)
therefore
X¯−μS/10−−√=X¯−μσ/10√Sσ=X¯−μσ/10√S2σ2−−−√=X¯−μσ/10√(10−1)S2σ2(10−1)−−−−−−√=N(0,1)χ2(10−1)(10−1)−−−−−√,
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with
(10−1) degrees of freedom.
One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.
[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.
That, my dear friend, is the origin of the t distribution with (10−1) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.
There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.