Ini adalah kisah tentang derajat kebebasan dan parameter statistik dan mengapa baik bahwa keduanya memiliki koneksi langsung yang sederhana.
Secara historis, " −1 " muncul dalam studi Euler tentang fungsi Beta. Dia menggunakan parameterisasi itu pada 1763, dan begitu juga Adrien-Marie Legendre: penggunaannya membentuk konvensi matematika berikutnya. Karya ini mendahului semua aplikasi statistik yang dikenal.
Teori matematika modern memberikan banyak indikasi, melalui banyak aplikasi dalam analisis, teori bilangan, dan geometri, bahwa istilah " " sebenarnya memiliki beberapa makna. Saya telah membuat sketsa beberapa alasan dalam komentar untuk pertanyaan itu.−1
Yang lebih menarik adalah parameterisasi statistik "benar" seharusnya. Itu tidak begitu jelas dan tidak harus sama dengan konvensi matematika. Ada jaringan besar distribusi probabilitas yang umum digunakan, terkenal, dan saling terkait. Dengan demikian, konvensi yang digunakan untuk memberi nama (yaitu, parameterisasi) satu keluarga biasanya menyiratkan konvensi terkait untuk menyebutkan keluarga terkait. Ubah satu parameterisasi dan Anda ingin mengubahnya semuanya. Karena itu kita mungkin melihat hubungan ini sebagai petunjuk.
Hanya sedikit orang yang tidak setuju bahwa keluarga distribusi paling penting berasal dari keluarga Normal. Ingat bahwa variabel acak dikatakan "Biasanya didistribusikan" ketika ( X - μ ) / σ memiliki kepadatan probabilitas f ( x ) sebanding dengan exp ( - x 2 / 2 ) . Ketika σ = 1 dan μ = 0 , X dikatakan memiliki standarX(X−μ)/σf(x)exp(−x2/2)σ=1μ=0X distribusi normal .
Banyak dataset dipelajari menggunakan statistik yang relatif sederhana yang melibatkan kombinasi rasional data dan kekuatan rendah (biasanya kuadrat). Bila data yang dimodelkan sebagai sampel acak dari distribusi normal - sehingga setiap x i dipandang sebagai realisasi dari variabel normal X i , semua X i berbagi distribusi umum, dan independen - distribusi statistik tersebut ditentukan oleh distribusi Normal itu. Yang paling sering muncul dalam praktik adalahx1,x2,…,xnxiXiXi
,distribusi t Studentdengan ν = n - 1 "derajat kebebasan." Ini adalah distribusi statistik t = ˉ Xtνtν=n−1 mana ˉ X =(X1+X2+⋯+Xn)/nmemodelkan rata-rata data danse(X)=(1/√
t=X¯se(X)
X¯=(X1+X2+⋯+Xn)/n adalah kesalahan standar rata-rata. Pembagian dengann-1menunjukkan bahwanharus2atau lebih besar, di manaνadalah bilangan bulat1atau lebih besar. Rumusnya, meskipun tampaknya sedikit rumit, adalah akar kuadrat dari fungsi rasional dari data tingkat dua: itu relatif sederhana.se(X)=(1/n−−√)(X21+X22+⋯+X2n)/(n−1)−X¯2−−−−−−−−−−−−−−−−−−−−−−−−−−−−√n−1n2ν1
,yang χ 2 (chi-squared) distribusidengan ν "derajat kebebasan" (df). Ini adalah distribusi jumlah kuadrat darivariabel normal standar ν independen. Distribusi rata-rata kuadrat dari variabel-variabel ini karena itu akan menjadidistribusi χ 2 yang diskalakan oleh 1 / ν : Saya akan merujuk ini sebagaidistribusi"dinormalisasi" χ 2 .χ2νχ2ννχ21/νχ2
,yang F distribusi rasio dengan parameter ( ν 1 , ν 2 ) adalah rasio dari dua independen normalisasi χ 2 distribusi dengan ν 1 dan ν 2 derajat kebebasan.Fν1,ν2F(ν1,ν2)χ2ν1ν2
Perhitungan matematis menunjukkan bahwa ketiga distribusi ini memiliki kepadatan. Yang penting, kepadatan distribusi sebanding dengan integrand dalam definisi integral Euler tentang fungsi Gamma ( Γ ). Mari kita bandingkan mereka:χ2νΓ
fχ2ν(2x)∝xν/2−1e−x;fΓ(ν)(x)∝xν−1e−x.
Ini menunjukkan bahwa dua kali variabel memiliki distribusi Gamma dengan parameter ν / 2 . Faktor setengahnya cukup merepotkan, tetapi mengurangi 1 akan membuat hubungan jauh lebih buruk. Ini sudah memasok jawaban yang menarik untuk pertanyaan: jika kita ingin parameter dari χ 2 distribusi untuk menghitung jumlah variabel normal kuadrat yang memproduksinya (sampai faktor 1 / 2χ2νν/21χ21/2 ), maka eksponen dalam fungsi densitas keharusan menjadi kurang dari setengah hitungan itu.
Mengapa faktor kurang merepotkan daripada perbedaan dari 1 ? Alasannya adalah bahwa faktor tersebut akan tetap konsisten ketika kita menambahkan sesuatu. Jika jumlah kuadrat dari n Standar normal independen sebanding dengan distribusi Gamma dengan parameter n (kali beberapa faktor), maka jumlah kuadrat dari m standar normal independen sebanding dengan distribusi Gamma dengan parameter m (kali faktor yang sama) , di mana jumlah kuadrat dari semua variabel n + m sebanding dengan distribusi Gamma dengan parameter m + n (masih kali faktor yang sama). 1/21nnmmn+mm+nFakta bahwa menambahkan parameter yang sangat mirip dengan menambahkan jumlah sangat membantu.
Namun, jika kita harus menghapus " " yang tampak sial dari rumus matematika, hubungan baik ini akan menjadi lebih rumit. Misalnya, jika kita mengubah parameterisasi distribusi Gamma untuk merujuk pada kekuatan aktual x dalam rumus, sehingga distribusi χ 2 1 akan terkait dengan distribusi "Gamma ( 0 ) " (karena kekuatan x dalam PDF adalah 1 - 1 = 0 ), maka jumlah dari tiga χ 2 1 distribusi harus disebut "Gamma ( 2 )−1xχ21(0)x1−1=0χ21(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1 from the formula and absorbing it in the parameter.
Similarly, the probability function of an F ratio distribution is closely related to Beta distributions. Indeed, when Y has an F ratio distribution, the distribution of Z=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to
fZ(z)∝zν1/2−1(1−z)ν2/2−1.
Furthermore--taking these ideas full circle--the square of a Student t distribution with ν d.f. has an F ratio distribution with parameters (1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
From a statistical point of view, then, it would be most natural and simplest to use a variation of the conventional mathematical parameterizations of Γ and Beta distributions: we should prefer calling a Γ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "−1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.