Bagaimana cara memahami derajat kebebasan?


257

Dari Wikipedia , ada tiga interpretasi tentang derajat kebebasan suatu statistik:

Dalam statistik, jumlah derajat kebebasan adalah jumlah nilai dalam penghitungan akhir suatu statistik yang bebas bervariasi .

Perkiraan parameter statistik dapat didasarkan pada jumlah informasi atau data yang berbeda. Jumlah potongan informasi independen yang masuk ke dalam estimasi parameter disebut derajat kebebasan (df). Secara umum, derajat kebebasan estimasi parameter sama dengan jumlah skor independen yang masuk ke estimasi minus jumlah parameter yang digunakan sebagai langkah perantara dalam estimasi parameter itu sendiri (yang, dalam varian sampel, adalah satu, karena rata-rata sampel adalah satu-satunya langkah perantara).

Secara matematis, derajat kebebasan adalah dimensi domain dari vektor acak , atau pada dasarnya jumlah komponen 'bebas': berapa banyak komponen yang perlu diketahui sebelum vektor sepenuhnya ditentukan .

Kata-kata yang berani adalah apa yang saya tidak mengerti. Jika memungkinkan, beberapa formulasi matematika akan membantu memperjelas konsep tersebut.

Juga apakah ketiga interpretasi tersebut saling bersesuaian?



3
Lihat juga pertanyaan ini "Apa itu derajat kebebasan?"
Jeromy Anglim

Jawaban:


242

Ini pertanyaan halus. Dibutuhkan orang yang bijaksana untuk tidak memahami kutipan itu! Meskipun mereka sugestif, ternyata tidak satupun dari mereka yang tepat atau umumnya benar. Saya tidak punya waktu (dan tidak ada ruang di sini) untuk memberikan penjelasan lengkap, tetapi saya ingin berbagi satu pendekatan dan wawasan yang disarankan.

Di mana konsep derajat kebebasan (DF) muncul? Konteks yang ditemukan dalam perawatan dasar adalah:

  • The Student t-test dan variannya seperti Welch atau Satterthwaite solusi untuk masalah Behrens-Fisher (di mana dua populasi memiliki varians yang berbeda).

  • Distribusi Chi-squared (didefinisikan sebagai jumlah kuadrat dari Normals standar independen), yang terlibat dalam distribusi sampling varians.

  • Uji -F (rasio estimasi varian).

  • Uji Chi-squared , yang terdiri dari penggunaannya dalam (a) pengujian untuk independensi dalam tabel kontingensi dan (b) pengujian untuk kebaikan kesesuaian estimasi distribusi.

Dalam semangat, tes-tes ini menjalankan gamut dari yang eksak (uji-t Student dan uji-F untuk varian Normal) hingga menjadi perkiraan yang baik (uji-t Student dan tes Welch / Satterthwaite untuk data yang tidak terlalu miring) ) didasarkan pada perkiraan asimptotik (uji Chi-squared). Aspek yang menarik dari beberapa di antaranya adalah munculnya "derajat kebebasan" yang tidak integral (tes Welch / Satterthwaite dan, seperti yang akan kita lihat, tes Chi-squared). Ini adalah kepentingan utama karena ini adalah petunjuk pertama bahwa DF bukan salah satu dari hal-hal yang diklaimnya.

Kami dapat segera membuang beberapa klaim dalam pertanyaan. Karena "perhitungan akhir suatu statistik" tidak terdefinisi dengan baik (tampaknya tergantung pada algoritma apa yang digunakan seseorang untuk perhitungan), itu bisa tidak lebih dari saran yang tidak jelas dan tidak layak dikritik lebih lanjut. Demikian pula, baik "jumlah skor independen yang masuk ke dalam estimasi" maupun "jumlah parameter yang digunakan sebagai langkah perantara" tidak didefinisikan dengan baik.

"Potongan informasi independen yang masuk ke dalam [perkiraan]" sulit untuk dihadapi, karena ada dua indera "independen" yang berbeda tetapi saling terkait yang dapat relevan di sini. Salah satunya adalah independensi variabel acak; yang lainnya adalah independensi fungsional. Sebagai contoh dari yang terakhir, misalkan kita mengumpulkan pengukuran morfometrik subjek - katakanlah, untuk kesederhanaan, tiga panjang sisi , Y , Z , luas permukaan S = 2 ( X Y + Y Z + Z X ) , dan volume V = X Y ZXYZS=2(XY+YZ+ZX)V=XYZdari satu set balok kayu. Tiga panjang sisi dapat dianggap sebagai variabel acak independen, tetapi kelima variabel tersebut adalah RV bergantung. Kelima juga fungsional tergantung karena kodomain ( tidak "domain"!) Dari variabel random vektor-dihargai jejak keluar manifold tiga dimensi di R 5 . (Dengan demikian, secara lokal di titik mana pun ω R 5 , ada dua fungsi f ω dan g ω untuk mana f ω(X,Y,Z,S,V)R5ωR5fωgω dan g ω ( X ( ψ ) , ... , V ( ψ ) ) = 0 untuk poin ψ "dekat" ω dan turunan dari f dan g dievaluasi pada ω adalah bebas linear.) Namun - inilah kicker - untuk banyak ukuran probabilitas pada blok, himpunan bagian dari variabel seperti ( X ,fω(X(ψ),,V(ψ))=0gω(X(ψ),,V(ψ))=0ψωfgω adalahbergantungsebagai variabel acak tetapi secara fungsionalindependen.(X,S,V)

Setelah diperingatkan oleh ambiguitas potensial ini, mari kita tahan uji good-fit Chi-squared untuk pemeriksaan , karena (a) sederhana, (b) itu adalah salah satu situasi umum di mana orang benar-benar perlu tahu tentang DF untuk mendapatkan p-value right dan (c) sering digunakan secara salah. Berikut adalah sinopsis singkat dari aplikasi paling tidak kontroversial dari tes ini:

  • Anda memiliki koleksi nilai data , yang dianggap sebagai sampel populasi.(x1,,xn)

  • Anda telah memperkirakan beberapa parameter dari suatu distribusi. Misalnya, Anda diperkirakan mean θ 1 dan standar deviasi θ 2 = θ p dari distribusi normal, hipotesa bahwa populasi terdistribusi secara normal tetapi tidak mengetahui (sebelum memperoleh data) apa θ 1 atau θ 2 mungkin.θ1,,θpθ1θ2=θpθ1θ2

  • Di muka, Anda membuat satu set "sampah" untuk data. (Mungkin bermasalah ketika nampan ditentukan oleh data, meskipun ini sering dilakukan.) Dengan menggunakan nampan ini, data dikurangi menjadi himpunan jumlah dalam setiap nampan. Mengantisipasi apa nilai sebenarnya dari ( θ ) , Anda telah mengaturnya sehingga (semoga) setiap bin akan menerima kira-kira jumlah yang sama. (Binning dengan probabilitas sama memastikan distribusi chi-square benar-benar merupakan perkiraan yang baik untuk distribusi sebenarnya dari statistik chi-squared yang akan dijelaskan.)k(θ)

  • Anda memiliki banyak data - cukup untuk memastikan bahwa hampir semua kotak harus memiliki jumlah 5 atau lebih besar. (Kami harap, ini akan memungkinkan distribusi sampling dari statistik dapat diperkirakan secara memadai oleh beberapa distribusi χ 2. )χ2χ2

Dengan menggunakan estimasi parameter, Anda dapat menghitung jumlah yang diharapkan di setiap nampan. Statistik Chi-squared adalah jumlah dari rasio

(observedexpected)2expected.

Ini, banyak pihak berwenang memberi tahu kami, seharusnya (dengan perkiraan sangat dekat) distribusi Chi-squared. Tapi ada seluruh keluarga distribusi seperti itu. Mereka dibedakan oleh parameter sering disebut sebagai "derajat kebebasan." Alasan standar tentang bagaimana menentukan ν berjalan seperti iniνν

Saya punya jumlah . Itu k potongan data. Tetapi ada hubungan ( fungsional ) di antara mereka. Untuk memulainya, saya tahu sebelumnya bahwa jumlah hitungan harus sama dengan n . Itu satu hubungan. Saya memperkirakan dua (atau p , umumnya) parameter dari data. Itu dua (atau p ) hubungan tambahan, memberikan p + 1 total hubungan. Menganggap mereka (parameter) semuanya (secara fungsional ) independen, yang hanya menyisakan "derajat kebebasan" k - p - 1 (secara fungsional ) independen: itulah nilai yang akan digunakan untukkknppp+1kp1 .ν

Masalah dengan alasan ini (yang merupakan jenis perhitungan yang dikutip dalam pertanyaan) adalah bahwa itu salah kecuali ketika beberapa kondisi tambahan khusus berlaku. Selain itu, kondisi tersebut tidak ada hubungannya dengan independensi (fungsional atau statistik), dengan jumlah "komponen" data, dengan jumlah parameter, atau dengan apa pun yang disebutkan dalam pertanyaan asli.

Izinkan saya menunjukkan kepada Anda sebuah contoh. (Untuk membuatnya sejelas mungkin, saya menggunakan sejumlah kecil tempat sampah, tapi itu tidak penting.) Mari kita menghasilkan 20 varian normal dan terdistribusi secara identik (iid) dan memperkirakan rata-rata dan standar deviasi mereka dengan formula biasa ( mean = jumlah / hitung, dll .). Untuk menguji goodness of fit, buat empat nampan dengan titik potong pada kuartil standar normal: -0,675, 0, +0,657, dan gunakan jumlah bin untuk menghasilkan statistik Chi-squared. Ulangi sesuai kesabaran; Saya punya waktu untuk melakukan 10.000 pengulangan.

Kearifan standar tentang DF mengatakan kami memiliki 4 nampan dan 1 + 2 = 3 kendala, menyiratkan distribusi 10.000 statistik Chi-kuadrat ini harus mengikuti distribusi Chi-kuadrat dengan 1 DF. Inilah histogramnya:

Gambar 1

Garis biru gelap membuat grafik distribusi PDF - yang kami pikir akan berfungsi - sedangkan garis merah gelap membuat grafik distribusi χ 2 ( 2 ) (yang akan menjadi tebakan bagus jika seseorang untuk memberi tahu Anda bahwa ν = 1 salah). Tidak cocok dengan data.χ2(1)χ2(2)ν=1

Anda mungkin mengharapkan masalah karena ukuran kecil dari kumpulan data ( = 20) atau mungkin ukuran kecil dari jumlah bin. Namun, masalah tetap ada bahkan dengan dataset yang sangat besar dan jumlah bin yang lebih besar: ini bukan hanya kegagalan untuk mencapai perkiraan asimptotik.n

Ada yang salah karena saya melanggar dua persyaratan tes Chi-squared:

  1. Anda harus menggunakan estimasi Kemungkinan Maksimum dari parameter. (Persyaratan ini dapat, dalam praktiknya, sedikit dilanggar.)

  2. Anda harus mendasarkan perkiraan itu pada hitungan, bukan pada data aktual! (Ini sangat penting .)

Gambar 2

Histogram merah menggambarkan statistik chi-kuadrat untuk 10.000 iterasi terpisah, mengikuti persyaratan ini. Benar saja, itu terlihat mengikuti kurva (dengan jumlah kesalahan pengambilan sampel yang dapat diterima), seperti yang kami harapkan sebelumnya.χ2(1)

Titik perbandingan ini - yang saya harap Anda telah melihat datang - adalah bahwa DF benar digunakan untuk menghitung p-nilai tergantung pada banyak hal lain selain dimensi manifold, jumlah hubungan fungsional, atau geometri variates normal . Ada interaksi yang halus dan halus antara dependensi fungsional tertentu , seperti yang ditemukan dalam hubungan matematika antara kuantitas, dan distribusi data, statistik mereka, dan penduga yang terbentuk dari mereka. Dengan demikian, tidak dapat menjadi kasus bahwa DF cukup dijelaskan dalam hal geometri distribusi normal multivariat, atau dalam hal independensi fungsional, atau sebagai jumlah parameter, atau hal lain dari sifat ini.

Kita dituntun untuk melihat, kemudian, bahwa "derajat kebebasan" hanyalah heuristik yang menunjukkan apa yang seharusnya menjadi contoh distribusi statistik (t, Chi-squared, atau F), tetapi itu tidak dispositif. Percaya bahwa itu dispositif mengarah pada kesalahan mengerikan. (Misalnya, hit teratas di Google ketika mencari "chi squared goodness of fit" adalah halaman Web dari universitas Ivy League yang mendapatkan sebagian besar kesalahan ini! Khususnya, simulasi berdasarkan instruksi menunjukkan bahwa chi-squared nilai itu merekomendasikan memiliki 7 DF sebenarnya memiliki 9 DF.)

Dengan pemahaman yang lebih bernuansa ini, ada baiknya untuk membaca kembali artikel Wikipedia yang bersangkutan: dalam perinciannya hal itu menjadi benar, menunjukkan di mana heuristik DF cenderung bekerja dan di mana ia merupakan perkiraan atau tidak berlaku sama sekali.


Catatan bagus tentang fenomena yang digambarkan di sini (DF yang secara tak terduga tinggi dalam uji GO-kuadrat Chi) muncul di Volume II Kendall & Stuart, edisi ke-5 . Saya bersyukur atas kesempatan yang diberikan oleh pertanyaan ini untuk membawa saya kembali ke teks yang luar biasa ini, yang penuh dengan analisis yang bermanfaat.


Edit (Jan 2017)

Berikut adalah Rkode untuk menghasilkan gambar berikut "Kebijakan standar tentang DF ..."

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Ini jawaban yang luar biasa. Anda menang di internet untuk ini.
Adam

6
@caracal: seperti yang Anda tahu, metode ML untuk data asli bersifat rutin dan luas: untuk distribusi normal, misalnya, MLE dari adalah mean sampel dan MLE dari σ adalah akar kuadrat dari standar deviasi sampel ( tanpa koreksi bias yang biasa). Untuk mendapatkan taksiran berdasarkan penghitungan, saya menghitung fungsi kemungkinan untuk penghitungan - ini membutuhkan nilai komputasi CDF di cutpoint, mengambil log, mengalikan dengan penghitungan, dan menambahkan - dan mengoptimalkannya menggunakan perangkat lunak pengoptimalan generik. μσ
Whuber

4
@caracal Anda mungkin tidak lagi membutuhkannya, tetapi sebuah contoh Rkode untuk pemasangan ML dari data yang dibuang sekarang muncul dalam pertanyaan terkait: stats.stackexchange.com/a/34894 .
whuber

1
"Masalah dengan alasan ini (yang merupakan jenis perhitungan yang dikutip dalam pertanyaan) adalah bahwa itu salah kecuali ketika beberapa kondisi tambahan khusus berlaku." Saya sekarang (hampir) melalui dua semester dari urutan model linier, dan saya memahami derajat kebebasan untuk menjadi pangkat matriks di "tengah" bentuk kuadratik. Apa "kondisi tambahan" ini?
Klarinetis

4
@Clarinetist Poin utama dari jawaban saya adalah untuk menyarankan bahwa apa yang telah diajarkan kepada Anda didasarkan pada kebingungan dua konsep DF. Meskipun kebingungan itu tidak menyebabkan masalah untuk model Normal-teori kuadrat-standar, itu mengarah ke kesalahan bahkan dalam keadaan sederhana, umum seperti analisis tabel kontingensi. Peringkat matriks itu memberikan DF fungsional . Dalam model linear kuadrat-terkecil itu terjadi untuk memberikan DF yang benar untuk jenis tes tertentu, seperti tes F. Untuk tes chi-squared, kondisi khusus disebutkan kemudian dalam jawaban sebagai poin (1) dan (2).
whuber

74

Atau sederhananya: jumlah elemen dalam array numerik yang Anda boleh ubah sehingga nilai statistik tetap tidak berubah.

# for instance if:
x + y + z = 10

Anda dapat mengubah, misalnya, x dan y secara acak, tetapi Anda tidak dapat mengubah z (Anda bisa, tetapi tidak secara acak, karena itu Anda tidak bebas untuk mengubahnya - lihat komentar Harvey), karena Anda akan mengubah nilainya dari statistik (Σ = 10). Jadi, dalam hal ini df = 2.


19
Tidak benar mengatakan "Anda tidak dapat mengubah z". Sebenarnya, Anda harus mengubah z untuk membuat jumlahnya sama dengan 10. Tapi Anda tidak punya pilihan (tidak ada kebebasan) tentang perubahannya. Anda dapat mengubah dua nilai apa pun, tetapi tidak yang ketiga.
Harvey Motulsky

53

Konsep ini sama sekali tidak sulit untuk membuat matematika tepat diberikan sedikit pengetahuan umum tentang geometri Euclide dimensi, subruang dan proyeksi ortogonal.n

Jika adalah proyeksi ortogonal dari R n ke p berdimensi ruang bagian L dan x adalah sewenang-wenang n -vector maka P x adalah di L , x - P x dan P x adalah ortogonal dan x - P x L adalah di komplemen ortogonal dari L . Dimensi komplemen ortogonal ini, L , adalah n - p . JikaPRnpLxnPxLxPxPxxPxLLLnp bebas untuk bervariasi dalamruang dimensi- n maka x - P x bebas untuk bervariasi dalamruang dimensi n - p . Untuk alasan ini kita mengatakan bahwa x - P x memiliki n - p derajat kebebasan.xnxPxnpxPxnp

Pertimbangan ini penting untuk statistik karena jika adalah vektor acak n- dimensi dan L adalah model rata-rata, yaitu, vektor rata-rata E ( X ) adalah dalam L , maka kita menyebut X - P X vektor residual , dan kami menggunakan residu untuk memperkirakan varians. Vektor residual memiliki derajat kebebasan n - p , yaitu dibatasi pada subruang dimensi n - p .XnLE(X)LXPXnpnp

Jika koordinat independen dan terdistribusi normal dengan varian yang sama σ 2 makaXσ2

  • Vektor dan X - P X bersifat independen.PXXPX
  • Jika distribusi norma kuadrat dari vektor residual | | X - P X | | 2 adalah distribusi χ 2 dengan parameter skala σ 2 dan parameter lain yang merupakan derajat kebebasan n - p .E(X)L||XPX||2χ2σ2np

Sketsa bukti dari fakta-fakta ini diberikan di bawah ini. Kedua hasil ini penting untuk pengembangan lebih lanjut dari teori statistik berdasarkan distribusi normal. Perhatikan juga bahwa inilah sebabnya distribusi memiliki parametrization yang dimilikinya. Ini juga merupakan distribusi Γ dengan parameter skala 2 σ 2 dan parameter bentuk ( n - p ) / 2 , tetapi dalam konteks di atas wajar untuk menentukan dalam hal derajat kebebasan.χ2Γ2σ2(np)/2

Saya harus mengakui bahwa saya tidak menemukan satu pun paragraf yang dikutip dari artikel Wikipedia yang mencerahkan, tetapi keduanya tidak benar-benar salah atau bertentangan juga. Mereka mengatakan dalam sebuah tepat, dan dalam arti longgar umum, bahwa ketika kita menghitung estimasi parameter varians, tapi jangan jadi berdasarkan residual, kita mendasarkan perhitungan pada vektor yang hanya gratis untuk bervariasi dalam ruang dimensi .np

Di luar teori model normal linier, penggunaan konsep derajat kebebasan dapat membingungkan. Ini, misalnya, digunakan dalam parametriisasi distribusi apakah ada referensi atau tidak terhadap sesuatu yang dapat memiliki derajat kebebasan apa pun. Ketika kami mempertimbangkan analisis statistik dari data kategorikal, akan ada beberapa kebingungan tentang apakah "potongan independen" harus dihitung sebelum atau setelah tabulasi. Lebih jauh, untuk kendala, bahkan untuk model normal, yang bukan kendala ruang bagian, tidak jelas bagaimana memperluas konsep derajat kebebasan. Berbagai saran ada biasanya atas nama derajat kebebasan efektif .χ2

Sebelum penggunaan dan makna derajat kebebasan lainnya dipertimbangkan, saya akan sangat merekomendasikan untuk menjadi percaya diri dalam konteks model normal linier. Referensi yang berurusan dengan kelas model ini adalah A First Course in Linear Model Theory , dan ada referensi tambahan di pengantar buku untuk buku-buku klasik lainnya pada model linier.

Bukti hasil di atas: Mari , diketahui bahwa matriks varians adalah σ 2 saya dan memilih ortonormal dasar z 1 , ... , z p dari L dan ortonormal dasar z p + 1 , ... , z n dari L . Maka z 1 , , z n adalah basis ortonormal dari R n . Biarkan ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~menyatakan -vector dari koefisien X di dasar ini, yaitu ~ X i = z T i X . Ini juga dapat ditulis sebagai ˜ X = Z T X di mana Z adalah matriks ortogonal dengan z i di kolom. Maka kita harus menggunakan bahwa ˜ X memiliki distribusi normal dengan rata-rata Z T ξ dan, karena Z adalah ortogonal, matriks varians σ 2 InX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I. Ini mengikuti dari hasil transformasi linear umum dari distribusi normal. Dasar dipilih sehingga koefisien adalah ~ X i untuk i = 1 , ... , p , dan koefisien X - P X adalah ~ X i untuk i = p + 1 , ... , n . Karena koefisien tidak berkorelasi dan bersama-sama normal, mereka independen, dan ini berarti bahwa P X = p Σ iPXX~ii=1,,pXPXX~ii=p+1,,n dan X-PX= n i = p + 1 ˜ X izi adalah independen. Apalagi, | | X-PX| | 2= n i = p + 1 ˜ X 2 i . JikaξLmakaE( ˜ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL untuk i = p + 1 , , n karena z iL dan karenanya z iξ . Dalam hal ini | | X - P X | | 2 adalah jumlah dari n - p independen N ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)variabel acak terdistribusi, yang distribusinya, menurut definisi, adalah distribusi dengan parameter skala σ 2 dan n - p derajat kebebasan.χ2σ2np

NRH, Terima kasih! (1) Mengapa harus ada di dalam L ? (2) Mengapa P X dan X - P X bersifat independen? (3) Apakah dof dalam konteks variabel acak didefinisikan dari dof dalam kasus deterministiknya? Misalnya, alasan untuk | | X - P X | | 2 memiliki dof n - p karena benar ketika X adalah variabel deterministik dan bukan variabel acak? (4) Apakah ada referensi (buku, makalah atau tautan) yang memiliki pendapat yang sama / serupa dengan pendapat Anda?E(X)LPXXPX||XPX||2npX
Tim

@Tim, dan X - P X bersifat independen, karena keduanya normal dan tidak berkorelasi. PXXPX
mpiktas

@Tim, saya telah menulis ulang jawabannya sedikit dan memberikan bukti hasil yang dinyatakan. Nilai mean harus dalam untuk membuktikan hasil tentang distribusi χ 2 . Ini adalah asumsi model. Dalam literatur Anda harus mencari model normal linier atau model linear umum, tetapi saat ini saya hanya dapat mengingat beberapa catatan kuliah lama yang tidak dipublikasikan. Saya akan melihat apakah saya dapat menemukan referensi yang sesuai. Lχ2
NRH

Jawaban yang bagus Terima kasih atas wawasannya. Satu pertanyaan: Saya tersesat apa yang Anda maksud dengan frasa "vektor rata-rata adalah dalam L ". Bisakah Anda jelaskan? Apakah Anda mencoba mendefinisikan E ? mendefinisikan L ? sesuatu yang lain? Mungkin kalimat ini mencoba melakukan terlalu banyak atau terlalu ringkas untuk saya. Bisakah Anda menguraikan apa definisi E dalam konteks yang Anda sebutkan: apakah hanya E ( x 1 , x 2 , ... , x n ) = ( x 1 + x 2 + + xEXLELE ? Bisakah Anda menguraikan apa yang L dalam konteks ini (dari koordinat iid normal)? Apakah hanya L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW adalah operator ekspektasi. Jadi E ( X ) adalah vektor dari harapan coordinatewise dari X . Subruang L adalah setiap p ruang bagian berdimensi dari R n . Ini adalah ruang n- vektor dan tentu saja bukan R , tetapi bisa sangat satu dimensi. Contoh paling sederhana adalah ketika direntang oleh 1- vektor dengan 1 sama sekali n- koordinat. Ini adalah model semua koordinat X yang memiliki nilai rata-rata yang sama, tetapi banyak model yang lebih rumit dimungkinkan. EE(X)XLpRnnR1nX
NRH

30

Ini benar-benar tidak berbeda dari cara istilah "derajat kebebasan" bekerja di bidang lain. Misalnya, Anda memiliki empat variabel: panjang, lebar, luas, dan keliling persegi panjang. Apakah Anda benar-benar tahu empat hal? Tidak, karena hanya ada dua derajat kebebasan. Jika Anda tahu panjang dan lebarnya, Anda bisa mendapatkan area dan kelilingnya. Jika Anda tahu panjang dan luasnya, Anda bisa mendapatkan lebar dan kelilingnya. Jika Anda tahu luas dan kelilingnya, Anda bisa mendapatkan panjang dan lebarnya (hingga rotasi). Jika Anda memiliki keempatnya, Anda dapat mengatakan bahwa sistemnya konsisten (semua variabel saling setuju), atau tidak konsisten (tidak ada persegi panjang yang benar-benar dapat memenuhi semua kondisi). Kotak adalah persegi panjang dengan derajat kebebasan dihilangkan;

Dalam statistik, banyak hal menjadi lebih kabur, tetapi idenya masih sama. Jika semua data yang Anda gunakan sebagai input untuk suatu fungsi adalah variabel independen, maka Anda memiliki derajat kebebasan sebanyak Anda memiliki input. Tetapi jika mereka memiliki ketergantungan dalam beberapa cara, sehingga jika Anda memiliki input n - k Anda dapat mengetahui sisa k, maka Anda sebenarnya hanya mendapatkan derajat kebebasan n - k. Dan kadang-kadang Anda perlu memperhitungkannya, jangan sampai Anda meyakinkan diri sendiri bahwa data lebih dapat diandalkan atau memiliki daya prediksi lebih dari yang sebenarnya, dengan menghitung lebih banyak titik data daripada benar-benar memiliki bit data independen.

(Diambil dari pos di http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Apalagi ketiga definisi tersebut hampir berusaha memberikan pesan yang sama.


1
Pada dasarnya benar, tapi saya khawatir paragraf tengah dapat dibaca dengan cara yang membingungkan korelasi, independensi (variabel acak), dan independensi fungsional (bermacam-macam parameter). Perbedaan korelasi-independensi sangat penting untuk dipertahankan.
whuber

@whuber: apakah baik-baik saja sekarang?
Biostat

3
Itu benar, tetapi cara menggunakan istilah mungkin akan membingungkan beberapa orang. Itu masih tidak secara eksplisit membedakan ketergantungan variabel acak dari ketergantungan fungsional. Sebagai contoh, dua variabel dalam distribusi normal bivariat (nondegenerate) dengan korelasi bukan nol akan bergantung (sebagai variabel acak) tetapi mereka masih menawarkan dua derajat kebebasan.
whuber


2
Pusat Bantuan kami memberikan panduan yang jelas tentang cara merujuk materi yang ditulis oleh orang lain , jadi saya berharap OP akan kembali ke pos ini untuk mengambil tindakan yang sesuai dan terlibat dalam interaksi yang konstruktif (meskipun kami belum melihatnya untuk sementara waktu).
chl

19

Saya sangat suka kalimat pertama dari The Little Handbook of Statistical Practice. Bab Derajat Kebebasan

Salah satu pertanyaan yang paling ditakuti oleh instruktur dari audiens yang tidak canggih secara matematis adalah, "Apa sebenarnya derajat kebebasan?"

Saya pikir Anda bisa mendapatkan pemahaman yang sangat baik tentang derajat kebebasan dari membaca bab ini.


6
Akan menyenangkan untuk memiliki penjelasan mengapa tingkat kebebasan itu penting, bukan hanya apa itu. Misalnya, menunjukkan bahwa estimasi varians dengan 1 / n bias tetapi menggunakan 1 / (n-1) menghasilkan estimator yang tidak bias.
Tristan

9

Wikipedia menegaskan bahwa derajat kebebasan dari vektor acak dapat diartikan sebagai dimensi dari ruang bagian vektor. Saya ingin melangkah selangkah demi selangkah, pada dasarnya melalui ini sebagai jawaban parsial dan elaborasi pada entri Wikipedia.

Contoh yang diajukan adalah vektor acak yang sesuai dengan pengukuran variabel kontinu untuk subjek yang berbeda, dinyatakan sebagai vektor yang berasal dari asal . Proyeksi ortogonal pada vektor [ 1[abc]T menghasilkan vektor sama dengan proyeksi vektor sarana pengukuran ( ˉ x = 1 / 3 ( a + b + c ) ), yaitu [ ˉ x[111]Tx¯=1/3(a+b+c), dihiasi denganvektor1 ,[1[x¯x¯x¯]T1 Proyeksi ini ke subruang yang direntang oleh vektor yang memiliki 1[111]T . Theresidualvektor (jarak dari mean) adalah kuadrat-terkecil proyeksi ke ( n - 1 ) komplemen ortogonal berdimensi dari ruang bagian ini, dan memiliki n - 11degree of freedom(n1) , n menjadi jumlah total komponen vektor (dalam kasus kami 3 karena kita berada dalam R 3 dalam contoh). Hal ini dapat dibuktikan hanya dengan mendapatkan produk titik [ ˉ xn1degrees of freedomn3R3dengan perbedaan antara[a[x¯x¯x¯]T dan [ ˉ x[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

.

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

Dan hubungan ini meluas ke titik mana pun dalam bidang ortogonal ke . Konsep ini penting untuk memahami mengapa1[x¯x¯x¯]T , sebuah langkah dalam derivasi dari distribusi-t (disinidan disini).1σ2((X1X¯)2++(XnX¯)2)χn12

Mari kita ambil intinya , sesuai dengan tiga pengamatan. Mean adalah 55 , dan vektor [ 55[355080]T55 adalah normal (ortogonal) untuk pesawat, 55 x + 55 y + 55 z[555555]T . Memasukkan titik koordinat ke persamaan bidang, D = - 9075 .55x+55y+55z=DD=9075

Sekarang kita dapat memilih titik lain di bidang ini, dan rata-rata koordinatnya akan menjadi , secara geometris sesuai dengan proyeksi ke vektor [ 155 . Karenanya untuk setiap nilai rata-rata (dalam contoh kita, 55 ) kita dapat memilih jumlahpasangantanpa batas[111]T55 koordinat di tanpa pembatasan ( 2R2 ); belum, karena pesawat itu masuk 2degrees of freedom , ketiga koordinat akan datang ditentukan oleh persamaan dari pesawat (atau, geometris proyeksi ortogonal titik ke[55R3 .[555555]T

Berikut adalah representasi dari tiga titik (putih) berbaring di pesawat (biru langit) ortogonal ke [555555]T (panah): [355080]T , [80805] dan [901560] mereka semua di pesawat (subruang dengan ), dan kemudian dengan rata-rata komponennya 552df55 , dan proyeksi ortogonal ke [111]T (subruang dengan ) sama dengan1df :[555555]T


9

Di kelas saya, saya menggunakan satu situasi "sederhana" yang mungkin dapat membantu Anda bertanya-tanya dan mungkin mengembangkan firasat untuk apa derajat kebebasan mungkin berarti.

Ini semacam pendekatan "Forrest Gump" pada subjek, tetapi patut dicoba.

Pertimbangkan Anda memiliki 10 pengamatan independen yang datang langsung dari populasi normal yang rata-rata μ dan variansX1,X2,,X10N(μ,σ2)μ tidak diketahui.σ2

Pengamatan Anda membawa kepada Anda secara kolektif informasi baik tentang dan σ 2 . Setelah semua, pengamatan Anda cenderung tersebar di sekitar satu nilai pusat, yang seharusnya dekat dengan nilai aktual dan tidak diketahui μ dan, juga, jika μ sangat tinggi atau sangat rendah, maka Anda dapat berharap untuk melihat pengamatan Anda berkumpul di sekitar nilai yang sangat tinggi atau sangat rendah. Satu "pengganti" yang baik untuk μ (tanpa adanya pengetahuan tentang nilai aktualnya) adalah ˉ X , rata-rata pengamatan Anda. μσ2μμμX¯

Juga, jika pengamatan Anda sangat dekat satu sama lain, itu adalah indikasi bahwa Anda dapat berharap bahwa harus kecil dan, juga, jika σ 2 sangat besar, maka Anda dapat berharap untuk melihat nilai yang sangat berbeda untuk X 1 hingga X 10 . σ2σ2X1X10

Jika Anda bertaruh upah minggu Anda yang merupakan nilai aktual dan σ 2 , Anda harus memilih sepasang nilai di mana Anda akan bertaruh dengan uang Anda. Mari kita tidak memikirkan sesuatu yang dramatis seperti kehilangan gaji Anda kecuali Anda menebak μ dengan benar sampai posisi desimal ke-200. Nggak. Mari kita pikirkan semacam sistem pemberian hadiah yang semakin dekat Anda menebak μ danμσ2μμσ2 hadiah semakin Anda mendapatkan imbalan.

Dalam hal tertentu, lebih baik, lebih banyak informasi, dan menebak lebih sopan untuk nilai 's bisa ˉ X . Dalam hal ini, Anda memperkirakan bahwa μ harus ada beberapa nilai sekitar ˉ X . Demikian pula, satu "pengganti" yang baik untuk σ 2 (tidak diperlukan untuk saat ini) adalah S 2 , varians sampel Anda, yang membuat perkiraan yang baik untuk σμX¯μX¯σ2S2σ .

Jika Anda percaya bahwa pengganti itu adalah nilai aktual dan σ 2 , Anda mungkin salah, karena sangat kecil kemungkinannya bahwa Anda sangat beruntung sehingga pengamatan Anda mengoordinasikan diri untuk memberi Anda hadiah ˉ X yang sama. ke μ dan S 2 sama dengan σ 2μσ2X¯μS2σ2 . Nah, mungkin itu tidak terjadi.

Tetapi Anda bisa berada pada tingkat kesalahan yang berbeda, bervariasi dari yang sedikit salah hingga yang benar-benar, sangat, sangat salah (alias, "Sampai jumpa, gaji; sampai jumpa minggu depan!").

X¯μS2=2S2=20,000,000σ2σ2X¯ untuk variasi.

μσ2μσ2 .

Bagaimana Anda bisa melihatnya?

μσ .

Dan di sini adalah alur cerita yang menjengkelkan dari kisah lysergic ini: Dia memberi tahu Anda setelah itu Anda memasang taruhan Anda. Mungkin untuk mencerahkan Anda, mungkin untuk mempersiapkan Anda, mungkin untuk mengejek Anda. Bagaimana kamu bisa tahu?

μσ2X¯S2μσ2

μX¯(X¯μ)

XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2 .

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2 .

μσ2 ?".

[Aku lebih suka berpikir kalau kamu memikirkan yang terakhir.]

Ya ada!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2 , tetapi menyampaikan informasi tentang variabilitas yang harus Anda hadapi.

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Masing-masing dari distribusi Chi-kuadrat tunggal adalah satu kontribusi terhadap jumlah variabilitas acak yang harus Anda hadapi, dengan jumlah kontribusi yang kira-kira sama dengan jumlah.

Nilai kontribusi masing-masing tidak secara matematis sama dengan sembilan lainnya, tetapi semuanya memiliki perilaku yang diharapkan dalam distribusi yang sama. Dalam arti itu, mereka entah bagaimana simetris.

Masing-masing dari Chi-square adalah satu kontribusi terhadap jumlah murni, variabilitas acak yang harus Anda harapkan dalam jumlah itu.

Jika Anda memiliki 100 pengamatan, jumlah di atas akan diharapkan menjadi lebih besar hanya karena memiliki lebih banyak sumber kontibusi .

Masing-masing "sumber kontribusi" dengan perilaku yang sama dapat disebut tingkat kebebasan .

Sekarang ambil satu atau dua langkah mundur, baca kembali paragraf sebelumnya jika diperlukan untuk mengakomodasi kedatangan tiba-tiba Anda untuk tingkat kebebasan .

μσ2 .

Masalahnya adalah, Anda mulai mengandalkan perilaku dari 10 sumber variabilitas yang setara itu. Jika Anda memiliki 100 pengamatan, Anda akan memiliki 100 sumber independen yang sama-sama berperilaku fluktuasi acak ke jumlah itu.

Jumlah 10 Chi-kuadrat disebut distribusi Chi-kuadrat denganχ102χ12

μσ2

μσ2

Hal-hal mulai menjadi aneh (Hahahaha; hanya sekarang!) Ketika Anda memberontak melawan Tuhan dan mencoba dan rukun sendirian, tanpa mengharapkan Dia untuk melindungi Anda.

X¯S2μσ2 . Anda bisa menemukan jalan menuju taruhan yang lebih aman.

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10
tidak memiliki distribusi normal standar.

"Apakah itu semua sia-sia?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
or, equivalently,
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Now we get back to those known faces.

The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).

We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.

This is already a good news, since now we have its distribution.

Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).

Well,

S2=1101i=110(XiX¯)2,
so
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
therefore
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with (101) degrees of freedom.

One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.

[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.

That, my dear friend, is the origin of the t distribution with (101) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.

There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.


1
Thank you for such an effort! I confess that I found your explanation less than convincing, though. It seems to founder at this crucial junction: "Each of those "sources of contributions" with the same behavior can be called degree of freedom." If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate. Somehow the "degrees of freedom" get completely swallowed up. Evidently there is something special about chi-squared you haven't yet described. BTW, Gosset didn't do the math: he guessed!
whuber

Thank you very much for your evaluation, @whuber! It's amazing how many typos pop up once you forgot what you wrote. About your evaluation, I intended just to illustrate another way of thinking -- a little bit less mathematical in some sense. Also, I am not grasping fully what you meant with If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate -- which I guessed to hold your key-point. I will try to elaborate about it, hoping to improve the post.
Marcelo Ventura

2

Penjelasan intuitif tentang derajat kebebasan adalah bahwa mereka mewakili jumlah informasi independen yang tersedia dalam data untuk memperkirakan parameter (yaitu, jumlah yang tidak diketahui) yang menarik .

Sebagai contoh, dalam model regresi linier sederhana dalam bentuk:

Ysaya=β0+β1Xsaya+ϵsaya,saya=1,...,n

Dimana ϵsayaMerupakan istilah kesalahan yang berdistribusi normal yang independen dengan mean 0 dan standar deviasi σ, kami menggunakan 1 derajat kebebasan untuk memperkirakan intersep β0 dan 1 derajat kebebasan untuk memperkirakan kemiringan β1. Sejak kami mulai dengann pengamatan dan menggunakan 2 derajat kebebasan (yaitu, dua informasi independen), kita dibiarkan n-2 derajat kebebasan (yaitu, n-2 informasi independen) tersedia untuk memperkirakan standar deviasi kesalahan σ.


Thanks very much for your edits to my answer, @COOLSerdash!
Isabella Ghement

2

You can see the degree of freedom as the number of observations minus the number of necessary relations among these observations. By exemple if you have n sample of independant normal distribution observations X1,,Xn. The random variable i=1n(XiX¯n)2Xn12, where X¯n=1ni=1nXi. The degree of freedom here is n1 because, their is one necessary relation between theses observations (X¯n=1ni=1nXi).

For more information see this


0

For me the first explanation I understood was:

If you know some statistical value like mean or variation, how many variables of data you need to know before you can know the value of every variable?

This is the same as aL3xa said, but without giving any data point a special role and close to the third case given in the answer. In this way the same example would be:

If you know the mean of data, you need to know the values for all but one data point, to know the value to all data points.


Variabel -> pengamatan
Richard Hardy

0

Pikirkan seperti ini. Varian adalah zat tambahan saat independen. Sebagai contoh, misalkan kita melempar anak panah ke papan dan kita mengukur standar deviasix dan yperpindahan dari pusat papan yang tepat. KemudianVx,y=Vx+Vy. Tapi,Vx=SDx2 jika kita mengambil akar kuadrat dari Vx,y rumus, kita mendapatkan rumus jarak untuk koordinat ortogonal, SDx,y=SDx2+SDy2. Sekarang yang harus kita tunjukkan adalah bahwa standar deviasi adalah ukuran perpindahan yang representatif dari pusat papan panah. SejakSDx=saya=1n(xsaya-x¯)2n-1, kami memiliki sarana yang siap untuk membahas df. Perhatikan kapann=1, kemudian x1-x¯=0 dan rasionya saya=1n(xsaya-x¯)2n-100. Dengan kata lain, tidak ada penyimpangan yang bisa didapat antara satu anak panahx-Koordinasi dan dirinya sendiri. Pertama kali kita memiliki penyimpangan adalah untukn=2dan hanya ada satu, duplikat. Deviasi duplikat adalah jarak kuadrat antarax1 atau x2 dan x¯=x1+x22 karena x¯ adalah titik tengah antara atau rata - rata x1 dan x2. Secara umum, untukn jarak kami hapus 1 karena x¯ tergantung pada semua ndari jarak itu. Sekarang,n-1mewakili derajat kebebasan karena menormalkan jumlah hasil unik untuk membuat jarak kuadrat yang diharapkan. ketika dibagi menjadi jumlah dari jarak kuadrat tersebut.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.