Aku tidak akan rederive yang distribusi jawaban yang sangat bagus dari @ Alecos (ini adalah hasil standar, lihat disiniuntuk diskusi yang bagus) tetapi saya ingin mengisi lebih banyak detail tentang konsekuensinya! Pertama, seperti apa distribusi nullR2untuk rentang nilaindank? Grafik dalam jawaban Alecos cukup representatif dari apa yang terjadi dalam regresi berganda praktis, tetapi terkadang wawasan diperoleh dengan lebih mudah dari kasus yang lebih kecil. Saya sudah memasukkan mean, mode (di mana ada) dan standar deviasi. Grafik / tabel layak mendapatkan bola mata yang bagus:paling baik dilihat pada ukuran penuh. Saya bisa memasukkan lebih sedikit segi tetapi polanya akan kurang jelas; Saya telah menambahkanBeta(k−12,n−k2)R2nkR
kode sehingga pembaca dapat bereksperimen dengan himpunan bagian yang berbeda dari dan k .nk
Nilai parameter bentuk
Skema warna grafik menunjukkan apakah setiap parameter bentuk kurang dari satu (merah), sama dengan satu (biru), atau lebih dari satu (hijau). Sisi kiri menunjukkan nilai sementara β di kanan. Karena α = k - 1αβ , nilainya meningkat dalam perkembangan aritmatika dengan perbedaan umum1α=k−12 ketika kita bergerak langsung dari kolom ke kolom (tambahkan regressor ke model kita) sedangkan, untukntetap,β=n-k12n berkurang sebanyak1β=n−k2 . Totalα+β=n-112 ditetapkan untuk setiap baris (untuk ukuran sampel tertentu). Jika sebaliknya kita memperbaikikdan menurunkan kolom (menambah ukuran sampel sebesar 1), makaαtetap konstan danβmeningkat sebesar1α+β=n−12kαβ . Dalam istilah regresi,αadalah setengah dari jumlah regressor yang termasuk dalam model, danβadalah setengah dari derajat kebebasan yang tersisa. Untuk menentukan bentuk distribusi kami terutama tertarik di manaαatauβsama dengan.12αβαβ
Aljabar mudah untuk : kami memiliki k - 1αjadik=3. Ini memang satu-satunya kolom plot segi yang berwarna biru di sebelah kiri. Demikian pulaα<1untukk<3(kolomk=2berwarna merah di sebelah kiri) danα>1untukk>3(dari kolomk=4dan seterusnya, sisi kiri berwarna hijau).k−12=1k=3α<1k<3k=2α>1k>3k=4
Untuk kita memiliki n - kβ=1makak=n-2. Perhatikan bagaimana kasing ini (ditandai dengan sisi kanan berwarna biru) memotong garis diagonal di seluruh sisi bidang. Untukβ>1kita memperolehk<n-2(grafik dengan sisi kiri hijau terletak di sebelah kiri garis diagonal). Untukβ<1kita perluk>n-2, yang hanya melibatkan sebagian besar kasus pada grafik saya: padan=kkita memilikiβ=0dan distribusinya mengalami degenerasi, tetapinn−k2=1k=n−2β>1k<n−2β<1k>n−2n=kβ=0 di mana β = 1n=k−1 diplot (sisi kanan berwarna merah).β=12
Karena PDF adalah , jelas bahwa jika (dan hanya jika) α < 1 maka f ( x ) → ∞ sebagai x → 0 . Kita bisa melihat ini dalam grafik: ketika sisi kiri berbayang merah, amati perilaku di 0. Demikian pula ketika β < 1 lalu f ( x ) → ∞ sebagai x → 1 . Lihat di mana sisi kanan berwarna merah!f(x;α,β)∝xα−1(1−x)β−1α<1f(x)→∞x→0β<1f(x)→∞x→1
Simetri
Salah satu fitur grafik yang paling menarik perhatian adalah tingkat simetri, tetapi ketika distribusi Beta terlibat, ini seharusnya tidak mengejutkan!
Distribusi Beta itu sendiri simetris jika . Bagi kami ini terjadi jika n = 2 k - 1 yang mengidentifikasi panel dengan benar ( k = 2 , n = 3 ) , ( k = 3 , n = 5 ) , ( k = 4 , n = 7 ) dan ( k = 5 , n = 9 )α=βn=2k−1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9). Sejauh mana distribusi simetris di tergantung pada berapa banyak variabel regresi yang kami sertakan dalam model untuk ukuran sampel itu. Jika k = n + 1R2=0.5 distribusiR2adalah simetris sempurna sekitar 0,5; jika kita memasukkan lebih sedikit variabel daripada itu menjadi semakin asimetris dan sebagian besar massa kemungkinan bergeser lebih dekat keR2=0; jika kita memasukkan lebih banyak variabel maka itu bergeser lebih dekat keR2=1. Ingatlah bahwakmenyertakan intersep dalam hitungannya, dan kami bekerja di bawah nol, sehingga variabel regressor harus memiliki koefisien nol dalam model yang ditentukan dengan benar.k=n+12R2R2=0R2=1k
Ada juga simetri yang jelas antara distribusi untuk setiap diberikan , yaitu setiap baris dalam facet grid. Misalnya, bandingkan ( k = 3 , n = 9 ) dengan ( k = 7 , n = 9 ) . Apa yang menyebabkan ini? Ingatlah bahwa distribusi B e t a ( α , β ) adalah gambar cermin dari B e t a ( β , α ) di seluruh xn(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α) . Sekarang kami memiliki α k , n = k - 1x=0.5 danβk,n=n-kαk,n=k−12 . Pertimbangkank'=n-k+1dan kita menemukan:βk,n=n−k2k′=n−k+1
βk′,n=n-(n-k+1)
αk′,n=(n−k+1)−12=n−k2=βk,n
βk′,n=n−(n−k+1)2=k−12=αk,n
Jadi ini menjelaskan simetri saat kita memvariasikan jumlah regresi dalam model untuk ukuran sampel tetap. Ini juga menjelaskan distribusi yang sendiri simetris sebagai kasus khusus: bagi mereka, sehingga mereka wajib simetris dengan diri mereka sendiri!k′=k
Ini memberitahu kita sesuatu yang kita mungkin tidak menduga tentang regresi berganda: untuk ukuran sampel yang diberikan , dan dengan asumsi tidak ada regressors memiliki hubungan asli dengan Y , yang R 2 untuk model menggunakan k - 1 regressors ditambah intercept memiliki distribusi yang sama seperti 1 - R 2 tidak untuk model dengan k - 1 derajat sisa kebebasan yang tersisa .nYR2k−11−R2k−1
Distribusi khusus
Ketika kita memiliki β = 0 , yang bukan merupakan parameter yang valid. Namun, seperti β → 0 distribusi menjadi berdegenerasi dengan lonjakan sedemikian rupa sehingga P ( R 2 = 1 ) = 1 . Ini konsisten dengan apa yang kita ketahui tentang model dengan parameter sebanyak poin data - itu mencapai sangat cocok. Saya belum menggambar distribusi degenerasi pada grafik saya tetapi sudah memasukkan mean, mode dan standar deviasi.k=nβ=0β→0P(R2=1)=1
Ketika dan n = 3 kita memperoleh B e t a ( 1k=2n=3yang merupakandistribusi arcsine. Ini simetris (karenaα=β) dan bimodal (0 dan 1). Karena ini adalah satu-satunya kasus di mana keduaα<1danβ<1(ditandai merah di kedua sisi), itu adalah satu-satunya distribusi kami yang pergi hingga tak terbatas di kedua ujung dukungan.Beta(12,12)α=βα<1β<1
The distribusi adalah satu-satunya distribusi Beta yangberbentuk persegi panjang (seragam). Semua nilai R 2 dari 0 hingga 1 kemungkinan sama besar. Satu-satunya kombinasi k dan n dimana α = β = 1 terjadi adalah k = 3 dan n = 5 (ditandai biru di kedua sisi).Beta(1,1)R2knα=β=1k=3n=5
Kasing khusus sebelumnya terbatas penerapannya, tetapi dan β = 1 (hijau di kiri, biru di kanan) penting. Sekarang f ( x ;α>1β=1 sehingga kami memilikidistribusi kuasa-hukumpada [0, 1]. Tentu saja tidak mungkin kami melakukan regresi dengan k = n - 2 dan k > 3 , saat itulah situasi ini terjadi. Tetapi dengan argumen simetri sebelumnya, atau aljabar sepele pada PDF,ketika k = 3 dan n > 5f(x;α,β)∝xα−1(1−x)β−1=xα−1k=n−2k>3k=3n>5, yang merupakan prosedur berulang dari beberapa regresi dengan dua regresi dan mencegat pada ukuran sampel non-sepele, akan mengikuti distribusi kekuatan hukum yang tercermin pada [0, 1] di bawah H 0 . R2H0Ini sesuai dengan dan β > 1 sehingga ditandai biru di kiri, hijau di kanan.α=1β>1
Anda mungkin juga memperhatikan distribusi segitiga di dan refleksinya ( k = 3 , n = 7 ) . Kita dapat mengenali dari α dan β mereka bahwa ini hanyalah kasus khusus dari hukum-kekuasaan dan distribusi hukum-hukum yang direfleksikan di mana kekuatannya 2 - 1 = 1 .(k=5,n=7)(k=3,n=7)αβ2−1=1
Mode
Jika dan β > 1 , semuanya berwarna hijau di plot, f ( x ;α>1β>1 cekung dengan f ( 0 ) = f ( 1 ) = 0 , dan distribusi Beta memiliki mode unik α - 1f(x;α,β)f(0)=f(1)=0 . Menempatkan ini dalam bentukkdann, kondisinya menjadik>3dann>k+2saat mode adalahk-3α−1α+β−2knk>3n>k+2 .k−3n−5
Semua kasus lain telah ditangani di atas. Jika kita mengendurkan ketidaksetaraan untuk memungkinkan , maka kita menyertakan distribusi hukum-kekuatan (hijau-biru) dengan k = n - 2 dan k > 3 (setara, n > 5 ). Kasus-kasus ini jelas memiliki mode 1, yang sebenarnya setuju dengan rumus sebelumnya sejak ( n - 2 ) - 3β=1k=n−2k>3n>5. Jika sebaliknya kita membiarkanα=1tetapi masih menuntutβ>1, kita akan menemukan distribusi hukum-daya yang dipantulkan (biru-hijau) dengank=3dann>5. Mode mereka adalah 0, yang setuju dengan3-3(n−2)−3n−5=1α=1β>1k=3n>5. Namun, jika kita mengendurkan kedua ketidaksetaraan secara bersamaan untuk memungkinkanα=β=1, kita akan menemukan distribusi seragam (semua biru) dengank=3dann=5, yang tidak memiliki mode unik. Selain itu rumus sebelumnya tidak dapat diterapkan dalam kasus ini, karena akan mengembalikan bentuk tak tentu3-33−3n−5=0α=β=1k=3n=5 .3−35−5=00
Ketika kita mendapatkan distribusi yang berdegenerasi dengan mode 1. Ketika β < 1 (dalam istilah regresi, n = k - 1 sehingga hanya ada satu derajat residual kebebasan) maka f ( x ) → ∞ sebagai x → 1 , dan ketika α < 1 (dalam istilah regresi, k = 2 jadi model linier sederhana dengan intersep dan satu regresi) maka f ( x ) → ∞ sebagai x → 0n=kβ<1n=k−1f(x)→∞x→1α<1k=2f(x)→∞x→0. Ini akan menjadi mode unik kecuali dalam kasus yang tidak biasa di mana dan n = 3 (pas model linier sederhana ke tiga titik) yang merupakan bimodal pada 0 dan 1. k=2n=3
Berarti
Pertanyaan yang diajukan tentang mode, tetapi rata-rata bawah nol juga menarik - ia memiliki bentuk sangat sederhana k - 1R2 . Untuk ukuran sampel tetap, ini meningkatkan progres aritmatika karena lebih banyak regressor ditambahkan ke model, hingga nilai rata-rata adalah 1 ketikak=n. Mean dari distribusi Beta adalahαk−1n−1k=n sehingga perkembangan aritmatika seperti itu tidak dapat dihindari dari pengamatan kami sebelumnya bahwa, untukntetap, jumlahα+βadalah konstan tetapiαmeningkat sebesar 0,5 untuk setiap regressor yang ditambahkan ke model.αα+βnα+βα
αα+β=(k−1)/2(k−1)/2+(n−k)/2=k−1n−1
Kode untuk plot
require(grid)
require(dplyr)
nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot
totaln <- length(nlist)
totalk <- length(klist)
df <- data.frame(
x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
k = rep(klist, times = totaln, each = 100),
n = rep(nlist, each = totalk * 100)
)
df <- mutate(df,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
density = dbeta(x, (k-1)/2, (n-k)/2),
groupcol = ifelse(x < 0.5,
ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)
g <- ggplot(df, aes(x, density)) +
geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
scale_fill_brewer(palette="Set1") +
facet_grid(nname ~ kname) +
ylab("probability density") + theme_bw() +
labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
theme(panel.margin = unit(0.6, "lines"),
legend.title=element_text(size=20),
legend.text=element_text(size=20),
legend.background = element_rect(colour = "black"),
legend.position = c(1, 1), legend.justification = c(1, 1))
df2 <- data.frame(
k = rep(klist, times = totaln),
n = rep(nlist, each = totalk),
x = 0.5,
ymean = 7.5,
ymode = 5,
ysd = 2.5
)
df2 <- mutate(df2,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
meanR2 = ifelse(k > n, NaN, a/(a+b)),
modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2),
ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)
g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
geom_text(data=df2, aes(x, ymode, label=modetext)) +
geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)