Pertimbangkan model linier sederhana:
yy = X ′ ββ + ϵ
dimana ϵ i ∼ i . i . d .N ( 0 , σ 2 )
Pertanyaan saya adalah, mengingat E ( X ′ X )
* Saya berasumsi, menulis ini, bahwa mendapatkan E ( R 2 )
EDIT1
menggunakan solusi yang diturunkan oleh Stéphane Laurent (lihat di bawah) kita bisa mendapatkan batas atas non trivial pada E ( R 2 )
Stéphane Laurent diturunkan sebagai berikut: R 2 ∼ B ( p - 1 , n - p , λ ) di
λ = | | X ′ β - E ( X ) ′ β 1 n | | 2σ 2
Begitu
E ( R 2 ) = E ( χ 2 p - 1 ( λ )χ 2 p - 1 ( λ ) + χ 2 n - p )≥E(χ 2 p - 1 (λ))E ( χ 2 p - 1 ( λ ) ) + E ( χ 2 n - p )
di mana χ 2 k ( λ )
λ + p - 1λ + n - 1
itu sangat ketat (jauh lebih ketat dari apa yang saya harapkan mungkin terjadi):
misalnya, menggunakan:
rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)
rata-rata dari R 2 lebih dari 1000 simulasi adalah . Batas atas teoretis di atas memberi . Terikat tampaknya sama-sama tepat di banyak nilai-nilai R 2 . Benar-benar mencengangkan!0.960819
0.9609081
EDIT2:
setelah penelitian lebih lanjut, tampak bahwa kualitas perkiraan batas atas ke E ( R 2 ) akan menjadi lebih baik karena λ + p meningkat (dan semuanya sama, λ meningkat dengan n ).