Demi contoh sederhana berasumsi bahwa ada dua model regresi linier
- Model 1 memiliki tiga prediktor,
x1a
,x2b
, danx2c
- Model 2 memiliki tiga prediktor dari model 1 dan dua prediktor tambahan
x2a
danx2b
Ada persamaan regresi populasi di mana varians populasi yang dijelaskan adalah untuk Model 1 dan untuk Model 2. Varian inkremental yang dijelaskan oleh Model 2 dalam populasi adalah
Saya tertarik mendapatkan kesalahan standar dan interval kepercayaan untuk estimator . Sementara contohnya masing-masing melibatkan 3 dan 2 prediktor, minat penelitian saya menyangkut sejumlah besar prediktor yang berbeda (misalnya, 5 dan 30). Pikiran pertama saya adalah menggunakan sebagai estimator dan bootstrap, tapi saya tidak yakin apakah ini akan sesuai.
Pertanyaan
- Apakah penduga yang masuk akal dari ?
- Bagaimana interval kepercayaan dapat diperoleh untuk populasi r-square berubah (yaitu, )?
- Apakah bootstrap sesuai untuk perhitungan interval kepercayaan?
Referensi apa pun untuk simulasi atau literatur yang diterbitkan juga akan sangat disambut.
Kode contoh
Jika itu membantu, saya membuat dataset simulasi kecil di R yang dapat digunakan untuk menunjukkan jawaban:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Alasan untuk khawatir dengan bootstrap
Saya menjalankan bootstrap pada beberapa data dengan sekitar 300 kasus, dan 5 prediktor dalam model sederhana dan 30 prediktor dalam model lengkap. Sementara estimasi sampel menggunakan perbedaan r-square disesuaikan adalah 0.116
, interval kepercayaan boostrapped sebagian besar CI95% lebih besar (0,095-0,214) dan rata-rata bootstraps tidak jauh dari perkiraan sampel. Sebaliknya rata-rata sampel yang di-boostrapped tampaknya berpusat pada estimasi sampel dari perbedaan antara r-square dalam sampel. Ini terlepas dari kenyataan bahwa saya menggunakan sampel yang disesuaikan r-kuadrat untuk memperkirakan perbedaannya.
Menariknya, saya mencoba alternatif cara komputasi sebagai
- menghitung sampel perubahan r-square
- sesuaikan perubahan r-square sampel menggunakan rumus r-square yang disesuaikan standar
Ketika diterapkan pada data sampel, ini mengurangi estimasi menjadi tetapi interval kepercayaan tampaknya sesuai untuk metode yang saya sebutkan pertama, CI95% (.062, .179) dengan rata-rata .118..082
Secara umum, saya khawatir bahwa bootstrap mengasumsikan bahwa sampel adalah populasi, dan oleh karena itu perkiraan bahwa pengurangan untuk overfitting mungkin tidak berfungsi dengan tepat.