Mengapa regresi ridge glmnet memberi saya jawaban berbeda dari perhitungan manual?

Saya menggunakan glmnet untuk menghitung estimasi regresi ridge. Saya mendapatkan beberapa hasil yang membuat saya curiga bahwa glmnet benar-benar melakukan apa yang menurut saya benar. Untuk memeriksa ini saya menulis sebuah skrip R sederhana di mana saya membandingkan hasil regresi ridge yang dilakukan oleh resol dan yang di glmnet, perbedaannya signifikan:

n    <- 1000
p.   <-  100
X.   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y)
beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, 
                family="gaussian")$beta@x
beta1-beta2

Norma perbedaan biasanya sekitar 20 yang tidak dapat disebabkan oleh algoritma yang berbeda secara numerik, saya pasti melakukan sesuatu yang salah. Pengaturan apa yang harus saya atur glmnetuntuk mendapatkan hasil yang sama seperti dengan ridge?

r ridge-regression glmnet

— John
sumber

Pernahkah Anda melihat pertanyaan ini ?

— cdeterman

Ya, tapi saya masih belum mendapatkan hasil yang sama menggunakan normalisasi.

— John

Bisakah Anda memposting kode Anda?

— shadowtalker

Saya baru saja mengalami masalah yang sama! a = data.frame (a = jitter (1:10), b = jitter (1:10), c = jitter (1:10), d = jitter (1:10), e = jitter (1:10) , f = jitter (1:10), g = sampel (jitter (1:10)), y = seq (10,100,10)); coef (lm.ridge (y ~ a + b + c + d + e + f + g, a, lambda = 2.57)); coef (glmnet (as.matrix (a [, 1: 7]), a $ y, family = "gaussian", alpha = 0, lambda = 2.57 / 10)) Hasilnya sedikit berbeda dan menjadi jauh lebih mirip ketika Saya menggunakan lambdas yang jauh lebih tinggi untuk glmnet.

— a11msp

Menarik. Koefisien tampaknya berbeda secara kasar dengan faktor 10.

— tomka

Jawaban:

Perbedaan yang Anda amati adalah karena pembagian tambahan dengan jumlah pengamatan, N, yang digunakan GLMNET dalam fungsi tujuan mereka dan standardisasi implisit Y oleh sampel standar deviasi seperti yang ditunjukkan di bawah ini.

\frac{1}{2 N} {‖ \frac{y}{s_{y}} - X β ‖}_{2}^{2} + λ ‖ β ‖_{2}^{2} / 2

$\frac{1}{2N}\left\|\frac{y}{s_y}-X\beta\right\|^2_{2}+\lambda\|\beta\|^2_{2}/2$

di mana kita menggunakan sebagai pengganti untuk , $1/n$ $1/(n-1)$ $s_y$

s_{y} = \frac{\sum_{i} (y_{i} - \bar{y})^{2}}{n}

$s_y=\frac{\sum_i(y_i-\bar{y})^2}{n}$

Dengan membedakan sehubungan dengan beta, mengatur persamaan ke nol,

X^{T} X β - \frac{X^{T} y}{s_{y}} + N λ β = 0

$X^TX\beta-\frac{X^Ty}{s_y}+N\lambda\beta =0$

Dan pemecahan untuk beta, kami memperoleh estimasi,

{\tilde{β}}_{G L M N E T} = (X^{T} X + N λ I_{p})^{- 1} \frac{X^{T} y}{s_{y}}

$\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}\frac{X^Ty}{s_y}$

Untuk memulihkan taksiran (dan hukumannya yang sesuai) pada metrik Y asli, GLMNET mengalikan taksiran dan dengan dan mengembalikan hasil ini kepada pengguna, $s_y$

{\hat{β}}_{G L. M. N E T} = s_{y} {\tilde{β}}_{G L. M. N E T} = (X^{T} X + N λ {saya}_{hal})^{- 1} X^{T} y

$\hat{\beta}_{GLMNET}=s_y\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}X^Ty$

λ_{kamu n s t d .} = s_{y} λ

$\lambda_{unstd.}=s_y\lambda$

Bandingkan solusi ini dengan derivasi standar regresi ridge.

\hat{β} = (X^{T} X + λ {saya}_{hal})^{- 1} X^{T} y

$\hat{\beta}= (X^TX+\lambda I_p)^{-1}X^Ty$

Perhatikan bahwa diskalakan oleh faktor tambahan N. Selain itu, ketika kita menggunakan fungsi atau , penalti akan secara implisit diskalakan oleh . Dengan kata lain, ketika kita menggunakan fungsi-fungsi ini untuk mendapatkan estimasi koefisien untuk beberapa , kita secara efektif mendapatkan estimasi untuk . $\lambda$ predict()coef() $1/s_y$ $\lambda^*$ $\lambda=\lambda^*/s_y$

Berdasarkan pengamatan ini, hukuman yang digunakan dalam GLMNET perlu ditingkatkan dengan faktor . $s_y/N$

set.seed(123)

n    <- 1000
p   <-  100
X   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

beta1 <- solve(t(X)%*%X+10*diag(p),t(X)%*%(Y))[,1]

fit_glmnet <- glmnet(X,Y, alpha=0, standardize = F, intercept = FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

           [,1]        [,2]
[1,]  0.23793862  0.23793862
[2,]  1.81859695  1.81859695
[3,] -0.06000195 -0.06000195
[4,] -0.04958695 -0.04958695
[5,]  0.41870613  0.41870613
[6,]  1.30244151  1.30244151
[7,]  0.06566168  0.06566168
[8,]  0.44634038  0.44634038
[9,]  0.86477108  0.86477108
[10,] -2.47535340 -2.47535340

Hasil generalisasi dengan dimasukkannya variabel X intersep dan standar. Kami memodifikasi matriks X standar untuk memasukkan kolom yang dan matriks diagonal untuk memiliki entri nol tambahan di posisi [1,1] (yaitu tidak menghukum intersep). Anda kemudian dapat menghapus standar estimasi dengan masing-masing standar deviasi sampel (sekali lagi memastikan Anda menggunakan 1 / n saat menghitung standar deviasi).

{\hat{β}}_{j} = \frac{\tilde{β_{j}}}{s_{x_{j}}}

$\hat\beta_{j}=\frac{\tilde{\beta_j}}{s_{x_j}}$

{\hat{β}}_{0} = \tilde{β_{0}} - {\bar{x}}^{T} \hat{β}

$\hat\beta_{0}=\tilde{\beta_0}-\bar{x}^T\hat{\beta}$

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)
X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}
X_scaled_ones <- cbind(rep(1,n), X_scaled)

beta3 <- solve(t(X_scaled_ones)%*%X_scaled_ones+1000*diag(x = c(0, rep(1,p))),t(X_scaled_ones)%*%(Y))[,1]
beta3 <- c(beta3[1] - crossprod(mean_x,beta3[-1]/sd_x), beta3[-1]/sd_x)

fit_glmnet2 <- glmnet(X,Y, alpha=0, thresh = 1e-20)
beta4 <- as.vector(coef(fit_glmnet2, s = sd_y*1000/n, exact = TRUE))

cbind(beta3[1:10], beta4[1:10])
             [,1]        [,2]
 [1,]  0.24534485  0.24534485
 [2,]  0.17661130  0.17661130
 [3,]  0.86993230  0.86993230
 [4,] -0.12449217 -0.12449217
 [5,] -0.06410361 -0.06410361
 [6,]  0.17568987  0.17568987
 [7,]  0.59773230  0.59773230
 [8,]  0.06594704  0.06594704
 [9,]  0.22860655  0.22860655
[10,]  0.33254206  0.33254206

Kode ditambahkan untuk menunjukkan X standar tanpa intersep:

set.seed(123)

n <- 1000
p <-  100
X <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)

X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}

beta1 <- solve(t(X_scaled)%*%X_scaled+10*diag(p),t(X_scaled)%*%(Y))[,1]

fit_glmnet <- glmnet(X_scaled,Y, alpha=0, standardize = F, intercept = 
FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

             [,1]        [,2]
 [1,]  0.23560948  0.23560948
 [2,]  1.83469846  1.83469846
 [3,] -0.05827086 -0.05827086
 [4,] -0.04927314 -0.04927314
 [5,]  0.41871870  0.41871870
 [6,]  1.28969361  1.28969361
 [7,]  0.06552927  0.06552927
 [8,]  0.44576008  0.44576008
 [9,]  0.90156795  0.90156795
[10,] -2.43163420 -2.43163420

— skijunkie
sumber

+6. Selamat datang di CV dan terima kasih telah menjawab pertanyaan lama ini dengan sangat jelas.

— Amoeba mengatakan Reinstate Monica

Seharusnya matriks identitas bukan dalam solusi , benar?

β

$\beta$

\tilde{β}

$\tilde{\beta}$

— user1769197

Saya juga memperhatikan bahwa untuk bagian kedua di mana Anda mengatakan "Hasilnya menggeneralisasi untuk dimasukkannya variabel X yang mencegat dan standar"; untuk bagian ini, jika Anda mengecualikan intersep, kemudian mengikuti perhitungan yang sama, hasil glmnet menjadi berbeda dari perhitungan manual.

— user1769197

Benar, saya telah memperbarui solusi dengan matriks identitas sebagai pengganti sesuai kebutuhan. Saya memeriksa solusi untuk X standar tanpa intersep dan masih mendapatkan hasil yang identik (lihat kode tambahan di atas).

β

$\beta$

— skijunkie

Menurut https://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html , ketika keluarga itu gaussian, glmnet()harus meminimalkan

\begin{matrix} (1) & \frac{1}{2 n} \sum_{saya = 1}^{n} (y_{saya} - β_{0} - x_{saya}^{T} β)^{2} + λ \sum_{j = 1}^{hal} (α | β_{j} | + (1 - α) β_{j}^{2} / 2) . \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda\sum_{j=1}^p(\alpha|\beta_j| +(1-\alpha)\beta_j^2/2). \tag{1}$

Ketika menggunakan glmnet(x, y, alpha=1)agar sesuai dengan laso dengan kolom dalam standar, solusi untuk penalti yang dilaporkan adalah solusi untuk meminimalkan Namun, setidaknya dalam , ketika menggunakan agar sesuai dengan regresi ridge, solusi untuk penalti yang dilaporkan adalah solusi untuk meminimalkan di mana adalah standar deviasi . Di sini, hukuman seharusnya dilaporkan sebagai . $x$ $\lambda$

\frac{1}{2 n} \sum_{saya = 1}^{n} (y_{saya} - β_{0} - x_{saya}^{T} β)^{2} + λ \sum_{j = 1}^{hal} | β_{j} | .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \sum_{j=1}^p |\beta_j|.$ glmnet_2.0-13glmnet(x, y, alpha=0)

λ

$\lambda$

\frac{1}{2 n} \sum_{saya = 1}^{n} (y_{saya} - β_{0} - x_{saya}^{T} β)^{2} + λ \frac{1}{2 s_{y}} \sum_{j = 1}^{hal} β_{j}^{2} .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \frac{1}{2s_y} \sum_{j=1}^p \beta_j^2.$

s_{y}

$s_y$

y

$y$

λ / s_{y}

$\lambda/s_y$

Apa yang mungkin terjadi adalah bahwa fungsi pertama-tama menstandarkan ke dan kemudian meminimalkan yang secara efektif adalah untuk meminimalkan atau yang setara, untuk meminimalkan $y$ $y_0$

\begin{matrix} (2) & \frac{1}{2 n} \sum_{saya = 1}^{n} (y_{0 saya} - x_{saya}^{T} γ)^{2} + η \sum_{j = 1}^{hal} (α | γ_{j} | + (1 - α) γ_{j}^{2} / 2), \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_{0i}-x_i^T\gamma)^2 +\eta \sum_{j=1}^p(\alpha|\gamma_j| +(1-\alpha)\gamma_j^2/2), \tag{2}$

\frac{1}{2 n s_{y}^{2}} \sum_{saya = 1}^{n} (y_{saya} - β_{0} - x_{saya}^{T} β)^{2} + η \frac{α}{s_{y}} \sum_{j = 1}^{hal} | β_{j} | + η \frac{1 - α}{2 s_{y}^{2}} \sum_{j = 1}^{hal} β_{j}^{2},

$\frac{1}{2n s_y^2} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta \frac{\alpha}{s_y} \sum_{j=1}^p |\beta_j| +\eta \frac{1-\alpha}{2s_y^2} \sum_{j=1}^p \beta_j^2,$

\frac{1}{2 n} \sum_{saya = 1}^{n} (y_{saya} - β_{0} - x_{saya}^{T} β)^{2} + η s_{y} α \sum_{j = 1}^{hal} | β_{j} | + η (1 - α) \sum_{j = 1}^{hal} β_{j}^{2} / 2.

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta s_y \alpha \sum_{j=1}^p |\beta_j| +\eta (1-\alpha) \sum_{j=1}^p \beta_j^2/2.$

Untuk laso ( ), skala kembali untuk melaporkan penalti karena masuk akal. Maka untuk semua , harus dilaporkan sebagai penalti untuk menjaga kesinambungan hasil di seluruh . Ini mungkin adalah penyebab masalah di atas. Ini sebagian karena menggunakan (2) untuk menyelesaikan (1). Hanya ketika atau ada beberapa kesetaraan antara masalah (1) dan (2) (yaitu, korespondensi antara di (1) dan in (2)). Untuk $\alpha=1$ $\eta$ $\eta s_y$ $\alpha$ $\eta s_y$ $\alpha$ $\alpha=0$ $\alpha=1$ $\lambda$ $\eta$ $\alpha\in(0,1)$ , masalah (1) dan (2) adalah dua masalah pengoptimalan yang berbeda, dan tidak ada korespondensi satu-ke-satu antara di (1) dan di (2). $\lambda$ $\eta$

— Chun Li
sumber

Saya tidak bisa melihat di mana jawaban Anda berbeda dari yang sebelumnya. Bisakah Anda jelaskan?

— Firebug

@ Firebug Saya ingin menjelaskan mengapa fungsi melaporkan lambda dengan cara ini, yang tampak tidak wajar jika dilihat hanya dari sudut pandang regresi ridge, tetapi masuk akal (atau harus seperti ini) jika dilihat dari perspektif seluruh spektrum termasuk punggungan dan laso.

— Chun Li