Regresi linear ketika Anda hanya tahu

Misalkan . $X\beta =Y$

Kita tidak tahu persis, hanya korelasinya dengan masing-masing prediktor, . $Y$ $X^\mathrm{t}Y$

Solusi kuadrat-terkecil (OLS) adalah dan tidak ada masalah. $\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y$

Tapi anggaplah mendekati singular (multicollinearity), dan Anda perlu memperkirakan parameter ridge yang optimal. Semua metode tampaknya membutuhkan nilai tepat . $X^\mathrm{t}X$ $Y$

Apakah ada metode alternatif ketika hanya yang diketahui? $X^\mathrm{t}Y$

regression multicollinearity

— Perasaan
sumber

pertanyaan yang menarik. Mungkin semacam algoritma EM akan bekerja ...

— probabilityislogic

Saya tidak mengerti, tidak bisakah Anda menggunakan validasi silang untuk memperkirakan parameter ridge yang optimal?

— Pardis

@Pardis: Tidak ada fungsi kerugian yang diberikan dalam pertanyaan sehingga kita tidak tahu apa artinya optimal . Bisakah Anda melihat masalah yang kita hadapi jika fungsi kerugiannya adalah MSE?

— kardinal

@ JohnSmith: Anda menyinggung poin yang saya kendarai. Tidak ada indikasi bagaimana mengukur "optimalitas". Apa yang Anda lakukan secara efektif adalah memperkenalkan metrik (fungsi jarak) yang berbeda untuk mengukur "kualitas" prediksi atau kecocokan. Kami membutuhkan detail lebih banyak dari OP untuk bisa melangkah jauh, saya kira.

— kardinal

@Pardis: Menemukan perkiraan bukanlah masalah, seperti yang Anda perhatikan. :) Namun, jika Anda memutuskan untuk melakukan crossvalidation, bagaimana Anda akan memperkirakan MSE out-of-sample, yaitu, pada flip kiri-keluar untuk setiap iterasi? :)

— kardinal

Jawaban:

Ini pertanyaan yang menarik. Anehnya, dimungkinkan untuk melakukan sesuatu berdasarkan asumsi tertentu, tetapi ada potensi hilangnya informasi tentang varian residual. Tergantung pada $X$ berapa banyak yang hilang.

Mari kita pertimbangkan dekomposisi nilai singular berikut dari dengan dan matriks dengan kolom ortonormal, matriks diagonal dengan nilai singular positif di diagonal dan a matriks ortogonal. Kemudian kolom membentuk basis ortonormal untuk ruang kolom dan adalah vektor koefisien untuk proyeksi ke ruang kolom ini ketika diperluas dalam $\newcommand{\t}{^\mathrm{t}}X = UDV\t$ $X$ $U$ $n \times p$ $D$ $d_1 \geq d_2 \geq ... \geq d_p > 0$ $V$ $p \times p$ $U$ $X$

Z = U^{t} Y = D^{- 1} V^{t} V D U^{t} Y = D^{- 1} V^{t} X^{t} Y

$Z = U\t Y = D^{-1} V\t V D U\t Y = D^{-1} V\t X\t Y$

Y

$Y$

U

$U$ Dasar kolom. Dari rumus kita melihat bahwa hanya dapat dihitung dari pengetahuan dan .

Z

$Z$

X

$X$

X^{t} Y

$X\t Y$

Karena prediktor regresi ridge untuk diberikan dapat dihitung sebagai kita melihat bahwa koefisien untuk prediktor regresi ridge dalam basis kolom adalah Sekarang kita membuat asumsi distribusi bahwa memiliki rata-rata dimensi dan matriks kovarian . Maka memiliki -dimensi rata-rata dan matriks kovarian . Jika kita membayangkan seorang yang mandiri $\lambda$

\hat{Y} = X (X^{t} X + λ I)^{- 1} X^{t} Y = U D (D^{2} + λ I)^{- 1} D U^{t} Y = U D (D^{2} + λ I)^{- 1} D Z

$\hat{Y} = X(X\t X + \lambda I)^{-1} X\t Y = U D(D^2 + \lambda I)^{-1} D U\t Y = U D(D^2 + \lambda I)^{-1} D Z$

U

$U$

\hat{Z} = D (D^{2} + λ I)^{- 1} D Z .

$\hat{Z} = D (D^2 + \lambda I)^{-1} D Z.$

Y

$Y$

n

$n$

ξ

$\xi$

σ^{2} I_{n}

$\sigma^2 I_n$

Z

$Z$

p

$p$

U^{t} ξ

$U\t \xi$

σ^{2} I_{p}

$\sigma^2 I_p$

Y^{New}

$Y^{\text{New}}$ dengan distribusi yang sama dengan (semuanya bersyarat pada dari sini) yang sesuai memiliki sama distribusi sebagai dan independen dan Di sini persamaan ketiga diikuti oleh ortogonalitas dan dan yang keempat berdasarkan fakta bahwa

Y

$Y$

X

$X$

Z^{New} = U^{t} Y^{New}

$Z^{\text{New}} = U\t Y^{\text{New}}$

Z

$Z$

\begin{array}{rcl} E | | Y^{New} - \hat{Y} | |^{2} & = & E | | Y^{New} - U Z^{New} + U Z^{New} - U \hat{Z} | |^{2} \\ = & E | | Y^{New} - U Z^{New} | |^{2} + E | | U Z^{New} - U \hat{Z} | |^{2} \\ = & {Err}_{0} + E | | Z^{New} - \hat{Z} | |^{2} . \end{array}

$\begin{eqnarray*} E ||Y^{\text{New}} - \hat{Y}||^2 &= & E || Y^{\text{New}} - U Z^{\text{New}} + U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & E || Y^{\text{New}} - U Z^{\text{New}}||^2 + E||U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & \text{Err}_0 + E||Z^{\text{New}} - \hat{Z} ||^2. \end{eqnarray*}$

Y^{New} - U Z^{New}

$Y^{\text{New}} - U Z^{\text{New}}$

U Z^{New} - U \hat{Z}

$U Z^{\text{New}} - U \hat{Z}$

U

$U$ memiliki kolom ortonormal. Kuantitas adalah kesalahan yang tidak bisa kami dapatkan informasi tentangnya, tetapi juga tidak bergantung pada . Untuk meminimalkan kesalahan prediksi di sisi kiri kita harus meminimalkan istilah kedua di sisi kanan.

{Err}_{0}

$\text{Err}_0$

λ

$\lambda$

Dengan perhitungan standar Di sini dikenal sebagai derajat kebebasan efektif untuk regresi ridge dengan parameter . Estimator tidak bias adalah

\begin{array}{rcl} E | | Z^{New} - \hat{Z} | |^{2} & = & E | | Z - \hat{Z} | |^{2} + 2 \sum_{i = 1}^{p} cov (Z_{i}, {\hat{Z}}_{i}) \\ = & E | | Z - \hat{Z} | |^{2} + 2 σ^{2} \underset{df (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ}}} . \end{array}

$\begin{eqnarray*} E||Z^{\text{New}} - \hat{Z} ||^2 &= & E||Z - \hat{Z}||^2 + 2 \sum_{i=1}^p \text{cov}(Z_i, \hat{Z}_i) \\ & = & E||Z - \hat{Z}||^2 + 2 \sigma^2 \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}}_{\text{df}(\lambda)}. \end{eqnarray*}$

df (λ)

$\text{df}(\lambda)$

λ

$\lambda$

E | | Z - \hat{Z} | |^{2}

$E||Z - \hat{Z}||^2$

err (λ) = | | Z - \hat{Z} | |^{2} = \sum_{i = 1}^{p} {(1 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}^{2} Z_{i}^{2} .

$\text{err}(\lambda) = ||Z - \hat{Z}||^2 = \sum_{i=1}^p \left(1 - \frac{d_i^2}{d_i^2 + \lambda}\right)^2 Z_i^2.$

Kami menggabungkan ini dengan estimator (tidak bias) dari mengingat kita tahu , yang kemudian perlu kita kurangi. Jelas, ini hanya dapat dilakukan jika kita tahu atau memiliki perkiraan yang masuk akal atau estimator dari .

err (λ) + 2 σ^{2} df (λ)

$\text{err}(\lambda) + 2 \sigma^2 \text{df}(\lambda)$

E | | Z^{New} - \hat{Z} | |^{2}

$E||Z^{\text{New}} - \hat{Z} ||^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

Memperkirakan bisa lebih bermasalah. Dimungkinkan untuk menunjukkan bahwa Jadi jika dimungkinkan untuk memilih sangat kecil sehingga bias kuadrat dapat diabaikan, kita dapat mencoba memperkirakan sebagai Jika akan pekerjaan ini tergantung banyak pada . $\sigma^2$

E | | Z - \hat{Z} | |^{2} = σ^{2} (p - \underset{d (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ} (2 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}}) + bias (λ)^{2} .

$E||Z - \hat{Z}||^2 = \sigma^2\left(p - \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}\left(2 - \frac{d_i^2}{d_i^2 + \lambda}\right)}_{\text{d}(\lambda)}\right) + \text{bias}(\lambda)^2.$

λ

$\lambda$

σ^{2}

$\sigma^2$

{\hat{σ}}^{2} = \frac{1}{p - d (λ)} | | Z - \hat{Z} | |^{2} .

$\hat{\sigma}^2 = \frac{1}{p-\text{d}(\lambda)} ||Z - \hat{Z}||^2.$

X

$X$

Untuk beberapa detail, lihat Bagian 3.4.1 dan Bab 7 di ESL atau mungkin Bab 2 yang lebih baik di GAM .

— NRH
sumber

Tetapkan seperti pada pertanyaan dan untuk berbagai parameter dan set dari label sampel. Kemudian dapat dihitung karena tidak dapat digunakan saat memperluas keduanya norma. $β$ $β(λ,K)=[(X^TX)_{KK}+λI]^{−1}(X^TY)_K$ $\lambda$ $K$ $e(λ,K):=\|Xβ(λ,K)-Y\|^2-\|Xβ-Y\|^2$ $\|Y\|^2$

Ini mengarah ke algoritma berikut:

Menghitung untuk beberapa pilihan pelatihan set . $e(λ,K)$ $K$
Plot hasilnya sebagai fungsi . $\lambda$
Terima nilai yang plotnya paling rata. $\lambda$
Gunakan sebagai estimasi akhir. $β^*=[X^TX+λI]^{−1}X^TY$

— Arnold Neumaier
sumber

Saya menduga "di mana plotnya paling rata" akan berada di sangat kecil, seperti kira-kira 0 :)

λ

$\lambda$

— jbowman

@jbowman: Ini hanya akan terjadi jika masalahnya dikondisikan dengan baik dan tidak memerlukan regularisasi, maka memang memadai. Dalam kasus yang dikondisikan buruk, prediksi item di luar akan menjadi buruk karena overfitting, dan karena itu akan menjadi besar.

λ = 0

$\lambda=0$

K

$K$

e (λ, K)

$e(\lambda,K)$

— Arnold Neumaier

@ArnoldNeumaier: tidak dapat dihitung. Kami hanya tahu korelasi dengan masing-masing prediktor. ada di "domain prediktor", bukan di "domain Y" (Jika N adalah ukuran sampel dan p jumlah prediktor, kami hanya memiliki nilai p, satu untuk setiap prediktor).

(X^{T} Y)_{K}

$(X^TY)_K$

(X^{T} Y)

$(X^TY)$

— Jag

@ Jag: Maka tidak ada informasi yang cukup untuk memilih . Tapi pasti telah dikumpulkan entah bagaimana. Jika selama pengumpulannya Anda mempartisi sampel menjadi batch dan merakit secara terpisah untuk setiap batch maka satu dapat memesan satu batch masing-masing untuk validasi silang.

λ

$\lambda$

X^{T} Y

$X^TY$

k

$k$

X^{T} Y

$X^TY$

— Arnold Neumaier

@ArnoldNeumaier: diberikan secara eksternal, jangan dikumpulkan.

X^{T} Y

$X^TY$

— Jag