Bagaimana cara melakukan regresi ortogonal (kuadrat terkecil total) melalui PCA?

Saya selalu menggunakan lm()dalam R untuk melakukan regresi linier pada . Fungsi itu mengembalikan koefisien sehingga $y$ $x$ $\beta$

y = β x .

$y = \beta x.$

Hari ini saya belajar tentang kuadrat terkecil total dan princomp()fungsi itu (analisis komponen utama, PCA) dapat digunakan untuk melakukannya. Itu harus baik untuk saya (lebih akurat). Saya telah melakukan beberapa tes menggunakan princomp(), seperti:

r <- princomp( ~ x + y)

Masalah saya adalah: bagaimana menafsirkan hasilnya? Bagaimana saya bisa mendapatkan koefisien regresi? Dengan "koefisien" Maksud saya angka yang harus saya gunakan untuk mengalikan nilai untuk memberikan angka mendekati . $\beta$ $x$ $y$

— Dail
sumber

Suatu saat teman-teman, saya agak bingung. lihat di: zoonek2.free.fr/UNIX/48_R/09.html Ini disebut PCA (Principal Component Analysis, alias "regresi orthogonal" atau "jumlah kuadrat tegak lurus" atau "total kuadrat terkecil") jadi saya pikir kita sedang berbicara tentang TLS dengan princomp () Tidak?

— Dail

Tidak; itu adalah dua hal yang berbeda, lihat artikel wikipedia tentang PCA. Fakta yang digunakan di sini adalah peretasan (saya tidak tahu seberapa tepatnya, tapi saya akan memeriksanya); itu sebabnya ekstraksi koefisien yang kompleks.

Sebuah pertanyaan terkait: stats.stackexchange.com/questions/2691/… dan sebuah posting blog direferensikan oleh salah satu jawaban: cerebralmastication.com/2010/09/…

— Jonathan

Kuadrat terkecil biasa vs kuadrat terkecil total

Pertama mari kita pertimbangkan kasus paling sederhana dari hanya satu variabel prediktor (independen) . Untuk kesederhanaan, biarkan keduanya dan dipusatkan, yaitu intersep selalu nol. Perbedaan antara regresi OLS standar dan regresi "orthogonal" TLS jelas ditunjukkan pada gambar (diadaptasi oleh saya) ini dari jawaban paling populer di utas terpopuler di PCA: $x$ $x$ $y$

OLS vs TLS

OLS cocok persamaan dengan meminimalkan jarak kuadrat antara nilai-nilai yang diamati dan nilai-nilai diprediksi . TLS cocok dengan persamaan yang sama dengan meminimalkan jarak kuadrat antara poin dan proyeksi mereka di telepon. Dalam kasus paling sederhana ini garis TLS hanyalah komponen utama pertama dari data 2D. Untuk menemukan , jangan PCA pada poin, yaitu membangun kovarians matriks dan menemukan vektor eigen pertama $y=\beta x$ $y$ $\hat y$ $(x,y)$ $\beta$ $(x,y)$ $2\times 2$ $\boldsymbol \Sigma$ ; maka . $\mathbf v = (v_x, v_y)$ $\beta = v_y/v_x$

Di Matlab:

 v = pca([x y]);    //# x and y are centered column vectors
 beta = v(2,1)/v(1,1);

Dalam R:

 v <- prcomp(cbind(x,y))$rotation
 beta <- v[2,1]/v[1,1]

By the way, ini akan menghasilkan kemiringan yang benar bahkan jika dan tidak terpusat (karena fungsi PCA bawaan secara otomatis melakukan pemusatan). Untuk memulihkan intersep, hitung . $x$ $y$ $\beta_0 = \bar y - \beta \bar x$

OLS vs. TLS, regresi berganda

Diberikan variabel dependen dan banyak variabel independen (sekali lagi, semuanya berpusat untuk kesederhanaan), regresi sesuai dengan persamaan OLS tidak cocok dengan meminimalkan kesalahan kuadrat antara nilai-nilai yang diamati dari dan diperkirakan nilai-nilai . TLS melakukan fit dengan meminimalkan jarak kuadrat antara yang diamati $y$ $x_i$

y = β_{1} x_{1} + \dots + β_{p} x_{p} .

$y= \beta_1 x_1 + \ldots + \beta_p x_p.$

y

$y$

\hat{y}

$\hat y$

(x, y) \in R^{p + 1}

$(\mathbf x, y)\in\mathbb R^{p+1}$ poin dan poin terdekat pada bidang regresi / pesawat terbang.

Perhatikan bahwa tidak ada lagi "garis regresi"! Persamaan di atas menentukan hyperplane : ini adalah bidang 2D jika ada dua prediktor, 3D hyperplane jika ada tiga prediktor, dll. Jadi solusi di atas tidak berfungsi: kita tidak bisa mendapatkan solusi TLS dengan hanya mengambil PC pertama (yang merupakan sebuah garis). Meski begitu, solusinya dapat dengan mudah diperoleh melalui PCA.

Seperti sebelumnya, PCA dilakukan pada titik . Ini menghasilkan vektor eigen di kolom . Vektor eigen pertama mendefinisikan hyperplane -dimensional yang kita butuhkan; yang terakhir (nomor ) vektor eigen adalah orthogonal untuk itu. Pertanyaannya adalah bagaimana mengubah basis diberikan oleh vektor eigen pertama menjadi koefisien . $(\mathbf x, y)$ $p+1$ $\mathbf V$ $p$ $p$ $\mathcal H$ $p+1$ $\mathbf v_{p+1}$ $\mathcal H$ $p$ $\boldsymbol \beta$

Perhatikan bahwa jika kita mengatur untuk semua dan hanya , maka , yaitu vektor terletak pada hyperplane . Di sisi lain, kita tahu bahwa $x_i=0$ $i \ne k$ $x_k=1$ $\hat y=\beta_k$

(0, \dots, 1, \dots, β_{k}) \in H

$(0,\ldots, 1, \ldots, \beta_k) \in \mathcal H$

H

$\mathcal H$

ortogonal untuk itu. Yaitu produk titik mereka harus nol:

v_{p + 1} = (v_{1}, \dots, v_{p + 1}) ⊥ H

$\mathbf v_{p+1}=(v_1, \ldots, v_{p+1}) \:\bot\: \mathcal H$

v_{k} + β_{k} v_{p + 1} = 0 \Rightarrow β_{k} = - v_{k} / v_{p + 1} .

$v_k + \beta_k v_{p+1}=0 \Rightarrow \beta_k = -v_k/v_{p+1}.$

Di Matlab:

 v = pca([X y]);    //# X is a centered n-times-p matrix, y is n-times-1 column vector
 beta = -v(1:end-1,end)/v(end,end);

Dalam R:

 v <- prcomp(cbind(X,y))$rotation
 beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]

Sekali lagi, ini akan menghasilkan lereng yang benar bahkan jika dan tidak terpusat (karena fungsi PCA bawaan secara otomatis melakukan pemusatan). Untuk memulihkan intersep, hitung . $x$ $y$ $\beta_0 = \bar y - \bar {\mathbf x} \boldsymbol \beta$

$x$ $(x,y)$ $v^{(1)}_y/v^{(1)}_x=-v^{(2)}_x/v^{(2)}_y$

Solusi formulir tertutup untuk TLS

$\boldsymbol \beta$

$\mathbf X$ $\mathbf y$ $\mathbf v_{p+1}$ $[\mathbf X\: \mathbf y]$ $\sigma^2_{p+1}$ $-\mathbf v_{p+1}/v_{p+1} = (\boldsymbol \beta\:\: -1)^\top$

(\begin{matrix} X^{⊤} X & X^{⊤} y \\ y^{⊤} X & y^{⊤} y \end{matrix}) (\begin{matrix} β \\ - 1 \end{matrix}) = σ_{p + 1}^{2} (\begin{matrix} β \\ - 1 \end{matrix}),

$\left(\begin{array}{c}\mathbf X^\top \mathbf X & \mathbf X^\top \mathbf y\\ \mathbf y^\top \mathbf X & \mathbf y^\top \mathbf y\end{array}\right) \left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right) = \sigma^2_{p+1}\left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right),$

β_{T L S} = (X^{⊤} X - σ_{p + 1}^{2} I)^{- 1} X^{⊤} y,

$\boldsymbol \beta_\mathrm{TLS} = (\mathbf X^\top \mathbf X - \sigma^2_{p+1}\mathbf I)^{-1} \mathbf X^\top \mathbf y,$

β_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} y .

$\boldsymbol \beta_\mathrm{OLS} = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y.$

Regresi berganda multivarian

Rumus yang sama dapat digeneralisasi ke kasus multivariat, tetapi bahkan untuk menentukan apa yang dilakukan TLS multivariat, akan memerlukan beberapa aljabar. Lihat Wikipedia di TLS . Regresi OLS multivariat setara dengan sekelompok regresi OLS univariat untuk setiap variabel dependen, tetapi dalam kasus TLS tidak demikian.

— amuba kata Reinstate Monica
sumber

Saya tidak tahu R, tetapi masih ingin memberikan cuplikan R untuk referensi di masa mendatang. Ada banyak orang di sini yang mahir dalam R. Silakan mengedit cuplikan saya jika diperlukan! Terima kasih.

— Amuba kata Reinstate Monica

(0, \dots, 1, \dots, β_{k})

$(0,\ldots, 1, \ldots, \beta_k)$

x_{i}

$x_i$

x_{k} = 1

$x_k=1$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

y = β_{k} \cdot 1 = β_{k}

$y=\beta_k\cdot 1 = \beta_k$

(0, \dots, 1, \dots β_{k})

$(0,\ldots, 1, \ldots \beta_k)$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

— Amuba kata Reinstate Monica

Sepertinya saya salah membaca bagian itu, tetapi sekarang sudah jelas. Terima kasih atas klarifikasi juga.

— JohnK

Dalam R, Anda mungkin lebih suka "eigen (cov (cbind (x, y))) $ vektor" lebih dari "prcomp (cbind (x, y)) $ rotasi" karena yang pertama jauh lebih cepat untuk vektor yang lebih besar.

— Thomas Browne

Berdasarkan implementasi GNU Octave yang naif ditemukan di sini , sesuatu seperti ini mungkin (butiran garam, sudah terlambat) bekerja.

tls <- function(A, b){

  n <- ncol(A)
  C <- cbind(A, b)

  V <- svd(C)$v
  VAB <- V[1:n, (n+1):ncol(V)]
  VBB <- V[(n+1):nrow(V), (n+1):ncol(V)]
  return(-VAB/VBB)
}

— cashoes
sumber

princompmenjalankan analisis komponen utama alih-alih total kuadrat terkecil regresi. Sejauh yang saya tahu tidak ada fungsi R atau paket yang melakukan TLS; paling banyak ada regresi Deming di MethComp .
Namun, tolong perlakukan ini sebagai saran bahwa kemungkinan besar itu tidak sepadan.

Saya pikir Deming dalam paket MethComp adalah TLS - apa bedanya?

— mark999

Anda harus memberikannya rasio kesalahan pada x dan y; TLS murni mengoptimalkan ini.