Kesetaraan korelasi sampel dan statistik R untuk regresi linier sederhana

10

Sering dinyatakan bahwa kuadrat dari korelasi sampel $r^2$ setara dengankoefisien determinasiuntuk regresi linier sederhana. Saya tidak dapat menunjukkan ini sendiri dan akan menghargai bukti lengkap dari fakta ini. $R^2$

regression correlation

— edwardsm88
sumber

1

Jika ini adalah pertanyaan belajar mandiri, harap tambahkan tag yang sesuai.

— Andy

Pertanyaan ini juga menanyakan mengapa .

R^{2} = r^{2}

$R^2=r^2$

— Silverfish

8

Tampaknya ada beberapa variasi dalam notasi: dalam regresi linier sederhana, saya biasanya melihat frase "koefisien korelasi sampel" dengan simbol sebagai referensi untuk korelasi antara nilai dan diamati . Ini adalah notasi yang telah saya adopsi untuk jawaban ini. Saya juga telah melihat frase yang sama dan simbol yang digunakan untuk merujuk pada korelasi antara diamati dan dilengkapi ; dalam jawaban saya, saya telah disebut ini sebagai "koefisien korelasi" dan menggunakan simbol . Jawaban ini membahas mengapa koefisien determinasi adalah kuadrat dan juga kuadrat $r$ $x$ $y$ $y$ $\hat y$ $R$ $r$ $R$ , jadi tidak masalah penggunaan yang dimaksudkan.

Hasil mengikuti dalam satu baris aljabar sekali beberapa fakta langsung tentang korelasi dan makna ditetapkan, sehingga Anda dapat memilih untuk melompat ke bawah ke persamaan kotak. Saya berasumsi kita tidak perlu membuktikan sifat dasar kovarian dan varians, khususnya: $r^2$ $R$

Cov (a X + b, Y) = a Cov (X, Y)

$\text{Cov}(aX+b, Y) = a\text{Cov}(X,Y)$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b) = a^2\text{Var}(X)$

Perhatikan bahwa yang terakhir dapat diturunkan dari yang pertama, setelah kita tahu bahwa kovarians adalah simetris dan . Dari sini kita memperoleh fakta dasar lain, tentang korelasi. Untuk , dan selama dan memiliki varian bukan nol, $\text{Var}(X)= \text{Cov}(X,X)$ $a \neq 0$ $X$ $Y$

\begin{aligned} Cor (a X + b, Y) & = \frac{Cov (a X + b, Y)}{\sqrt{Var (a X + b) Var (Y)}} \\ = \frac{a}{\sqrt{a^{2}}} \times \frac{Cov (X, Y)}{\sqrt{Var (X) Var (Y)}} \\ Cor (a X + b, Y) & = sgn (a) Cor (X, Y) \end{aligned}

$\begin{align} \text{Cor}(aX+b, Y) &= \frac{\text{Cov}(aX+b, Y)}{\sqrt{\text{Var}(aX+b) \text{Var} (Y)}} \\ &= \frac{a}{\sqrt{a^2}} \times \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \text{Var} (Y)}} \\ \text{Cor}(aX+b, Y) &= \text{sgn}(a) \, \text{Cor}(X,Y) \end{align}$

Di sini adalah fungsi signum atau sign : nilainya adalah jika dan jika . Benar juga bahwa jika , tetapi case itu tidak menjadi perhatian kita: akan berupa konstanta, jadi dalam penyebut dan kita tidak dapat menghitung korelasinya. Argumen simetri mari kita menggeneralisasi hasil ini, untuk : $\text{sgn}(a)$ $\text{sgn}(a) = +1$ $a>0$ $\text{sgn}(a) = -1$ $a<0$ $\text{sgn}(a) = 0$ $a=0$ $aX+b$ $\text{Var}(aX+b) = 0$ $a, \, c \neq 0$

Cor (a X + b, c Y + d) = sgn (a) sgn (c) Cor (X, Y)

$\text{Cor}(aX+b, \, cY+d) = \text{sgn}(a) \, \text{sgn}(c) \, \text{Cor}(X,Y)$

Kita tidak akan memerlukan formula yang lebih umum ini untuk menjawab pertanyaan saat ini, tetapi saya memasukkannya untuk menekankan geometri situasi: ini hanya menyatakan bahwa korelasi tidak berubah ketika salah satu variabel diskalakan atau diterjemahkan, tetapi membalikkan tanda ketika sebuah variabel tercermin.

Kita memerlukan satu fakta lagi: untuk model linier yang menyertakan suku konstanta, koefisien determinasi adalah kuadrat dari koefisien korelasi berganda , yang merupakan korelasi antara respons yang diamati dan nilai-nilai yang dicocokkan model . Hal ini berlaku untuk kedua ganda dan regresi sederhana, tapi mari kita membatasi perhatian kita pada sederhana linier Model . Hasilnya mengikuti dari pengamatan bahwa adalah versi diskalakan, mungkin direfleksikan, dan diterjemahkan : $R^2$ $R$ $Y$ $\hat Y$ $\hat Y = \hat \beta_0 + \hat \beta_1 X$ $\hat Y$ $X$

R = Cor (\hat{Y}, Y) = Cor ({\hat{β}}_{0} + {\hat{β}}_{1} X, Y) = sgn ({\hat{β}}_{1}) Cor (X, Y) = sgn ({\hat{β}}_{1}) r

$\boxed{R = \text{Cor}(\hat Y, Y) = \text{Cor}(\hat \beta_0 + \hat \beta_1 X, \, Y) = \text{sgn}(\hat \beta_1) \, \text{Cor}(X, Y) = \text{sgn}(\hat \beta_1) \, r}$

Jadi mana tanda cocok dengan tanda kemiringan yang diperkirakan, yang menjamin tidak negatif. Jelas . $R = \pm r$ $R$ $R^2 = r^2$

Argumen sebelumnya dibuat lebih sederhana dengan tidak harus mempertimbangkan jumlah kuadrat. Untuk mencapai hal ini, saya melewatkan rincian hubungan antara , yang biasanya kita pikirkan dalam hal jumlah kuadrat, dan , yang kita pikirkan tentang korelasi tanggapan yang sesuai dan diamati. Simbol-simbol membuat hubungan tampak tautologis tetapi ini tidak terjadi, dan hubungan rusak jika tidak ada istilah intersep dalam model! Saya akan memberikan sketsa singkat argumen geometris tentang hubungan antara dan diambil dari pertanyaan yang berbeda : diagram digambar dalam ruang subjek dimensi $R^2$ $R$ $R^2 = (R)^2$ $R$ $R^2$ $n$ , sehingga setiap sumbu (tidak ditampilkan) mewakili satu unit pengamatan, dan variabel ditampilkan sebagai vektor. Kolom dari matriks desain adalah vektor (untuk istilah konstan) dan vektor pengamatan dari variabel penjelas, sehingga ruang kolom adalah flat dua dimensi. $\mathbf{X}$ $\mathbf{1_n}$

Vektor dalam ruang subjek regresi berganda

pas adalah proyeksi ortogonal dari diamati pada ruang kolom . Ini berarti vektor residu tegak lurus terhadap flat, dan karenanya ke . Produk titik adalah . Karena residualnya adalah nol dan , maka sehingga keduanya cocok dan mengamati respons memiliki . Garis putus-putus dalam diagram, dan $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{X}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $0 = \mathbf{1_n} \cdot \mathbf{e} = \sum_{i=1}^n e_i$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ $\bar{Y}$ $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ , oleh karena itu adalah berpusat vektor untuk respon yang diamati dan dipasang, dan cosinus dari sudut antara mereka adalah mereka korelasi . $\theta$ $R$

Segitiga yang vektor-vektor ini bentuk dengan vektor residual adalah sudut siku-siku karena terletak di flat tetapi ortogonal untuk itu. Menerapkan Pythagoras: $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\mathbf{e}$

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

Ini hanya dekomposisi jumlah kuadrat, . Rumus konvensional untuk koefisien determinasi adalah yang dalam segitiga ini adalah sehingga memang persegi . Anda mungkin lebih terbiasa dengan rumus , yang segera memberi , tetapi perhatikan bahwa lebih umum, dan akan (seperti yang baru saja kita lihat) dikurangi menjadi $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $1 - \sin^2 \theta = \cos^2 \theta$ $R$ $R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}}$ $\cos^2 \theta$ $1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}}$ $\frac{SS_{\text{regression}}}{SS_{\text{total}}}$ jika istilah konstan dimasukkan dalam model .

— Gegat
sumber

+1 terima kasih atas upaya membuat matematika dan grafik yang bagus !!

— Haitao Du

4

The didefinisikan sebagai Koefisien korelasi sampel kuadrat: sama, karena mudah diverifikasi menggunakan: (lihat Verbeek , §2.4) $R^2$

R^{2} = \frac{\hat{V} ({\hat{y}}_{i})}{\hat{V} (y_{i})} = \frac{1 / (N - 1) \sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2}}{1 / (N - 1) \sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}} = \frac{E S S}{T S S}

$R^2=\frac{\hat{V}(\hat{y}_i)}{\hat{V}(y_i)} =\frac{1/(N-1)\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{1/(N-1)\sum_{i=1}^N(y_i-\bar{y})^2}=\frac{ESS}{TSS}$

r^{2} (y_{i}, {\hat{y}}_{i}) = \frac{{(\sum_{i = 1}^{N} (y_{i} - \bar{y}) ({\hat{y}}_{i} - \bar{y}))}^{2}}{(\sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}) (\sum_{i = 1}^{N} ({\hat{y}}_{i} - \bar{y})^{2})}

$r^2(y_i,\hat{y}_i)=\frac{\left(\sum_{i=1}^N(y_i-\bar{y})(\hat{y}_i-\bar{y})\right)^2}{\left(\sum_{i=1}^N(y_i-\bar{y})^2\right)\left(\sum_{i=1}^N(\hat y_i-\bar{y})^2\right)}$

\hat{V} (y_{i}) = \hat{V} ({\hat{y}}_{i}) + \hat{V} (e_{i})

$\hat V(y_i)=\hat V(\hat y_i)+\hat V(e_i)$

— Sergio
sumber

Bisakah Anda menambahkan lebih banyak detail? Saya sudah mencoba membuktikan ini tetapi tanpa keberhasilan ...

— Seorang pria tua di laut.