Dapat dibakukan

Saya mencoba menafsirkan hasil artikel, di mana mereka menerapkan regresi berganda untuk memprediksi berbagai hasil. Namun $\beta$ (koefisien B terstandarisasi didefinisikan sebagai $\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}$ mana $y$ adalah variabel dependen dan $x_1$ adalah prediktor) yang dilaporkan tampaknya tidak cocok dengandilaporkan $R^2$ :

Meskipun $\beta$ dari -0,83, -0,29, -0,16, -0,43, 0,25, dan -0,29, dilaporkan $R^2$ hanya 0,20.

Juga, tiga prediktor: berat badan, BMI dan% lemak adalah multi-collinear, berkorelasi sekitar r = 0,8-0,9 dengan satu sama lain dalam jenis kelamin.

Apakah nilai $R^2$ masuk akal dengan ini $\beta$ , atau apakah tidak ada hubungan langsung antara $\beta$ dan $R^2$ ?

Selain itu, mungkin masalah dengan prediktor multikolinier memengaruhi dari prediktor keempat (VO2max), yang berkorelasi sekitar r = 0,4 dengan tiga variabel yang disebutkan di atas? $\beta$

— Sakari Jukarainen
sumber

Apa

dalam konteks ini? Koefisien beta (regresi standar)? Atau sesuatu yang lain? Jika demikian, mereka yang Anda tidak dapat benar-benar katakan apa pun yang Anda dapatkan hanyalah interpretasi dalam hal standar deviasi. Fakta bahwa koefisien menyiratkan efek besar, tidak menyiratkan nilai

tinggi

β

$\beta$

R^{2}

$R^2$

— Repmat

ß adalah singkatan dari b koefisien standar. Untuk kasus prediktor 1 ß sama dengan pearson r, yang secara langsung berhubungan dengan R-kuadrat, namun dalam kasus multivarian ini, mengapa tidak tinggi ß menyiratkan R-kuadrat yang tinggi?

— Sakari Jukarainen

Tidak, dalam satu kasus regresi

tidak sama dengan korelasi Pearson:

β

$\beta$

. Hubungan antara

s dan

tidak sesederhana itu.

β = \frac{Cov (y, x)}{Var (x)} \neq \frac{Cov (y, x)}{\sqrt{Var (y) \times Var (x)}} = ρ (y, x)

$\beta=\frac{\text{Cov}(y,x)}{\text{Var}(x)}\neq\frac{\text{Cov}(y,x)}{ \sqrt{ \text{Var}(y)\times\text{Var}(x) } }=\rho(y,x)$

β

$\beta$

R^{2}

$R^2$

— Richard Hardy

@RichardHardy Saya curiga bahwa kebingungannya adalah Sakari mendefinisikan

menjadi koefisien regresi standar . Dalam regresi linier bivariat, koefisien regresi (

dalam notasi Sakari) adalah

β

$\beta$

b

$b$

, di mana

adalah korelasi dan

standar deviasi. Untuk membakukan suatu koefisien regresi, kami membagi koefisien dengan standar deviasi

dan mengalikannya dengan standar deviasi

, sehingga hanya korelasi yang tersisa. Jadi Sakari benar.

r_{x y} \frac{s_{y}}{s_{x}}

$r_{xy}\frac{s_y}{s_x}$

r

$r$

s

$s$

y

$y$

x

$x$

— Maarten Buis

Saya masih tidak melihat mengapa Anda menganggap ini salah? Jika ada beberapa statistik ringkasan di koran, Anda dapat dengan mudah memeriksa apakah jumlahnya bertambah. Anda bahkan memberikan formula untuk melakukannya. Anda tidak dapat menyimpulkan, hanya karena efeknya besar dalam hal yang sulit, bahwa model melakukan pekerjaan dengan baik dalam menjelaskan perbedaan dalam y.

— Repmat

The interpretasi geometris biasa kuadrat regresi memberikan wawasan yang diperlukan.

Sebagian besar dari apa yang perlu kita ketahui dapat dilihat pada kasus dua regresi dan dengan respons . The koefisien standar, atau "beta," muncul ketika ketiga vektor dibakukan dengan panjang yang sama (yang mungkin kita ambil untuk menjadi kesatuan). Jadi, dan adalah vektor satuan dalam bidang - mereka terletak pada lingkaran satuan - dan adalah vektor satuan dalam ruang Euclidean tiga dimensi mengandung bidang itu. Nilai dipasang adalah ortogonal (tegak lurus) proyeksi $x_1$ $x_2$ $y$ $x_1$ $x_2$ $E^2$ $y$ $E^3$ $\hat y$ ke . Karena hanya adalah panjang kuadrat dari , kita bahkan tidak perlu memvisualisasikan semua tiga dimensi: semua informasi yang kami perlu dapat ditarik dalam pesawat itu. $y$ $E^2$ $R^2$ $\hat y$

Pengoreksi ortogonal

Situasi yang paling baik adalah ketika para regresor ortogonal, seperti pada gambar pertama.

$Gambar 1, menunjukkan regressor dan $ \ hat y $ sebagai vektor dalam pesawat.$

Dalam hal ini dan sisanya dari angka-angka saya akan secara konsisten menggambar unit disk putih dan regressor sebagai panah hitam. akan selalu mengarah langsung ke kanan. Panah merah tebal menggambarkan komponen $x_1$ $\hat y$ di dan arah: yaitu, dan . Panjang adalah jari-jari lingkaran abu-abu yang terletak - tapi ingat bahwa adalah $x_1$ $x_2$ $\beta_1 x_1$ $\beta_2 x_2$ $\hat y$ $R^2$ persegi panjang itu.

The Teorema Pythagoras menegaskan

R^{2} = | \hat{y} |^{2} = | β_{1} x_{1} |^{2} + | β_{2} x_{2} |^{2} = β_{1}^{2} (1) + β_{2}^{2} (1) = β_{1}^{2} + β_{2}^{2} .

$R^2 = |\hat y|^2 = |\beta_1 x_1|^2 + |\beta_2 x_2|^2 = \beta_1^2(1)+\beta_2^2(1) = \beta_1^2 + \beta_2^2.$

Karena Teorema Pythagoras berpegang pada sejumlah dimensi, penalaran ini digeneralisasikan ke sejumlah regresi, menghasilkan hasil pertama kami:

Ketika regresor bersifat ortogonal, sama dengan jumlah kuadrat dari beta. $R^2$

Sebuah konsekuensi langsung adalah bahwa ketika hanya ada satu regressor - univariat regression-- adalah kuadrat dari lereng standar. $R^2$

Berkorelasi

Regenerasi berkorelasi negatif bertemu pada sudut yang lebih besar dari sudut kanan.

Terlihat jelas dalam gambar ini bahwa jumlah kuadrat dari betas benar-benar lebih besar dari . Ini dapat dibuktikan secara aljabar menggunakan Hukum Cosinus atau dengan bekerja dengan solusi matriks Persamaan Normal. $R^2$

Dengan membuat dua regressors hampir sejajar, kita dapat memposisikan dekat asal (untuk dekat ) sementara itu terus memiliki komponen besar di dan arah. Dengan demikian, tidak ada batasan seberapa kecil . $\hat y$ $R^2$ $0$ $x_1$ $x_2$ $R^2$

Mari kita mengenang hasil yang jelas ini, generalitas kedua kita:

Ketika regressors berkorelasi, mungkin sewenang-wenang lebih kecil dari jumlah kuadrat dari beta. $R^2$

Namun, ini bukan hubungan universal, seperti yang ditunjukkan oleh gambar selanjutnya.

Sekarang secara ketat melebihi jumlah kuadrat dari beta. Dengan menggambar dua regressors dekat bersama-sama dan menjaga di antara mereka, kita dapat membuat beta kedua pendekatan , bahkan ketika dekat dengan . Analisis lebih lanjut mungkin memerlukan beberapa aljabar: Saya mengambilnya di bawah. $R^2$ $\hat y$ $1/2$ $R^2$ $1$

Saya serahkan pada imajinasi Anda untuk membuat contoh serupa dengan regresi berkorelasi positif, yang karenanya bertemu pada sudut yang akut.

Perhatikan bahwa kesimpulan ini tidak lengkap: ada batasan seberapa jauh dapat dibandingkan dengan jumlah kuadrat dari beta. Secara khusus, dengan memeriksa kemungkinan dengan cermat, Anda dapat menyimpulkan (untuk regresi dengan dua regresi) itu $R^2$

Ketika regressors berkorelasi positif dan beta memiliki tanda umum, atau ketika regressors berkorelasi negatif dan beta memiliki tanda-tanda yang berbeda, harus setidaknya sama besar dengan jumlah kuadrat dari beta. $R^2$

Hasil aljabar

Secara umum, biarkan regressor menjadi (kolom vektor) dan responnya adalah . Standarisasiberarti (a) masing-masing ortogonal terhadap vektor dan (b) memiliki panjang satuan: $x_1, x_2, \ldots, x_p$ $y$ $(1,1,\ldots,1)^\prime$

| x_{i} |^{2} = | y |^{2} = 1.

$|x_i|^2 = |y|^2 = 1.$

Merakit vektor-vektor kolom menjadi matriks . Aturan perkalian matriks menyiratkan hal itu $x_i$ $n\times p$ $X$

Σ = X^{'} X

$\Sigma = X^\prime X$

adalah matriks korelasi . Beta diberikan oleh Persamaan Normal, $x_i$

β = (X^{'} X)^{- 1} X^{'} y = Σ^{- 1} (X^{'} y) .

$\beta = (X^\prime X)^{-1} X^\prime y = \Sigma^{-1} (X^\prime y).$

Selain itu, menurut definisi, kecocokannya adalah

\hat{y} = X β = X (Σ^{- 1} X^{'} y) .

$\hat y = X \beta = X (\Sigma ^{-1} X^\prime y).$

Panjang kuadratnya memberikan menurut definisi: $R^2$

R^{2} = | \hat{y} |^{2} = {\hat{y}}^{'} \hat{y} = (X β)^{'} (X β) = β^{'} (X^{'} X) β = β^{'} Σ β .

$R^2 = |\hat y|^2 = \hat y^\prime \hat y = (X\beta)^\prime (X\beta) = \beta^\prime (X^\prime X)\beta = \beta^\prime \Sigma\beta.$

$R^2$

\sum_{i = 1}^{p} β_{i}^{2} = β^{'} β .

$\sum_{i=1}^p \beta_i^2 = \beta^\prime \beta.$

$L_2$ $A$ $p^2$

| A |_{2}^{2} = \sum_{i, j} a_{i j}^{2} = tr (A^{'} A) = tr (A A^{'}) .

$|A|_2^2 = \sum_{i,j} a_{ij}^2 = \operatorname{tr}(A^\prime A) = \operatorname{tr}(AA^\prime).$

Kesenjangan Cauchy-Schwarz menyiratkan

R^{2} = tr (R^{2}) = tr (β^{'} Σ β) = tr (Σ β β^{'}) \leq | Σ |_{2} | β β^{'} |_{2} = | Σ |_{2} β^{'} β .

$R^2 = \operatorname{tr}(R^2) = \operatorname{tr}(\beta^\prime \Sigma \beta) = \operatorname{tr}(\Sigma \beta \beta^\prime) \le |\Sigma|_2 | \beta\beta^\prime|_2 = |\Sigma|_2 \beta^\prime \beta.$

$1$ $p^2$ $p\times p$ $\Sigma$ $|\Sigma|_2$ $\sqrt{1\times p^2} = p$

R^{2} \leq p β^{'} β .

$R^2 \le p\, \beta^\prime \beta.$

$x_i$

$R^2$ $R^2/p$

Kesimpulan

$R^2$ $\hat y$ $R^2$

$1.1301$ $R^2$ $1$

$-0.83$ $0.69$ $R^2$ $0.20$ $\text{VO}_{2\,\text{max}}$

$R^2$ $x_1$ $x_2$ $\hat y$ $x_1$ $x_2$ $y$ dengan jumlah yang tidak diketahui (tergantung bagaimana ketiganya terkait dengan kovariat), membuat kami hampir tidak tahu tentang ukuran sebenarnya dari vektor yang kami kerjakan.

— whuber
sumber

\hat{y}

$\hat y$

\hat{y}

$\hat y$

@amoeba Anda benar. Saya terlalu terburu-buru dalam membuat gambar-gambar ini! Saya akan (semoga sementara) menghapus posting ini sampai saya mendapat kesempatan untuk memperbaiki masalah. Terima kasih telah menunjukkan ini.

— whuber

@Amoeba Saya telah memperbaiki gambar dan memodifikasi analisis agar sesuai dengan mereka. Meskipun detailnya telah banyak berubah, kesimpulannya tetap sama.

— whuber

@amoeba Sekali lagi Anda benar. Dengan risiko kehilangan pembaca yang tertarik, tetapi sekarang merasa terdorong untuk mengukur intuisi geometris, saya telah memperketat kesimpulan itu dan membenarkannya dengan sedikit aljabar. (Saya percaya aljabarnya benar!)

— whuber

Terima kasih banyak! Sebagai seorang sidenote, VO2max berkorelasi negatif dengan berat dan BMI, karena mereka dikaitkan dengan massa tubuh tanpa lemak yang lebih tinggi. Dalam tabel tersebut VO2max sebenarnya sesuai dengan VO2max dibagi dengan berat (yang merupakan cara yang buruk untuk meningkatkan VO2max ke ukuran tubuh). VO2max / berat dalam tabel berkorelasi negatif dengan semua prediktor lain, kecuali seks, yang mungkin menjelaskan ß tinggi tapi rendah R-kuadrat, seperti yang Anda sebutkan.

— Sakari Jukarainen