Beberapa prediktor saya berada pada skala yang sangat berbeda - apakah saya perlu mengubahnya sebelum memasang model regresi linier?

Saya ingin menjalankan regresi linier pada set data multi-dimensi. Ada perbedaan di antara berbagai dimensi dalam hal besarnya keteraturannya. Misalnya, dimensi 1 umumnya memiliki kisaran nilai [0, 1], dan dimensi 2 memiliki kisaran nilai [0, 1000].

Apakah saya perlu melakukan transformasi apa pun untuk memastikan rentang data untuk dimensi yang berbeda berada dalam skala yang sama? Jika harus, apakah ada panduan untuk transformasi semacam ini?

regression multiple-regression linear-model

— pertanyaan kecil
sumber

Variabel pemindahan / penskalaan tidak akan memengaruhi korelasinya dengan respons

Untuk melihat mengapa ini benar, anggaplah bahwa korelasi antara dan adalah . Maka korelasi antara dan adalah $Y$ $X$ $\rho$ $Y$ $(X-a)/b$

\frac{c o v (Y, (X - a) / b)}{S D ((X - a) / b) \cdot S D (Y)} = \frac{c o v (Y, X / b)}{S D (X / b) \cdot S D (Y)} = \frac{\frac{1}{b} \cdot c o v (Y, X)}{\frac{1}{b} S D (X) \cdot S D (Y)} = ρ

$\frac{ {\rm cov}(Y,(X-a)/b) }{ {\rm SD}((X-a)/b) \cdot {\rm SD}(Y) } = \frac{ {\rm cov}(Y,X/b) }{ {\rm SD}(X/b) \cdot {\rm SD}(Y) } = \frac{ \frac{1}{b} \cdot {\rm cov}(Y,X) }{ \frac{1}{b}{\rm SD}(X) \cdot {\rm SD}(Y) } = \rho$

yang mengikuti dari definisi korelasi dan tiga fakta:

${\rm cov}(Y, X+a) = {\rm cov}(Y,X) + \underbrace{{\rm cov}(Y,a)}_{=0} = {\rm cov}(Y,X)$
${\rm cov}(Y,aX) = a {\rm cov}(Y,X)$
${\rm SD}(aX) = a \cdot {\rm SD}(X)$

Oleh karena itu, dalam hal kecocokan model (misalnya atau nilai yang dipasang), menggeser atau menskalakan variabel Anda (misalnya menempatkannya pada skala yang sama) tidak akan mengubah model $R^2$ , karena koefisien regresi linier terkait dengan korelasi antar variabel. Itu hanya akan mengubah skala koefisien regresi Anda , yang harus diingat ketika Anda menafsirkan output jika Anda memilih untuk mengubah prediksi Anda.

Sunting: Di atas diasumsikan bahwa Anda berbicara tentang regresi biasa dengan intersep. Beberapa poin lagi yang terkait dengan ini (terima kasih @ cardinal):

Intersep dapat berubah ketika Anda mengubah variabel Anda dan, seperti @ cardinal menunjukkan dalam komentar, koefisien akan berubah ketika Anda menggeser variabel Anda jika Anda menghilangkan intersep dari model, meskipun saya menganggap Anda tidak melakukan itu kecuali Anda memiliki alasan yang bagus (lihat misalnya jawaban ini ).
Jika Anda mengatur koefisien Anda dalam beberapa cara (misalnya Lasso, regresi ridge), maka pemusatan / penskalaan akan berdampak pada kecocokan. Misalnya, jika Anda menghukum (hukuman regresi ridge) maka Anda tidak dapat memulihkan setara fit setelah standardisasi kecuali semua variabel berada pada skala yang sama di tempat pertama, yaitu tidak ada beberapa konstanta yang akan memulihkan penalti yang sama. $\sum \beta_{i}^{2}$

Mengenai kapan / mengapa seorang peneliti mungkin ingin mengubah prediktor

Keadaan umum (dibahas dalam jawaban berikutnya oleh @ Paul) adalah bahwa peneliti akan menstandarkan prediktor mereka sehingga semua koefisien akan berada pada skala yang sama. Dalam hal ini, ukuran estimasi titik dapat memberikan gambaran kasar tentang prediktor mana yang memiliki efek terbesar setelah besaran numerik prediktor telah distandarisasi.

Alasan lain seorang peneliti mungkin ingin skala variabel yang sangat besar adalah agar koefisien regresi tidak pada skala yang sangat kecil. Misalnya, jika Anda ingin melihat pengaruh ukuran populasi suatu negara terhadap tingkat kejahatan (tidak bisa memikirkan contoh yang lebih baik), Anda mungkin ingin mengukur ukuran populasi dalam jutaan daripada dalam unit aslinya, karena koefisien mungkin sekitar . $.00000001$

— Makro
sumber

Dua komentar singkat: Meskipun awal posting benar, ia melewatkan fakta bahwa pemusatan akan berpengaruh jika intersep tidak ada. :) Kedua, pemusatan dan pengubahan ukuran memiliki efek penting jika regularisasi digunakan. Meskipun OP mungkin tidak mempertimbangkan hal ini, masih mungkin poin yang berguna untuk diingat.

— kardinal

Invariansi untuk men - rescaling juga mudah dilihat jika seseorang merasa nyaman dengan notasi matriks. Dengan

peringkat penuh (untuk kesederhanaan),

X

$X$

\hat{y} = X (X^{'} X)^{- 1} X^{'} y

$\hat y = X (X'X)^{-1} X'y$

X

$X$

X D

$X D$

D

$D$

\tilde{y} = (X D) ((X D)^{'} X D)^{- 1} (X D)^{'} y = X D (D X^{'} X D)^{- 1} D X^{'} y = X (X^{'} X)^{- 1} X^{'} y = \hat{y} .

$\tilde y = (X D) ((XD)'XD)^{-1} (XD)'y = X D(D X'X D)^{-1} D X'y = X (X'X)^{-1} X'y = \hat y\>.$

@ cardinal, saya telah memutuskan untuk menyebutkan fakta bahwa, jika perkiraan Anda diatur maka pemusatan / penskalaan dapat berdampak. Saya menolak pada awalnya karena saya pikir itu akan memulai penyimpangan panjang yang dapat membingungkan mereka yang tidak terbiasa dengan regularisasi tetapi saya menemukan saya bisa mengatasinya dengan ruang yang relatif sedikit. Terima kasih

— Makro

Tidak semua komentar saya dimaksudkan untuk menyarankan bahwa jawabannya harus diperbarui. Sering kali saya hanya ingin menyelipkan komentar tambahan di bawah jawaban yang bagus untuk memberikan beberapa pemikiran pada ide-ide terkait yang mungkin menarik bagi orang yang lewat. (+1)

— kardinal

Sesuatu yang funky sedang terjadi dengan penghitungan suara. Sekali lagi, saya membenarkan ini ketika membuat komentar saya sebelumnya dan itu tidak "mengambil". Hmm.

— kardinal

Yang disebut "normalisasi" adalah rutinitas umum untuk sebagian besar metode regresi. Ada dua cara:

Petakan setiap variabel menjadi batas [-1, 1] (mapminmax di MatLab.
${\tilde{X}}_{i j} = \frac{X_{i j} - μ_{i}}{σ_{i}}$ $\tilde{X}_{ij}=\frac{X_{ij}-\mu_i}{\sigma_i}$ ${\tilde{X}}_{i j} = \frac{X_{i j} - \bar{X_{i}}}{s t d (X_{i})}$ $\tilde{X}_{ij}=\frac{X_{ij} - \overline{X_i}}{std({X_i})}$ $E[X_i] = \mu$ $E[X_i^2-E[X_i]^2]=\sigma^2$ $\overline{X_i}=\frac{1}{N}\sum_{j=1}^{N}X_{ij}$ $std({X_i}) = \sqrt{\frac{1}{N}\sum_{j=1}^{N}(X_{ij}^2 -\overline{X_{i}}^2)}$

Karena regresi linier sangat sensitif terhadap rentang variabel, saya biasanya menyarankan untuk menormalkan semua variabel jika Anda tidak memiliki pengetahuan sebelumnya tentang ketergantungan dan berharap semua variabel menjadi penting secara relativeley.

Hal yang sama berlaku untuk variabel respons, meskipun tidak terlalu penting bagi mereka.

Mengapa melakukan normalisasi atau standartisasi? Sebagian besar untuk menentukan dampak relatif dari berbagai variabel dalam model. Itu bisa dicapai jika semua variabel berada di unit yang sama.

Semoga ini membantu!

— Paul
sumber

x1,x2,ysummary(lm(y~x1+x2))$r.sqsummary(lm(y~scale(x1)+scale(x2)))$r.sq

R^{2}

$R^2$

R^{2}

$\mathbf{R^2}$

p

$p$