Regresi Linier + perancu

Misalkan saya ingin mengakses efek ukuran dan signifikansi antara hasil Y dan variabel X disesuaikan perancu Z .

Pertanyaan saya adalah apakah ada perbedaan untuk menentukan ukuran efek dan signifikansi X antara skenario berikut.

menempatkan variabel dan perancu bersama dalam model regresi linier. Ini model regresi hanya cocok sarana Y ~ X + Z , kemudian menghitung koefisien dan p-nilai dari X .
Dapatkan residu, R dari Y ~ Z , dan kemudian muat model regresi R ~ X , lalu hitung koefisien dan nilai p-nya X (dari R ~ X).

Saya belajar perancu dari sini .

Edit -----

Saya menghargai jawaban @Gordon Smyth. Namun, dari studi simulasi (kode di bawah), di mana saya membandingkan tingkat penemuan yang salah dari metode1, metode2, dan metode3 dari jawaban Gordon Smyth, saya secara mengejutkan menemukan bahwa metode2 memiliki tingkat positif palsu yang cukup rendah.

Saya mengerti bahwa metode 1 adalah "buku teks" yang benar. Saya bertanya-tanya apa sebenarnya yang salah dengan metode2 secara logis? Selain itu, "Semua model salah, tetapi beberapa berguna".

p1 = p2 = p3 = c()
i=0
while(i<10000){
  y = rnorm(10)
  x = rnorm(10)
  c = rnorm(10)


  # method 1
  p1[i] = summary(lm(y~x + c))$coefficients[2,4]
  # method 2
  p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
  # method 3
  p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]


  i = i+1
}


# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623

regression

— WCMC
sumber

Saya tidak jelas mengapa Anda terkejut bahwa ketiga metode ini melakukan apa yang saya katakan kepada Anda bahwa mereka akan lakukan dalam jawaban saya setahun yang lalu. Saya katakan kepada Anda bahwa metode 2 akan konservatif (yang Anda temukan) dan metode 3 akan anti-konservatif (yang lagi-lagi adalah apa yang Anda temukan). Bagaimanapun, masalah sebenarnya dengan metode 2 Anda hanya muncul ketika X dan Z berkorelasi satu sama lain serta dengan Y. Saya telah memperluas jawaban saya sekarang untuk menjelaskan ini lebih detail. Saya sekarang memberikan contoh numerik yang menunjukkan betapa buruknya metode 2.

— Gordon Smyth

Anda perlu menyesuaikan X dan Y untuk perancu

Pendekatan pertama (menggunakan regresi berganda) selalu benar. Pendekatan kedua Anda tidak benar seperti yang telah Anda nyatakan, tetapi dapat dibuat hampir benar dengan sedikit perubahan. Untuk membuat pendekatan kedua benar, Anda harus mundur keduanya $Y$ dan $X$ secara terpisah aktif $Z$ . Saya suka menulis $Y.Z$ untuk residu dari regresi $Y$ di $Z$ dan $X.Z$ untuk residu dari regresi $X$ dan $Z$ . Kita bisa mengartikannya $Y.Z$ sebagai $Y$ disesuaikan untuk $Z$ (sama seperti Anda $R$ ) dan $X.Z$ sebagai $X$ disesuaikan untuk $Z$ . Anda kemudian dapat mundur $Y.Z$ di $X.Z$ .

Dengan perubahan ini, kedua pendekatan akan memberikan koefisien regresi yang sama dan residu yang sama. Namun pendekatan kedua masih akan salah menghitung derajat sisa kebebasan $n-1$ dari pada $n-2$ (dimana $n$ adalah jumlah nilai data untuk setiap variabel). Akibatnya, statistik uji untuk $X$ dari pendekatan kedua akan sedikit terlalu besar dan nilai-p akan sedikit terlalu kecil. Jika jumlah pengamatan $n$ besar, maka kedua pendekatan akan bertemu dan perbedaan ini tidak masalah.

Sangat mudah untuk melihat mengapa tingkat sisa kebebasan dari pendekatan kedua tidak akan tepat. Kedua pendekatan mengalami kemunduran $Y$ pada keduanya $X$ dan $Z$ . Pendekatan pertama melakukannya dalam satu langkah sedangkan pendekatan kedua melakukannya dalam dua langkah. Namun pendekatan kedua "lupa" itu $Y.Z$ dihasilkan dari regresi pada $Z$ dan mengabaikan untuk mengurangi derajat kebebasan untuk variabel ini.

Plot variabel yang ditambahkan

Sanford Weisberg (Applied Linear Regression, 1985) digunakan untuk merekomendasikan plot $Y.Z$ vs. $X.Z$ di sebar sebaran. Ini disebut plot variabel tambahan , dan itu memberikan representasi visual yang efektif dari hubungan antara $Y$ dan $X$ setelah disesuaikan untuk $Z$ .

Jika Anda tidak menyesuaikan X maka Anda memperkirakan estimasi koefisien regresi

Pendekatan kedua seperti yang Anda nyatakan sebelumnya, mengalami kemunduran $Y.Z$ di $X$ , terlalu konservatif. Ini akan mengecilkan arti penting hubungan antara $Y$ dan $X$ menyesuaikan untuk $Z$ karena meremehkan ukuran koefisien regresi. Ini terjadi karena Anda mengalami kemunduran $Y.Z$ secara keseluruhan $X$ bukan hanya pada bagian dari $X$ yang independen terhadap $Z$ . Dalam rumus standar untuk koefisien regresi dalam regresi linier sederhana, pembilang (kovarians dari $Y.Z$ dengan $X$ ) akan benar tetapi penyebutnya (varian dari $X$ ) akan terlalu besar. Kovariat yang benar $X.Z$ selalu memiliki varian yang lebih kecil daripada yang dilakukannya $X$ .

Untuk membuat ini tepat, Metode 2 Anda akan memperkirakan estimasi koefisien regresi parsial $X$ oleh faktor $1-r^2$ dimana $r$ adalah koefisien korelasi Pearson antara $X$ dan $Z$ .

Contoh numerik

Berikut adalah contoh numerik kecil untuk menunjukkan bahwa metode variabel yang ditambahkan mewakili koefisien regresi $Y$ di $X$ dengan benar sedangkan pendekatan kedua Anda (Metode 2) dapat salah sewenang-wenang.

Pertama kita mensimulasikan $X$ , $Z$ dan $Y$ :

> set.seed(20180525)
> Z <- 10*rnorm(10)
> X <- Z+rnorm(10)
> Y <- X+Z

Sini $Y=X+Z$ jadi koefisien regresi yang benar untuk $X$ dan $Z$ keduanya 1 dan mencegat adalah 0.

Kemudian kita membentuk dua vektor residual $R$ (sama seperti saya $Y.Z$ ) dan $X.Z$ :

> R <- Y.Z <- residuals(lm(Y~Z))
> X.Z <- residuals(lm(X~Z))

Regresi berganda penuh dengan keduanya $X$ dan $Y$ sebagai prediktor memberikan koefisien regresi yang sebenarnya dengan tepat:

> coef(lm(Y~X+Z))
(Intercept)           X           Z 
   5.62e-16    1.00e+00    1.00e+00

The variabel menambahkan pendekatan (Metode 3) juga memberikan koefisien untuk $X$ tepat benar:

> coef(lm(R~X.Z))
(Intercept)         X.Z 
  -6.14e-17    1.00e+00

Sebaliknya, Metode 2 Anda menemukan koefisien regresi hanya 0,01:

> coef(lm(R~X))
(Intercept)           X 
    0.00121     0.01170

Jadi Metode 2 Anda meremehkan ukuran efek sebenarnya sebesar 99%. Faktor di bawah estimasi diberikan oleh korelasi antara $X$ dan $Z$ :

> 1-cor(X,Z)^2
[1] 0.0117

Untuk melihat semua ini secara visual, yang menambahkan alur variabel dari $R$ vs. $X.Z$ menunjukkan hubungan linier sempurna dengan unit slope, mewakili hubungan marginal sejati antara $Y$ dan $X$ :

Sebaliknya, plot $R$ vs yang tidak disesuaikan $X$ tidak menunjukkan hubungan sama sekali. Hubungan yang sebenarnya telah sepenuhnya hilang:

— Gordon Smyth
sumber

Apakah Anda yakin bahwa kedua pendekatan akan memberikan koefisien regresi yang sama? Jika itu benar maka alih-alih melakukan regresi berganda dengan variabel independen k kita bisa melakukan regresi k dengan variabel independen tunggal dan mendapatkan hasil yang persis sama jauh lebih cepat.

— Tomek Tarczynski

Saya mungkin melewatkan sesuatu. Ketika saya mencoba untuk mensimulasikan ini saya mendapatkan koefisien yang berbeda untuk X. Kode R di bawah set.seed (1234) k <- 100 x <- runif (k) z <- x + runif (k) y <- 5 * x - 3 * z + runif (k) # x koefisien 5.1252 lm (y ~ x + z) model <- lm (y ~ z) res <- model $ residuals #x koefisien 2.82 model2 <- lm (res ~ x)

— Tomek Tarczynski

@ TomekTarczynski Kau benar, aku lupa menunjukkan itu

X

$X$ harus mundur pada

Z

$Z$ demikian juga. Saya telah mengedit jawaban saya untuk memperbaikinya.

— Gordon Smyth

Hai Gordon, apakah ada yang salah dengan pendekatan kedua selain masalah tingkat kebebasan? misalnya dalam hal logika?

— WCMC

Hai Gordon, saya mengedit pertanyaan saya. Saya menghargai jika Anda bisa melihatnya ketika Anda punya waktu.

— WCMC