Pengaruh switching switching dan variabel penjelas dalam regresi linier sederhana


48

Katakanlah ada hubungan "benar" antara dan sedemikian rupa sehingga , di mana dan adalah konstanta dan adalah noise normal. Ketika saya secara acak menghasilkan data dari kode R: dan kemudian cocok dengan model seperti , saya jelas mendapatkan perkiraan yang cukup baik untuk dan .yxy=ax+b+ϵabϵx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xab

Jika saya mengganti peran variabel seperti pada (x ~ y), bagaimanapun, dan kemudian menulis ulang hasil untuk menjadi fungsi , kemiringan yang dihasilkan selalu lebih curam (baik lebih negatif atau lebih positif) daripada yang diperkirakan oleh regresi. Saya mencoba memahami persis mengapa itu dan akan menghargainya jika ada yang bisa memberi saya intuisi tentang apa yang terjadi di sana.yxy ~ x


1
Itu tidak benar secara umum. Mungkin Anda hanya melihatnya di data Anda. Rekatkan kode ini: y = rnorm (10); x = rnorm (10); lm (y ~ x); lm (x ~ y); ke R beberapa kali dan Anda akan menemukan itu berjalan dua arah.
Makro

Itu sedikit berbeda dari apa yang saya gambarkan. Dalam contoh Anda, y sama sekali bukan fungsi x, jadi sebenarnya tidak ada "kemiringan" ('a' dalam contoh saya).
Greg Aponte

lm (y ~ x) cocok dengan model dengan kuadrat terkecil (setara dengan estimasi ML ketika kesalahan adalah normal). Ada kemiringan. y=β0+β1x+ε
Makro

2
Pertanyaan Anda ditanyakan dan dijawab (semacam) di stats.stackexchange.com/questions/13126 dan stats.stackexchange.com/questions/18434 . Namun, saya percaya belum ada yang memberikan kontribusi penjelasan yang sederhana dan jelas tentang hubungan antara (a) regresi vs , (b) regresi vs , (c) analisis korelasi dan , (d) regresi kesalahan-dalam-variabel dan , dan (e) pas distribusi normal bivariat ke . Ini akan menjadi tempat yang bagus untuk eksposisi seperti itu :-). X X Y X Y X Y ( X , Y )YXXYXYXY(X,Y)
whuber

2
Tentu saja Makro benar: karena x dan y memainkan peran yang setara dalam pertanyaan, kemiringan mana yang lebih ekstrem adalah masalah kesempatan. Namun, geometri menyarankan (secara tidak benar) bahwa ketika kita membalikkan x dan y dalam regresi, kita harus mendapatkan timbal balik dari kemiringan asli. Itu tidak pernah terjadi kecuali ketika x dan y secara linear bergantung. Pertanyaan ini dapat diartikan sebagai bertanya mengapa.
whuber

Jawaban:


23

Diberikan titik data , dalam pesawat, mari kita menggambar garis lurus . Jika kita memperkirakan sebagai nilai dari , maka kesalahannya adalah , kesalahan adalah , dan total kuadrat kesalahan . Kami bertanya( x i , y i ) , i = 1 , 2 , ... n y = a x + b a x i + b y i y i ( y i - y i ) = ( y i - a x i - b ) ( y i - a x i - bn(xi,yi),i=1,2,ny=ax+baxi+by^iyi(yiy^i)=(yiaxib)n i = 1 ( y i - a x i - b ) 2(yiaxib)2 i=1n(yiaxib)2

Pilihan dan meminimalkan ?b S = n i = 1 ( y i - a x i - b ) 2abS=i=1n(yiaxib)2

Karena adalah jarak vertikal dari garis lurus, kami meminta garis sedemikian sehingga jumlah kuadrat dari jarak vertikal titik-titik dari garis adalah sekecil mungkin. Sekarang adalah fungsi kuadratik dari dan dan mencapai nilai minimumnya ketika dan sedemikian rupa sehingga Dari persamaan kedua, kita mendapatkan dimana ( x i , y i ) S a b a b S(yiaxib)(xi,yi)Sabab b=1

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
μy=1
b=1ni=1n(yiaxi)=μyaμx
yixia=( 1μy=1ni=1nyi, μx=1ni=1nxi adalah rata-rata aritmatika nilai masing-masing dan . Mengganti ke dalam persamaan pertama, kita mendapatkan Dengan demikian, garis yang meminimalkan dapat dinyatakan sebagai dan nilai minimum adalah yixiSy=ax+b=μy+((1
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
SSSmin=[(1
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

Jika kita menukar peran dan , buat garis , dan minta nilai dan yang meminimalkan yaitu, kita ingin garis sedemikian rupa sehingga jumlah kuadrat dari jarak horizontal dari titik-titik dari garis sekecil mungkin, maka kita dapatkanxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
dan nilai minimum dari adalah T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Perhatikan bahwa kedua garis melewati titik tetapi lerengnya adalah berbeda secara umum. Memang, seperti yang ditunjukkan @whuber dalam komentar, kemiringannya sama ketika semua poin terletak pada garis lurus yang sama. Untuk melihat ini, perhatikan bahwa (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Terima kasih! abs (korelasi) <1 menjelaskan mengapa kemiringan secara sistematis lebih curam dalam kasus terbalik.
Greg Aponte

(+1) tetapi saya menambahkan jawaban hanya dengan ilustrasi apa yang baru saja Anda katakan, karena saya memiliki pikiran geometris :)
Elvis

Balasan kelas (+1)
Digio

39

Hanya untuk menggambarkan jawaban Dilip: pada gambar berikut,

  • titik hitam adalah titik data;
  • di sebelah kiri, garis hitam adalah garis regresi yang diperoleh y ~ x, yang meminimalkan kuadrat dari panjang segmen merah;
  • di sebelah kanan, garis hitam adalah garis regresi yang diperoleh x ~ y, yang meminimalkan kuadrat dari panjang segmen merah.

garis regresi

Edit (paling tidak regresi segi empat)

Jika tidak ada cara alami untuk memilih "respons" dan "kovariat", tetapi kedua variabel tersebut saling tergantung, Anda mungkin ingin melestarikan peran simetris untuk dan ; dalam hal ini Anda dapat menggunakan "regresi paling tidak persegi panjang."yx

  • tulis , seperti biasa;Y=aX+b+ϵ
  • menunjukkan dan estimasi bersyarat ke dan bersyarat ke ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • kecilkan, yang mengarah ke i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Berikut ini adalah ilustrasi dengan titik data yang sama, untuk setiap titik, "persegi panjang" dihitung sebagai produk dari panjang dua segmen merah, dan jumlah persegi panjang diminimalkan. Saya tidak tahu banyak tentang properti regresi ini dan saya tidak menemukan banyak hal dengan google.

paling tidak persegi panjang


14
Beberapa catatan: ( 1 ) Kecuali saya salah, tampaknya "regresi paling tidak persegi panjang" setara dengan solusi yang diperoleh dari mengambil komponen utama pertama pada matriks setelah pemusatan dan melakukan rescaling untuk memiliki varian unit dan kemudian mensubstitusi kembali. (lanjutan)X=(y,x)
kardinal

14
(lanjutan) ( 2 ) Dilihat dengan cara ini, mudah untuk melihat bahwa "regresi kuadrat terkecil " ini setara dengan bentuk kuadrat terkecil ortogonal (atau total) dan, dengan demikian, ( 3 ) Kasus khusus dari regresi Deming pada vektor terpusat, yang diperbesar ulang mengambil . Kuadrat terkecil orthogonal dapat dianggap sebagai "regresi paling tidak lingkaran". δ=1
kardinal

2
@ cardinal Komentar yang sangat menarik! (+1) Saya percaya sumbu utama (meminimalkan jarak tegak lurus antara garis reg. Dan semua titik, à la PCA) atau mengurangi regresi sumbu utama , atau regresi tipe II seperti yang dicontohkan dalam paket lmodel2 R oleh P Legendre, juga relevan di sini karena teknik-teknik tersebut digunakan ketika sulit untuk mengatakan apa peran (respon atau prediktor) yang memainkan setiap variabel atau ketika kita ingin menjelaskan kesalahan pengukuran.
chl

1
@ chl: (+1) Ya, saya yakin Anda benar dan halaman Wikipedia tentang kuadrat total mencantumkan beberapa nama lain untuk prosedur yang sama, tidak semuanya saya kenal. Tampaknya kembali ke setidaknya R. Frisch, analisis pertemuan statistik dengan menggunakan sistem regresi lengkap , Universitet Økonomiske Instituut, 1934 di mana ia disebut regresi diagonal .
kardinal

3
@ cardinal Saya seharusnya lebih berhati-hati ketika membaca entri Wikipedia ... Untuk referensi di masa mendatang, berikut adalah gambar yang diambil dari Desain dan Analisis Biostatistik Menggunakan R , oleh M. Logan (Wiley, 2010; Gambar 8.4, hal. 174) , yang merangkum pendekatan yang berbeda, sangat mirip dengan ilustrasi bagus Elvis.
chl

13

Hanya catatan singkat tentang mengapa Anda melihat kemiringan lebih kecil untuk satu regresi. Kedua lereng bergantung pada tiga angka: standar deviasi dan ( dan ), dan korelasi antara dan ( ). Regresi dengan sebagai respons memiliki kemiringan dan regresi dengan sebagai respons memiliki kemiringan , karenanya rasio kemiringan pertama dengan kebalikan dari yang kedua sama dengan .xysxsyxyryrsysxxrsxsyr21

Jadi semakin besar proporsi varians yang dijelaskan, semakin dekat lereng yang diperoleh dari setiap kasus. Perhatikan bahwa proporsi varian yang dijelaskan adalah simetris dan sama dengan korelasi kuadrat dalam regresi linier sederhana.


1

Cara sederhana untuk melihatnya adalah dengan mencatat bahwa, jika untuk model sebenarnya , Anda menjalankan dua regresi:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Kemudian kita miliki, menggunakan :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Jadi, apakah Anda mendapatkan kemiringan yang lebih curam atau tidak, hanya tergantung pada rasio . Rasio ini sama dengan, berdasarkan pada asumsi model yang benar:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Tautkan dengan jawaban lain

Anda dapat menghubungkan hasil ini dengan jawaban dari orang lain, yang mengatakan bahwa ketika , itu harus timbal balik. Memang, , dan juga, (tidak ada kesalahan estimasi), Oleh karena itu:R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Jadibxy=1/β


0

Ini menjadi menarik ketika ada juga noise pada input Anda (yang kami dapat berargumentasi selalu demikian, tidak ada perintah atau pengamatan yang sempurna).

Saya telah membangun beberapa simulasi untuk mengamati fenomena tersebut, berdasarkan pada hubungan linear sederhana , dengan noise Gaussian pada kedua x dan y. Saya menghasilkan pengamatan sebagai berikut (kode python):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Lihat hasil yang berbeda (odr di sini adalah regresi jarak orthogonal , yaitu sama dengan regresi kuadrat terkecil):

masukkan deskripsi gambar di sini

Semua kode ada di sana:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

Garis regresi tidak (selalu) sama dengan hubungan yang sebenarnya

Anda mungkin memiliki beberapa hubungan kausal yang 'benar' seperti

y=a+bx+ϵ

tetapi cocok garis regresi y ~ xatau x ~ ytidak berarti sama dengan hubungan sebab akibat (bahkan ketika dalam prakteknya ekspresi untuk salah satu dari garis regresi dapat bertepatan dengan ungkapan untuk hubungan 'benar' sebab-akibat)


Hubungan yang lebih tepat antara lereng

Untuk dua regresi linear sederhana yang diaktifkan:

Y=a1+b1XX=a2+b2Y

Anda dapat menghubungkan lereng sebagai berikut:

b1=ρ21b21b2

Jadi lereng tidak saling terbalik.


Intuisi

Alasannya adalah itu

  • Garis-garis regresi dan korelasi tidak harus sesuai satu-ke-satu dengan hubungan sebab akibat.
  • Garis regresi berhubungan lebih langsung dengan probabilitas bersyarat atau prediksi terbaik.

Anda dapat membayangkan bahwa probabilitas bersyarat berhubungan dengan kekuatan hubungan. Garis-garis regresi mencerminkan hal ini dan kemiringan garis-garisnya mungkin dangkal ketika kekuatan hubungan itu kecil atau keduanya curam ketika kekuatan hubungan itu kuat. Lereng tidak saling terbalik satu sama lain.

Contoh

Jika dua variabel dan saling berhubungan dengan beberapa hubungan linear (kausal) Maka Anda dapat membayangkan bahwa tidak baik untuk membalikkan sepenuhnya hubungan itu jika Anda ingin mengekspresikan berdasarkan nilai diberikan .XY

Y=a little bit of X+ a lot of error
XY

Dari pada

X=a lot of Y+ a little of error

akan lebih baik juga digunakan

X=a little bit of Y+ a lot of error

Lihat contoh distribusi berikut dengan garis regresi masing-masing. Distribusi multivarian normal dengan danΣ11Σ22=1Σ12=Σ21=ρ

contoh

Nilai-nilai yang diharapkan bersyarat (apa yang akan Anda dapatkan dalam regresi linier) adalah

E(Y|X)=ρXE(X|Y)=ρY

dan dalam hal ini dengan distribusi normal multivariat, maka distribusi marginal adalahX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Jadi, Anda dapat melihat variabel Y sebagai bagian dan noise bagian dengan varian . Hal yang sama berlaku sebaliknya.ρX1ρ2

Semakin besar koefisien korelasi , semakin dekat dua baris akan. Tetapi semakin rendah korelasinya, semakin kuat hubungannya, semakin sedikit garis yang curam (ini berlaku untuk kedua jalur dan )ρY ~ XX ~ Y


0

Jawaban singkatnya

Tujuan dari regresi linier sederhana adalah untuk menghasilkan prediksi terbaik dari yvariabel, mengingat nilai-nilai xvariabel. Ini adalah tujuan yang berbeda dari mencoba untuk menghasilkan prediksi terbaik dari xvariabel, mengingat nilai-nilai yvariabel.

Regresi linier sederhana y ~ xmemberi Anda model 'terbaik' untuk memprediksi yang ydiberikan x. Oleh karena itu, jika Anda cocok dengan model untuk x ~ ydan membalikkannya secara aljabar, model itu hanya bisa melakukan yang terbaik seperti halnya model itu y ~ x. Tetapi membalik model yang cocok untuk x ~ ybiasanya akan lebih buruk dalam memprediksi ydiberikan x, dibandingkan dengan model 'optimal' y ~ x, karena " x ~ ymodel terbalik " diciptakan untuk memenuhi tujuan yang berbeda.

Ilustrasi

Bayangkan Anda memiliki dataset berikut:

masukkan deskripsi gambar di sini

Saat Anda menjalankan regresi OLS y ~ x, Anda menemukan model berikut

y = 0.167 + 1.5*x

Ini mengoptimalkan prediksi ydengan membuat prediksi berikut, yang memiliki kesalahan terkait:

masukkan deskripsi gambar di sini

Prediksi regresi OLS optimal dalam arti bahwa jumlah nilai-nilai di kolom paling kanan (yaitu jumlah kuadrat) sekecil mungkin.

Saat Anda menjalankan regresi OLS x ~ y, Anda menghasilkan model yang berbeda:

x = -0.07 + 0.64*y

Ini mengoptimalkan prediksi x dengan membuat prediksi berikut, dengan kesalahan yang terkait.

masukkan deskripsi gambar di sini

Sekali lagi, ini optimal dalam arti bahwa jumlah nilai kolom paling kanan adalah sekecil mungkin (sama dengan 0.071).

Sekarang, bayangkan Anda mencoba membalikkan model pertama y = 0.167 + 1.5*x, menggunakan aljabar, memberi Anda model x = -0.11 + 0.67*x.

Ini akan memberi Anda prediksi berikut dan kesalahan terkait:

masukkan deskripsi gambar di sini

Jumlah nilai dalam kolom paling kanan adalah 0.074, yang lebih besar dari jumlah yang sesuai dari model yang Anda dapatkan dari kemunduran x pada y, yaitu x ~ ymodel. Dengan kata lain, " y ~ xmodel terbalik " melakukan pekerjaan yang lebih buruk dalam memprediksi x daripada model OLS x ~ y.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.