Perhatikan bahwa asumsi linearitas yang Anda bicarakan hanya mengatakan bahwa rata-rata bersyarat diberikan X i adalah fungsi linierYiXi . Anda tidak dapat menggunakan nilai untuk menguji asumsi ini.R2
Ini karena hanyalah korelasi kuadrat antara nilai yang diamati dan yang diprediksi serta nilai koefisien korelasi tidak secara unik menentukan hubungan antara X dan Y (linier atau lainnya) dan kedua skenario berikut dimungkinkan: R2XY
Saya akan membahas masing-masing pada gilirannya:
(1) tetapi asumsi linieritas tetap salah dengan cara yang penting:R2 Kuncinya di sini adalah memanipulasi fakta bahwa korelasi sangat sensitif terhadap pencilan . Misalkan Anda memiliki prediktor yang dihasilkan dari distribusi campuran yang normal standar 99 % dari waktu dan massa titik di M yang lain 1 % dan variabel respon yangX1,...,Xn99%M1%
Yi={ZiMif Xi≠Mif Xi=M
Zi∼N(μ,1)Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
YiXiYiXiXi=M
R2XiYi
Yi=β0+β1Xi+εi
YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
R2
Re: Apa yang harus dilakukan ketika asumsi linearitas tidak terpenuhi dan mentransformasikan IV juga tidak membantu? !!
Ketika non-linearitas menjadi masalah, mungkin akan membantu untuk melihat plot residual vs setiap prediktor - jika ada pola yang terlihat, ini dapat menunjukkan non-linearitas pada prediktor tersebut. Misalnya, jika plot ini mengungkapkan hubungan "berbentuk mangkuk" antara residu dan prediktor, ini mungkin menunjukkan istilah kuadratik yang hilang dalam prediktor itu. Pola lain dapat menunjukkan bentuk fungsional yang berbeda. Dalam beberapa kasus, mungkin Anda belum mencoba melakukan transformasi yang benar atau bahwa model yang sebenarnya tidak linier dalam versi variabel yang diubah (meskipun dimungkinkan untuk menemukan perkiraan yang masuk akal).
R2