Ini adalah tempat di mana saya menemukan melihat beberapa formula membantu, bahkan untuk orang-orang dengan kecemasan matematika (saya tidak menyarankan Anda melakukannya, tentu saja). Sederhana linier model regresi adalah:
Apa yang penting untuk dicatat di sini adalah bahwa model ini secara eksplisit menyatakan setelah Anda memperkirakan informasi yang bermakna dalam data (itulah " "), tidak ada yang tersisa selain white noise. Selain itu, kesalahan didistribusikan sebagai Normal dengan varian .
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
Sangat penting untuk menyadari bahwa bukan variabel (meskipun dalam aljabar tingkat sekolah menengah pertama, kita akan menyebutnya begitu). Itu tidak bervariasi. bervariasi. bervariasi. Istilah kesalahan, , bervariasi secara acak ; itu adalah variabel acak . Namun, parameter ( adalah placeholder untuk nilai yang kami tidak tahu - mereka tidak bervariasi. Sebaliknya, mereka adalah konstanta yang tidak diketahui . Hasil dari fakta ini untuk diskusi ini adalah bahwa tidak peduli apa adalah (yaitu, nilai apa yang terpasang di sana),σ2εXYεβ0, β1, σ2ε)Xσ2εtetap sama. Dengan kata lain, varians dari kesalahan / residual adalah konstan. Demi kontras (dan mungkin kejelasan yang lebih besar), pertimbangkan model ini:
Dalam hal ini, kami memasukkan nilai untuk (dimulai pada baris ketiga) , sampaikan melalui fungsi dan dapatkan varians kesalahan yang diperoleh pada nilai yang tepat . Kemudian kita bergerak melalui sisa persamaan seperti biasa.
X f ( X ) X
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
Diskusi di atas harus membantu memahami sifat asumsi; pertanyaannya juga menanyakan bagaimana cara menilai itu. Pada dasarnya ada dua pendekatan: tes hipotesis formal dan memeriksa plot. Tes untuk heteroskedastisitas dapat digunakan jika Anda memiliki data percobaan-ish (yaitu, yang hanya terjadi pada nilai tetap ) atau ANOVA. Saya membahas beberapa tes semacam itu di sini: Mengapa Levene menguji persamaan varian daripada rasio-FX. Namun, saya cenderung berpikir melihat plot adalah yang terbaik. @Penquin_Knight telah melakukan pekerjaan yang baik untuk menunjukkan seperti apa varian konstan dengan memplot residual dari model di mana homoscedasticity diperoleh terhadap nilai-nilai yang sesuai. Heteroscedasticity juga dapat dideteksi dalam plot data mentah, atau dalam plot skala lokasi (juga disebut spread-level). R dengan mudah memplot yang terakhir untuk Anda dengan panggilan ke plot.lm(model, which=2)
; ini adalah akar kuadrat dari nilai absolut residu terhadap nilai-nilai yang dipasang, dengan kurva lowess yang sangat membantu. Anda ingin agar lowess fit menjadi rata, bukan miring.
Pertimbangkan plot di bawah ini, yang membandingkan tampilan data homoscedastic vs heteroscedastic dalam tiga tipe angka yang berbeda ini. Perhatikan bentuk corong untuk dua plot heteroscedastic atas, dan garis lowess miring ke atas di yang terakhir.
Untuk kelengkapan, berikut adalah kode yang saya gunakan untuk menghasilkan data ini:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)