@NickCox telah melakukan pekerjaan dengan baik berbicara tentang tampilan residu ketika Anda memiliki dua kelompok. Biarkan saya membahas beberapa pertanyaan eksplisit dan asumsi implisit yang ada di balik utas ini.
Pertanyaannya bertanya, "bagaimana Anda menguji asumsi regresi linier seperti homoscedasticity ketika variabel independen adalah biner?" Anda memiliki beberapa model regresi. Model regresi (berganda) mengasumsikan hanya ada satu istilah kesalahan, yang konstan di mana-mana. Tidaklah terlalu berarti (dan Anda tidak perlu) memeriksa heteroskedastisitas untuk setiap prediktor secara individual. Inilah sebabnya, ketika kami memiliki model regresi berganda, kami mendiagnosis heteroskedastisitas dari plot residual vs nilai prediksi. Mungkin plot yang paling membantu untuk tujuan ini adalah plot skala-lokasi (juga disebut 'spread-level'), yang merupakan plot akar kuadrat dari nilai absolut residu vs nilai prediksi. Untuk melihat contoh,Apa artinya memiliki "varian konstan" dalam model regresi linier?
Demikian juga, Anda tidak perlu memeriksa residual untuk setiap prediktor untuk normalitas. (Jujur saya bahkan tidak tahu bagaimana itu akan bekerja.)
Apa yang dapat Anda lakukan dengan plot residu terhadap prediktor individual adalah memeriksa untuk melihat apakah bentuk fungsional ditentukan dengan benar. Misalnya, jika residu membentuk parabola, ada beberapa kelengkungan dalam data yang Anda lewatkan. Untuk melihat contoh, lihat plot kedua dalam jawaban @ Glen_b di sini: Memeriksa kualitas model dalam regresi linier . Namun, masalah ini tidak berlaku dengan prediktor biner.
Untuk apa nilainya, jika Anda hanya memiliki prediktor kategori, Anda dapat menguji heteroskedastisitas. Anda hanya menggunakan tes Levene. Saya membahasnya di sini: Mengapa uji Levene tentang persamaan varian daripada rasio F? Di R Anda menggunakan ? LeveneTest dari paket mobil.
Sunting: Untuk menggambarkan dengan lebih baik titik yang melihat plot residual vs variabel prediktor individual tidak membantu ketika Anda memiliki model regresi berganda, pertimbangkan contoh ini:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Anda dapat melihat dari proses pembuatan data bahwa tidak ada heteroskedastisitas. Mari kita periksa plot yang relevan dari model untuk melihat apakah mereka menyiratkan heteroskedastisitas bermasalah:
Tidak, tidak ada yang perlu dikhawatirkan. Namun, mari kita lihat plot residual vs variabel prediktor biner individu untuk melihat apakah ada heteroskedastisitas di sana:
Eh, sepertinya memang ada masalah. Kami tahu dari proses pembuatan data bahwa tidak ada heteroskedastisitas, dan plot utama untuk mengeksplorasi ini juga tidak menunjukkan apa-apa, jadi apa yang terjadi di sini? Mungkin plot ini akan membantu:
x1
dan x2
tidak independen satu sama lain. Apalagi pengamatannya yang x2 = 1
berada di ekstrem. Mereka memiliki lebih banyak pengaruh, sehingga residu mereka secara alami lebih kecil. Meskipun demikian, tidak ada heteroskedastisitas.
Pesan bawa pulang: Taruhan terbaik Anda adalah hanya mendiagnosis heteroskedastisitas dari plot yang sesuai (residu vs plot pas, dan plot level sebaran).