Saya sedikit bingung tentang apa asumsi regresi linier.
Sejauh ini saya memeriksa apakah:
- semua variabel penjelas berkorelasi linier dengan variabel respons. (Ini yang terjadi)
- ada collinearity antara variabel penjelas. (Ada sedikit collinearity).
- jarak Cook dari titik data model saya di bawah 1 (ini kasusnya, semua jarak di bawah 0,4, jadi tidak ada titik pengaruh).
- residu terdistribusi normal. (Mungkin bukan ini masalahnya)
Tetapi saya kemudian membaca yang berikut:
pelanggaran normalitas sering muncul baik karena (a) distribusi variabel dependen dan / atau independen itu sendiri secara signifikan tidak normal, dan / atau (b) asumsi linearitas dilanggar.
Pertanyaan 1 Ini membuatnya terdengar seolah-olah variabel independen dan dependen perlu didistribusikan secara normal, tetapi sejauh yang saya tahu ini tidak terjadi. Variabel dependen saya dan juga salah satu variabel independen saya tidak terdistribusi secara normal. Haruskah begitu?
Pertanyaan 2 QQ plot normal residu saya terlihat seperti ini:
Itu sedikit berbeda dari distribusi normal dan shapiro.test
juga menolak hipotesis nol bahwa residu berasal dari distribusi normal:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Nilai residu vs pas terlihat seperti:
Apa yang dapat saya lakukan jika residu saya tidak terdistribusi secara normal? Apakah itu berarti model linier sepenuhnya tidak berguna?