Kondisi normal berperan ketika Anda mencoba untuk mendapatkan interval kepercayaan dan / atau nilai-p.
ε | X∼ N( 0 , σ2sayan) bukan kondisi Gauss Markov .
Plot ini mencoba menggambarkan distribusi titik-titik dalam populasi dengan warna biru (dengan garis regresi populasi sebagai garis cyan padat), ditumpangkan pada dataset sampel dalam titik-titik kuning besar (dengan perkiraan garis regresi diplot pada garis kuning putus-putus). Jelas ini hanya untuk konsumsi konseptual, karena akan ada titik tak terbatas untuk setiap nilai ) - sehingga ini adalah diskritisasi ikonografi grafis dari konsep regresi sebagai distribusi kontinu dari nilai-nilai di sekitar rata-rata (sesuai dengan nilai prediksi variabel "independen") pada setiap nilai yang diberikan dari regresi, atau variabel penjelas.X= x
Jika kami menjalankan plot R diagnostik pada data "populasi" yang disimulasikan, kami akan ...
Varian dari residual adalah konstan sepanjang semua nilaiX.
Alur ceritanya adalah:
Secara konseptual, memperkenalkan banyak regresi atau variabel penjelas tidak mengubah ide. Saya menemukan tutorial langsung dari paket ini swirl()
sangat membantu dalam memahami bagaimana regresi berganda benar-benar suatu proses regresi variabel dependen terhadap satu sama lain dengan meneruskan variasi residual, yang tidak dapat dijelaskan dalam model; atau lebih sederhana, bentuk vektor dari regresi linier sederhana :
Teknik umum adalah memilih satu regresi dan mengganti semua variabel lainnya dengan residu regresi mereka terhadap yang satu itu.
E[ ε 2saya | X ] = σ2
The masalah dengan melanggar kondisi ini adalah:
Heteroskedastisitas memiliki konsekuensi serius bagi penaksir OLS. Meskipun estimator OLS tetap tidak memihak, estimasi SE salah. Karena itu, interval kepercayaan dan tes hipotesis tidak dapat diandalkan. Selain itu, penaksir OLS tidak lagi BIRU.
Dalam plot ini varians meningkat dengan nilai-nilai regressor (variabel penjelas), sebagai lawan tetap konstan. Dalam hal ini residu terdistribusi normal, tetapi varian dari distribusi normal ini berubah (meningkat) dengan variabel penjelas.
Perhatikan bahwa garis regresi "benar" (populasi) tidak berubah sehubungan dengan garis regresi populasi di bawah homoskedastisitas dalam plot pertama (biru tua pekat), tetapi secara intuitif jelas bahwa perkiraan akan lebih tidak pasti.
Plot diagnostik pada dataset adalah ...
yang sesuai dengan distribusi "berekor berat" , yang masuk akal adalah kita harus teleskop semua plot Gaussian vertikal "berdampingan" menjadi satu, yang akan mempertahankan bentuk loncengnya, tetapi memiliki ekor yang sangat panjang.
@Glen_b "... cakupan lengkap dari perbedaan antara keduanya juga akan mempertimbangkan homoskedastik-tapi-tidak-normal."
Residu sangat miring dan varians meningkat dengan nilai-nilai variabel penjelas.
Ini akan menjadi plot diagnostik ...
sesuai dengan kemiringan kanan yang ditandai.
Untuk menutup loop, kita akan melihat juga kecondongan dalam model homoskedastik dengan distribusi kesalahan non-Gaussian:
dengan plot diagnostik seperti ...