Masalah ini memiliki nuansa eksplorasi untuk itu. John Tukey menjelaskan banyak prosedur untuk mengeksplorasi heteroskedastisitas dalam klasiknya, Exploratory Data Analysis (Addison-Wesley 1977). Mungkin yang paling berguna secara langsung adalah varian dari " plot skematik pengembaraannya ". Ini mengiris satu variabel (seperti nilai yang diprediksi) ke dalam nampan dan menggunakan ringkasan m-letter (generalisasi plot kotak) untuk menunjukkan lokasi, penyebaran, dan bentuk variabel lainnya untuk setiap nampan. Statistik huruf-m selanjutnya diperhalus untuk menekankan pola keseluruhan daripada penyimpangan kesempatan.
Versi cepat dapat dibuat dengan mengeksploitasi boxplot
prosedur dalam R
. Kami mengilustrasikan dengan data heteroskedastik yang sangat disimulasikan:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Mari kita dapatkan nilai dan residu yang diprediksi dari regresi OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Di sini, kemudian, adalah plot skematik pengembara menggunakan nampan hitung sama untuk nilai prediksi. Saya gunakan lowess
untuk smooth yang cepat dan kotor.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
Kurva biru menghaluskan median. Kecenderungan horizontal menunjukkan bahwa regresi secara umum cocok. Kurva lainnya menghaluskan ujung kotak (kuartil) dan pagar (yang biasanya merupakan nilai ekstrim). Konvergensi mereka yang kuat dan pemisahan selanjutnya menjadi saksi atas heteroskedastisitas - dan membantu kami mengkarakterisasi dan mengukurnya.
(Perhatikan skala nonlinear pada sumbu horizontal, yang mencerminkan distribusi nilai yang diprediksi. Dengan sedikit kerja lebih banyak, sumbu ini dapat dilinearisasi, yang terkadang berguna.)