Itu semua tergantung pada bagaimana Anda memperkirakan parameter . Biasanya, penduga adalah linear, yang menyiratkan residual adalah fungsi linear dari data. Ketika kesalahan memiliki distribusi normal, maka begitu juga data, mana begitu residual u i ( i indeks kasus data, tentu saja).uiu^ii
Dapat dibayangkan (dan secara logis memungkinkan) bahwa ketika residu tampaknya memiliki sekitar distribusi Normal (univariat), bahwa ini muncul dari distribusi kesalahan yang tidak normal . Namun, dengan teknik estimasi kuadrat terkecil (atau kemungkinan maksimum), transformasi linier untuk menghitung residu adalah "ringan" dalam arti bahwa fungsi karakteristik dari distribusi residual (multivariat) tidak dapat berbeda jauh dari cf kesalahan. .
Dalam prakteknya, kita tidak pernah perlu bahwa kesalahan akan persis didistribusikan Biasanya, jadi ini adalah masalah penting. Impor yang jauh lebih besar untuk kesalahan adalah bahwa (1) harapan mereka semua harus mendekati nol; (2) korelasinya harus rendah; dan (3) harus ada sejumlah kecil nilai-nilai terpencil yang dapat diterima. Untuk memeriksa ini, kami menerapkan berbagai tes good-of-fit, tes korelasi, dan tes outlier (masing-masing) untuk residu. Pemodelan regresi yang hati-hati selalu termasuk menjalankan tes seperti itu (yang mencakup berbagai visualisasi grafis dari residu, seperti dipasok secara otomatis oleh plot
metode R ketika diterapkan ke lm
kelas).
Cara lain untuk menjawab pertanyaan ini adalah dengan mensimulasikan dari model yang dihipotesiskan. Berikut adalah beberapa (minimal, satu kali) R
kode untuk melakukan pekerjaan:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
Untuk kasus n = 32, plot probabilitas overlay ini dari 99 set residu menunjukkan mereka cenderung dekat dengan distribusi kesalahan (yang merupakan standar normal), karena mereka secara seragam bersatu dengan garis referensi :y=x
Untuk kasus n = 6, kemiringan median yang lebih kecil dalam plot probabilitas mengisyaratkan bahwa residu memiliki varians yang sedikit lebih kecil daripada kesalahan, tetapi secara keseluruhan mereka cenderung terdistribusi secara normal, karena sebagian besar dari mereka melacak garis referensi dengan cukup baik (mengingat nilai kecil ):n