Apakah asumsi kesalahan Normal menyiratkan bahwa Y juga Normal?

12

Kecuali saya salah, dalam model linier, distribusi respons diasumsikan memiliki komponen sistematis dan komponen acak. Istilah kesalahan menangkap komponen acak. Oleh karena itu, jika kita mengasumsikan bahwa istilah kesalahan terdistribusi secara normal, bukankah itu menyiratkan bahwa responsnya juga terdistribusi secara normal? Saya pikir memang demikian, tetapi pernyataan seperti di bawah ini agak membingungkan:

Dan Anda dapat melihat dengan jelas bahwa satu-satunya asumsi "normalitas" dalam model ini adalah residual (atau "kesalahan" ) harus didistribusikan secara normal. Tidak ada asumsi tentang distribusi prediktor atau variabel respons . $\epsilon_i$ $x_i$ $y_i$

Sumber: Prediktor, respons, dan residu: Apa yang sebenarnya perlu didistribusikan secara normal?

regression assumptions

— Ernest A
sumber

7

Jika adalah non-stokastik, normalitas menunjukkan normalitas variabel dependen. Untuk variabel independen stokastik ini tidak akan berlaku secara umum, maka tergantung pada distribusi variabel independen.

x

$x$

ϵ

$\epsilon$

19

Model OLS standar adalah dengan untuk tetap . $Y = X \beta + \varepsilon$ $\varepsilon \sim \mathcal N(\vec 0, \sigma^2 I_n)$ $X \in \mathbb R^{n \times p}$

Ini memang berarti bahwa , meskipun ini adalah konsekuensi dari asumsi kami tentang distribusi , daripada benar-benar menjadi asumsi. Juga perlu diingat bahwa saya sedang berbicara tentang distribusi bersyarat dari , tidak distribusi marjinal . Saya fokus pada distribusi bersyarat karena saya pikir itulah yang sebenarnya Anda tanyakan. $Y|\{X, \beta, \sigma^2\} \sim \mathcal N(X\beta, \sigma^2 I_n)$ $\varepsilon$ $Y$ $Y$

Saya pikir bagian yang membingungkan adalah bahwa ini tidak berarti bahwa histogram akan terlihat normal. Kami mengatakan bahwa seluruh vektor adalah gambar tunggal dari distribusi normal multivariat di mana setiap elemen memiliki rata-rata berpotensi berbeda . Ini tidak sama dengan menjadi sampel normal iid. Kesalahan sebenarnya adalah sampel awal sehingga histogram dari mereka akan terlihat normal (dan itulah sebabnya kami melakukan plot QQ dari residu, bukan responsnya). $Y$ $Y$ $E(Y_i|X_i) = X_i^T\beta$ $\varepsilon$

Berikut ini sebuah contoh: misalkan kita mengukur ketinggian untuk sampel kelas 6 dan kelas 12. Model kami adalah dengan . Jika kita melihat histogram kita mungkin akan melihat distribusi bimodal, dengan satu puncak untuk siswa kelas 6 dan satu puncak untuk siswa kelas 12, tetapi itu tidak mewakili pelanggaran asumsi kami. $H$ $H_i = \beta_0 + \beta_1I(\text{12th grader}) + \varepsilon_i$ $\varepsilon_i \sim \ \text{iid} \ \mathcal N(0, \sigma^2)$ $H_i$

— jld
sumber

Bisakah seseorang tolong jelaskan notasi ?

σ^{2} I_{n}

$\sigma^2 I_n$

— snoram

Ini berarti matriks identitas dikalikan dengan skalar .

n \times n

$n \times n$

σ^{2}

$\sigma^2$

— jld

The matriks identitas kali beberapa varian.

n \times n

$n\times n$

— Sycorax berkata Reinstate Monica

11

Oleh karena itu, jika kita mengasumsikan bahwa istilah kesalahan terdistribusi secara normal, bukankah itu menyiratkan bahwa responsnya juga terdistribusi secara normal?

Bahkan tidak jauh. Cara saya mengingat ini adalah bahwa residual adalah normal pada bagian deterministik model . Berikut ini adalah contoh dari apa yang terlihat dalam praktik.

Saya mulai dengan secara acak menghasilkan beberapa data. Lalu saya mendefinisikan hasil yang merupakan fungsi linear dari prediktor dan memperkirakan model.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Mari kita lihat seperti apa residu ini. Saya menduga bahwa mereka harus didistribusikan secara normal, karena hasilnya ytelah menambahkan kebisingan normal ke dalamnya. Dan memang itulah masalahnya.

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Namun, memeriksa distribusi y, kita dapat melihat bahwa itu jelas tidak normal! Saya telah overlay fungsi densitas dengan mean dan varians yang sama y, tapi itu jelas cocok!

Alasan bahwa ini terjadi dalam kasus ini adalah bahwa input data bahkan tidak jauh dari normal. Tidak ada tentang model regresi ini yang memerlukan normalitas kecuali pada residual - tidak dalam variabel independen, dan tidak dalam variabel dependen.

— Sycorax berkata Reinstate Monica
sumber

8

Tidak, tidak. Misalnya, kita memiliki model yang memprediksi berat atlet Olimpiade. Sementara berat dapat didistribusikan secara normal di antara atlet di setiap olahraga, itu tidak akan berada di antara semua atlet - bahkan mungkin tidak unimodal.

— Peter Flom - Pasang kembali Monica
sumber