Asumsi normalitas dalam regresi linier


11

Sebagai asumsi regresi linier, normalitas distribusi kesalahan kadang-kadang salah "diperluas" atau ditafsirkan sebagai kebutuhan untuk normalitas y atau x.

Apakah mungkin untuk membuat skenario / dataset bahwa di mana X dan Y adalah tidak normal tetapi istilah kesalahannya adalah dan oleh karena itu estimasi regresi linier yang diperoleh valid?


5
Contoh sepele: X memiliki distribusi Bernoulli (yaitu, mengambil nilai 0 atau 1); Y = X + N (0, 0,1). Baik X maupun Y biasanya tidak terdistribusi sendiri, tetapi regresi Y pada X masih berfungsi.
Hong Ooi

Saya kira Anda berpikir tentang distribusi residu, bukan distribusi variabel.
tashuhka


Jawaban:


16

Memperluas komentar Hong Oois dengan sebuah gambar. Berikut ini adalah gambar dari dataset di mana tidak ada margin yang terdistribusi normal tetapi residualnya masih ada, sehingga asumsi regresi linier masih valid:

masukkan deskripsi gambar di sini

Gambar dihasilkan oleh kode R berikut:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.