Apakah X dan Y terdistribusi normal lebih mungkin menghasilkan residu terdistribusi normal?


12

Di sini salah tafsir dari asumsi normalitas dalam regresi linier dibahas (bahwa 'normalitas' merujuk X dan / atau Y daripada residual), dan poster bertanya apakah mungkin untuk memiliki X dan Y yang terdistribusi secara tidak normal. dan masih memiliki residu terdistribusi normal.

Pertanyaan saya adalah: apakah X yang didistribusikan secara normal dan Y lebih mungkin menghasilkan residu yang terdistribusi secara normal? Ada banyak posting terkait tetapi saya tidak percaya ada orang yang menanyakan pertanyaan ini secara khusus.

Saya menyadari ini mungkin titik sepele jika hanya ada satu regresi untuk dilakukan, tetapi kurang begitu jika ada beberapa tes. Jadi katakan saya memiliki 100 variabel X yang semuanya memiliki kemiringan yang sama dan saya ingin menguji semuanya. Jika saya mengubah semuanya menjadi distribusi normal, mungkinkah saya memiliki lebih sedikit variabel X yang perlu diperiksa ulang (dengan transformasi yang berbeda / tidak ada) karena residu yang terdistribusi tidak normal atau akankah transformasi pra-regresi benar-benar arbitrer?


1
Untuk menjawab "lebih mungkin" kita mungkin harus menempatkan sesuatu tentang distribusi bersama, bukan hanya margin.
Glen_b -Reinstate Monica

Jawaban:


15

Tidak . Sisa adalah nilai-nilai tergantung pada X (dikurangi rata-rata prediksi Y pada setiap titik di X ). Anda dapat mengubah X cara apapun yang Anda inginkan ( X + 10 , X - 1 / 5 , X / π ) dan Y nilai-nilai yang bersesuaian dengan X nilai pada titik tertentu di X tidak akan berubah. Dengan demikian, distribusi bersyarat Y (yaitu, Y | XYXYXXX+10X1/5X/πYXXYY|X) akan tetap sama. Artinya, itu akan normal atau tidak, sama seperti sebelumnya. (Untuk memahami topik ini lebih lengkap, mungkin bisa membantu Anda membaca jawaban saya di sini: Bagaimana jika residu terdistribusi secara normal, tetapi Y tidak? )

Apa yang berubah dapat melakukan (tergantung pada sifat dari transformasi data yang Anda gunakan) adalah mengubah hubungan fungsional antara X dan Y . Dengan perubahan non-linear di X (mis., Untuk menghilangkan kemiringan) model yang ditentukan sebelumnya akan menjadi salah spesifikasi. Transformasi X non-linear sering digunakan untuk linierisasi hubungan antara X dan Y , untuk membuat hubungan lebih ditafsirkan, atau untuk menjawab pertanyaan teoretis yang berbeda. XXYXXXY

Untuk lebih lanjut tentang bagaimana transformasi non-linear dapat mengubah model dan pertanyaan-pertanyaan yang dijawab oleh model (dengan penekanan pada transformasi log), ini dapat membantu Anda untuk membaca utas CV yang luar biasa ini:

XYβ^00Xβ^1 (m)=100×β^1 (cm)Y akan naik 100 kali lebih dari 1 meter karena akan lebih dari 1 cm).


Y YYλYX


XY

YXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

masukkan deskripsi gambar di sini

Dalam plot, kita melihat bahwa kedua marginal tampak cukup normal, dan distribusi bersama terlihat normal bivariat. Meskipun demikian, keseragaman residu muncul dalam plot qq-nya; kedua ekornya jatuh terlalu cepat relatif terhadap distribusi normal (sebagaimana memang harus terjadi).


0

Jawaban singkatnya adalah dalam Teori Regresi Sederhana klasik, X ditetapkan dan diasumsikan diketahui (lihat, misalnya, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regress-models-2/ ), bahkan tanpa kesalahan pengukuran apa pun, beta Terkecil-kuadrat Anda mungkin bias dan bahkan tidak konsisten (lihat https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu) .edu / mrg217 / publik / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FIZbZ7323jOz ).

Sehubungan dengan membuat X variabel, Wikipedia pada teorema Gauss-Markov menyatakan secara singkat, mengutip:

"Dalam sebagian besar perawatan OLS, data X diasumsikan diperbaiki. Asumsi ini dianggap tidak sesuai untuk ilmu pengetahuan noneksperimental yang dominan seperti ekonometrik. [2] Sebaliknya, asumsi teorema Gauss-Markov dinyatakan bersyarat pada X "

yang saya baca sebagai transformasi besar yang tidak menarik dari sains ke seni, atau seni / sains.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.