Asumsi distribusi residu regresi


12

Mengapa perlu menempatkan asumsi distribusi pada kesalahan, yaitu

ϵ iN ( 0 , σ 2 )yi=Xβ+ϵi , dengan .ϵiN(0,σ2)

Kenapa tidak menulis

y i ~ N ( X β , σ 2 )yi=Xβ+ϵi , dengan ,yiN(Xβ^,σ2)

di mana dalam kedua kasus . Saya telah melihatnya menekankan bahwa asumsi distribusi ditempatkan pada kesalahan, bukan data, tetapi tanpa penjelasan. ϵi=yiy^

Saya tidak begitu mengerti perbedaan antara kedua formulasi ini. Beberapa tempat saya melihat asumsi distribusi ditempatkan pada data (Bayesian menyala sepertinya sebagian besar), tetapi kebanyakan kali asumsi ditempatkan pada kesalahan.

Ketika menjadi model, mengapa seseorang harus memilih untuk memulai dengan asumsi satu atau yang lain?


Pertama, itu tidak "perlu", itu tergantung apa yang ingin Anda lakukan. Ada beberapa jawaban yang baik, tetapi saya pikir intinya adalah asumsi yang mendasari kausalitas, dalam arti Xs "menyebabkan" y, dan jika Anda melihatnya dengan cara itu Anda melihat bahwa distribusi y "disebabkan" oleh distribusi rhs, yaitu Xs dan kesalahannya (jika ada). Anda dapat melakukan banyak ekonometrik dengan asumsi distribusi yang sangat terbatas dan, khususnya, tanpa normalitas. Terima kasih Tuhan.
PatrickT

3
XβyE( y )=E(y)=Xβy^ bukan , dan rerata populasi tidak sama dengan perkiraan sampelnya. Artinya, hal kedua sebenarnya tidak sama dengan yang pertama, tetapi jika Anda menggantinya dengan harapannya ( ), keduanya akan sama. XβyE(y^)=E(y)=Xβ
Glen_b -Reinstate Monica

Apa itu ? Dan jika bervariasi dengan , mengapa bervariasi? Harap putuskan notasi mana yang ingin Anda gunakan, vektor atau matriks. Sekarang jika kita berasumsi bahwa notasi Anda lebih dari bizzare: , yaitu Anda mendefinisikan distribusi dalam hal dirinya sendiri dan semua pengamatan lainnya ! yiiXβ y =X β yi~N(x ' i (Σxjx ' j )-1Σxjyj,σ2)yiyjy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas

1
Saya telah menurunkan pertanyaan karena saya pikir notasinya membingungkan dan ini sudah menghasilkan beberapa jawaban yang saling bertentangan.
mpiktas

Jawaban:


9

Dalam pengaturan regresi linier, adalah umum untuk melakukan analisis dan memperoleh hasil yang bersyarat pada , yaitu bersyarat pada "data". Jadi, apa yang Anda butuhkan adalah bahwa Anda adalah normal, yaitu, Anda perlu menjadi normal. Seperti yang diilustrasikan oleh Peter Flom, seseorang dapat memiliki normalitas tanpa memiliki normalitas , dan, oleh karena itu, yang Anda butuhkan adalah normalitas , itulah asumsi yang masuk akal.y X ϵ ϵ y ϵXyXϵϵyϵ


8

Saya akan menulis definisi kedua sebagai

yiN(Xiβ,σ2)

atau (seperti yang disarankan Karl Oskar +1)

yi|XiN(Xiβ,σ2)

yaitu asumsi pemodelan adalah bahwa variabel respon terdistribusi secara normal di sekitar garis regresi (yang merupakan estimasi dari conditional mean), dengan varians konstan . Ini bukan hal yang sama dengan menyarankan bahwa secara normal, karena rata-rata distribusi tergantung pada .y i X iσ2yiXi

Saya pikir saya telah melihat formulasi serupa dengan ini dalam literatur pembelajaran mesin; sejauh yang saya lihat itu setara dengan definisi pertama, yang saya lakukan adalah mengulangi formulasi kedua sedikit berbeda untuk menghilangkan dan .yϵiy^


3

Perbedaannya paling mudah untuk diilustrasikan dengan sebuah contoh. Ini yang sederhana:

Misalkan Y adalah bimodal, dengan modalitas dicatat oleh variabel independen. Misalkan Y adalah tinggi dan sampel Anda (untuk alasan apa pun) terdiri dari joki dan pemain bola basket. misalnya diR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

kepadatan pertama sangat tidak normal. Tetapi residu dari model sangat dekat dengan normal.

Mengenai mengapa pembatasan dilakukan dengan cara ini - saya akan membiarkan orang lain menjawabnya.


1
Terima kasih! Saya mengerti maksud Anda dengan distribusi bimodal. Pertanyaan tindak lanjut: Bagaimana jika varians data berbeda, (heteroskedastisitas?) Katakanlah .. semua joki adalah hak kecil, tetapi ketinggian pemain bola basket sangat bervariasi. Mungkin bagi mereka, tinggi <- rnorm (100,78,10). Bagaimana situasi seperti ini mengubah asumsi Anda tentang atau ? ϵ iyiϵi
bill_e

Dalam hal ini, heteroskedastisitas akan menjadi masalah dan Anda perlu menggunakan bentuk regresi lain, atau mungkin beberapa transformasi, atau Anda dapat menambahkan variabel lain (dalam contoh konyol ini, posisi yang dimainkan dalam bola basket mungkin melakukannya).
Peter Flom - Reinstate Monica

Saya tidak yakin formulasi ini dimaksudkan untuk menyarankan bahwa ys terdistribusi normal, hanya saja mereka memiliki distribusi kondisional yang normal.
Dikran Marsupial

2


yiN(y^i,σε2)
y^xi

Yang telah dicatat, apa yang dimaksud dengan ? Ini adalah . Ini mengarah pada formulasi @DikranMarsupial menyajikan: Perlu diketahui bahwa ini persis sama dengan yang pertama Anda formulasi, karena keduanya menetapkan distribusi normal dan nilai yang diharapkan sama. Yaitu: (Dan jelas variansnya sama.) Dengan kata lain, iniy^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
bukan perbedaan dalam asumsi, tetapi hanya perbedaan notasi.

Jadi pertanyaannya menjadi, adakah alasan untuk lebih suka mempresentasikan ide menggunakan formulasi pertama?

Saya pikir jawabannya adalah ya karena dua alasan:

  1. Orang sering bingung apakah data mentah harus didistribusikan secara normal (yaitu, ), atau jika data bersyarat pada / kesalahan harus didistribusikan secara normal (yaitu, / ), misalnya, lihat : Bagaimana jika residu terdistribusi normal, tetapi y tidak?X Y | X εYXY|Xε
  2. Orang juga sering bingung apa yang seharusnya independen, data mentah atau kesalahan. Selain itu, kami sering menyebutkan fakta bahwa sesuatu harus iid (independen dan didistribusikan secara identik); jika Anda berpikir dalam kaitannya dengan ini dapat menjadi sumber kebingungan lain, karena dapat independen, tetapi tidak dapat didistribusikan secara identik kecuali jika hipotesis nol berlaku (karena rerata akan bervariasi). Y | XY|XY|X

Saya percaya bahwa kebingungan ini lebih mungkin menggunakan formulasi kedua daripada yang pertama.


1
@ Glen_b, saya tidak mengikuti komentar Anda. Klaim saya bukan bahwa sama dengan , melainkan bahwa sama dengan . Pengindeksan yang di-subscript oleh relevan. Idenya adalah bahwa nilai yang diprediksi, , untuk pengamatan yang diberikan adalah . Ini tidak ada hubungannya w / mean populasi . (Tapi sepertinya aku lupa menambahkan topi ke betas-betasku; aku sudah memperbaikinya sekarang.) Xβ y ixi β i y ixi β Yy^Xβy^ixiβ^iy^ixiβ^Y
gung - Reinstate Monica

@Glen_b jika sampelnya berarti itu akan menjadi daripada . Saya awalnya menemukan notasi membingungkan juga, tetapi fakta bahwa mengikuti dari pernyataan bahwa dan . Agar kedua hal ini benar, hanya boleh . y y =Xβyi=Xβ+εiεi=yi - y y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Marsupial
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.