Mengapa kesalahan yang didistribusikan secara tidak normal mengganggu validitas pernyataan signifikansi kami?

Ada asumsi normal ketika datang untuk mempertimbangkan model OLS dan itu adalah bahwa kesalahan didistribusikan secara normal. Saya telah menelusuri Cross Validated dan sepertinya Y dan X tidak harus normal agar kesalahan normal. Pertanyaan saya adalah mengapa ketika kita memiliki kesalahan yang tidak terdistribusi secara normal, apakah validitas pernyataan signifikansi kita dikompromikan? Mengapa interval kepercayaan terlalu lebar atau sempit?

— pengguna44278
sumber

mengapa ketika kita memiliki kesalahan yang tidak terdistribusi secara normal, apakah validitas pernyataan signifikansi kita dikompromikan? Mengapa interval kepercayaan terlalu lebar atau sempit?

Interval kepercayaan didasarkan pada cara pembilang dan penyebut didistribusikan dalam t-statistik.

Dengan data normal pembilang suatu t-statistik memiliki distribusi normal dan distribusi kuadrat penyebut (yang kemudian varians) adalah kelipatan tertentu dari distribusi chi-kuadrat. Ketika pembilang dan penyebutnya juga independen (karena hanya akan menjadi kasus dengan data normal, mengingat pengamatan itu sendiri independen), seluruh statistik memiliki distribusi-t.

$\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

Jika data berasal dari distribusi lain, statistik tidak akan memiliki distribusi-t. Misalnya, jika berekor berat, distribusi-t cenderung cenderung sedikit lebih ringan (pengamatan terluar lebih banyak mempengaruhi penyebut daripada pembilang). Ini sebuah contoh. Dalam kedua kasus, histogram adalah untuk 10.000 regresi:

masukkan deskripsi gambar di sini

$\beta=0$ $(-2,2)$

Interval t 95% (yang harus mencakup 95% lereng dalam sampel kami) beroperasi dari -2,048 hingga 2,048. Untuk data normal, sebenarnya termasuk 95,15% dari 10.000 lereng sampel. Untuk data yang miring ini termasuk 99,91%.

— Glen_b -Reinstate Monica
sumber

Distribusi apa yang Anda gunakan untuk versi miring & berat-ekor?

— gung - Reinstate Monica

t

$t$