Kapan menggunakan distribusi Student atau Normal dalam regresi linier?

10

Saya melihat beberapa masalah, dan dalam beberapa, untuk menguji koefisien, kadang-kadang saya melihat orang menggunakan distribusi Student, dan kadang-kadang saya melihat distribusi Normal. Apa aturannya?

regression distributions hypothesis-testing

— Leo
sumber

3

Ini bukan jawaban, tetapi perlu dicatat bahwa distribusi- mendekati distribusi normal ketika parameter derajat kebebasan tumbuh lebih besar. Masa lalu , tidak ada perbedaan yang cukup, terutama di sebagian besar kerangka hipotesis-pengujian. Perilaku pembatas adalah "dari atas" dalam arti bahwa if dan , makasecara stokastik lebih besar dari.

t

$t$

ν

$\nu$

ν \geq 30

$\nu \geq 30$

T \sim t_{ν}

$T \sim t_{\nu}$

Z \sim N (0, 1)

$Z \sim \mathcal{N}(0,1)$

| T |

$|T|$

| Z |

$|Z|$

— kardinal

15

Distribusi normal adalah distribusi sampel besar dalam banyak masalah statistik bermakna yang melibatkan beberapa versi dari Teorema Batas Pusat: Anda memiliki (kurang-lebih) informasi independen yang ditambahkan untuk sampai pada jawabannya. Jika estimasi parameter normal asimptotik, fungsinya juga akan normal asimptotik (dalam kasus reguler).

Di sisi lain, distribusi Student diturunkan dalam kondisi yang lebih ketat dari kesalahan regresi normal iid. Jika Anda dapat membeli asumsi ini, Anda dapat membeli distribusi yang digunakan untuk menguji hipotesis dalam regresi linier. Penggunaan distribusi ini memberikan interval kepercayaan yang lebih luas daripada penggunaan distribusi normal. Arti substantif dari itu adalah bahwa dalam sampel kecil, Anda perlu memperkirakan ukuran ketidakpastian Anda, kesalahan kuadrat rata-rata regresi, atau standar deviasi residual, . (Dalam sampel besar, Anda agak memiliki informasi sebanyak jika Anda mengetahuinya, sehingga distribusi merosot ke distribusi normal.) $t$ $t$ $\sigma$ $t$

Ada beberapa kesempatan dalam regresi linier, bahkan dengan sampel terbatas, di mana distribusi Siswa tidak dapat dibenarkan. Mereka terkait dengan pelanggaran kondisi orde kedua pada kesalahan regresi; yaitu, bahwa mereka (1) varians konstan, dan (2) independen. Jika asumsi ini dilanggar, dan Anda memperbaiki kesalahan standar Anda menggunakan estimator Eicker / White untuk heteroskedastik, tetapi residual independen; atau penduga Newey-West untuk kesalahan yang berhubungan secara seri, atau kesalahan standar yang dikelompokkanuntuk data berkorelasi-cluster, tidak ada cara Anda dapat menarik pembenaran yang masuk akal untuk distribusi Siswa. Namun, dengan menggunakan versi yang sesuai dari argumen normalitas asimptotik (array traingular dan semacamnya), Anda dapat membenarkan perkiraan normal (walaupun Anda harus ingat bahwa interval kepercayaan diri Anda kemungkinan besar akan terlalu sempit).

— Tugas
sumber

1

(+1) Saya suka implikasinya, pada pembukaan paragraf ketiga, bahwa regresi linier dilakukan dengan sampel tak terbatas (tidak terbatas ")!

— whuber

@whuber: :) Dalam buku-buku saya, jika itu normal, itu harus bergantung pada CLT atau sesuatu tanpa gejala. Kalau tidak, masuk akal seperti ini .

— Tugas

6

Saya suka representasi distribusi t siswa sebagai campuran dari distribusi normal dan distribusi gamma:

S t u d e n t (x | μ, σ^{2}, ν) = \int_{0}^{\infty} N o r m a l (x | μ, \frac{σ^{2}}{ρ}) G a m m a (ρ | \frac{ν}{2}, \frac{ν}{2}) d ρ

$Student(x|\mu,\sigma^2,\nu)=\int_{0}^{\infty}Normal\left(x|\mu,\frac{\sigma^2}{\rho}\right)Gamma\left(\rho|\frac{\nu}{2},\frac{\nu}{2}\right)d\rho$

Perhatikan bahwa rata-rata distribusi gamma adalah dan varians dari distribusi ini adalah . Jadi kita dapat melihat distribusi-t sebagai generalisasi asumsi varian konstan ke asumsi varian "mirip". pada dasarnya mengontrol seberapa mirip kita membiarkan varians untuk menjadi. Anda juga melihat ini sebagai regresi "acak tertimbang", karena kita dapat menggunakan integral di atas sebagai representasi "variabel tersembunyi" sebagai berikut: $E[\rho|\nu]=1$ $V[\rho|\nu]=\frac{2}{\nu}$ $\nu$

y_{i} = μ_{i} + \frac{e_{i}}{\sqrt{ρ_{i}}}

$y_i=\mu_i+\frac{e_i}{\sqrt{\rho_i}}$

Di mana dan semua variabel independen. Sebenarnya ini pada dasarnya hanya definisi dari distribusi-t, seperti $e_i\sim N(0,\sigma^2)$ $\rho_i\sim Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)$ $Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)\sim \frac{1}{\nu}\chi^2_\nu$

Anda dapat melihat mengapa hasil ini membuat distribusi t siswa "kuat" dibandingkan dengan normal karena kesalahan besar dapat terjadi karena nilai atau karena nilai . Sekarang karena adalah umum untuk semua pengamatan, tetapi adalah spesifik untuk yang ke-1, hal umum "akal sehat" untuk menyimpulkan adalah bahwa outlier memberikan bukti untuk kecil . Selain itu, jika Anda melakukan regresi linier , Anda akan menemukan bahwa adalah bobot untuk pengamatan ke-i, dengan asumsi bahwa diketahui .: $y_i-\mu_i$ $\sigma^2$ $\rho_i$ $\sigma^2$ $\rho_i$ $\rho_i$ $\mu_i=x_i^T\beta$ $\rho_i$ $\rho_i$

\hat{β} = (\sum_{i} ρ_{i} x_{i} x_{i}^{T})^{- 1} (\sum_{i} ρ_{i} x_{i} y_{i})

$\hat{\beta}=(\sum_i\rho_ix_ix_i^T)^{-1}(\sum_i\rho_ix_iy_i)$

Jadi pencilan merupakan bukti untuk kecil yang berarti pengamatan ke-i berkurang. Selain itu, "outlier" kecil - pengamatan yang diprediksi / dipasang jauh lebih baik daripada yang lain - merupakan bukti untuk . Karenanya pengamatan ini akan diberikan bobot lebih dalam regresi. Ini sejalan dengan apa yang akan dilakukan secara intuitif dengan pencilan atau titik data yang baik. $\rho_i$ $\rho_i$

Perhatikan bahwa tidak ada "aturan" untuk memutuskan hal-hal ini, meskipun tanggapan saya dan orang lain terhadap pertanyaan ini mungkin berguna untuk menemukan beberapa tes yang dapat Anda lakukan di sepanjang jalur varian terbatas (siswa t adalah varian tak terbatas untuk derajat kebebasan kurang dari atau sama dengan ke dua).

— probabilityislogic
sumber

+1: ini terlihat benar, tetapi saya tidak berpikir Anda harus mengatakan campuran dari distribusi normal dan gamma, melainkan distribusi senyawa normal-gamma-normal dan memotivasi konstruksi ini dengan mengatakan bahwa distribusi gamma normal adalah konjugasi sebelum distribusi normal (parametrized oleh mean dan presisi).

— Neil G

Ya, intinya diambil tentang campuran - meskipun saya tidak bisa memikirkan cara non-canggung untuk memperbaikinya sekarang. Perhatikan bahwa formulir ini tidak unik untuk konjugasi distribusi - misalnya jika kita mengganti gamma pdf dengan pdf eksponensial terbalik, kita mendapatkan distribusi laplace. Ini mengarah pada "penyimpangan paling tidak absolut" dan bukan kuadrat terkecil sebagai bentuk memperkuat distribusi normal. Distribusi lain akan mengarah pada "pembenaran" lainnya - mungkin tidak secantik analitik siswa.

— probabilityislogic

Jika X adalah variabel acak normal standar dan U adalah variabel acak chi-kuadrat dengan derajat kebebasan ν, maka adalah milik Siswa. t (ν) variabel acak. di sini .

\frac{X}{\sqrt{(U / ν)}}

${\frac {X}{\sqrt {(U/\nu )}}}$

— Carl