Apa konsekuensi dari memiliki varian yang tidak konstan dalam hal kesalahan dalam regresi linier?

Salah satu asumsi regresi linier adalah bahwa harus ada varians konstan dalam hal kesalahan dan bahwa interval kepercayaan dan tes hipotesis yang terkait dengan model bergantung pada asumsi ini. Apa yang sebenarnya terjadi ketika istilah kesalahan tidak memiliki varian konstan?

— Kira
sumber

Konsekuensi dari heteroskedastisitas adalah:

Kuadrat terkecil biasa (OLS) estimator masih konsisten tetapi tidak lagi efisien . $\hat{\mathbf{b}} = \left(X'X \right)X'\mathbf{y}$
Perkiraan di mana $\hat{\mathrm{Var}}\left(\mathbf{b} \right) = \left( X'X\right)^{-1} \hat{\sigma}^2$ adalahtidakestimator yang konsisten lagi untuk matriks kovarians dari estimator Anda . Mungkin bias dan tidak konsisten. Dan dalam praktiknya, itu secara substansial dapat meremehkan varians. $\hat{\sigma}^2 = \frac{1}{n-k} \mathbf{e'}{\mathbf{e}}$ $\hat{\mathbf{b}}$

Poin (1) mungkin bukan masalah utama; orang sering menggunakan estimator OLS biasa. Tetapi poin (2) harus dibenahi. Apa yang harus dilakukan?

Anda memerlukan kesalahan standar yang konsisten heteroskedastisitas . Pendekatan standar adalah bersandar pada asumsi sampel besar, hasil asimptotik dan memperkirakan varian menggunakan: $\mathbf{b}$

manadiperkirakan sebagai

\hat{V a r} (b) = \frac{1}{n} {(\frac{X^{'} X}{n})}^{- 1} S {(\frac{X^{'} X}{n})}^{- 1}

$\hat{\mathrm{Var}}\left(\mathbf{b}\right)=\frac{1}{n}\left( \frac{X'X}{n} \right)^{-1} S \left( \frac{X'X}{n} \right)^{-1}$

S

$S$

S = \frac{1}{n - k} \sum_{i} (x_{i} e_{i}) {(x_{i} e_{i})}^{'}

$S = \frac{1}{n-k}\sum_i \left(\mathbf{x}_i e_i\right) \left(\mathbf{x}_i e_i \right)'$

Ini memberikan kesalahan standar yang konsisten heteroskedastisitas. Mereka juga dikenal sebagai kesalahan standar Huber-White, kesalahan standar yang kuat, penaksir "sandwich", dll ... Setiap paket statistik standar dasar memiliki opsi untuk kesalahan standar yang kuat. Gunakan!

Beberapa komentar tambahan (pembaruan)

Jika heteroskedastisitas cukup besar, estimasi OLS reguler dapat memiliki masalah praktis yang besar. Meskipun masih merupakan penaksir yang konsisten, Anda mungkin memiliki masalah sampel kecil di mana seluruh perkiraan Anda didorong oleh beberapa, pengamatan varian tinggi. (Inilah yang disinggung @ seanv507 dalam komentar). Estimator OLS tidak efisien karena memberikan bobot lebih untuk pengamatan varian tinggi daripada optimal. Perkiraannya mungkin sangat bising.

Masalah dengan mencoba untuk memperbaiki inefisiensi adalah bahwa Anda mungkin juga tidak tahu matriks kovarians untuk istilah kesalahan, maka menggunakan sesuatu seperti GLS dapat membuat segalanya lebih buruk jika estimasi Anda dari istilah kesalahan matriks kovarians adalah sampah.

Juga, kesalahan standar Huber-White yang saya berikan di atas mungkin memiliki masalah besar dalam sampel kecil. Ada literatur panjang tentang topik ini. Misalnya. lihat Imbens dan Kolesar (2016), "Kesalahan Standar yang Kuat dalam Sampel Kecil: Beberapa Nasihat Praktis."

Arahan untuk studi lebih lanjut:

Jika ini adalah belajar sendiri, hal praktis berikutnya yang perlu dipertimbangkan adalah kesalahan standar berkerumun. Ini benar untuk korelasi sewenang-wenang dalam kelompok.

— Matthew Gunn
sumber

Matius - Saya pikir masalah yang lebih praktis akan menjelaskan poin (1). misalnya tidakkah penduga akan 'bias' terhadap daerah-daerah dengan varians yang lebih tinggi? - yang akan menjadi masalah lebih besar jika daerah-daerah itu jauh dari rata-rata yang menyebabkan leverage tinggi.

— seanv507

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbf{b}$

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbb b$

@ seanv507 jangan ragu untuk menambahkan jawaban Anda sendiri!

— Matthew Gunn

Di tempat menggunakan kesalahan standar heteroskedastisitas-kuat (yang Ed Leamer dalam makalah 2010 "Tantalus di jalan menuju Asymptopia" panggilan White-washing ), orang juga dapat mencoba untuk memperbaiki perkiraan titik (bersama dengan estimasi varian) untuk heteroskedastisitas oleh WLS. Ini mungkin layak disebutkan dalam jawaban Anda.

— Richard Hardy

Yah jawaban singkatnya adalah pada dasarnya model Anda salah yaitu

Agar kuadrat terkecil biasa untuk menjadi B est L inear U nbiased E stimator varians konstan istilah kesalahan diasumsikan.
$\beta$

Jadi dalam kasus masalah heteroskedastisitas dengan memperkirakan matriks varians-kovarians terjadi, yang mengarah pada kesalahan standar yang salah dari koefisien, yang pada gilirannya menyebabkan salah t-statistik dan nilai-p. Secara singkat, jika istilah kesalahan Anda tidak memiliki varians konstan maka kuadrat terkecil biasa bukan cara yang paling efisien untuk estimasi. Lihat pertanyaan terkait ini .

— davidski
sumber

"Heteroscedasticity" membuatnya sulit untuk memperkirakan standar deviasi sebenarnya dari kesalahan perkiraan. Hal ini dapat menyebabkan interval kepercayaan yang terlalu lebar atau terlalu sempit (khususnya mereka akan terlalu sempit untuk prediksi out-of-sample, jika varians kesalahan meningkat dari waktu ke waktu).

Juga, model regresi mungkin terlalu fokus pada subset data.

Referensi yang baik: Menguji asumsi regresi linier

— oW_
sumber