Regresi ketika residu OLS tidak terdistribusi secara normal


44

Ada beberapa utas di situs ini yang membahas cara menentukan apakah residu OLS terdistribusi secara normal tanpa gejala . Cara lain untuk mengevaluasi normalitas residual dengan kode R disediakan dalam jawaban yang sangat baik ini . Ini adalah diskusi lain tentang perbedaan praktis antara residu terstandarisasi dan yang diamati.

Tetapi katakanlah residu pasti tidak terdistribusi normal, seperti dalam contoh ini . Di sini kita memiliki beberapa ribu pengamatan dan jelas kita harus menolak asumsi residu yang terdistribusi normal. Salah satu cara untuk mengatasi masalah adalah dengan menggunakan beberapa bentuk estimator yang kuat seperti yang dijelaskan dalam jawaban. Namun saya tidak terbatas pada OLS dan pada kenyataannya saya ingin memahami manfaat metodologi GLM lain atau non-linear.

Apa cara paling efisien untuk memodelkan data yang melanggar asumsi normal residual OLS? Atau setidaknya apa yang seharusnya menjadi langkah pertama untuk mengembangkan metodologi analisis regresi yang sehat?


5
Ada juga beberapa utas yang membahas bagaimana normalitas pada dasarnya tidak relevan untuk banyak tujuan. Jika Anda memiliki pengamatan independen, dan setidaknya ukuran sampel sedang, satu-satunya hal yang penting untuk inferensi OLS adalah bahwa semua residu memiliki varian yang sama. Bukan Normalitas. Jika Anda menggunakan estimasi kesalahan standar yang kuat / heteroskedastisitas-konsisten / sandwich / Huber-Eicker-White maka bahkan persyaratan varians konstan tidak diperlukan.
tamu

@guest Saya hanya membaca tentang efisiensi uji normalitas di utas itu. Analisis regresi bahkan tidak ditandai.
Robert Kubrick

Coba yang ini . Inilah tautan eksternal . Dan lihat bab OLS misalnya Stock dan Watson, Pengantar Ekonometrika . Aku bersumpah aku tidak mengada-ada!
tamu

@guest Kedua tautan berhubungan dengan distribusi normal hasil, bukan residual.
Robert Kubrick

1
Tidak, mereka tidak. Penulis sering menyebut "distribusi Y" sebagai singkatan untuk "distribusi Y yang tergantung pada X". Untuk kembali ke pertanyaan awal Anda; kecuali jika Anda memiliki sampel kecil atau data besar-besaran, penggunaan OLS dengan kesalahan standar yang kuat adalah langkah pertama yang baik. Dalam kasus ini, Normalitas hanyalah masalah biasa.
tamu

Jawaban:


54

Estimasi kuadrat terkecil biasa masih merupakan estimator yang wajar dalam menghadapi kesalahan tidak normal. Secara khusus, Teorema Gauss-Markov menyatakan bahwa estimasi kuadrat terkecil biasa adalah estimator linier tidak bias terbaik (BLUE) dari koefisien regresi ('Terbaik' artinya optimal dalam hal meminimalkan kesalahan kuadrat rata-rata ) selama kesalahan

(1) memiliki mean nol

(2) tidak berkorelasi

(3) memiliki varian konstan

Perhatikan tidak ada kondisi normal di sini (atau bahkan kondisi apa pun yang kesalahannya adalah IID ).

Kondisi normal berperan ketika Anda mencoba untuk mendapatkan interval kepercayaan dan / atau nilai- . Seperti @MichaelChernick menyebutkan (+1, btw) Anda dapat menggunakan inferensi kuat ketika kesalahan tidak normal selama keberangkatan dari normal dapat ditangani oleh metode - misalnya, (seperti yang kita bahas dalam utas ini ) Huber -estimator dapat memberikan inferensi yang kuat ketika distribusi kesalahan yang sebenarnya adalah campuran antara normal dan distribusi ekor panjang (yang terlihat seperti contoh Anda) tetapi mungkin tidak membantu untuk keberangkatan lain dari normalitas. Satu kemungkinan menarik yang disinggung Michael adalah bootstrap untuk mendapatkan interval kepercayaan untuk perkiraan OLS dan melihat bagaimana ini dibandingkan dengan inferensi berbasis Huber.pM

Sunting: Saya sering mendengar dikatakan bahwa Anda dapat mengandalkan Teorema Limit Pusat untuk mengatasi kesalahan yang tidak normal - ini tidak selalu benar (Saya tidak hanya berbicara tentang contoh tandingan di mana teorema gagal). Dalam contoh data nyata yang dirujuk OP, kami memiliki ukuran sampel yang besar tetapi dapat melihat bukti distribusi kesalahan berekor panjang - dalam situasi di mana Anda memiliki kesalahan berekor panjang, Anda tidak dapat selalu mengandalkan pada Teorema Batas Pusat untuk memberikan Anda kira-kira kesimpulan yang tidak bias untuk ukuran sampel terbatas yang realistis. Misalnya, jika kesalahan mengikuti distribusi- dengan kebebasan derajat (yang tidak jelas lebih banyakt2.01 berekor panjang daripada kesalahan yang terlihat dalam data OP), estimasi koefisien terdistribusi secara asimptotik, tetapi butuh lebih lama untuk "menendang" daripada yang dilakukannya untuk distribusi berekor pendek lainnya.

Di bawah ini, saya menunjukkan dengan simulasi kasar Rketika , di mana , distribusi sampling dari masih cukup panjang meskipun ukuran sampel :yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

masukkan deskripsi gambar di sini


2
+1, ini adalah ikhtisar topik yang sangat bagus. Saya terutama menghargai hasil edit. Apakah ada sesuatu yang istimewa tentang ? Itu tampaknya sangat spesifik. df=2.01
gung - Reinstate Monica

2
@ung, Terima kasih - Saya memilih karena varians dari variabel acak berdistribusi tidak ada ketika dan karenanya teorema limit pusat tidak akan berlaku. df=2.01tdf2
Makro

1
@guest, ini adalah contoh yang dibuat hanya untuk menunjukkan bahwa Anda tidak bisa mempercayai CLT secara membabi buta ketika Anda memiliki kesalahan berekor panjang. Saya setuju ini ekstrem untuk banyak aplikasi tetapi dalam contoh ( stats.stackexchange.com/questions/29636/... ) OP yang dimaksud, data menunjukkan distribusi kesalahan berekor yang sangat panjang - bentuknya sedikit berbeda dari distribusi, tetapi tidak jelas kurang berekor panjang, dan itu memang hasil dari data nyata. Saya telah mengedit "Edit" untuk menyoroti ini. t2.01
Makro

2
@ Macro, saya setuju tentang penggunaan CLT secara buta. Tetapi membutuhkan data Normal untuk interval kepercayaan dan nilai- - dan tidak hanya membutuhkan data ekor ringan - adalah kerja keras yang berlebihan, dan mendorong mis. Transformasi invers-Normal, yang hanya membuat interpretasi output lebih sulit. Keseimbangan untuk menyerang adalah antara menjawab pertanyaan yang benar kira-kira versus yang salah tepatnya; jika yang benar melibatkan perbandingan rata-rata populasi, penggunaan OLS adalah cara yang tepat. p
tamu

2
@guest, saya tidak pernah berdebat melawan OLS. Bahkan, saya pikir sebagian besar dari jawaban saya adalah bahwa OLS adalah hal yang wajar untuk dilakukan, terlepas dari asumsi distribusi. Saya juga tidak pernah berargumen bahwa normalitas yang ketat harus dipatuhi untuk melakukan inferensi - apa yang saya katakan adalah bahwa, ketika Anda memiliki kesalahan berekor panjang, inferensi berdasarkan perkiraan normal dapat menyesatkan (saya tidak yakin bagaimana / jika ini tidak setuju pada semua dengan apa yang Anda katakan) dan satu akan disarankan untuk mempertimbangkan alternatif (misalnya bootstrap). .
Makro

10

Saya pikir Anda ingin melihat semua properti residu.

  1. normalitas
  2. varian konstan
  3. berkorelasi dengan kovariat.
  4. kombinasi di atas

Jika hanya 1 dan itu karena ekor besar atau miring karena satu ekor yang berat, regresi yang kuat mungkin merupakan pendekatan yang baik atau mungkin transformasi ke normalitas. Jika ini adalah varian non-konstan, cobalah transformasi penstabilan varians atau upaya memodelkan fungsi varians. Jika hanya 3 yang menyarankan bentuk model yang berbeda yang melibatkan kovariat itu. Apapun masalahnya, bootstrap vektor atau reidual selalu menjadi pilihan.


Untuk 1, dapatkah Anda menguraikan sedikit tentang transformasi menjadi normal untuk residu berekor berat?
Robert Kubrick

2
transformasi log atau Box-Cox dengan lambda kecil mengecilkan ekor. Itu dapat bekerja untuk beberapa distribusi berekor berat dan condong. Saya tidak tahu bagaimana jika transformasi apa pun akan berhasil untuk distribusi yang sangat berat.
Michael Chernick

3
Jawaban yang bagus Michael. Saya sudah mulai lebih rutin menggunakan bootstrap untuk interval kepercayaan yang melibatkan perkiraan regresi dan perbedaan umum, dan telah membuatnya mudah dilakukan dalam rmspaket R. Tetapi seperti yang Anda sarankan, menemukan transformasi yang meningkatkan stabilitas varians dan kadang-kadang meningkatkan normalitas residu sering memiliki beberapa keuntungan, bahkan jika kita bootstrap. Estimasi kuadrat terkecil menggunakan transformasi "salah" bisa sangat tidak efisien dan menyebabkan kesalahan rata-rata absolut dan median absolut dalam prediksi. Saya juga suka menggunakan model regresi semiparametrik.
Frank Harrell

2

Pengalaman saya sepenuhnya sesuai dengan Michael Chernick. Tidak hanya kadang-kadang menerapkan transformasi data membuat kesalahan pemodelan terdistribusi secara normal, itu juga dapat memperbaiki heteroskedastisitas.

Maaf, tetapi menyarankan sebaliknya seperti mengumpulkan jumlah data yang gila, atau menggunakan metode regresi yang kuat dan kurang efisien, menurut saya, salah dalam menerapkan sains / seni ini.


1

Makro (hanya di atas) menyatakan jawaban yang benar. Hanya sedikit presisi karena saya punya pertanyaan yang sama

Kondisi normal residual berguna ketika residu juga homoskedastik. Hasilnya kemudian OLS memiliki varians terkecil antara semua estimator (linear OR non-linear).

Asumsi OLS yang diperluas:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n, adalah iid
  3. Pencilan besar jarang terjadi
  4. kamu homoskedastik
  5. u didistribusikanN(0,σ2)

jika 1-5 diverifikasi, maka OLS memiliki varians terkecil antara semua estimator (linier ATAU non-linear) .

jika hanya 1-4 yang diverifikasi, maka oleh Gauss-Markov, OLS adalah penaksir linier (hanya!) terbaik (BIRU).

Sumber: Stock and Watson, Econometrics + matakuliah saya (EPFL, Econometrics)


Tidak ada persyaratan untuk normalitas untuk kuadrat terkecil biasa dalam residu, meskipun normalitas menganugerahkan beberapa sifat yang diinginkan, misalnya, untuk analisis kemungkinan maksimum. Yang terakhir ini sering digunakan untuk kriteria informasi Akaike. Namun, ini adalah pembatasan yang tidak perlu, jarang ditemui, dan persyaratan yang lebih formal adalah untuk homoseksualitas, bukan normalitas, yang beruntung karena dalam kasus sebaliknya, akan ada sedikit penggunaan untuk kuadrat biasa di y.
Carl

@Carl: secara tegas tidak ada persyaratan apa pun untuk OLS, bahkan 1 atau 2 (minta Excel untuk menjalankan regresi dan tidak akan ada pertanyaan yang diajukan): normalitas adalah salah satu dari beberapa properti yang membuat kesimpulan masuk akal, misalnya prediksi, kepercayaan interval, tes.
PatrickT

@ Patrick Kemampuan untuk menghitung sesuatu tidak memberi arti. Sebagai contoh, regresi linear OLS tentang garis dengan Cauchy didistribusikan nilai kesalahan meningkatkan CI kemiringan dan mencegat untuk mengakui hampir apa pun, itu tidak mengembalikan garis asli atau kemiringan. Orang mungkin menyebut ini perhitungan Pyrrhic. y
Carl

Kita harus mengatakan hal yang sama. Mungkin ungkapan komentar pertama Anda membuat saya bingung.
PatrickT

1

Untuk kondisi yang tidak normal seseorang kadang-kadang akan menggunakan regresi yang kuat , terutama menggunakan tautan ke metode .

Untuk menyajikan konteks non-normalitas, mungkin membantu untuk meninjau asumsi untuk regresi OLS linier , yaitu:

  • Eksogenitas yang lemah . Ini pada dasarnya berarti bahwa variabel prediktor, x , dapat diperlakukan sebagai nilai tetap, bukan variabel acak. Ini berarti, misalnya, bahwa variabel prediktor dianggap bebas kesalahan — yaitu, tidak terkontaminasi dengan kesalahan pengukuran. Asumsi ini adalah salah satu yang paling sering dilanggar dan mengarah ke kesalahan sebagaimana disebutkan berikut daftar asumsi ini.
  • Linearitas. Ini berarti bahwa rata-rata dari variabel respon adalah kombinasi linear dari parameter (koefisien regresi) dan variabel prediktor. Perhatikan bahwa asumsi ini jauh lebih tidak membatasi daripada yang terlihat pada awalnya. Karena variabel prediktor diperlakukan sebagai nilai tetap (lihat di atas), linearitas sebenarnya hanyalah pembatasan pada parameter. Variabel prediktor itu sendiri dapat diubah secara sewenang-wenang, dan pada kenyataannya beberapa salinan dari variabel prediktor yang mendasari yang sama dapat ditambahkan, masing-masing variabel ditransformasikan secara berbeda.
  • Varians konstan (alias homoscedasticity). Ini berarti bahwa nilai yang berbeda dari variabel respons memiliki varians yang sama dalam kesalahan mereka, terlepas dari nilai variabel prediktor. Dalam praktiknya asumsi ini tidak valid (yaitu kesalahannya heteroscedastic) jika variabel respons dapat bervariasi dalam skala luas. Untuk memeriksa varians kesalahan heterogen, atau ketika pola residu melanggar asumsi model homoseksualitas (kesalahan adalah variabel yang sama di sekitar 'garis paling pas' untuk semua titik x), adalah bijaksana untuk mencari "efek mengipasi" antara kesalahan residual dan nilai yang diprediksi. Ini untuk mengatakan akan ada perubahan sistematis dalam residu absolut atau kuadrat ketika diplot terhadap variabel prediktif. Kesalahan tidak akan didistribusikan secara merata di seluruh garis regresi. Heteroskedastisitas akan menghasilkan rerata dari varian yang dapat dibedakan di sekitar titik untuk mendapatkan varian tunggal yang secara tidak akurat mewakili semua varian garis. Akibatnya, residu muncul berkerumun dan menyebar terpisah pada plot yang diprediksi untuk nilai yang lebih besar dan lebih kecil untuk poin di sepanjang garis regresi linier, dan kesalahan kuadrat rata-rata untuk model akan salah.
  • Independensi kesalahan. Ini mengasumsikan bahwa kesalahan dari variabel respon tidak berkorelasi satu sama lain. (Independensi statistik aktual adalah kondisi yang lebih kuat daripada kurangnya korelasi dan seringkali tidak diperlukan, meskipun dapat dieksploitasi jika diketahui tahan. Yang terakhir ini dapat diperiksa dengan analisis kluster dan koreksi untuk interaksi.) Beberapa metode (misalnya digeneralisasi kuadrat terkecil) mampu menangani kesalahan yang berkorelasi, meskipun mereka biasanya membutuhkan lebih banyak data secara signifikan kecuali jika semacam regularisasi digunakan untuk bias model ke arah asumsi kesalahan yang tidak berkorelasi. Regresi linier Bayesian adalah cara umum untuk menangani masalah ini.
  • Hubungan statistik antara istilah kesalahan dan regressor memainkan peran penting dalam menentukan apakah prosedur estimasi memiliki sifat sampling yang diinginkan seperti tidak bias dan konsisten.

  • Pengaturan, atau distribusi probabilitas variabel prediktor x memiliki pengaruh besar pada ketepatan estimasi β. Pengambilan sampel dan desain eksperimen adalah subbidang statistik yang sangat maju yang menyediakan panduan untuk mengumpulkan data sedemikian rupa untuk mencapai perkiraan yang tepat dari β.

Seperti yang diilustrasikan oleh jawaban ini , simulasi Student's mendistribusikan kesalahan sumbu dari garis mengarah ke garis regresi OLS dengan interval kepercayaan untuk kemiringan dan mencegat peningkatan ukuran seiring dengan menurunnya derajat kebebasan ( ). Untuk , Student's- adalah distribusi Cauchy dan interval kepercayaan untuk lereng menjadi .tydfdf=1t(,+)

Adalah sewenang-wenang untuk memanggil distribusi Cauchy sehubungan dengan residu dalam arti bahwa ketika kesalahan menghasilkan didistribusikan Cauchy, residu OLS dari garis palsu melalui data akan menjadi lebih tidak dapat diandalkan, yaitu, sampah di --- sampah keluar. Dalam kasus tersebut, seseorang dapat menggunakan regresi regresi Theil-Sen . Theil-Sen tentu lebih kuat daripada OLS untuk residu non-normal, misalnya, kesalahan Cauchy didistribusikan tidak akan menurunkan interval kepercayaan dan tidak seperti OLS juga merupakan regresi bivariat, namun dalam kasus bivariat masih bias. Regresi Passing-Bablok bisa lebih bivariat tidak memihak, tetapi tidak berlaku untuk lereng regresi negatif. Ini paling sering digunakan untuk studi perbandingan metode. Orang harus menyebutkan regresi Demingdi sini, tidak seperti regresi Theil-Sen dan Passing-Bablok, ini adalah solusi aktual untuk masalah bivariat, tetapi tidak memiliki kekokohan dari regresi lainnya. Robustness dapat ditingkatkan dengan memotong data untuk memasukkan nilai yang lebih sentral, misalnya, konsensus sampel acak (RANSAC) adalah metode berulang untuk memperkirakan parameter model matematika dari satu set data yang diamati yang berisi pencilan.

Apa itu regresi bivariat? Kurangnya pengujian untuk sifat bivariat masalah adalah penyebab paling sering untuk pengenceran regresi OLS dan telah disajikan dengan baik di tempat lain di situs ini. Konsep bias OLS dalam konteks ini tidak dikenal dengan baik, lihat misalnya Frost dan Thompson seperti yang disampaikan oleh Longford et al. (2001), yang merujuk pembaca ke metode lain, memperluas model regresi untuk mengakui variabilitas dalam variabel , sehingga tidak ada bias muncul . Dengan kata lain, regresi kasus bivariat terkadang tidak dapat diabaikan ketika kedua - danx1xy-nilai didistribusikan secara acak. Kebutuhan untuk regresi bivariat dapat diuji dengan memasang garis regresi OLS ke residu dari regresi OLS data. Kemudian, jika residu OLS memiliki kemiringan yang tidak nol, masalahnya adalah bivariat dan regresi OLS data akan memiliki besarnya kemiringan yang terlalu dangkal, dan intersep yang terlalu besar besarnya untuk mewakili hubungan fungsional antara dan . Dalam kasus tersebut, penaksir linier kesalahan terkecil dari nilai memang masih berasal dari regresi OLS, dan nilai R akan berada pada nilai maksimum yang mungkin, tetapi garis regresi OLS tidak akan mewakili fungsi garis aktual yang terkait yang danxyy2xy variabel acak. Sebagai contoh balasan, ketika, seperti yang terjadi di antara masalah lain dalam rangkaian waktu dengan nilai sama , OLS dari data mentah tidak selalu tidak sesuai, itu mungkin mewakili garis , tetapi masih tunduk pada transformasi variabel, misalnya untuk data jumlah, seseorang akan mengambil akar kuadrat dari jumlah untuk mengubah kesalahan untuk kesalahan terdistribusi Poisson ke kondisi yang lebih normal, dan seseorang masih harus memeriksa kemiringan residual yang tidak nol. xy=f(x)

  1. Longford, NT (2001). "Korespondensi". Jurnal Masyarakat Statistik Kerajaan, Seri A. 164: 565. doi: 10.1111 / 1467-985x.00219
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.