Regresi: mengapa menguji normalitas residual keseluruhan, alih-alih residual bersyarat pada ?

Saya memahami bahwa dalam regresi linier, kesalahan diasumsikan terdistribusi secara normal, tergantung pada nilai prediksi y. Kemudian kita melihat residu sebagai semacam proksi untuk kesalahan.

Ini sering direkomendasikan untuk menghasilkan output seperti ini: . Namun, saya tidak mengerti apa gunanya mendapatkan residual untuk setiap titik data dan menumbuknya bersama dalam satu plot.

Saya mengerti bahwa kita tidak mungkin memiliki poin data yang cukup untuk menilai dengan tepat apakah kita memiliki residu normal pada setiap nilai prediksi y.

Namun, bukankah pertanyaan apakah kita memiliki residu normal secara keseluruhan terpisah, dan yang tidak jelas terkait dengan asumsi model residual normal pada setiap nilai prediksi y? Tidak bisakah kita memiliki residu normal pada setiap nilai prediksi y, sementara memiliki residu keseluruhan yang sangat tidak normal?

regression assumptions

— user1205901 - Pasang kembali Monica
sumber

Mungkin ada beberapa manfaat pada konsep ini - mungkin bootstrap dapat membantu di sini (untuk mendapatkan replikasi residu)

— probabilityislogic

Bisakah Anda memberikan referensi untuk dalam regresi linier kesalahan diasumsikan terdistribusi normal, tergantung pada nilai prediksi y (jika Anda punya)?

— Richard Hardy

Saya tidak memiliki sumber tertentu dalam pikiran ketika saya memposting pertanyaan, tetapi bagaimana dengan "asumsi pemodelan adalah bahwa variabel respon terdistribusi normal di sekitar garis regresi (yang merupakan estimasi dari conditional mean), dengan varian konstan" dari sini . Akan menerima umpan balik lebih lanjut jika saya salah tentang ini.

— user1205901

Tidak bisakah kita memiliki residu normal pada setiap nilai prediksi y, sementara memiliki residu keseluruhan yang sangat tidak normal?

Tidak - setidaknya, tidak di bawah asumsi standar bahwa varians dari kesalahan adalah konstan.

Anda dapat menganggap distribusi residu keseluruhan sebagai campuran dari distribusi normal (satu untuk setiap level dari ). Dengan asumsi, semua distribusi normal ini memiliki mean yang sama (0) dan varians yang sama. Jadi, distribusi campuran normals ini sendiri hanyalah distribusi normal. $\hat{y}$

Jadi dari sini kita bisa membentuk silogisme kecil. Jika distribusi individu yang diberi nilai-nilai prediktor X adalah normal (dan variansnya sama), maka distribusi residual keseluruhan adalah normal. Jadi jika kita amati bahwa distribusi residu keseluruhan tampaknya tidak normal, ini menyiratkan bahwa distribusi yang diberikan X tidak normal dengan varians yang sama. Yang merupakan pelanggaran terhadap asumsi standar.

— Jake Westfall
sumber

p (ϵ) = \int p (ϵ | x) p (x) d x

$p(\epsilon)=\int p(\epsilon|x)p(x)dx$

p (ϵ | x)

$p(\epsilon|x)$

p (ϵ)

$p(\epsilon)$

p (x)

$p(x)$

\hat{y} = β_{0} + β_{1} X

$\hat{y}=\beta_0+\beta_1 X$

\hat{y}

$\hat{y}$

X

$X$

Apakah pantas untuk mengatakan bahwa marjinal non-normal memungkinkan kita untuk "menolak" persyaratan tidak normal, tetapi bahwa marjinal normal tidak memungkinkan kita untuk "menerima" persyaratan normal?

— shadowtalker

p (ϵ | x) = p (ϵ)

$p(\epsilon|x)=p(\epsilon)$

p (ϵ)

$p(\epsilon)$

N (0, σ^{2})

$N(0,\sigma^2)$

N (0, σ^{2})

$N(0,\sigma^2)$

— Bill

ε | X \sim N (0, σ^{2}) \Rightarrow ε \sim N (0, σ^{2})

$\varepsilon\ |\ X \sim N(0,\sigma^2) \Rightarrow \varepsilon \sim N(0,\sigma^2)$

@ssdecontrol Dari jawaban: " Jika masing-masing distribusi diberi nilai-nilai prediktor X adalah normal (dan variansnya sama), maka distribusi residual keseluruhan adalah normal. " Tidak yakin seberapa jauh lebih jelas saya bisa?

— Jake Westfall

Telah dikatakanbahwa kuadrat terkecil biasa dalam (OLS) optimal di kelas estimator linier yang tidak memihak ketika kesalahannya adalah homoseksual dan tidak berkorelasi seri. Mengenai residu homoseksual, varian residual adalah independen yang sama di mana kita akan mengukur variasi besarnya residu pada sumbu x. Sebagai contoh, anggaplah bahwa kesalahan pengukuran kita meningkat secara proporsional untuk meningkatkan nilai-y. Kita kemudian dapat mengambil logaritma dari nilai-y tersebut sebelum melakukan regresi. Jika itu dilakukan, kualitas fit meningkat dibandingkan dengan pemasangan model kesalahan proporsional tanpa mengambil logaritma. Secara umum untuk mendapatkan homoseksualitas, kita mungkin harus mengambil kebalikan dari data sumbu y atau x, logaritma, akar kuadrat atau kuadrat, atau menerapkan eksponensial. Alternatif untuk ini adalah menggunakan fungsi pembobotan, $\frac{(y-\text{model})^2}{y^2}$ $(y-\text{model})^2$

Setelah mengatakan sebanyak itu, sering terjadi bahwa membuat residu lebih bersifat homoscedastik membuat mereka lebih terdistribusi secara normal, tetapi seringkali, properti homoseksual lebih penting. Yang terakhir akan tergantung pada mengapa kami melakukan regresi. Misalnya, jika akar kuadrat data terdistribusi lebih normal daripada mengambil logaritma, tetapi kesalahannya adalah tipe proporsional, maka uji-t dari logaritma akan berguna untuk mendeteksi perbedaan antara populasi atau pengukuran, tetapi untuk menemukan yang diharapkan nilai kita harus menggunakan akar kuadrat dari data, karena hanya akar kuadrat dari data adalah distribusi simetris yang rata-rata, mode dan median diharapkan sama.

Selain itu, sering terjadi bahwa kita tidak menginginkan jawaban yang memberi kita prediktor kesalahan paling kecil dari nilai sumbu y, dan regresi itu bisa sangat bias. Sebagai contoh, kadang-kadang kita mungkin ingin mundur untuk kesalahan paling sedikit di x. Atau kadang-kadang kita ingin mengungkap hubungan antara y dan x, yang kemudian bukan masalah regresi rutin. Kami kemudian dapat menggunakan Theil, yaitu, median slope, regresi, sebagai kompromi paling sederhana antara x dan regresi kesalahan paling sedikit. Atau jika kita tahu apa varian dari tindakan berulang untuk x dan y, kita bisa menggunakan regresi Deming. Regresi mereka lebih baik ketika kita memiliki outlier jauh, yang melakukan hal-hal mengerikan untuk hasil regresi biasa. Dan, untuk regresi kemiringan median, tidak banyak masalah apakah residu terdistribusi normal atau tidak.

BTW, normalitas residu tidak selalu memberi kita informasi regresi linier yang berguna.Sebagai contoh, misalkan kita melakukan pengukuran berulang dua pengukuran independen. Karena kita memiliki independensi, korelasi yang diharapkan adalah nol, dan kemiringan garis regresi dapat berupa angka acak tanpa kemiringan yang berguna. Kami melakukan pengukuran berulang untuk menetapkan perkiraan lokasi, yaitu rata-rata (atau median (distribusi Cauchy atau Beta dengan satu puncak) atau paling umum nilai yang diharapkan dari suatu populasi), dan dari itu untuk menghitung varians dalam x dan varians di y, yang kemudian dapat digunakan untuk regresi Deming, atau apa pun. Selain itu, asumsi bahwa superposisi menjadi normal pada mean yang sama jika populasi asli normal membawa kita ke regresi linier yang tidak berguna. Untuk membawa ini lebih jauh, misalkan saya kemudian memvariasikan parameter awal dan membuat pengukuran baru dengan Monte Carlo x dan y-value yang menghasilkan lokasi yang berbeda dan menyusun data tersebut dengan proses pertama. Kemudian residual normal dalam arah-y pada setiap nilai-x, tetapi, dalam arah-x, histogram akan memiliki dua puncak, yang tidak sesuai dengan asumsi OLS, dan kemiringan dan intersep kita akan bias karena satu tidak memiliki data interval yang sama pada sumbu x. Namun, regresi data yang dikumpulkan sekarang memiliki kemiringan dan intersep yang pasti, padahal sebelumnya tidak. Selain itu, karena kami hanya menguji dua titik dengan pengulangan pengambilan sampel, kami tidak dapat menguji linearitas. Memang, koefisien korelasi tidak akan menjadi ukuran yang andal untuk alasan yang sama,

Sebaliknya, kadang-kadang juga diasumsikan bahwa kesalahan memiliki kondisi distribusi normal pada regressor. Asumsi ini tidak diperlukan untuk validitas metode OLS, meskipun beberapa properti sampel terbatas tertentu dapat dibuat jika itu terjadi (terutama di bidang pengujian hipotesis), lihat di sini. Kapan OLS dalam regresi ya benar? Jika, misalnya, kami melakukan pengukuran harga saham pada penutupan setiap hari pada waktu yang sama, maka tidak ada varian t-axis (Think x-axis). Namun, waktu perdagangan terakhir (penyelesaian) akan didistribusikan secara acak, dan regresi untuk menemukan HUBUNGAN antara variabel harus menggabungkan kedua varians. Dalam keadaan itu, OLS di y hanya akan memperkirakan kesalahan paling kecil dalam nilai y, yang akan menjadi pilihan yang buruk untuk memperkirakan harga perdagangan untuk penyelesaian, karena waktu penyelesaian itu sendiri juga perlu diprediksi. Selain itu, kesalahan yang didistribusikan secara normal mungkin lebih rendah daripada Model Harga Gamma .

Apa masalahnya? Nah, beberapa saham berdagang beberapa kali dalam satu menit dan yang lain tidak berdagang setiap hari atau bahkan setiap minggu, dan itu bisa membuat perbedaan angka yang agak besar. Jadi itu tergantung informasi apa yang kita inginkan. Jika kita ingin bertanya bagaimana pasar akan bersikap besok saat penutupan, itu adalah pertanyaan "tipe" OLS, tetapi, jawabannya mungkin nonlinier, residual tidak normal dan memerlukan fungsi fit yang memiliki koefisien bentuk yang sesuai dengan fit derivatif (dan / atau momen lebih tinggi) untuk menetapkan kelengkungan yang benar untuk ekstrapolasi . (Seseorang dapat cocok dengan turunan serta fungsi, misalnya menggunakan splines kubik, sehingga konsep perjanjian derivatif seharusnya tidak mengejutkan, meskipun jarang dieksplorasi.) Jika kita ingin tahu apakah kita akan menghasilkan uang atau tidak. pada stok tertentu, maka kita tidak menggunakan OLS, karena masalahnya kemudian bivariat.

— Carl
sumber

Apakah Anda mengatakan bahwa normalitas sudah cukup tetapi tidak perlu untuk kesimpulan yang valid? Mengapa tidak hanya menguji heteroskedastisitas secara spesifik? Tentunya distribusi marginal berekor berat (misalnya) dari residu tidak selalu berarti bahwa asumsi normalitas bersyarat salah, bukan? Namun residu berekor berat dengan desain akan gagal dalam uji normalitas untuk residu.

— shadowtalker

Untuk uji-t, homoseksualitas seringkali lebih penting. Pencilan menghasilkan 1,359 SD >> IQR sehingga mengurangi kekuatan uji-t. Kemudian cobalah pengujian reparameterisasi atau Wilcoxon, yang terakhir bekerja di sebagian besar keadaan (mungkin tidak ketika r> 0,9999) terlepas dari jenis distribusi atau tingkat heteroskedastisitas. Bahkan, jika seseorang menguji beberapa parameter yang serupa, baik Wilcoxon atau uji-t akan bekerja lebih baik untuk memilah probabilitas rendah dan tinggi, sehingga data itu sendiri sering menyatakan apa yang lebih berguna.

— Carl

Jadikan 1,349 SD >> IQR. 1.349 adalah jumlah SD yang dimiliki oleh distribusi normal untuk satu rentang interkuartil (IQR). Beberapa distribusi, seperti distribusi Cauchy, atau t Student dengan dua derajat kebebasan tidak memiliki SD, outlier membunuh itu, tetapi mereka memang memiliki IQR, dan kemudian seseorang menggunakan Wilcoxon atau tes nonparametrik lainnya sebagai tes lokasi.

— Carl

Setelah dipikirkan lebih lanjut (lihat materi baru sebagai jawaban) normalitas residual sumbu y bagus untuk dimiliki, tetapi tidak cukup.

— Carl

Distribusi berekor berat melakukan hal-hal mengerikan pada persamaan regresi. Misalnya, jika kita memeriksa semua lereng mungkin dalam satu set data, satu biasanya mendapat distribusi Cauchy lereng, AKA Student's- t dengan satu derajat kebebasan. Untuk distribusi Cauchy, tidak ada momen. Artinya, seseorang dapat menghitung rata-rata dan standar deviasi dan semakin banyak data yang dimiliki, semakin tidak menentu itu dan standar deviasi akan menjadi. Nilai yang diharapkan dari distribusi Cauchy adalah median dan untuk menghitung rata-rata orang harus menyensor nilai ekstrim.

— Carl