Normalitas variabel dependen = normalitas residual?

Masalah ini kelihatannya mendukung kepalanya yang buruk sepanjang waktu, dan saya mencoba memenggalnya untuk pemahaman saya sendiri tentang statistik (dan kewarasan!).

Asumsi model linier umum (uji-t, ANOVA, regresi, dll.) Meliputi "asumsi normalitas", tetapi saya menemukan ini jarang dijelaskan dengan jelas.

Saya sering menemukan buku teks statistik / manual / dll hanya menyatakan bahwa "asumsi normalitas" berlaku untuk masing-masing kelompok (yaitu, variabel X kategori), dan kita harus kita memeriksa keberangkatan dari normalitas untuk setiap kelompok .

Pertanyaan :

apakah asumsi mengacu pada nilai - nilai Y atau residu dari Y?
untuk kelompok tertentu , apakah mungkin untuk memiliki distribusi yang sangat tidak normal dari nilai-nilai Y (misalnya, condong) TETAPI distribusi residu Y yang kira-kira (atau setidaknya lebih normal) ?

Sumber lain menggambarkan bahwa asumsi berkaitan dengan residu model (dalam kasus di mana ada kelompok, misalnya t-tes / ANOVA), dan kita harus memeriksa keberangkatan normalitas residu ini (yaitu, hanya satu plot / tes QQ untuk menjalankan).
apakah normalitas residual untuk model menyiratkan normalitas residual untuk kelompok ? Dengan kata lain, haruskah kita memeriksa residu model (bertentangan dengan instruksi dalam banyak teks)?

Untuk menempatkan ini dalam konteks, pertimbangkan contoh hipotetis ini:
- Saya ingin membandingkan tinggi pohon (Y) antara dua populasi (X).
- Dalam satu populasi distribusi Y sangat miring kanan (yaitu, sebagian besar pohon pendek, sangat sedikit), sementara yang lain hampir normal
- Tinggi badan secara keseluruhan lebih tinggi pada populasi yang berdistribusi normal (menunjukkan kemungkinan ada perbedaan 'nyata').
- Transformasi data tidak secara substansial meningkatkan distribusi populasi pertama.
Pertama, apakah valid untuk membandingkan kelompok yang diberi distribusi ketinggian yang sangat berbeda?
Bagaimana saya mendekati "asumsi normalitas" di sini? Ingat tinggi dalam satu populasi tidak terdistribusi normal. Apakah saya memeriksa residu untuk kedua populasi secara terpisah ATAU residu untuk model (uji-t)?

Silakan merujuk pertanyaan dengan nomor dalam balasan, pengalaman telah menunjukkan kepada saya bahwa orang tersesat atau teralihkan dengan mudah (terutama saya!). Ingatlah bahwa saya bukan ahli statistik; meskipun saya memiliki pemahaman yang cukup konseptual (yaitu, tidak teknis!) tentang statistik.

PS, saya telah mencari arsip dan membaca utas-utas berikut yang belum memperkuat pemahaman saya:

normal-distribution residuals normality-assumption

— DeanP
sumber

" Pertanyaan 1) apakah asumsi mengacu pada nilai-nilai Y atau residu Y? " - Sebenarnya, tidak ada , meskipun yang kedua adalah hal yang Anda periksa . Apa yang dianggap normal adalah kesalahan yang tidak dapat diobservasi , atau ekuivalen dengan distribusi kondisional Y pada setiap kombinasi prediktor. Distribusi Y tanpa syarat tidak dianggap normal.

— Glen_b -Reinstate Monica

+1 Terima kasih telah melakukan upaya untuk mengatur dan mengkonsolidasikan beberapa (banyak) utas di mana masalah ini muncul; ini jelas sebuah FAQ.

— whuber

Saya hanya ingin mengucapkan terima kasih atas pertanyaan ini. Baik untuk masalah yang dibahas dan seberapa terorganisir dan tertautnya dengan baik. Saya sadar Anda sudah menanyakan ini sejak lama, tetapi itu hanya pertanyaan yang sangat bagus!

— hmmmm

Jawaban:

Satu hal yang dapat membantu pemahaman Anda:

Jika terdistribusi normal dan dan adalah konstanta, maka $x$ $a$ $b$ juga terdistribusi normal (tetapi dengan kemungkinan dan varians yang mungkin berbeda). $y=\frac{x-a}{b}$

Karena residu hanyalah nilai-nilai y dikurangi estimasi rata-rata (residu terstandarisasi juga dibagi dengan estimasi kesalahan standar) maka jika nilai-nilai y terdistribusi secara normal maka residu juga dan sebaliknya. Jadi ketika kita berbicara tentang teori atau asumsi, tidak masalah yang kita bicarakan karena yang satu menyiratkan yang lain.

Jadi untuk pertanyaan ini mengarah ke:

ya, keduanya
Tidak, (namun nilai y individu akan berasal dari normals dengan cara berbeda yang dapat membuatnya terlihat tidak normal jika dikelompokkan bersama)
Normalitas residual berarti normalitas kelompok, namun bisa jadi baik untuk memeriksa residu atau nilai-y oleh kelompok dalam beberapa kasus (penyatuan mungkin mengaburkan non-normalitas yang jelas dalam suatu kelompok) atau melihat bersama-sama dalam kasus lain (pengamatan tidak cukup) per kelompok untuk menentukan, tetapi secara keseluruhan Anda dapat memberi tahu).
Ini tergantung pada apa yang Anda maksudkan dengan membandingkan, seberapa besar ukuran sampel Anda, dan perasaan Anda pada "Perkiraan". Asumsi normal hanya diperlukan untuk tes / interval pada hasil, Anda dapat menyesuaikan model dan menggambarkan perkiraan titik apakah ada normal atau tidak. Teorema Limit Pusat mengatakan bahwa jika ukuran sampel cukup besar maka estimasi akan mendekati normal bahkan jika residu tidak.
Itu tergantung pada pertanyaan apa yang Anda coba jawab dan seberapa "perkiraan" Anda.

Poin lain yang penting untuk dipahami (tetapi sering digabungkan dalam pembelajaran) adalah bahwa ada 2 jenis residu di sini: Residual teoretis yang merupakan perbedaan antara nilai-nilai yang diamati dan model teoritis yang benar, dan residu yang diamati yang merupakan perbedaan antara nilai yang diamati dan perkiraan dari model yang saat ini dipasang. Kami berasumsi bahwa residual teoretis adalah normal. Residu yang diamati bukan i, i, atau terdistribusi normal (tetapi memiliki rata-rata 0). Namun, untuk tujuan praktis residu yang diamati melakukan estimasi residu teoritis dan karenanya masih berguna untuk diagnostik.

— Greg Snow
sumber

Untuk informasi lebih lanjut tentang kesalahan dan residu, saya pikir ini berguna untuk membaca artikel ini di wiki en.wikipedia.org/wiki/Errors_and_residuals

— Lil'Lobster

y - \hat{y}

$y - \hat y$

@Jake, persamaan Anda hanyalah cara yang lebih ringkas untuk menyatakan apa yang saya katakan. adalah "nilai y" dan adalah "estimasi rata-rata" dari nilai-nilai y pada set prediktor tersebut (dan adalah "minus").

y

$y$

\hat{y}

$\hat{y}$

-

$-$

— Greg Snow

Pada Q1 (yang semacam diakui dalam jawaban untuk Q2): Jelas itu adalah residu dan bukan Ys, sama sekali. Ketika kovariat berbeda di antara pengamatan, Anda dapat dengan mudah memiliki distribusi marginal bi-modal meskipun residualnya normal. Oleh karena itu, seseorang tidak bisa hanya melihat Ys, hanya pada residual.

— Bjorn

@Bjorn, ini klarifikasi yang bagus. Variabel y adalah normal, bersyarat pada x, sehingga nilai-y baku adalah campuran normals dan sebidang hanya nilai-y mungkin tidak menunjukkan normalitas meskipun mereka sesuai dengan asumsi kondisional normal pada x. Untuk diagnostik, kami biasanya menggunakan residu (karena bagian kondisional sebagian besar telah dihapus). Asumsi normalitas (kondisional) mengacu pada residual teoretis dan nilai-y.

— Greg Snow

Jawaban singkatnya:

residu
tidak
tergantung, kedua pendekatan tersebut memiliki kelebihan dan kekurangan
kenapa tidak? Mungkin lebih masuk akal untuk membandingkan median daripada cara.
dari apa yang Anda katakan kepada kami, asumsi normal mungkin dilanggar

Jawaban yang lebih panjang:

Asumsinya adalah bahwa variabel dependen (y) terdistribusi normal tetapi dengan cara berbeda untuk kelompok yang berbeda. Sebagai konsekuensinya, jika Anda memplot hanya distribusi y, maka dapat dengan mudah terlihat sangat berbeda dari kurva normal berbentuk lonceng standar Anda. Sisa mewakili distribusi y dengan perbedaan-perbedaan dalam berarti "disaring".

Atau, Anda dapat melihat distribusi y di setiap grup secara terpisah. Ini juga menyaring perbedaan cara di seluruh kelompok. Keuntungannya adalah dengan cara ini Anda juga mendapatkan informasi tentang distribusi di setiap grup, yang dalam kasus Anda tampaknya relevan. Kerugiannya adalah bahwa masing-masing kelompok mengandung pengamatan kurang dari dataset gabungan yang akan Anda dapatkan ketika melihat residu. Selain itu, Anda tidak akan dapat membandingkan grup secara bermakna jika Anda memiliki banyak grup, misalnya karena Anda memasukkan banyak variabel prediktor ke model Anda atau variabel prediktor kontinu (semu) untuk model Anda. Jadi, jika model Anda hanya terdiri dari satu variabel prediktor kategoris dan jumlah pengamatan di masing-masing kelompok cukup besar, maka dapat berarti untuk memeriksa distribusi y di setiap kelompok secara terpisah.

— Maarten Buis
sumber

Pada dasarnya, residual hanya merupakan perkiraan kesalahan atau gangguan yang tidak diketahui dan tidak diketahui, sehingga meskipun normalitas pada prinsipnya benar, Anda tidak bisa mendapatkan residu normal dalam praktiknya. Lebih penting lagi, normalitas kesalahan adalah asumsi paling tidak penting dalam metode ini!

— Nick Cox

@NickCox (+1) menyetujui kedua hal ini

— Maarten Buis

$Y$ $X$
$X$ $Y$

$e$ $Y$ $\epsilon$ $X$
$Y$ $Y|X-N(X\beta,\sigma^2)$
$X$ $Y$ $Y|X$

$Y$ $X$

Pertanyaan 3)
Hal penting untuk menggunakan model linier yang memerlukan normalitas adalah residual yang tidak normal, apakah ini dalam kelompok atau tidak, merupakan indikator penting bahwa model Anda mungkin tidak sesuai dengan data Anda.
Jika Anda melakukan ANOVA, maka tentu saja residu keseluruhan Anda tidak harus normal (atau lebih tepatnya homoseksual), itu tidak masuk akal. Dalam regresi, Anda lebih baik memiliki model dengan berakhir dengan residual normal keseluruhan. Jika tidak, penaksir interval dan tes Anda akan salah. Ini mungkin kasus autokorelasi tertentu, atau bias variabel yang hilang. Jika modelnya 100% benar (termasuk mungkin penahan struktural dan pembobotan jika perlu), tidak jauh untuk menganggap istilah kesalahan normal, bahkan berpusat di sekitar 0. Praktis pertanyaannya sering menjadi: Bisakah kita lolos dengan hal-hal ini jika sampel cukup besar Tidak ada jawaban pasti, tetapi untuk pendekatan yang 100% benar ya, semua residu harus normal.

Pertanyaan 4 & 5)
Itu tergantung pada apa yang Anda maksudkan dengan membandingkan. Dengan asumsi istilah kesalahan normal, Anda dapat menguji berdasarkan asumsi dua distribusi yang berbeda. Anda juga dapat menggunakan estimasi GLS untuk regresi untuk memperhitungkan parameter distribusi yang berbeda - JIKA Anda memiliki model yang tepat ... dan saya kira grup Anda sendiri berfungsi sebagai variabel indikator / biner?
Maka mungkin akan sangat sulit untuk alasan bahwa distribusi residu akan normal - konsekuensinya adalah bahwa sementara Anda dapat melakukan hal-hal dengan data Anda, itu tidak akan didasarkan pada OLS biasa.
Tetapi itu tergantung pada apa yang ingin Anda lakukan dengan data.

$Y|X$

Saya pikir pendekatan yang baik adalah melihat aljabar OLS reguler dengan fokus pada distribusi yang dihasilkan.

— IMA
sumber