Masalah ini kelihatannya mendukung kepalanya yang buruk sepanjang waktu, dan saya mencoba memenggalnya untuk pemahaman saya sendiri tentang statistik (dan kewarasan!).
Asumsi model linier umum (uji-t, ANOVA, regresi, dll.) Meliputi "asumsi normalitas", tetapi saya menemukan ini jarang dijelaskan dengan jelas.
Saya sering menemukan buku teks statistik / manual / dll hanya menyatakan bahwa "asumsi normalitas" berlaku untuk masing-masing kelompok (yaitu, variabel X kategori), dan kita harus kita memeriksa keberangkatan dari normalitas untuk setiap kelompok .
Pertanyaan :
apakah asumsi mengacu pada nilai - nilai Y atau residu dari Y?
untuk kelompok tertentu , apakah mungkin untuk memiliki distribusi yang sangat tidak normal dari nilai-nilai Y (misalnya, condong) TETAPI distribusi residu Y yang kira-kira (atau setidaknya lebih normal) ?
Sumber lain menggambarkan bahwa asumsi berkaitan dengan residu model (dalam kasus di mana ada kelompok, misalnya t-tes / ANOVA), dan kita harus memeriksa keberangkatan normalitas residu ini (yaitu, hanya satu plot / tes QQ untuk menjalankan).
apakah normalitas residual untuk model menyiratkan normalitas residual untuk kelompok ? Dengan kata lain, haruskah kita memeriksa residu model (bertentangan dengan instruksi dalam banyak teks)?
Untuk menempatkan ini dalam konteks, pertimbangkan contoh hipotetis ini:
- Saya ingin membandingkan tinggi pohon (Y) antara dua populasi (X).
- Dalam satu populasi distribusi Y sangat miring kanan (yaitu, sebagian besar pohon pendek, sangat sedikit), sementara yang lain hampir normal
- Tinggi badan secara keseluruhan lebih tinggi pada populasi yang berdistribusi normal (menunjukkan kemungkinan ada perbedaan 'nyata').
- Transformasi data tidak secara substansial meningkatkan distribusi populasi pertama.
Pertama, apakah valid untuk membandingkan kelompok yang diberi distribusi ketinggian yang sangat berbeda?
Bagaimana saya mendekati "asumsi normalitas" di sini? Ingat tinggi dalam satu populasi tidak terdistribusi normal. Apakah saya memeriksa residu untuk kedua populasi secara terpisah ATAU residu untuk model (uji-t)?
Silakan merujuk pertanyaan dengan nomor dalam balasan, pengalaman telah menunjukkan kepada saya bahwa orang tersesat atau teralihkan dengan mudah (terutama saya!). Ingatlah bahwa saya bukan ahli statistik; meskipun saya memiliki pemahaman yang cukup konseptual (yaitu, tidak teknis!) tentang statistik.
PS, saya telah mencari arsip dan membaca utas-utas berikut yang belum memperkuat pemahaman saya:
- Asumsi normalitas ANOVA / distribusi normal residu
- Normalitas residual vs data sampel; bagaimana dengan uji-t?
- Apakah pengujian normal 'pada dasarnya tidak berguna'?
- Menguji normalitas
- Menilai normalitas distribusi
- Tes apa yang saya gunakan untuk mengonfirmasi bahwa residu terdistribusi normal?
- Apa yang harus dilakukan ketika uji Kolmogorov-Smirnov signifikan untuk residu uji parametrik tetapi kemiringan dan kurtosis terlihat normal?