Mengapa Anda harus menguji normalitas?
Asumsi standar dalam regresi linier adalah bahwa residual teoretis independen dan terdistribusi normal. Residu yang diamati adalah perkiraan residu teoritis, tetapi tidak independen (ada transformasi pada residu yang menghilangkan beberapa ketergantungan, tetapi masih memberikan hanya perkiraan residu yang sebenarnya). Jadi tes pada residu yang diamati tidak menjamin bahwa residu teoritis cocok.
Jika residual teoretis tidak terdistribusi secara normal, tetapi ukuran sampel cukup besar maka Teorema Limit Sentral mengatakan bahwa inferensi biasa (interval uji dan kepercayaan, tetapi interval prediksi tidak harus) berdasarkan asumsi normalitas masih akan kurang lebih benar. .
Perhatikan juga bahwa uji normalitas adalah tes yang tidak berlaku, mereka dapat memberi tahu Anda bahwa data tidak mungkin berasal dari distribusi normal. Tetapi jika tes tidak signifikan itu tidak berarti bahwa data berasal dari distribusi normal, itu juga bisa berarti bahwa Anda tidak memiliki kekuatan yang cukup untuk melihat perbedaannya. Ukuran sampel yang lebih besar memberi daya lebih besar untuk mendeteksi ketidaknormalan, tetapi sampel yang lebih besar dan CLT berarti bahwa ketidaknormalan paling tidak penting. Jadi untuk ukuran sampel kecil, asumsi normalitas penting tetapi tes tidak berarti, untuk ukuran sampel besar tes mungkin lebih akurat, tetapi pertanyaan tentang normalitas yang tepat menjadi tidak berarti.
Jadi, menggabungkan semua hal di atas, yang lebih penting daripada tes normalitas yang tepat adalah pemahaman ilmu di balik data untuk melihat apakah populasi cukup dekat dengan normal. Grafik seperti qqplots bisa menjadi diagnosa yang baik, tetapi pemahaman sains juga diperlukan. Jika ada kekhawatiran bahwa ada terlalu banyak kemiringan atau potensi outlier, maka tersedia metode non-parametrik yang tidak memerlukan asumsi normalitas.