Bisakah saya menggunakan distribusi normal GLM dengan fungsi tautan LOG pada DV yang sudah diubah log?
Iya; jika asumsi puas pada skala itu
Apakah uji homogenitas varians cukup untuk membenarkan menggunakan distribusi normal?
Mengapa kesetaraan varian menyiratkan normalitas?
Apakah prosedur pemeriksaan residu benar untuk membenarkan memilih model fungsi tautan?
Anda harus berhati-hati dalam menggunakan histogram dan tes goodness of fit untuk memeriksa kesesuaian asumsi Anda:
1) Hati - hati menggunakan histogram untuk menilai normalitas. (Lihat juga di sini )
Singkatnya, tergantung pada sesuatu yang sederhana seperti perubahan kecil dalam pilihan binwidth Anda, atau bahkan hanya lokasi batas bin, dimungkinkan untuk mendapatkan tayangan yang sangat berbeda dari bentuk data:
Itu dua histogram dari kumpulan data yang sama. Menggunakan beberapa binwidth yang berbeda dapat berguna dalam melihat apakah tayangan sensitif terhadap itu.
2) Waspadalah menggunakan uji goodness of fit untuk menyimpulkan bahwa asumsi normalitas wajar. Tes hipotesis formal tidak benar-benar menjawab pertanyaan yang tepat.
mis. lihat tautan di bawah item 2. di sini
Tentang varians, yang disebutkan dalam beberapa makalah menggunakan dataset serupa "karena distribusi memiliki varian homogen GLM dengan distribusi Gaussian digunakan". Jika ini tidak benar, bagaimana saya bisa membenarkan atau memutuskan distribusi?
Dalam keadaan normal, pertanyaannya bukankah 'apakah kesalahan saya (atau distribusi bersyarat) normal?' - mereka tidak akan, kita bahkan tidak perlu memeriksa. Pertanyaan yang lebih relevan adalah 'seberapa parah tingkat ketidaknormalan yang hadir mempengaruhi kesimpulan saya? "
Saya menyarankan estimasi kepadatan kernel atau QQplot normal (plot residual vs skor normal). Jika distribusi terlihat cukup normal, Anda tidak perlu khawatir. Pada kenyataannya, bahkan ketika itu jelas non-normal itu masih mungkin tidak terlalu penting, tergantung pada apa yang ingin Anda lakukan (interval prediksi normal benar-benar akan bergantung pada normalitas, misalnya, tetapi banyak hal lain akan cenderung bekerja pada ukuran sampel besar )
Cukup lucu, pada sampel besar, normalitas menjadi semakin tidak penting (terlepas dari PI seperti disebutkan di atas), tetapi kemampuan Anda untuk menolak normalitas menjadi semakin besar.
Sunting: poin tentang kesetaraan varian adalah yang benar-benar dapat memengaruhi kesimpulan Anda, bahkan pada ukuran sampel yang besar. Tetapi Anda mungkin tidak seharusnya menilai itu dengan tes hipotesis juga. Salah asumsi asumsi adalah masalah apa pun yang Anda anggap distribusi.
Saya membaca bahwa penyimpangan skala harus sekitar Np untuk model yang pas kan?
Ketika Anda cocok dengan model normal memiliki parameter skala, dalam hal ini penyimpangan skala Anda akan tentang Np bahkan jika distribusi Anda tidak normal.
menurut Anda distribusi normal dengan tautan log adalah pilihan yang baik
Dengan tidak adanya mengetahui apa yang Anda ukur atau untuk apa Anda menggunakan inferensi, saya masih tidak dapat menilai apakah akan menyarankan distribusi lain untuk GLM, atau seberapa penting normalitas pada kesimpulan Anda.
Namun, jika asumsi Anda yang lain juga masuk akal (linearitas dan kesetaraan varians setidaknya harus diperiksa dan potensi sumber ketergantungan dipertimbangkan), maka dalam sebagian besar keadaan saya akan sangat nyaman melakukan hal-hal seperti menggunakan CI dan melakukan tes pada koefisien atau kontras. - hanya ada sedikit kesan kemiringan pada residu-residu tersebut, yang, bahkan jika itu adalah efek nyata, seharusnya tidak memiliki dampak substantif pada jenis-jenis inferensi tersebut.
Singkatnya, Anda harus baik-baik saja.
(Walaupun fungsi distribusi dan tautan lain mungkin sedikit lebih baik dalam hal kecocokan, hanya dalam keadaan terbatas mereka cenderung lebih masuk akal.)