Saya log mentransformasikan variabel dependen saya, dapatkah saya menggunakan distribusi normal GLM dengan fungsi tautan LOG?

Saya punya pertanyaan tentang Generalized Linear Models (GLM). Variabel dependen saya (DV) kontinu dan tidak normal. Jadi saya log mengubahnya (masih tidak normal tetapi memperbaikinya).

Saya ingin menghubungkan DV dengan dua variabel kategori dan satu kovariabel kontinu. Untuk ini saya ingin melakukan GLM (saya menggunakan SPSS) tetapi saya tidak yakin bagaimana memutuskan distribusi dan fungsi yang akan dipilih.

Saya telah melakukan uji nonparametrik Levene dan saya memiliki homogenitas varians sehingga saya cenderung menggunakan distribusi normal. Saya telah membaca bahwa untuk regresi linier data tidak perlu menjadi normal, residu lakukan. Jadi, saya telah mencetak residu Pearson terstandarisasi dan nilai prediksi untuk prediktor linier dari masing-masing GLM secara individual (fungsi identitas normal GLM dan fungsi log normal). Saya telah melakukan tes normalitas (histogram dan Shapiro-Wilk) dan merencanakan residual terhadap nilai prediksi (untuk memeriksa keacakan dan varians) untuk keduanya secara individual. Residu dari fungsi identitas tidak normal tetapi residu dari fungsi log normal. Saya cenderung memilih normal dengan fungsi tautan log karena residu Pearson terdistribusi secara normal.

Jadi pertanyaan saya adalah:

Bisakah saya menggunakan distribusi normal GLM dengan fungsi tautan LOG pada DV yang sudah diubah log?
Apakah uji homogenitas varians cukup untuk membenarkan menggunakan distribusi normal?
Apakah prosedur pemeriksaan residu benar untuk membenarkan memilih model fungsi tautan?

Gambar distribusi DV di sebelah kiri dan residu dari normal GLM dengan fungsi log link di sebelah kanan.

Distribusi DV di sebelah kiri dan residu dari GLM normal di kanan

— Ilmuwan
sumber

Tidak begitu jelas apa yang Anda maksud dengan ini: " Jadi, saya telah membandingkan residu Pearson dari GLM dengan fungsi identitas normal dan fungsi log normal. "

— Glen_b -Reinstate Monica

Terima kasih atas komentarmu. Maksud saya, saya telah mencetak residu dan nilai prediksi dari masing-masing GLM (identitas dan log) secara individual dan memeriksa normalitas dan merencanakan residu Pearson terstandarisasi terhadap nilai prediksi untuk masing-masing model secara individual. Untuk fungsi identitas, residual tidak normal, sedangkan untuk fungsi log, residual adalah normal.

— Ilmuwan

Bagaimana sebidang residual Pearson terstandarisasi terhadap nilai prediksi menunjukkan apakah data tersebut sebenarnya normal atau tidak?

— Glen_b -Reinstate Monica

Saya memeriksa normalitas dengan memplot histogram residu dan melakukan Shapiro-Wilk (P> 0,05 untuk fungsi log). Kemudian saya merencanakan residual terhadap nilai prediksi untuk melihat apakah mereka didistribusikan secara acak dan untuk memeriksa varians. (maaf karena tidak mengatakan informasi penting, ini pertama kali saya memposting)

— Scientist

Saya kira "fungsi identitas" adalah slip homophone di sini untuk "fungsi kepadatan".

— Nick Cox

Bisakah saya menggunakan distribusi normal GLM dengan fungsi tautan LOG pada DV yang sudah diubah log?

Iya; jika asumsi puas pada skala itu

Apakah uji homogenitas varians cukup untuk membenarkan menggunakan distribusi normal?

Mengapa kesetaraan varian menyiratkan normalitas?

Apakah prosedur pemeriksaan residu benar untuk membenarkan memilih model fungsi tautan?

Anda harus berhati-hati dalam menggunakan histogram dan tes goodness of fit untuk memeriksa kesesuaian asumsi Anda:

1) Hati - hati menggunakan histogram untuk menilai normalitas. (Lihat juga di sini )

Singkatnya, tergantung pada sesuatu yang sederhana seperti perubahan kecil dalam pilihan binwidth Anda, atau bahkan hanya lokasi batas bin, dimungkinkan untuk mendapatkan tayangan yang sangat berbeda dari bentuk data:

Dua histogram residu

Itu dua histogram dari kumpulan data yang sama. Menggunakan beberapa binwidth yang berbeda dapat berguna dalam melihat apakah tayangan sensitif terhadap itu.

2) Waspadalah menggunakan uji goodness of fit untuk menyimpulkan bahwa asumsi normalitas wajar. Tes hipotesis formal tidak benar-benar menjawab pertanyaan yang tepat.

mis. lihat tautan di bawah item 2. di sini

Tentang varians, yang disebutkan dalam beberapa makalah menggunakan dataset serupa "karena distribusi memiliki varian homogen GLM dengan distribusi Gaussian digunakan". Jika ini tidak benar, bagaimana saya bisa membenarkan atau memutuskan distribusi?

Dalam keadaan normal, pertanyaannya bukankah 'apakah kesalahan saya (atau distribusi bersyarat) normal?' - mereka tidak akan, kita bahkan tidak perlu memeriksa. Pertanyaan yang lebih relevan adalah 'seberapa parah tingkat ketidaknormalan yang hadir mempengaruhi kesimpulan saya? "

Saya menyarankan estimasi kepadatan kernel atau QQplot normal (plot residual vs skor normal). Jika distribusi terlihat cukup normal, Anda tidak perlu khawatir. Pada kenyataannya, bahkan ketika itu jelas non-normal itu masih mungkin tidak terlalu penting, tergantung pada apa yang ingin Anda lakukan (interval prediksi normal benar-benar akan bergantung pada normalitas, misalnya, tetapi banyak hal lain akan cenderung bekerja pada ukuran sampel besar )

Cukup lucu, pada sampel besar, normalitas menjadi semakin tidak penting (terlepas dari PI seperti disebutkan di atas), tetapi kemampuan Anda untuk menolak normalitas menjadi semakin besar.

Sunting: poin tentang kesetaraan varian adalah yang benar-benar dapat memengaruhi kesimpulan Anda, bahkan pada ukuran sampel yang besar. Tetapi Anda mungkin tidak seharusnya menilai itu dengan tes hipotesis juga. Salah asumsi asumsi adalah masalah apa pun yang Anda anggap distribusi.

Saya membaca bahwa penyimpangan skala harus sekitar Np untuk model yang pas kan?

Ketika Anda cocok dengan model normal memiliki parameter skala, dalam hal ini penyimpangan skala Anda akan tentang Np bahkan jika distribusi Anda tidak normal.

menurut Anda distribusi normal dengan tautan log adalah pilihan yang baik

Dengan tidak adanya mengetahui apa yang Anda ukur atau untuk apa Anda menggunakan inferensi, saya masih tidak dapat menilai apakah akan menyarankan distribusi lain untuk GLM, atau seberapa penting normalitas pada kesimpulan Anda.

Namun, jika asumsi Anda yang lain juga masuk akal (linearitas dan kesetaraan varians setidaknya harus diperiksa dan potensi sumber ketergantungan dipertimbangkan), maka dalam sebagian besar keadaan saya akan sangat nyaman melakukan hal-hal seperti menggunakan CI dan melakukan tes pada koefisien atau kontras. - hanya ada sedikit kesan kemiringan pada residu-residu tersebut, yang, bahkan jika itu adalah efek nyata, seharusnya tidak memiliki dampak substantif pada jenis-jenis inferensi tersebut.

Singkatnya, Anda harus baik-baik saja.

(Walaupun fungsi distribusi dan tautan lain mungkin sedikit lebih baik dalam hal kecocokan, hanya dalam keadaan terbatas mereka cenderung lebih masuk akal.)

— Glen_b -Reinstate Monica
sumber

Terima kasih lagi! Tentang varians, yang disebutkan dalam beberapa makalah menggunakan dataset serupa "karena distribusi memiliki varian homogen GLM dengan distribusi Gaussian digunakan". Jika ini tidak benar, bagaimana saya bisa membenarkan atau memutuskan distribusi? Mengenai distribusi normal residual, itu berarti lebih tepat kan? Saya membaca bahwa penyimpangan skala harus sekitar Np untuk model yang pas kan? Nilainya sama untuk GLM dan sekitar Np. Saya juga telah mengidentifikasi model yang paling cocok dalam model menggunakan kriteria AIC. Tidak yakin apakah ini yang Anda maksudkan.

— Ilmuwan

lihat diskusi dalam suntingan saya di atas

— Glen_b -Reinstate Monica

Terima kasih @Glen_b untuk penjelasannya. Histogram yang juga saya uji menggunakan Shapiro-Wilk, tidakkah ini akan mempertimbangkan segalanya? Saya memplot QQ yang diplot diharapkan nilai residu Pearson yang normal dan Diamati dan poin + - cocok dengan garis, kecuali dalam tip di mana mereka naik sedikit ke atas. Apakah ini yang kamu maksud? Distribusi residu terlihat normal, jadi saya bisa melanjutkan? (bahkan jika DV yang masuk tidak normal) (Saya masih membaca tautan tetapi ingin menanyakan ini)

— Ilmuwan

" karena plot QQ normal didistribusikan secara normal untuk model ini? " ... Saya mungkin mengatakan "plot QQ residual menunjukkan bahwa asumsi normalitas wajar" atau "residual tampak cukup dekat dengan normal". Jika audiens Anda mengharapkan tes hipotesis, Anda mungkin masih mengutip satu (tapi itu tidak mengubah fakta bahwa mereka tidak sangat membantu). " Masalah dengan dataset adalah bahwa dalam histogram DV " ... tidak ada asumsi tentang distribusi DV tanpa syarat atau IV.

— Glen_b -Reinstate Monica

Lihat diskusi tambahan di bagian bawah jawaban saya. Maaf saya tidak menjawab sebelumnya, tetapi saya sedang tidur. Pada pertanyaan lain, alasan mengapa saya bertanya adalah bahwa kedua model memiliki sebagian besar asumsi mereka, dan cukup banyak diskusi ini relevan dengan pertanyaan itu - bahkan jika DV berbeda. Ini bukan situasi yang sama persis (dan seharusnya menjadi pertanyaan baru), tetapi pertanyaan ini harus dikaitkan, jadi Anda dapat mengajukan pertanyaan dalam konteks diskusi ini, seperti apakah ada masalah yang berbeda atau tambahan.

— Glen_b -Reinstate Monica