Diagnosis mana yang dapat memvalidasi penggunaan keluarga GLM tertentu?


19

Ini kelihatannya sangat mendasar, tetapi saya selalu terjebak pada titik ini ...

Sebagian besar data yang saya tangani tidak normal, dan sebagian besar analisis didasarkan pada struktur GLM. Untuk analisis saya saat ini, saya memiliki variabel respons yaitu "kecepatan berjalan" (meter / menit). Mudah bagi saya untuk mengidentifikasi bahwa saya tidak dapat menggunakan OLS, tetapi kemudian, saya memiliki ketidakpastian besar dalam memutuskan keluarga apa (Gamma, Weibull, dll.) Yang tepat!

Saya menggunakan Stata dan melihat diagnostik seperti residual dan heteroskedastisitas, residual vs nilai yang dipasang, dll.

Saya menyadari bahwa data penghitungan dapat mengambil bentuk tingkat (misalnya tingkat kejadian) dan telah menggunakan gamma (analog untuk model binomial negatif diskrit berlebih), tetapi hanya ingin "pistol merokok" untuk mengatakan YA, ANDA MEMILIKI HAK KELUARGA. Apakah hanya melihat residu terstandarisasi versus nilai-nilai yang dipasang adalah satu-satunya cara terbaik untuk melakukan ini? Saya ingin menggunakan model campuran untuk memperhitungkan beberapa hierarki dalam data juga, tetapi pertama-tama perlu memilah keluarga yang paling menggambarkan variabel respon saya.

Setiap bantuan dihargai. Bahasa stata sangat dihargai!


4
" Saya ingin" pistol merokok "untuk mengatakan YA, ANDA MEMILIKI KELUARGA YANG TEPAT " - tidak ada yang akan memberi tahu Anda hal ini. Yang terbaik yang bisa Anda harapkan adalah keluarga yang tidak jelas salah. Ada banyak cara Anda dapat memilih keluarga distribusi, tetapi secara umum cenderung melibatkan kombinasi pertimbangan apriori atau teoritis dan indikasi dari data itu sendiri.
Glen_b -Reinstate Monica

Jawaban:


14

Saya punya beberapa tips:

(1) Bagaimana residu harus dibandingkan dengan kecocokan tidak selalu jelas, jadi sebaiknya terbiasa dengan diagnostik untuk model tertentu. Dalam model regresi logistik, misalnya, statistik Hosmer-Lemeshow digunakan untuk menilai goodness of fit; nilai leverage cenderung kecil di mana peluang yang diperkirakan sangat besar, sangat kecil atau bahkan genap; & sebagainya.

(2) Kadang-kadang satu keluarga model dapat dilihat sebagai kasus khusus yang lain, sehingga Anda dapat menggunakan uji hipotesis pada parameter untuk membantu Anda memilih. Eksponensial vs Weibull, misalnya.

(3) Kriteria Informasi Akaike berguna dalam memilih di antara model-model yang berbeda, yang mencakup pemilihan di antara berbagai keluarga.

(4) Pengetahuan teoritis / empiris tentang apa yang Anda modelkan mempersempit bidang model yang masuk akal.

Tetapi tidak ada cara otomatis untuk menemukan keluarga yang 'benar'; data kehidupan nyata dapat berasal dari distribusi yang rumit seperti yang Anda inginkan, & kompleksitas model yang layak dicoba bertambah seiring dengan jumlah data yang Anda miliki. Ini adalah bagian & paket dari diktum Box bahwa tidak ada model yang benar tetapi beberapa berguna.

Komentar Re @ gung: tampaknya tes Hosmer-Lemeshow yang umum digunakan adalah (a) secara mengejutkan sensitif terhadap pilihan tempat sampah, & (b) umumnya kurang kuat daripada beberapa tes lain terhadap beberapa kelas hipotesis alternatif yang relevan. Itu tidak mengurangi dari poin (1): itu juga bagus untuk menjadi up-to-date.


Terima kasih! Saran Anda ringkas dan akurat. Saya terbatas dalam keluarga yang dapat saya gunakan karena struktur variabel respons saya (positif, berkelanjutan, tetapi sangat miring). Di antara keluarga eksponensial, tampaknya gamma adalah satu-satunya pilihan. Sementara itu, saya telah menemukan beberapa alat yang berguna oleh NJ Cox seperti yang muncul di Stata Jounal 5 (2): 259-273 - gammafit (perkiraan bentuk dan parameter skala) dan dpplot memungkinkan overlay plot peluang kerapatan dan variabel respons saya (dapat berupa dilakukan dengan banyak distribusi dan memungkinkan saya untuk mencocokkan keluarga terbaik dengan data saya). Terima kasih untuk suggs lain juga!
RLang

1
Perhatikan bahwa tes GoF Hosmer-Lemeshow telah terbukti bergantung pada binning yang digunakan / tidak dapat diandalkan.
gung - Reinstate Monica

@Ung, Itu jelas tergantung pada binning yang digunakan - tidak ideal, tetapi tidak yakin itu masalah besar kecuali Anda mulai mengutak-atik binnings untuk mencoba hasil yang Anda inginkan. Bagaimana ini tidak dapat diandalkan & tes apa yang lebih baik?
Scortchi


1
Anda benar bahwa "tidak valid" terlalu kuat; Saya hanya mengatakan "tidak bisa diandalkan" & Harrell menggunakan "usang".
gung - Reinstate Monica

8

Anda mungkin menemukan semenarik untuk membaca sketsa (manual pengantar) untuk paket R fitdistrplus. Saya menyadari bahwa Anda lebih suka bekerja di Stata, tetapi saya pikir sketsa tersebut akan cukup jelas sehingga Anda bisa mendapatkan beberapa wawasan tentang proses menyimpulkan keluarga distribusi dari data. Anda mungkin dapat mengimplementasikan beberapa ide di Stata melalui kode Anda sendiri. Secara khusus, saya pikir grafik Cullen dan Frey, jika itu / dapat diimplementasikan di Stata, dapat membantu Anda.


Saya telah meninjau kembali masalah ini lagi, dan telah beralih ke R dan saya menggunakan Zuur dan Ieno sebagai panduan. Masih banyak masalah, tetapi secara umum saya pikir dengan menggunakan varIdent model diagnostik saya terlihat seperti mereka memiliki 'heterogenitas minor'. Memplot residu terhadap pas terlihat bagus, resis terhadap masing-masing kovariat memberikan beberapa hasil yang funky untuk salah satu variabel model saya (ketinggian) - sebagian besar fungsi ukuran sampel kecil pada ketinggian tinggi. Terima kasih atas komentar Anda di fitdistrplus. Sekarang saya menggunakan R dan Rstudio (love it!) Ini akan berguna!
RLang

1
Tautan rusak. Apakah ini panduan intro yang sedang Anda bicarakan? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf Atau apakah ini: cran.r-project.org/web/packages/fitdistrplus/vignettes/…
emschorsch

Tautan terakhir tampaknya merupakan versi sketsa yang saya maksudkan.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.