Apakah tes dispersi berlebih di GLM sebenarnya * berguna *?

Fenomena 'over-dispersi' dalam GLM muncul setiap kali kita menggunakan model yang membatasi varians dari variabel respon, dan data menunjukkan varians yang lebih besar daripada pembatasan model. Ini terjadi secara umum ketika pemodelan menghitung data menggunakan Poisson GLM, dan dapat didiagnosis dengan tes yang terkenal. Jika pengujian menunjukkan bahwa ada bukti signifikan secara statistik dari dispersi berlebih maka kami biasanya menggeneralisasi model dengan menggunakan keluarga distribusi yang lebih luas yang membebaskan parameter varians dari pembatasan yang terjadi di bawah model asli. Dalam kasus GLM Poisson adalah umum untuk menggeneralisasi baik untuk binomial negatif atau kuasi-Poisson GLM.

Situasi ini sedang hamil dengan keberatan yang jelas. Kenapa mulai dengan Poisson GLM? Seseorang dapat mulai secara langsung dengan bentuk distribusi yang lebih luas, yang memiliki (relatif) parameter varians bebas, dan memungkinkan parameter varians sesuai dengan data, mengabaikan sepenuhnya tes dispersi sepenuhnya. Dalam situasi lain ketika kita melakukan analisis data, kita hampir selalu menggunakan formulir distribusi yang memungkinkan kebebasan setidaknya dua momen pertama, jadi mengapa membuat pengecualian di sini?

Pertanyaan Saya: Apakah ada alasan bagus untuk memulai dengan distribusi yang memperbaiki varians (mis., Distribusi Poisson) dan kemudian melakukan tes dispersi berlebih? Bagaimana prosedur ini dibandingkan dengan melewatkan latihan ini sepenuhnya dan langsung menuju model yang lebih umum (misalnya, binomial negatif, quasi-Poisson, dll.)? Dengan kata lain, mengapa tidak selalu menggunakan distribusi dengan parameter varians gratis?

— Pasang kembali Monica
sumber

Dugaan saya adalah bahwa, jika yang mendasarinya benar-benar poisson, maka hasil glm Anda tidak akan menunjukkan sifat-sifat yang terkenal baik seperti perkiraan juga menjadi efisien dalam arti varian estimasi lebih besar dari yang seharusnya, jika benar Model telah digunakan. Perkiraan mungkin bahkan tidak bias atau MLE. Tapi itu hanya intuisi saya dan saya bisa saja salah. Saya ingin tahu apa jawaban yang baik.

— mlofton

Dalam pengalaman saya, pengujian untuk dispersi berlebihan (paradoks) terutama digunakan ketika Anda tahu (dari pengetahuan tentang proses pembuatan data) bahwa dispersi berlebihan tidak dapat hadir. Dalam konteks ini, pengujian untuk dispersi berlebih memberi tahu Anda apakah model linier mengambil semua sinyal dalam data. Jika tidak, maka menambahkan lebih banyak kovariat ke dalam model harus dipertimbangkan. Jika ya, maka lebih banyak kovariat tidak dapat membantu.

— Gordon Smyth

@GordonSmyth: Saya pikir itu jawaban yang bagus. Jika Anda tidak ingin mengubahnya menjadi jawabannya sendiri, saya akan melipatnya menjadi milik saya.

— Cliff AB

@GordonSmyth yang mendapat pada satu hal yang selalu mengganggu saya tentang analisis penyimpangan sebagai tes goodness of fit: kovariat yang hilang dikacaukan dengan overdispersion. Ini menyarankan beberapa masalah tentang bagaimana materi sering diajarkan. Saya mengajar kelas dalam kategori dan buku teks tidak membuat poin ini sangat kuat.

— pria

@ guy Ya, itu benar, dan orang-orang cenderung berasumsi bahwa penyimpangan residual selalu didistribusikan chisquare, yang seringkali tidak. Kami mencoba melakukan pekerjaan yang lebih baik dari poin-poin ini di buku pelajaran terbaru kami doi.org/10.1007/978-1-4419-0118-7 tetapi sulit untuk mencakup semuanya dalam batas ruang.

— Gordon Smyth

Jawaban:

Pada prinsipnya, saya sebenarnya setuju bahwa 99% dari waktu, lebih baik menggunakan model yang lebih fleksibel. Dengan mengatakan itu, berikut adalah dua setengah argumen mengapa Anda mungkin tidak.

(1) Kurang fleksibel berarti perkiraan yang lebih efisien. Mengingat bahwa parameter varians cenderung kurang stabil daripada parameter rata-rata, asumsi Anda tentang hubungan varians tetap rata-rata dapat menstabilkan kesalahan standar lebih banyak.

(2) Pemeriksaan model. Saya telah bekerja dengan fisikawan yang percaya bahwa berbagai pengukuran dapat dijelaskan oleh distribusi Poisson karena fisika teoretis. Jika kami menolak hipotesis yang berarti = varians, kami memiliki bukti terhadap hipotesis distribusi Poisson. Seperti yang ditunjukkan dalam komentar oleh @GordonSmyth, jika Anda memiliki alasan untuk percaya bahwa pengukuran yang diberikan harus mengikuti distribusi Poisson, jika Anda memiliki bukti dispersi berlebih, Anda memiliki bukti bahwa Anda kehilangan faktor penting.

$Var[y] = \alpha E[y]$ untuk $\alpha \neq 1$ . Itu mungkin mengganggu untuk beberapa kasus penggunaan. Demikian juga, Anda tidak dapat menggunakan probabilitas untuk menguji pencilan, dll.

— Cliff AB
sumber

Pada 2.5: Tentu saja ada binomial negatif dan GLMM dengan efek acak yang tidak memiliki batasan itu.

— Björn

@ Bjorn: itu sebabnya hanya setengah argumen; hanya berlaku untuk metode Kuasi-Kemungkinan. Sejauh yang saya tahu, tidak ada metode berbasis kemungkinan untuk di bawah dispersi, meskipun ini dapat dianalisis dengan model Kuasi-Kemungkinan.

— Cliff AB

Juga pada 2.5: pemahaman saya adalah bahwa tidak ada keluarga dispersi eksponensial yang memenuhi hubungan yang diinginkan. Artinya, skor kuasi tidak sesuai dengan skor asli. Itu tidak berarti tidak ada keluarga distribusi untuk data jumlah yang memenuhi hubungan yang diinginkan; harus ada banyak keluarga seperti itu.

— pria

@CliffAB untuk data jumlah yang kurang tersebar ada model Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/… yang diimplementasikan dalam beberapa paket R.

— Dimitris Rizopoulos

Jika model akan digunakan untuk prediksi, maka alasan lain untuk memilih model yang lebih sederhana adalah bahwa, jika semua yang lain sama, model yang lebih sederhana akan memiliki kualitas prediksi yang lebih baik. Saya sedang memikirkan AIC, BIC, serta PAC secara umum.

— meh

Meskipun ini adalah pertanyaan saya sendiri, saya juga akan memposting dua sen saya sendiri sebagai jawaban, sehingga kami menambah jumlah perspektif pada pertanyaan ini. Masalahnya di sini adalah apakah masuk akal untuk awalnya cocok dengan distribusi satu-parameter untuk data. Ketika Anda menggunakan distribusi satu-parameter (seperti GLM Poisson, atau GLM binomial dengan parameter percobaan tetap), varians bukan parameter bebas, dan sebaliknya dibatasi menjadi beberapa fungsi dari rata-rata. Ini berarti bahwa sangat tidak disarankan untuk memasukkan distribusi satu parameter ke data dalam situasi apa pun di mana Anda tidak benar-benar yakin bahwa varians mengikuti struktur distribusi itu.

Menyesuaikan distribusi satu-parameter ke data hampir selalu merupakan ide yang buruk: Data seringkali lebih berantakan daripada yang ditunjukkan oleh model yang diusulkan, dan bahkan ketika ada alasan teoretis untuk meyakini bahwa model satu-parameter tertentu dapat diperoleh, sering terjadi bahwa data sebenarnya berasal dari campuran distribusi satu-parameter itu, dengan rentang nilai parameter. Ini sering setara dengan model yang lebih luas, seperti distribusi dua parameter yang memungkinkan kebebasan yang lebih besar untuk varian. Seperti yang dibahas di bawah ini, ini berlaku untuk GLM Poisson dalam hal data jumlah.

Seperti yang dinyatakan dalam pertanyaan, dalam sebagian besar aplikasi statistik, sudah menjadi praktik standar untuk menggunakan formulir distribusi yang setidaknya memungkinkan dua momen pertama bervariasi secara bebas. Ini memastikan bahwa model yang dipasang memungkinkan data untuk menentukan mean dan varians yang disimpulkan, alih-alih membuat ini secara artifisial dibatasi oleh model. Memiliki parameter kedua ini hanya kehilangan satu derajat kebebasan dalam model, yang merupakan kerugian kecil dibandingkan dengan manfaat memungkinkan varians diperkirakan dari data. Seseorang tentu saja dapat memperpanjang alasan ini dan menambahkan parameter ketiga untuk memungkinkan kecocokan skewness, keempat untuk memungkinkan pemasangan kurtosis, dll.

Dengan beberapa pengecualian yang sangat kecil, GLM Poisson adalah model yang buruk: Dalam pengalaman saya, pas distribusi Poisson untuk menghitung data hampir selalu merupakan ide yang buruk. Untuk menghitung data, sangat umum untuk varians dalam data menjadi 'over-dispersed' relatif terhadap distribusi Poisson. Bahkan dalam situasi di mana teori menunjuk ke distribusi Poisson, seringkali model terbaik adalah campuran distribusi Poisson, di mana varians menjadi parameter bebas. Memang, dalam kasus data jumlah distribusi negatif-binomial adalah campuran Poisson dengan distribusi gamma untuk parameter laju, jadi bahkan ketika ada alasan teoretis untuk berpikir bahwa penghitungan tiba sesuai dengan proses distribusi Poisson, sering terjadi bahwa ada 'dispersi berlebihan' dan distribusi binomial negatif cocok jauh lebih baik.

Praktek pemasangan GLM Poisson untuk menghitung data dan kemudian melakukan uji statistik untuk memeriksa 'dispersi-berlebihan' adalah sebuah anakronisme, dan ini hampir tidak pernah merupakan praktik yang baik. Dalam bentuk lain dari analisis statistik, kami tidak memulai dengan distribusi dua parameter, secara sewenang-wenang memilih pembatasan varians, dan kemudian menguji pembatasan ini untuk mencoba menghilangkan parameter dari distribusi. Dengan melakukan hal-hal seperti ini, kita benar-benar membuat prosedur hibrida yang canggung, yang terdiri dari tes hipotesis awal yang digunakan untuk pemilihan model, dan kemudian model aktual (baik Poisson, atau distribusi yang lebih luas). Telah ditunjukkan dalam banyak konteks bahwa praktik menciptakan model hibrida dari tes seleksi model awal mengarah ke model keseluruhan yang buruk.

Situasi analog, di mana metode hybrid serupa telah digunakan, ada dalam T-tes perbedaan rata-rata. Dulu kasus bahwa kursus statistik akan merekomendasikan pertama menggunakan tes Levene (atau bahkan hanya beberapa "aturan praktis") untuk memeriksa kesetaraan varian antara dua populasi, dan kemudian jika data "lulus" tes ini Anda akan gunakan Student T-test yang mengasumsikan varians yang sama, dan jika data "gagal" maka Anda akan menggunakan Welch's T-test. Ini sebenarnya prosedur yang sangat buruk (lihat misalnya, di sini dan di sini). Jauh lebih baik hanya menggunakan tes yang terakhir, yang tidak membuat asumsi pada varians, daripada membuat tes senyawa canggung yang macet bersama-sama tes hipotesis awal dan kemudian menggunakan ini untuk memilih model.

Untuk menghitung data, Anda biasanya akan mendapatkan hasil awal yang baik dengan memasang model dua-parameter seperti model negatif-binomial atau quasi-Poisson. (Perhatikan bahwa yang terakhir ini bukan distribusi nyata, tetapi masih memberikan model dua-parameter yang masuk akal.) Jika ada generalisasi lebih lanjut diperlukan sama sekali, biasanya penambahan nol inflasi, di mana ada jumlah nol yang berlebihan dalam data. Membatasi Poisson GLM adalah pilihan model buatan dan tidak masuk akal, dan ini tidak dibuat lebih baik dengan menguji dispersi berlebih.

Oke, sekarang inilah pengecualian kecil: Satu-satunya pengecualian nyata di atas adalah dua situasi:

(1) Anda memiliki alasan teoritis apriori yang sangat kuat untuk meyakini bahwa asumsi untuk distribusi satu parameter terpenuhi, dan bagian dari analisis ini adalah untuk menguji model teoretis ini terhadap data; atau

(2) Untuk alasan lain (aneh), tujuan analisis Anda adalah untuk melakukan tes hipotesis pada varian data, dan Anda benar-benar ingin membatasi varian ini untuk pembatasan hipotesis ini, dan kemudian menguji hipotesis ini.

Situasi ini sangat jarang. Mereka cenderung muncul hanya ketika ada pengetahuan teoritis apriori yang kuat tentang mekanisme penghasil data, dan tujuan analisis adalah untuk menguji teori yang mendasarinya. Ini mungkin terjadi dalam rentang aplikasi yang sangat terbatas di mana data dihasilkan dalam kondisi yang dikontrol ketat (misalnya, dalam fisika).

— Pasang kembali Monica
sumber