Meskipun ini adalah pertanyaan saya sendiri, saya juga akan memposting dua sen saya sendiri sebagai jawaban, sehingga kami menambah jumlah perspektif pada pertanyaan ini. Masalahnya di sini adalah apakah masuk akal untuk awalnya cocok dengan distribusi satu-parameter untuk data. Ketika Anda menggunakan distribusi satu-parameter (seperti GLM Poisson, atau GLM binomial dengan parameter percobaan tetap), varians bukan parameter bebas, dan sebaliknya dibatasi menjadi beberapa fungsi dari rata-rata. Ini berarti bahwa sangat tidak disarankan untuk memasukkan distribusi satu parameter ke data dalam situasi apa pun di mana Anda tidak benar-benar yakin bahwa varians mengikuti struktur distribusi itu.
Menyesuaikan distribusi satu-parameter ke data hampir selalu merupakan ide yang buruk: Data seringkali lebih berantakan daripada yang ditunjukkan oleh model yang diusulkan, dan bahkan ketika ada alasan teoretis untuk meyakini bahwa model satu-parameter tertentu dapat diperoleh, sering terjadi bahwa data sebenarnya berasal dari campuran distribusi satu-parameter itu, dengan rentang nilai parameter. Ini sering setara dengan model yang lebih luas, seperti distribusi dua parameter yang memungkinkan kebebasan yang lebih besar untuk varian. Seperti yang dibahas di bawah ini, ini berlaku untuk GLM Poisson dalam hal data jumlah.
Seperti yang dinyatakan dalam pertanyaan, dalam sebagian besar aplikasi statistik, sudah menjadi praktik standar untuk menggunakan formulir distribusi yang setidaknya memungkinkan dua momen pertama bervariasi secara bebas. Ini memastikan bahwa model yang dipasang memungkinkan data untuk menentukan mean dan varians yang disimpulkan, alih-alih membuat ini secara artifisial dibatasi oleh model. Memiliki parameter kedua ini hanya kehilangan satu derajat kebebasan dalam model, yang merupakan kerugian kecil dibandingkan dengan manfaat memungkinkan varians diperkirakan dari data. Seseorang tentu saja dapat memperpanjang alasan ini dan menambahkan parameter ketiga untuk memungkinkan kecocokan skewness, keempat untuk memungkinkan pemasangan kurtosis, dll.
Dengan beberapa pengecualian yang sangat kecil, GLM Poisson adalah model yang buruk: Dalam pengalaman saya, pas distribusi Poisson untuk menghitung data hampir selalu merupakan ide yang buruk. Untuk menghitung data, sangat umum untuk varians dalam data menjadi 'over-dispersed' relatif terhadap distribusi Poisson. Bahkan dalam situasi di mana teori menunjuk ke distribusi Poisson, seringkali model terbaik adalah campuran distribusi Poisson, di mana varians menjadi parameter bebas. Memang, dalam kasus data jumlah distribusi negatif-binomial adalah campuran Poisson dengan distribusi gamma untuk parameter laju, jadi bahkan ketika ada alasan teoretis untuk berpikir bahwa penghitungan tiba sesuai dengan proses distribusi Poisson, sering terjadi bahwa ada 'dispersi berlebihan' dan distribusi binomial negatif cocok jauh lebih baik.
Praktek pemasangan GLM Poisson untuk menghitung data dan kemudian melakukan uji statistik untuk memeriksa 'dispersi-berlebihan' adalah sebuah anakronisme, dan ini hampir tidak pernah merupakan praktik yang baik. Dalam bentuk lain dari analisis statistik, kami tidak memulai dengan distribusi dua parameter, secara sewenang-wenang memilih pembatasan varians, dan kemudian menguji pembatasan ini untuk mencoba menghilangkan parameter dari distribusi. Dengan melakukan hal-hal seperti ini, kita benar-benar membuat prosedur hibrida yang canggung, yang terdiri dari tes hipotesis awal yang digunakan untuk pemilihan model, dan kemudian model aktual (baik Poisson, atau distribusi yang lebih luas). Telah ditunjukkan dalam banyak konteks bahwa praktik menciptakan model hibrida dari tes seleksi model awal mengarah ke model keseluruhan yang buruk.
Situasi analog, di mana metode hybrid serupa telah digunakan, ada dalam T-tes perbedaan rata-rata. Dulu kasus bahwa kursus statistik akan merekomendasikan pertama menggunakan tes Levene (atau bahkan hanya beberapa "aturan praktis") untuk memeriksa kesetaraan varian antara dua populasi, dan kemudian jika data "lulus" tes ini Anda akan gunakan Student T-test yang mengasumsikan varians yang sama, dan jika data "gagal" maka Anda akan menggunakan Welch's T-test. Ini sebenarnya prosedur yang sangat buruk (lihat misalnya, di sini dan di sini). Jauh lebih baik hanya menggunakan tes yang terakhir, yang tidak membuat asumsi pada varians, daripada membuat tes senyawa canggung yang macet bersama-sama tes hipotesis awal dan kemudian menggunakan ini untuk memilih model.
Untuk menghitung data, Anda biasanya akan mendapatkan hasil awal yang baik dengan memasang model dua-parameter seperti model negatif-binomial atau quasi-Poisson. (Perhatikan bahwa yang terakhir ini bukan distribusi nyata, tetapi masih memberikan model dua-parameter yang masuk akal.) Jika ada generalisasi lebih lanjut diperlukan sama sekali, biasanya penambahan nol inflasi, di mana ada jumlah nol yang berlebihan dalam data. Membatasi Poisson GLM adalah pilihan model buatan dan tidak masuk akal, dan ini tidak dibuat lebih baik dengan menguji dispersi berlebih.
Oke, sekarang inilah pengecualian kecil: Satu-satunya pengecualian nyata di atas adalah dua situasi:
(1) Anda memiliki alasan teoritis apriori yang sangat kuat untuk meyakini bahwa asumsi untuk distribusi satu parameter terpenuhi, dan bagian dari analisis ini adalah untuk menguji model teoretis ini terhadap data; atau
(2) Untuk alasan lain (aneh), tujuan analisis Anda adalah untuk melakukan tes hipotesis pada varian data, dan Anda benar-benar ingin membatasi varian ini untuk pembatasan hipotesis ini, dan kemudian menguji hipotesis ini.
Situasi ini sangat jarang. Mereka cenderung muncul hanya ketika ada pengetahuan teoritis apriori yang kuat tentang mekanisme penghasil data, dan tujuan analisis adalah untuk menguji teori yang mendasarinya. Ini mungkin terjadi dalam rentang aplikasi yang sangat terbatas di mana data dihasilkan dalam kondisi yang dikontrol ketat (misalnya, dalam fisika).