Regresi linier bukan pilihan yang tepat untuk hasil Anda, mengingat:
- Variabel hasil tidak terdistribusi secara normal
- Variabel hasil dibatasi dalam nilai yang dapat diambilnya (hitung data berarti nilai yang diprediksi tidak boleh negatif)
- Apa yang tampaknya merupakan frekuensi tinggi kasus dengan 0 kunjungan
Model variabel dependen terbatas untuk menghitung data
Strategi estimasi yang dapat Anda pilih ditentukan oleh "struktur" variabel hasil Anda. Yaitu, jika variabel hasil Anda terbatas pada nilai yang dapat diambil (yaitu jika itu adalah variabel dependen terbatas ), Anda harus memilih model di mana nilai yang diprediksi akan berada dalam kisaran yang mungkin untuk hasil Anda. Sementara kadang-kadang regresi linier adalah perkiraan yang baik untuk variabel dependen terbatas (misalnya, dalam kasus biner logit / probit), seringkali tidak. Masukkan Generalized Linear Models . Dalam kasus Anda, karena variabel hasil adalah data jumlah, Anda memiliki beberapa pilihan:
- Model Poisson
- Model Binomial negatif
- Model Zero Inflated Poisson (ZIP)
- Model Nol Inflated Negative Binomial (ZINB)
Pilihan biasanya ditentukan secara empiris. Saya akan secara singkat membahas memilih antara opsi-opsi di bawah ini.
Poisson vs Binomial Negatif
θH0: θ = 0H1: θ ≠ 0θ
ZIP vs. ZINB
Salah satu potensi komplikasi adalah inflasi nol, yang mungkin menjadi masalah di sini. Di sinilah model zero-inflated ZIP dan ZINB masuk. Dengan menggunakan model ini, Anda menganggap bahwa proses yang menghasilkan nilai-nilai nol terpisah dari proses yang menghasilkan nilai-nilai non-nol lainnya. Seperti sebelumnya, ZINB sesuai ketika hasilnya memiliki nol berlebihan dan disebarkan berlebihan, sedangkan ZIP sesuai ketika hasilnya memiliki nol berlebihan tetapi kondisional berarti = varian bersyarat. Untuk model nol-inflasi, selain model kovariat yang telah Anda sebutkan di atas, Anda perlu memikirkan variabel yang mungkin telah menghasilkan nol berlebih yang Anda lihat di hasil. Sekali lagi, ada tes statistik yang datang dengan output dari model ini (kadang-kadang Anda mungkin harus menentukannya ketika Anda menjalankan perintah) yang akan membiarkan Andaθ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
Akhirnya, saya tidak menggunakan R, tetapi halaman contoh analisis data IDRE di UCLA dapat memandu Anda untuk menyesuaikan model ini.
[Edit oleh pengguna lain tanpa reputasi yang cukup untuk berkomentar: Makalah ini menjelaskan mengapa Anda tidak boleh menggunakan tes Vuong untuk membandingkan model nol-inflasi dan memberikan alternatif.
P. Wilson, "Penyalahgunaan Tes Vuong Untuk Model Non-Bersarang untuk Menguji Inflasi Nol." Economics Letters, 2015, vol. 127, edisi C, 51-53 ]