Pertimbangkan model rintangan yang memprediksi data jumlah y
dari prediktor normal x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
Dalam hal ini, saya memiliki data jumlah dengan 69 angka nol dan 31 jumlah positif. Nevermind untuk saat ini, menurut definisi prosedur pembuatan data, proses Poisson, karena pertanyaan saya adalah tentang model rintangan.
Katakanlah saya ingin menangani kelebihan nol ini dengan model rintangan. Dari bacaan saya tentang mereka, sepertinya model rintangan bukanlah model aktual — mereka hanya melakukan dua analisis berbeda secara berurutan. Pertama, regresi logistik yang memprediksi apakah nilainya positif versus nol. Kedua, regresi Poisson nol terpotong dengan hanya memasukkan kasus-kasus yang tidak nol. Langkah kedua ini terasa salah bagi saya karena (a) membuang data yang sangat baik, yang (b) dapat menyebabkan masalah daya karena banyak data nol, dan (c) pada dasarnya bukan "model" dalam dan dari dirinya sendiri , tetapi hanya menjalankan dua model secara berurutan.
Jadi saya mencoba "model rintangan" versus hanya menjalankan regresi Poisson logistik dan nol terpotong secara terpisah. Mereka memberi saya jawaban yang sama (saya menyingkat hasilnya, demi singkatnya):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
Ini nampak bagi saya karena banyak representasi matematis yang berbeda dari model termasuk probabilitas bahwa pengamatan adalah tidak nol dalam estimasi jumlah kasus positif, tetapi model yang saya jalankan di atas sepenuhnya mengabaikan satu sama lain. Sebagai contoh, ini dari Bab 5, halaman 128 dari Generalized Linear Models dari Smithson & Merkle untuk Variabel Ketergantungan Terbatas Kategori dan Kontinu :
... Kedua, probabilitas bahwa mengasumsikan nilai apa pun (nol dan bilangan bulat positif) harus sama dengan satu. Ini tidak dijamin dalam Persamaan (5.33). Untuk mengatasi masalah ini, kami mengalikan probabilitas Poisson dengan probabilitas keberhasilan Bernoulli . Masalah ini mengharuskan kita untuk mengekspresikan model rintangan di atas sebagai mana , ,π
adalah kovariat untuk model Poisson, adalah kovariat untuk model regresi logistik, dan dan adalah koefisien regresi masing-masing ... .
Dengan melakukan dua model yang benar-benar terpisah satu sama lain — yang tampaknya merupakan model rintangan — saya tidak melihat bagaimana dimasukkan ke dalam prediksi kasus jumlah positif. Tetapi berdasarkan bagaimana saya dapat mereplikasi fungsi hanya dengan menjalankan dua model yang berbeda, saya tidak melihat bagaimana memainkan peran dalam Poisson terpotong regresi sama sekali.hurdle
Apakah saya memahami model rintangan dengan benar? Mereka tampaknya hanya menjalankan dua model berurutan: Pertama, logistik; Kedua, Poisson, benar-benar mengabaikan kasus di mana . Saya akan sangat menghargai jika seseorang dapat menjernihkan kebingungan saya dengan bisnis .
Jika saya benar bahwa itulah model rintangan, apa definisi dari model "rintangan", secara umum? Bayangkan dua skenario berbeda:
Bayangkan memodelkan daya saing ras pemilu dengan melihat skor daya saing (1 - (proporsi suara pemenang - proporsi suara pemenang runner up)). Ini [0, 1), karena tidak ada ikatan (misalnya, 1). Model rintangan masuk akal di sini, karena ada satu proses (a) apakah pemilihan tidak dipertanyakan? dan (b) jika tidak, apa yang meramalkan daya saing? Jadi pertama-tama kami melakukan regresi logistik untuk menganalisis 0 vs (0, 1). Kemudian kami melakukan regresi beta untuk menganalisis (0, 1) kasus.
Bayangkan sebuah studi psikologis yang khas. Responsnya adalah [1, 7], seperti skala Likert tradisional, dengan efek langit-langit yang sangat besar pada 7. Seseorang dapat melakukan model rintangan yang merupakan regresi logistik [1, 7) vs 7, dan kemudian regresi Tobit untuk semua kasus di mana tanggapan yang diamati adalah <7.
Apakah aman untuk menyebut kedua situasi ini model "rintangan" , bahkan jika saya memperkirakannya dengan dua model berurutan (logistik dan kemudian beta dalam kasus pertama, logistik dan kemudian Tobit dalam yang kedua)?
pscl::hurdle
, tetapi terlihat sama dalam Persamaan 5 di sini: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Atau mungkin saya Saya masih melewatkan sesuatu yang mendasar yang akan membuatnya klik untuk saya?
hurdle()
. Dalam pasangan / sketsa kami, kami mencoba untuk menekankan blok bangunan yang lebih umum.