Regresi Logistik Ordinal dengan Fungsi Tautan yang Berbeda

Pertimbangkan variabel hasil yang memiliki empat kategori terurut yang jelas untuknya. Ini tampaknya seperti penggunaan regresi logistik ordinal yang baik untuk memperkirakan Odds Ratios untuk efek kovariat pada memindahkan subjek satu "langkah" menaiki tangga.

Namun subjeknya tersebar merata di seluruh kategori, sehingga muncul pertanyaan:

Apakah "asumsi hasil yang langka" untuk OR untuk memperkirakan risiko relatif masih benar dalam regresi logistik ordinal?
Jika demikian, apakah mungkin untuk mengubah fungsi tautan untuk secara langsung memperkirakan risiko relatif, dan apakah masih mungkin untuk menggunakan sesuatu seperti perkiraan poisson dengan kesalahan standar yang kuat untuk menangani masalah konvergensi dalam kasus seperti itu?

regression ordinal-data ordered-logit

— Fomite
sumber

Jawaban:

Saya pikir pertama-tama kita harus bertanya apakah perlu untuk menggunakan regresi logistik proporsional peluang untuk memperkirakan risiko relatif kumulatif, misalnya risiko relatif melaporkan hasil yang lebih tinggi. Perumusan probabilistik dari model odds proporsional bergantung pada pengamatan tempat sembarang dari variabel acak logistik laten. Lihat pertanyaan saya yang relevan di sini . Keanggunan metode ini adalah bahwa fungsi survival (1-CDF) dari RV logistik adalah logit terbalik, misalnya . $P(Z > z) = \exp(-z)/(1+\exp(-z))$

Jika kita mengasumsikan derivasi probabilistik yang serupa dari model risiko relatif, keinginannya adalah untuk menemukan variabel acak laten yang fungsi survivalnya adalah . Tapi itu hanya variabel acak eksponensial, yang tanpa memori. Oleh karena itu, jika kita membangun matriks variabel hasil ambang, , (saya percaya) frekuensi sel independen kondisional, dan dengan demikian dapat dimodelkan melalui model log-linear yang hanya regresi Poisson. Ini meyakinkan karena interpretasi koefisien Poisson adalah sebagai tingkat relatif. Pemodelan interaksi antara variabel respon sebagai hasil numerik dan koefisien regresi mengarah pada interpretasi yang benar. $P(Z > z) = \exp(-z)$ $O_{ij} = \mathcal{I}(Y_{i} \ge j)$

Artinya, pas dengan model log-linear:

catatan (N_{saya j} | Y_{saya}, X_{saya,}) = η_{0} saya (Y_{saya} = 0) + ... + η_{j} saya (Y_{saya} == j) + \vec{β} X_{saya,} + \vec{γ} diag (Y) X_{saya,}

$\log (N_{ij} | Y_{i}, \mathbf{X}_{i,}) = \eta_0 I(Y_{i} = 0) + \ldots + \eta_j I(Y_i == j) + \vec{\beta} \mathbf{X}_{i,} + \vec{\gamma} \text{diag(Y)} \mathbf{X}_{i,}$

Menggunakan contoh dari paket MASS: kami melihat efek yang diinginkan bahwa risiko relatif jauh lebih kecil daripada OR dalam semua kasus:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Memberi kami:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Dimana 4 kolom pertama adalah inferensi dari model log-linear dan 3 kolom kedua berasal dari model odds proporsional.

Ini mungkin menjawab pertanyaan yang paling penting: bagaimana seseorang cocok dengan model seperti itu. Saya pikir ini dapat digunakan untuk mengeksplorasi perkiraan relatif OR untuk kejadian langka pada RR.

— AdamO
sumber

Mari kita jawab dua pertanyaan Anda secara terpisah:

Apakah "asumsi hasil yang langka" untuk OR untuk memperkirakan risiko relatif masih benar dalam regresi logistik ordinal?

Tidak juga. Anda mengatakan pada diri sendiri bahwa hasil Anda tersebar secara merata di seluruh empat kategori, sehingga tidak ada kategori yang sangat langka.

Jika demikian, apakah mungkin untuk mengubah fungsi tautan untuk secara langsung memperkirakan risiko relatif, dan apakah masih mungkin untuk menggunakan sesuatu seperti perkiraan poisson dengan kesalahan standar yang kuat untuk menangani masalah konvergensi dalam kasus seperti itu?

Anda bisa, tetapi ada risiko bahwa ketika Anda menggunakan model Anda untuk membuat prediksi, probabilitas diprediksi berada di kelas mungkin lebih dari 1.

Model logit berurutan standar dirumuskan

Y_{saya} \sim c Sebuah t e g Hai r saya c Sebuah l ({hal}_{saya}); l Hai g saya t ({hal}_{saya}) = X β

$Y_i \sim categorical({\bf{p}}_i);logit({\bf{p}}_i) = X\beta$ bersama dengan asumsi peluang proporsional. Yang kami lakukan hanyalah mengganti "logit" dengan "log", yang masih menghasilkan model yang valid dengan kemungkinan yang valid yang menghasilkan taksiran yang valid untuk

β

$\beta$ . Ketika Anda menerapkan ini pada data nyata, ada kemungkinan komponen untuk

p_{i}

$\bf{p}_i$ lebih dari satu (dan karena ini di luar kisaran asumsi peluang proporsional, Anda tidak dapat menggunakannya untuk mengisi komponen yang tersisa).

Ini tidak dapat terjadi jika Anda hanya menggunakan model Anda untuk memprediksi data yang telah dilatih, dan kecil kemungkinannya jika

Anda memiliki banyak data pelatihan
data pelatihan Anda mencakup semua kemungkinan kombinasi kovariat (jika kategoris) atau jajaran kovariat lengkap (jika numerik)

— JDL
sumber

Saya tidak berpikir Anda telah menulis model logit berurutan standar yang benar. Apakah Anda memiliki salinan Agresti atau McCullogh & Nelder? Setuju bahwa jika distribusi tanggapan bahkan di antara

K

$K$ memerintahkan kategori logit, perkiraannya adalah moot. Tetapi bagaimana jika sebagian besar peserta dikelompokkan dalam kategori respons terendah?

— AdamO

@AdamO itu mungkin bukan formulasi yang biasa Anda gunakan, tetapi itu setara (selama Xtermasuk intersep). Saya memilihnya karena menekankan poin yang paling relevan dengan pertanyaan. (Ini jelas tidak setara setelah Anda mengganti logit dengan log, tetapi formulasi ini tampaknya menggeneralisasi yang terbaik)

— JDL

Model odds prop memiliki kendala penting, yaitu istilah intersep (tidak digambarkan) untuk setiap kontras kategori yang dipesan, selanjutnya

Y_{i}

$Y_i$ adalah penunjukan kategori, tetapi probabilitas yang dimodelkan adalah probabilitas kumulatif . Saya pikir saya aman mengatakan Anda hanya menulis model logistik tanpa syarat dan ini tidak benar.

— AdamO

Kendala ini ditangani oleh asumsi peluang proporsional. (Saya setuju mereka tidak dinyatakan dalam persamaan yang telah saya nyatakan)

— JDL