Koefisien negatif dalam regresi logistik yang dipesan


17

Misalkan kita memiliki respon ordinal dan seperangkat variabel yang kami pikir akan menjelaskan . Kami kemudian melakukan regresi logistik terurut (matriks desain) pada (respon).X : = [ x 1 , x 2 , x 3 ] y X yy:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Misalkan koefisien estimasi x1 , sebut saja β^1 , dalam regresi logistik berurutan adalah 0.5 . Bagaimana cara menginterpretasikan rasio odds (OR) dari e0.5=0.607 ?

Apakah saya mengatakan "untuk peningkatan 1 unit di x1 , ceteris paribus, peluang untuk mengamati Good adalah 0.607 kali kemungkinan mengamati BadNeutral , dan untuk perubahan yang sama dalam x1 , peluang mengamati NeutralGood adalah 0.607 kali peluang mengamati Bad "?

Saya tidak dapat menemukan contoh interpretasi koefisien negatif di buku teks atau Google saya.


2
Ya itu benar. Ini hampir identik dengan bagaimana Anda menafsirkan koefisien positif.
Peter Flom - Reinstate Monica

2
NB: biasanya kita mengatakan "mundur y pada X ", bukan sebaliknya.
gung - Pasang kembali Monica

Jawaban:


25

Anda berada di jalur yang benar, tetapi selalu melihat dokumentasi perangkat lunak yang Anda gunakan untuk melihat model apa yang cocok. Asumsikan sebuah situasi dengan variabel dependen kategoris dengan kategori terurut dan prediktor .1 , ... , g , ... , k X 1 , ... , X j , ... ,Y1,,g,,kX1,,Xj,,Xp

"Di alam liar", Anda dapat menemukan tiga pilihan yang setara untuk menulis model odds-proporsional teoretis dengan makna parameter tersirat yang berbeda:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(Model 1 dan 2 memiliki batasan bahwa dalam regresi logistik biner terpisah, tidak bervariasi dengan , dan , model 3 memiliki batasan yang sama tentang , dan mengharuskan )k1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • Dalam model 1, positif berarti bahwa peningkatan prediktor dikaitkan dengan peningkatan peluang untuk lebih rendah kategori di .βjXjY
  • Model 1 agak berlawanan dengan intuisi, oleh karena itu model 2 atau 3 tampaknya lebih disukai dalam perangkat lunak. Di sini, positif berarti bahwa peningkatan prediktor dikaitkan dengan peningkatan peluang untuk lebih tinggi kategori di .βjXjY
  • Model 1 dan 2 mengarah ke perkiraan yang sama untuk , tetapi perkiraan mereka untuk memiliki tanda yang berlawanan.β0gβj
  • Model 2 dan 3 mengarah ke perkiraan yang sama untuk , tetapi perkiraan mereka untuk memiliki tanda yang berlawanan.βjβ0g

Dengan asumsi perangkat lunak Anda menggunakan model 2 atau 3, Anda dapat mengatakan "dengan peningkatan 1 unit X1 , ceteris paribus, peluang prediksi untuk mengamati ' ' vs. mengamati ' 'berubah dengan faktor . ", dan juga" dengan peningkatan 1 unit pada , ceteris paribus, prediksi peluang untuk mengamati' 'vs. mengamati' 'berubah oleh faktor . " Perhatikan bahwa dalam kasus empiris, kami hanya memiliki peluang yang diprediksi, bukan yang sebenarnya.Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Badeβ^1=0.607

Berikut adalah beberapa ilustrasi tambahan untuk model 1 dengan kategori. Pertama, asumsi model linier untuk log kumulatif dengan peluang proporsional. Kedua, probabilitas tersirat mengamati paling banyak kategori . Peluang mengikuti fungsi logistik dengan bentuk yang sama. gk=4gmasukkan deskripsi gambar di sini

Untuk probabilitas kategori sendiri, model yang digambarkan menyiratkan fungsi-fungsi yang diurutkan berikut: masukkan deskripsi gambar di sini

PS Setahu saya, model 2 digunakan dalam SPSS serta dalam fungsi R MASS::polr()dan ordinal::clm(). Model 3 digunakan dalam fungsi R rms::lrm()dan VGAM::vglm(). Sayangnya, saya tidak tahu tentang SAS dan Stata.


@ Harokitty Model regresi logistik biner tidak memiliki istilah kesalahan seperti model regresi linier. Perhatikan bahwa kami memodelkan probabilitas, bukan variabel dependen itu sendiri. Asumsi tentang distribusi kesalahan untuk Y harus ditentukan secara terpisah, misalnya, dalam R dengan glm(..., family=binomial).
caracal

Apakah Anda memiliki referensi yang berkaitan dengan cara mengekspresikan spesifikasi # 2 dalam daftar 3 alternatif Anda?

1
@ Harokitty Secara singkat dijelaskan dalam "Analisis Data Kategorional Ordinal" Agresti, bagian 3.2.2, p49, persamaan 3.8 . Atau dalam "Analisis Data Kategorikal" Agresti, bagian 9.4, p323, persamaan 9.12.
caracal

Hai, maaf mengganggu Anda, apakah Anda memiliki referensi untuk yang ke-3? Agresti sepertinya tidak membicarakan hal itu.

2
@Jase Yah, Agresti hanya menggunakan di bagian yang ditautkan di atas. Untuk logit ( Y g ) , lihat Harrell "Strategi Pemodelan Regresi", bagian 13.3.1, p333, mis. 13.4. logit(Y>g)logit(Yg)
caracal
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.