Koefisien negatif dalam regresi logistik yang dipesan

Misalkan kita memiliki respon ordinal dan seperangkat variabel yang kami pikir akan menjelaskan . Kami kemudian melakukan regresi logistik terurut (matriks desain) pada (respon). $y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}$ $X:=[x_1,x_2,x_3]$ $y$ $X$ $y$

Misalkan koefisien estimasi $x_1$ , sebut saja $\hat{\beta}_1$ , dalam regresi logistik berurutan adalah $-0.5$ . Bagaimana cara menginterpretasikan rasio odds (OR) dari $e^{-0.5} = 0.607$ ?

Apakah saya mengatakan "untuk peningkatan 1 unit di $x_1$ , ceteris paribus, peluang untuk mengamati $\text{Good}$ adalah $0.607$ kali kemungkinan mengamati $\text{Bad}\cup \text{Neutral}$ , dan untuk perubahan yang sama dalam $x_1$ , peluang mengamati $\text{Neutral} \cup \text{Good}$ adalah $0.607$ kali peluang mengamati $\text{Bad}$ "?

Saya tidak dapat menemukan contoh interpretasi koefisien negatif di buku teks atau Google saya.

logit odds-ratio ordered-logit

— Nyonya
sumber

Ya itu benar. Ini hampir identik dengan bagaimana Anda menafsirkan koefisien positif.

— Peter Flom - Reinstate Monica

NB: biasanya kita mengatakan "mundur

y

$y$ pada

X

$X$ ", bukan sebaliknya.

— gung - Pasang kembali Monica

Anda berada di jalur yang benar, tetapi selalu melihat dokumentasi perangkat lunak yang Anda gunakan untuk melihat model apa yang cocok. Asumsikan sebuah situasi dengan variabel dependen kategoris dengan kategori terurut dan prediktor . $Y$ $1, \ldots, g, \ldots, k$ $X_{1}, \ldots, X_{j}, \ldots, X_{p}$

"Di alam liar", Anda dapat menemukan tiga pilihan yang setara untuk menulis model odds-proporsional teoretis dengan makna parameter tersirat yang berbeda:

$\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} + \beta_{1} X_{1} + \dots + \beta_{p} X_{p} \quad(g = 1, \ldots, k-1)$
$\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1)$
$\text{logit}(p(Y \geqslant g)) = \ln \frac{p(Y \geqslant g)}{p(Y < g)} = \beta_{0_g} + \beta_{1} X_{1} + \dots + \beta_{p} X_{p} \quad(g = 2, \ldots, k)$

(Model 1 dan 2 memiliki batasan bahwa dalam regresi logistik biner terpisah, tidak bervariasi dengan , dan , model 3 memiliki batasan yang sama tentang , dan mengharuskan ) $k-1$ $\beta_{j}$ $g$ $\beta_{0_1} < \ldots < \beta_{0_g} < \ldots < \beta_{0_k-1}$ $\beta_{j}$ $\beta_{0_2} > \ldots > \beta_{0_g} > \ldots > \beta_{0_k}$

Dalam model 1, positif berarti bahwa peningkatan prediktor dikaitkan dengan peningkatan peluang untuk lebih rendah kategori di . $\beta_{j}$ $X_{j}$ $Y$
Model 1 agak berlawanan dengan intuisi, oleh karena itu model 2 atau 3 tampaknya lebih disukai dalam perangkat lunak. Di sini, positif berarti bahwa peningkatan prediktor dikaitkan dengan peningkatan peluang untuk lebih tinggi kategori di . $\beta_{j}$ $X_{j}$ $Y$
Model 1 dan 2 mengarah ke perkiraan yang sama untuk , tetapi perkiraan mereka untuk memiliki tanda yang berlawanan. $\beta_{0_g}$ $\beta_{j}$
Model 2 dan 3 mengarah ke perkiraan yang sama untuk , tetapi perkiraan mereka untuk memiliki tanda yang berlawanan. $\beta_{j}$ $\beta_{0_g}$

Dengan asumsi perangkat lunak Anda menggunakan model 2 atau 3, Anda dapat mengatakan "dengan peningkatan 1 unit $X_1$ , ceteris paribus, peluang prediksi untuk mengamati ' ' vs. mengamati ' 'berubah dengan faktor . ", dan juga" dengan peningkatan 1 unit pada , ceteris paribus, prediksi peluang untuk mengamati' 'vs. mengamati' 'berubah oleh faktor . " Perhatikan bahwa dalam kasus empiris, kami hanya memiliki peluang yang diprediksi, bukan yang sebenarnya. $Y = \text{Good}$ $Y = \text{Neutral OR Bad}$ $e^{\hat{\beta}_{1}} = 0.607$ $X_1$ $Y = \text{Good OR Neutral}$ $Y = \text{Bad}$ $e^{\hat{\beta}_{1}} = 0.607$

Berikut adalah beberapa ilustrasi tambahan untuk model 1 dengan kategori. Pertama, asumsi model linier untuk log kumulatif dengan peluang proporsional. Kedua, probabilitas tersirat mengamati paling banyak kategori . Peluang mengikuti fungsi logistik dengan bentuk yang sama. $k = 4$ $g$ masukkan deskripsi gambar di sini

Untuk probabilitas kategori sendiri, model yang digambarkan menyiratkan fungsi-fungsi yang diurutkan berikut: masukkan deskripsi gambar di sini

PS Setahu saya, model 2 digunakan dalam SPSS serta dalam fungsi R MASS::polr()dan ordinal::clm(). Model 3 digunakan dalam fungsi R rms::lrm()dan VGAM::vglm(). Sayangnya, saya tidak tahu tentang SAS dan Stata.

— caracal
sumber

@ Harokitty Model regresi logistik biner tidak memiliki istilah kesalahan seperti model regresi linier. Perhatikan bahwa kami memodelkan probabilitas, bukan variabel dependen itu sendiri. Asumsi tentang distribusi kesalahan untuk

Y

$Y$ harus ditentukan secara terpisah, misalnya, dalam R dengan glm(..., family=binomial).

— caracal

Apakah Anda memiliki referensi yang berkaitan dengan cara mengekspresikan spesifikasi # 2 dalam daftar 3 alternatif Anda?

@ Harokitty Secara singkat dijelaskan dalam "Analisis Data Kategorional Ordinal" Agresti, bagian 3.2.2, p49, persamaan 3.8 . Atau dalam "Analisis Data Kategorikal" Agresti, bagian 9.4, p323, persamaan 9.12.

— caracal

Hai, maaf mengganggu Anda, apakah Anda memiliki referensi untuk yang ke-3? Agresti sepertinya tidak membicarakan hal itu.

@Jase Yah, Agresti hanya menggunakan

di bagian yang ditautkan di atas. Untuk

, lihat Harrell "Strategi Pemodelan Regresi", bagian 13.3.1, p333, mis. 13.4.

logit (Y > g)

$\text{logit}(Y > g)$

logit (Y ⩾ g)

$\text{logit}(Y \geqslant g)$

— caracal