Membandingkan koefisien logistik pada model dengan variabel dependen berbeda?


14

Ini adalah pertanyaan lanjutan dari yang saya tanyakan beberapa hari yang lalu . Saya merasa itu menempatkan kemiringan yang berbeda pada masalah ini, jadi terdaftar pertanyaan baru.

Pertanyaannya adalah: dapatkah saya membandingkan besarnya koefisien lintas model dengan variabel dependen yang berbeda? Misalnya, pada satu sampel katakanlah saya ingin tahu apakah ekonomi merupakan prediktor yang lebih kuat dari suara di Dewan Perwakilan Rakyat atau untuk Presiden. Dalam hal ini, dua variabel dependen saya adalah suara di DPR (kode 1 untuk Demokrat dan 0 untuk Republik) dan suara untuk Presiden (1 untuk Demokrat dan 0 untuk Republik) dan variabel independen saya adalah ekonomi. Saya mengharapkan hasil yang signifikan secara statistik di kedua kantor, tetapi bagaimana cara menilai apakah ini memiliki efek 'lebih besar' di satu lebih dari yang lain? Ini mungkin bukan contoh yang sangat menarik, tetapi saya ingin tahu apakah ada cara untuk membandingkan. Saya tahu orang tidak bisa hanya melihat 'ukuran' dari koefisien. Begitu, apakah mungkin membandingkan koefisien pada model dengan variabel dependen berbeda? Dan, jika demikian, bagaimana itu bisa dilakukan?

Jika semua ini tidak masuk akal, beri tahu saya. Semua saran dan komentar sangat dihargai.


2
Bagaimana Anda tahu orang tidak bisa hanya melihat 'ukuran' dari koefisien?
onestop

Saya menggabungkan dua akun Anda. Anda masih harus mendaftar, seperti yang ditunjukkan pada FAQ . (@onestop Thx untuk menunjuk ke duplikat.)
chl

Saya berasumsi bahwa saya tidak dapat membandingkan 'efek' dari prediktor di seluruh model dengan melihat koefisien dari jawaban atas pertanyaan saya sebelumnya. Apakah ada perbedaan untuk contoh saya di atas?
Ejs

2
Memulai hadiah - sepertinya pertanyaan penting dengan tiga jawaban yang sangat berbeda, tidak ada yang memiliki satu suara . Kita bisa melakukan yang lebih baik. Tautan makalah Andy W tentang pertanyaan terkait ini tampaknya relevan.
Matt Parker

Jawaban:


4

Jawaban singkatnya adalah "ya Anda bisa" - tetapi Anda harus membandingkan Estimasi Kemungkinan Maksimum (MLEs) dari "model besar" dengan semua varian co di kedua model yang cocok untuk keduanya.

Ini adalah cara "semi formal" untuk mendapatkan teori probabilitas untuk menjawab pertanyaan Anda

Dalam contoh, dan Y 2 adalah jenis variabel yang sama (fraksi / persentase) sehingga mereka sebanding. Saya akan berasumsi bahwa Anda cocok dengan model yang sama untuk keduanya. Jadi kami memiliki dua model:Y1Y2

l o g ( p 1 i

M1:Y1iBin(n1i,p1i)
M2:Y2iBin(n2i,p2i)log(
log(p1i1p1i)=α1+β1Xi
M2:Y2iBin(n2i,p2i)
log(p2i1p2i)=α2+β2Xi

Jadi, Anda memiliki hipotesis yang ingin Anda nilai:

H0:β1>β2

Dan Anda memiliki beberapa data , dan beberapa informasi sebelumnya (seperti penggunaan model logistik). Jadi, Anda menghitung probabilitas:{Y1i,Y2i,Xi}i=1n

P=Pr(H0|{Y1i,Y2i,Xi}i=1n,I)

Sekarang H0

P=Pr(H0,α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

Hipotesis hanya membatasi rentang integrasi, jadi kami memiliki:

P=β2Pr(α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

Karena probabilitas tergantung pada data, itu akan menjadi faktor dalam dua posisi terpisah untuk masing-masing model

Pr(α1,β1|{Y1saya,Xsaya,Y2saya}saya=1n,saya)Pr(α2,β2|{Y2saya,Xsaya,Y1saya}saya=1n,saya)

Sekarang karena tidak ada tautan langsung di antara keduanya Y1saya dan α2,β2, hanya tautan tidak langsung melalui Xsaya, yang diketahui, itu akan keluar dari pengkondisian di posterior kedua. sama untukY2saya di posterior pertama.

From standard logistic regression theory, and assuming uniform prior probabilities, the posterior for the parameters is approximately bi-variate normal with mean equal to the MLEs, and variance equal to the information matrix, denoted by V1 and V2 - which do not depend on the parameters, only the MLEs. so you have straight-forward normal integrals with known variance matrix. αj marginalises out with no contribution (as would any other "common variable") and we are left with the usual result (I can post the details of the derivation if you want, but its pretty "standard" stuff):

P=Φ(β^2,MLEβ^1,MLEV1:β,β+V2:β,β)

Where Φ() is just the standard normal CDF. This is the usual comparison of normal means test. But note that this approach requires the use of the same set of regression variables in each. In the multivariate case with many predictors, if you have different regression variables, the integrals will become effectively equal to the above test, but from the MLEs of the two betas from the "big model" which includes all covariates from both models.


3

Why not? The models are estimating how much 1 unit of change in any model predictor will influence the probability of "1" for the outcome variable. I'll assume the models are the same-- that they have the same predictors in them. The most informative way to compare the relative magnitudes of any given predictor in the 2 models is to use the models to calculate (either deterministically or better by simulation) how much some meaningful increment of change (e.g., +/- 1 SD) in the predictor affects the probabilities of the respective outcome variables--& compare them! You'll want to determine confidence intervals for the two estimates as well as so you can satisfy yourself that the difference is "significant," practically & statistically.


Thanks dmk8, very useful. Some follow-up points/questions: is this what is often meant when referring to varying the variable of interest (the economy from bad to good for example) while holding all control variables at their means? What do you mean by deterministically? How do I determine the confidence intervals around the probabilities?
Ejs

2
Consult the King. He will not disappoint. King, G., Tomz, M., & Wittenberg., J. (2000). Making the Most of Statistical Analyses: Improving Interpretation and Presentation. Am. J. Pol. Sci, 44(2), 347-361.
dmk38

2

I assume that by "my independent variable is the economy" you're using shorthand for some specific predictor.

At one level, I see nothing wrong with making a statement such as

X predicts Y1 with an odds ratio of _ and a 95% confidence interval of [ _ , _ ] while X predicts Y2 with an odds ratio of _ and a 95% confidence interval of [ _ , _ ].

@dmk38's recent suggestions look very helpful in this regard.

You might also want to standardize the coefficients to facilitate comparison.

At another level, beware of taking inferential statistics (standard errors, p-values, CIs) literally when your sample constitutes a nonrandom sample of the population of years to which you might want to generalize.


Yes, 'the economy' is shorthand for perceptions of national economic conditions. Does the same advice apply when other predictors (controls) are included in the model?
Ejs

@Ejs - I'm afraid there's no short answer to your last question. You're getting into what it means to assess relationships when using statistical control - a fabulously intricate topic worthy of extensive study. You're also probably getting into the topic of variable selection, which is a big one as well. Imho the best source for the committed student of these topics is Pedhazur's amazon.com/Multiple-regression-behavioral-research-Pedhazur/…
rolando2

1

Let us say the interest lies in comparing two groups of people: those with X1=1 and those with X1=0.

The exponential of β1, the corresponding coefficient, is interpreted as the ratio of the odds of success for those with X1=1 over the odds of success for those with X1=0, conditional on the other variables in the model.

So, if you have two models with different dependend variables then the interpretation of β1 changes since it is not conditioned upon the same set of variables. As a consequence, the comparison is not direct...


Does this have any implications for roland2's suggestion?
Ejs

@Ejs. Do you refer to the standardisation step? By the way, does my answer help ? Have I misunderstood the question ?
ocram
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.