Saya memiliki data dari eksperimen survei di mana responden secara acak ditugaskan ke salah satu dari empat kelompok:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Sementara tiga kelompok perlakuan sedikit berbeda dalam stimulus yang diterapkan, perbedaan utama yang saya pedulikan adalah antara kelompok kontrol dan kelompok perlakuan. Jadi saya mendefinisikan variabel dummy Control
:
> summary(df$Control)
TRUE FALSE
59 191
Dalam survei, responden diminta (antara lain) untuk memilih mana dari dua hal yang mereka sukai:
> summary(df$Prefer)
A B NA's
152 93 5
Kemudian, setelah menerima beberapa stimulus yang ditentukan oleh kelompok perlakuan mereka (dan tidak ada jika mereka berada dalam kelompok kontrol), responden diminta untuk memilih antara dua hal yang sama:
> summary(df$Choice)
A B
149 101
Saya ingin tahu apakah keberadaan dalam salah satu dari tiga kelompok perlakuan berpengaruh pada pilihan yang dibuat responden dalam pertanyaan terakhir ini. Hipotesis saya adalah bahwa responden yang menerima perawatan lebih cenderung memilih A
daripada B
.
Mengingat bahwa saya bekerja dengan data kategorikal, saya telah memutuskan untuk menggunakan regresi logit (jangan ragu untuk berpadu jika Anda berpikir itu salah). Karena responden ditugaskan secara acak, saya mendapat kesan bahwa saya seharusnya tidak perlu mengendalikan variabel-variabel lain (misalnya, demografi), jadi saya mengabaikan pertanyaan-pertanyaan ini. Model pertama saya hanyalah sebagai berikut:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Saya mendapat kesan bahwa intersepsi menjadi signifikan secara statistik bukanlah sesuatu yang memiliki makna yang dapat ditafsirkan. Saya pikir mungkin saya harus memasukkan istilah interaksi sebagai berikut:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Sekarang status responden sebagai kelompok perlakuan memiliki efek yang diharapkan. Apakah ini serangkaian langkah yang valid? Bagaimana saya bisa mengartikan istilah interaksi ControlFALSE:PreferA
? Apakah koefisien lain masih berupa peluang log?