Saya ingin tahu apakah saya kehilangan sesuatu yang jelas, tetapi tidak bisakah Anda melakukan ini secara statistik menggunakan ANCOVA? Masalah penting adalah bahwa kemiringan dalam dua regresi diperkirakan dengan kesalahan. Mereka adalah perkiraan lereng populasi secara luas. Jika yang menjadi perhatian adalah apakah kedua garis regresi itu paralel atau tidak dalam populasi maka tidak masuk akal untuk membandingkan dengan secara langsung untuk kesetaraan yang tepat; keduanya tunduk pada kesalahan / ketidakpastian yang perlu dipertimbangkan.Sebuah1Sebuah2
Jika kita memikirkan hal ini dari sudut pandang statistik, dan kita dapat menggabungkan data pada dan untuk kedua set data dalam beberapa cara yang berarti (yaitu dan pada kedua set diambil dari dua populasi dengan rentang yang sama untuk keduanya. variabel hanya hubungan di antara mereka yang berbeda dalam dua populasi), maka kita bisa cocok dengan dua model berikut:xyxy
y^= b0+ b1x + b2g
dan
y^= b0+ b1x + b2g+ b3x g
Di mana adalah koefisien model, dan adalah variabel / faktor pengelompokan, yang menunjukkan data yang ditetapkan untuk setiap pengamatan.bsayag
Kita dapat menggunakan tabel ANOVA atau F-rasio untuk menguji apakah model kedua yang lebih kompleks cocok dengan data lebih baik daripada model yang lebih sederhana. Model yang lebih sederhana menyatakan bahwa kemiringan dua garis adalah sama ( ) tetapi garis-garis tersebut saling mengimbangi dengan jumlah .b1b2
Model yang lebih kompleks mencakup interaksi antara kemiringan garis dan variabel pengelompokan. Jika koefisien untuk istilah interaksi ini berbeda secara signifikan dari nol atau rasio ANOVA / F menunjukkan model yang lebih kompleks cocok dengan data yang lebih baik maka kita harus menolak hipotesis Null bahwa dua garis itu paralel.
Berikut adalah contoh dalam R menggunakan data dummy. Pertama, data dengan kemiringan yang sama:
set.seed(2)
samp <- factor(sample(rep(c("A","B"), each = 50)))
d1 <- data.frame(y = c(2,5)[as.numeric(samp)] + (0.5 * (1:100)) + rnorm(100),
x = 1:100,
g = samp)
m1 <- lm(y ~ x * g, data = d1)
m1.null <- lm(y ~ x + g, data = d1)
anova(m1.null, m1)
Pemberian yang mana
> anova(m1.null, m1)
Analysis of Variance Table
Model 1: y ~ x + g
Model 2: y ~ x * g
Res.Df RSS Df Sum of Sq F Pr(>F)
1 97 122.29
2 96 122.13 1 0.15918 0.1251 0.7243
Menunjukkan bahwa kami gagal menolak hipotesis nol dari kemiringan yang sama dalam sampel data ini. Tentu saja, kami ingin meyakinkan diri sendiri bahwa kami memiliki kekuatan yang cukup untuk mendeteksi perbedaan jika benar-benar ada perbedaan sehingga kami tidak mengarah pada kegagalan untuk menolak nol karena ukuran sampel kami terlalu kecil untuk efek yang diharapkan.
Sekarang dengan kemiringan yang berbeda.
set.seed(42)
x <- seq(1, 100, by = 2)
d2 <- data.frame(y = c(2 + (0.5 * x) + rnorm(50),
5 + (1.5 * x) + rnorm(50)),
x = x,
g = rep(c("A","B"), each = 50))
m2 <- lm(y ~ x * g, data = d2)
m2.null <- lm(y ~ x + g, data = d2)
anova(m2.null, m2)
Pemberian yang mana:
> anova(m2.null, m2)
Analysis of Variance Table
Model 1: y ~ x + g
Model 2: y ~ x * g
Res.Df RSS Df Sum of Sq F Pr(>F)
1 97 21132.0
2 96 103.8 1 21028 19439 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Di sini kita memiliki bukti substansial terhadap hipotesis nol dan dengan demikian kita dapat menolaknya demi alternatif (dengan kata lain, kami menolak hipotesis bahwa kemiringan kedua garis itu sama).
Istilah interaksi dalam dua model yang saya pasang ( ) memberikan perbedaan estimasi dalam kemiringan untuk kedua kelompok. Untuk model pertama, estimasi perbedaan lereng kecil (~ 0,003)b3x g
> coef(m1)
(Intercept) x gB x:gB
2.100068977 0.500596394 2.659509181 0.002846393
dan -test pada ini akan gagal untuk menolak hipotesis nol bahwa perbedaan ini di lereng adalah 0:t
> summary(m1)
Call:
lm(formula = y ~ x * g, data = d1)
Residuals:
Min 1Q Median 3Q Max
-2.32886 -0.81224 -0.01569 0.93010 2.29984
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.100069 0.334669 6.275 1.01e-08 ***
x 0.500596 0.005256 95.249 < 2e-16 ***
gB 2.659509 0.461191 5.767 9.82e-08 ***
x:gB 0.002846 0.008047 0.354 0.724
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.128 on 96 degrees of freedom
Multiple R-squared: 0.9941, Adjusted R-squared: 0.9939
F-statistic: 5347 on 3 and 96 DF, p-value: < 2.2e-16
Jika kita beralih ke model yang dipasang pada kumpulan data kedua, di mana kami membuat kemiringan untuk dua kelompok berbeda, kita melihat bahwa perbedaan estimasi dalam kemiringan dari dua garis adalah ~ 1 unit.
> coef(m2)
(Intercept) x gB x:gB
2.3627432 0.4920317 2.8931074 1.0048653
Kemiringan untuk grup "A" adalah ~ 0,49 ( x
dalam output di atas), sementara untuk mendapatkan kemiringan untuk grup "B" kita perlu menambahkan perbedaan lereng (berikan dengan istilah interaksi ingat) ke kemiringan grup "A" ; ~ 0,49 + ~ 1 = ~ 1,49. Ini cukup dekat dengan kemiringan lain untuk grup "B" sebesar 1,5. Uji - pada perbedaan lereng ini juga menunjukkan bahwa estimasi untuk perbedaan dibatasi jauh dari 0:t
> summary(m2)
Call:
lm(formula = y ~ x * g, data = d2)
Residuals:
Min 1Q Median 3Q Max
-3.1962 -0.5389 0.0373 0.6952 2.1072
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.362743 0.294220 8.031 2.45e-12 ***
x 0.492032 0.005096 96.547 < 2e-16 ***
gB 2.893107 0.416090 6.953 4.33e-10 ***
x:gB 1.004865 0.007207 139.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.04 on 96 degrees of freedom
Multiple R-squared: 0.9994, Adjusted R-squared: 0.9994
F-statistic: 5.362e+04 on 3 and 96 DF, p-value: < 2.2e-16