Sebuah pertanyaan yang mungkin sangat mendasar tentang ANOVA multi-faktorial. Asumsikan desain dua arah di mana kami menguji kedua efek utama A, B, dan interaksi A: B. Ketika menguji efek utama untuk A dengan tipe I SS, efek SS dihitung sebagai perbedaan , di mana adalah jumlah kesalahan residual kuadrat untuk model dengan hanya memotong, dan RSS untuk model dengan faktor A ditambahkan. Pertanyaan saya menyangkut pilihan untuk istilah kesalahan:
Bagaimana Anda membenarkan bahwa istilah kesalahan untuk tes ini biasanya dihitung dari RSS model penuh A + B + A: B yang mencakup efek utama dan interaksi?
... sebagai kebalikan dari mengambil istilah kesalahan dari model tidak dibatasi dari perbandingan aktual (RSS hanya dari efek utama A dalam kasus di atas):
Ini membuat perbedaan, karena istilah kesalahan dari model penuh mungkin sering (tidak selalu) lebih kecil dari istilah kesalahan dari model tidak dibatasi dalam perbandingan. Tampaknya pilihan untuk istilah kesalahan agak sewenang-wenang, menciptakan ruang untuk perubahan nilai p yang diinginkan hanya dengan menambahkan / menghilangkan faktor-faktor yang tidak benar-benar menarik, tetapi tetap mengubah istilah kesalahan.
Dalam contoh berikut, nilai-F untuk A berubah sangat tergantung pada pilihan untuk model lengkap, meskipun perbandingan aktual untuk efek SS tetap sama.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
Pertanyaan yang sama berlaku untuk tipe II SS, dan secara umum untuk hipotesis linear umum, yaitu, untuk perbandingan model antara model terbatas dan tidak dibatasi dalam model penuh. (Untuk tipe III SS, model tidak terbatas selalu merupakan model lengkap, jadi pertanyaannya tidak muncul di sana)
IV1
(contoh 1), maka dua ekspresi untuk penyebut identik. Namun, ketika model lengkap mengandung efek tambahan, penyebut untuk pengujian berubah meskipun perbandingan model ( vs untuk tipe 1 SS) tidak. Dalam 3 contoh, rata-rata kuadrat untuk tidak berubah (perbandingan model yang sama dalam semua kasus), tetapi kesalahan kuadrat rata-rata tidak. Saya tertarik pada apa yang membenarkan perubahan istilah kesalahan saat perbandingan sebenarnya tetap sama. A~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))